【生命科学】マッピング(NGS)【用語解説】

生命科学

マッピングは、シーケンサから出力されたDNA塩基配列ゲノムのどの部位から由来しているかを同定する過程で、組み立てやアラインメントとも呼ばれます。本稿では、RNA-seqに焦点を当て、Bowtie2, BWA, STAR, HISAT2といった主要なマッピングソフトウェアを紹介します。

RNA-Seqのマッピング

RNA-Seqは、次世代シーケンス技術を利用したトランスクリプトーム解析手法の1つで、全トランスクリプトの定量的解析が可能です。

真核生物由来のRNA-Seqデータのアライメントには、特殊な配慮が必要とされます。なぜなら、mRNAゲノム上では断片化されたエクソンとして存在し、それらがスプライシングされてmRNAが作られるため、連続した配列ではないからです。このスプライシングバリアントエクソンの異なる組み合わせで複数の異なるmRNAが生成される現象)を考慮に入れたアライメントが求められます。

RNA-seqデータのアライメントには、Bowtie2, BWA, STAR, HISAT2といったソフトウェアが用いられます。これらのツールは全て、高速に大規模データを処理することが可能です。

Bowtie2

Bowtie2は、Burrows-Wheeler変換(BWT)を利用した高速なマッピングツールです。BWTは、データの圧縮やインデックス作成(検索情報の事前集計化)を効率よく行うためのアルゴリズムで、アライメント位置の候補を迅速に限定することが可能です。

Bowtie2は、NGSデータを構造体(マッピングの順番や隙間)に基づいてアライメントすることで、データの圧縮と高速検索を実現しています。特に、小さいエクソンやジャンクション部位のアライメントに強いと言われており、RNA-seqに適したマッピングツールの一つです。

BWA

BWAもまた、Burrows-Wheeler変換を用いたマッピングツールの一つで、特にショートリードデータのマッピングに対して高いパフォーマンスを発揮します。

BWAは、Bowtieとは異なるアルゴリズムを用いてアライメントを行います。BWAは、シードと呼ばれる部分配列に基づいて候補領域を特定し、その上でSmith-Watermanアルゴリズムによる局所アライメントを行うことで最適なアライメントを選択します。逐次的にアライメントを行うことで配列内の変異を考慮した柔軟なアライメントが可能で、特にSNPINDELなどの変異の検出に優れています。

STAR

STAR(Spliced Transcripts Alignment to a Reference)は、超高速なRNA-seqデータアライメントソフトウェアです。STARは、RNA-seqデータのスプライシングを検出するための特別な機能を持っています。

STARは、一度に多くの配列をマッピングすることで、高速なアライメントを実現します。また、非常に効率的なインデックス構造を使用しているため、大規模ゲノムに対しても高速にマッピングすることが可能です。これらの特性は、STARを特にトランスクリプトーム解析に適したツールとしています。

HISAT2

HISAT2(Hierarchical Indexing for Spliced Alignment of Transcripts)もまた、RNA-seqデータのアライメントに特化したツールで、トップレベルのパフォーマンスを有しています。

HISAT2は、BWTを拡張したグラフ型インデックスを用いてゲノムのスプライス領域を効率的にカバーします。このインデックスは、ゲノム内のエクソンとジャンクションの構造を反映しており、RNA-seqのアライメントに最適化されています。

RNA-Seqのマッピング手順

RNA-Seqマッピングの具体的な手順は、ツールによりますが、以下に一般的な手順を示します。

  • 1. レファレンスゲノムの準備:使用するレファレンスゲノム(fastaファイル)を準備します。Ensembl等の公共データベースからダウンロード可能です。
  • 2. インデックス作成(Bowtie2,BWA,HISAT2):レファレンスゲノムからアライメント用のインデックスを作成します。インデックスは、高速な検索を可能にするためのものです。
  • 3. アライメント:シーケンスリードをレファレンスゲノムにアライメントします。リードの各部分がどのゲノム領域に一致するかを求め、その結果を出力ファイル(SAM/BAM形式)に保存します。
  • 4. 統計解析:アライメント結果を基に、遺伝子発現量の計算や変異の検出を行います。

問題点と対応策

RNA-Seqマッピングには、以下のような問題点があります。

スプライシングバリアント:同じゲノム領域から生じる異なるトランスクリプトの存在

– マルチマッピング:同じ配列がゲノムの複数箇所に存在する場合、どの位置にアライメントすべきかの問題

– インデル:ゲノム挿入欠失がある場合のアライメント問題

これらの問題は主に、アライメントソフトウェアの中で解決策が考えられています。

スプライシングバリアントに対しては、すべての可能性を考慮に入れた柔軟なアライメント(gappedアライメント)が求められます。

マルチマッピングに対しては、品質スコアの高いリードを優先的にアライメントする、マルチマッピングリードを特定の規則に基づいて割り振るなどの対策が取られます。

インデルに対しては、ギャップを許容したアライメントや、ローカルアライメントを行うことで対応可能です。

応用

RNA-Seqマッピングは、遺伝子発現の定量、変異の検出、新規遺伝子の発見等、さまざまな研究に利用されています。

また、発現量や変異の情報は、遺伝子型と表現型の関連性を探るゲノムワイドアソシエーション研究(GWAS)、がんゲノム解析、パーソナライズドメディシン等の医学的応用にも利用されています。

参考書籍

バイオ実験基本セット

バイオ実験イラストレイテッド

生命科学基礎セット

生命科学用語解説
スポンサーリンク
猫森ひなたをフォローする
バイオインフォの森

コメント