マッピングは、シーケンサから出力されたDNA塩基配列がゲノムのどの部位から由来しているかを同定する過程で、組み立てやアラインメントとも呼ばれます。本稿では、RNA-seqに焦点を当て、Bowtie2, BWA, STAR, HISAT2といった主要なマッピングソフトウェアを紹介します。
RNA-Seqのマッピング
RNA-Seqは、次世代シーケンス技術を利用したトランスクリプトーム解析手法の1つで、全トランスクリプトの定量的解析が可能です。
真核生物由来のRNA-Seqデータのアライメントには、特殊な配慮が必要とされます。なぜなら、mRNAはゲノム上では断片化されたエクソンとして存在し、それらがスプライシングされてmRNAが作られるため、連続した配列ではないからです。このスプライシングバリアント(エクソンの異なる組み合わせで複数の異なるmRNAが生成される現象)を考慮に入れたアライメントが求められます。
RNA-seqデータのアライメントには、Bowtie2, BWA, STAR, HISAT2といったソフトウェアが用いられます。これらのツールは全て、高速に大規模データを処理することが可能です。
Bowtie2
Bowtie2は、Burrows-Wheeler変換(BWT)を利用した高速なマッピングツールです。BWTは、データの圧縮やインデックス作成(検索情報の事前集計化)を効率よく行うためのアルゴリズムで、アライメント位置の候補を迅速に限定することが可能です。
Bowtie2は、NGSデータを構造体(マッピングの順番や隙間)に基づいてアライメントすることで、データの圧縮と高速検索を実現しています。特に、小さいエクソンやジャンクション部位のアライメントに強いと言われており、RNA-seqに適したマッピングツールの一つです。
BWA
BWAもまた、Burrows-Wheeler変換を用いたマッピングツールの一つで、特にショートリードデータのマッピングに対して高いパフォーマンスを発揮します。
BWAは、Bowtieとは異なるアルゴリズムを用いてアライメントを行います。BWAは、シードと呼ばれる部分配列に基づいて候補領域を特定し、その上でSmith-Watermanアルゴリズムによる局所アライメントを行うことで最適なアライメントを選択します。逐次的にアライメントを行うことで配列内の変異を考慮した柔軟なアライメントが可能で、特にSNPやINDELなどの変異の検出に優れています。
STAR
STAR(Spliced Transcripts Alignment to a Reference)は、超高速なRNA-seqデータアライメントソフトウェアです。STARは、RNA-seqデータのスプライシングを検出するための特別な機能を持っています。
STARは、一度に多くの配列をマッピングすることで、高速なアライメントを実現します。また、非常に効率的なインデックス構造を使用しているため、大規模ゲノムに対しても高速にマッピングすることが可能です。これらの特性は、STARを特にトランスクリプトーム解析に適したツールとしています。
HISAT2
HISAT2(Hierarchical Indexing for Spliced Alignment of Transcripts)もまた、RNA-seqデータのアライメントに特化したツールで、トップレベルのパフォーマンスを有しています。
HISAT2は、BWTを拡張したグラフ型インデックスを用いてゲノムのスプライス領域を効率的にカバーします。このインデックスは、ゲノム内のエクソンとジャンクションの構造を反映しており、RNA-seqのアライメントに最適化されています。
RNA-Seqのマッピング手順
RNA-Seqのマッピングの具体的な手順は、ツールによりますが、以下に一般的な手順を示します。
- 1. レファレンスゲノムの準備:使用するレファレンスゲノム(fastaファイル)を準備します。Ensembl等の公共データベースからダウンロード可能です。
- 2. インデックス作成(Bowtie2,BWA,HISAT2):レファレンスゲノムからアライメント用のインデックスを作成します。インデックスは、高速な検索を可能にするためのものです。
- 3. アライメント:シーケンスリードをレファレンスゲノムにアライメントします。リードの各部分がどのゲノム領域に一致するかを求め、その結果を出力ファイル(SAM/BAM形式)に保存します。
- 4. 統計解析:アライメント結果を基に、遺伝子発現量の計算や変異の検出を行います。
問題点と対応策
RNA-Seqのマッピングには、以下のような問題点があります。
– スプライシングバリアント:同じゲノム領域から生じる異なるトランスクリプトの存在
– マルチマッピング:同じ配列がゲノムの複数箇所に存在する場合、どの位置にアライメントすべきかの問題
– インデル:ゲノムに挿入や欠失がある場合のアライメント問題
これらの問題は主に、アライメントソフトウェアの中で解決策が考えられています。
スプライシングバリアントに対しては、すべての可能性を考慮に入れた柔軟なアライメント(gappedアライメント)が求められます。
マルチマッピングに対しては、品質スコアの高いリードを優先的にアライメントする、マルチマッピングリードを特定の規則に基づいて割り振るなどの対策が取られます。
インデルに対しては、ギャップを許容したアライメントや、ローカルアライメントを行うことで対応可能です。
応用
RNA-Seqのマッピングは、遺伝子発現の定量、変異の検出、新規遺伝子の発見等、さまざまな研究に利用されています。
また、発現量や変異の情報は、遺伝子型と表現型の関連性を探るゲノムワイドアソシエーション研究(GWAS)、がんゲノム解析、パーソナライズドメディシン等の医学的応用にも利用されています。
参考書籍
バイオ実験基本セット
- これからはじめる人のためのバイオ実験基本ガイド (KS生命科学専門書)
- イラストでみる超基本バイオ実験ノート―ぜひ覚えておきたい分子生物学実験の準備と基本操作 (無敵のバイオテクニカルシリーズ)
- 改訂 バイオ試薬調製ポケットマニュアル〜欲しい試薬がすぐにつくれる基本操作と注意・ポイント
- バイオ実験法&必須データポケットマニュアル―ラボですぐに使える基本操作といつでも役立つ重要データ
- バイオ実験超基本Q&A―意外に知らない、いまさら聞けない
バイオ実験イラストレイテッド
- バイオ実験イラストレイテッド〈1〉分子生物学実験の基礎 (細胞工学別冊 目で見る実験ノートシリーズ)
- バイオ実験イラストレイテッド②
- バイオ実験イラストレイテッド〈3+〉本当にふえるPCR (目で見る実験ノートシリーズ)
- バイオ実験イラストレイテッド④
- バイオ実験イラストレイテッド〈5〉タンパクなんてこわくない (目で見る実験ノートシリーズ)
- バイオ実験イラストレイテッド⑥
- バイオ実験イラストレイテッド⑦
コメント