アセンブリとは、次世代シーケンサ(NGS: Next Generation Sequencer)から得られた短い配列データを元に、ゲノムの元の配列を再構築する手法のことを指します。
原理
次世代シーケンサは長いDNAを大量の短い断片に分割し、それぞれを配列解析します。この発生断片(リードと呼ばれる)を適切に並べ替え、元のゲノム配列を再構築するのがアセンブリの目指す形です。
基本的には2つの手法、すなわち「オーバーラップ-レイアウト-コンサンサス(OLC)」と「De Bruijnグラフ」が存在します。
OLC手法はリード間の長いオーバーラップを求める反面、大規模ゲノムにはあまり適しておらず、一方でDe Bruijnグラフ作法は短いオーバーラップを求めるため小さなリードでも有用です。
手順
まず、シーケンシングライブラリの作製を行います。次いで、NGS等による配列解読が行われ、その結果として得られる短い配列データ(リード)を用いてアセンブリが実施されます。
具体的な解析手順は以下の通りです。
- 1. リードのクオリティチェック:各リードの配列エラーとアダプター配列を除去
- 2. リードのアセンブリ:アラインメントやグラフ構築を行い、オーバーラップするリードを結合させ配列を再構築
- 3. 配列の改良:塩基修正やギャップ修正、深度の評価などを行い、配列を改良
- 4. アノテーション:得られた配列中の遺伝子領域や機能領域を特定。
具体的な計算例
例えば5つのリード {AGTCA, GTCAT, CATAG, ATAGT, TAGTC}があった場合、アセンブリを適用すると一つの配列 AGTCATAGTC が得られます。
特徴
アセンブリはその性質上、複数の配列が共有する領域(オーバーラップ)の数が多ければ多いほど精度が上がるという特性を持っています。
また、De Bruijnグラフによるアセンブリは、規模が大きくなると計算時間が膨大になるため、一部の領域を切り取ってそれぞれを個別にアセンブリし、最後にそれらを結合するという方法を取ることがあります。
歴史と経緯
もともとの配列解読技術であるサンガー法から、より多くのデータを高速に扱える次世代シーケンサへと技術が移行するにつれ、それに対応する形でアセンブリの技術も発展してきました。
課題と対応策
アセンブリにはいくつかの課題があります。
一つは「リピート」で、これはゲノム中に同じ配列が複数回出現する現象を指し、このようなゲノムはアセンブリが困難となります。
また、シーケンスエラーも問題となり、これはシーケンサの誤読に由来するエラーです。
これらの問題に対処するための手段として、ロングリードシーケンサーの活用が挙げられます。
応用
特に、新規の生物種のゲノム解析や既知のゲノムの変異解析などに重要な役割を果たします。
参考書籍
バイオ実験基本セット
- これからはじめる人のためのバイオ実験基本ガイド (KS生命科学専門書)
- イラストでみる超基本バイオ実験ノート―ぜひ覚えておきたい分子生物学実験の準備と基本操作 (無敵のバイオテクニカルシリーズ)
- 改訂 バイオ試薬調製ポケットマニュアル〜欲しい試薬がすぐにつくれる基本操作と注意・ポイント
- バイオ実験法&必須データポケットマニュアル―ラボですぐに使える基本操作といつでも役立つ重要データ
- バイオ実験超基本Q&A―意外に知らない、いまさら聞けない
バイオ実験イラストレイテッド
- バイオ実験イラストレイテッド〈1〉分子生物学実験の基礎 (細胞工学別冊 目で見る実験ノートシリーズ)
- バイオ実験イラストレイテッド②
- バイオ実験イラストレイテッド〈3+〉本当にふえるPCR (目で見る実験ノートシリーズ)
- バイオ実験イラストレイテッド④
- バイオ実験イラストレイテッド〈5〉タンパクなんてこわくない (目で見る実験ノートシリーズ)
- バイオ実験イラストレイテッド⑥
- バイオ実験イラストレイテッド⑦
コメント