[mathjax]
バーチャル細胞は、任意の時刻における細胞の状態をシミュレーション可能なプログラムで、物理における運動方程式の細胞バージョンに相当するものです。
バーチャル細胞の使い方
殆どの場合において、元細胞から目的細胞への分化に必要なリプログラミング因子(以降、因子)は不明です(下図上段)。因子の候補は少なくとも数千以上のパターンが考えられ、全てについて実験によって実証することは不可能と言えます。
弊社が開発するバーチャル細胞は、元細胞と目的細胞のそれぞれについて遺伝子発現データ(RNA-Seqという実験で取得できます)とエピゲノムのデータ(ATAC-Seqという実験で取得できます)さえ用意すれば、それらを入力として受けつけ、シミュレーションを介して目的細胞への分化に必要な元細胞に加えるべき因子を予測して出力します(下図下段)。
得られた候補についてのみ実験をして分化の因子を決定することで、多大な時間と労力を節約できます(下図赤矢印)。

バーチャル細胞の開発計画
バーチャル細胞の開発は、以下の3段階を予定しています。
デモアプリの開発
まずは開発資金を集めます。開発資金の調達には実際にバーチャル細胞を操作して実感して頂くことが重要と考えています。そこで、マウスの一部の細胞種を例に、分化シミュレーションができるデモ用Webアプリ開発します。2024年3月を目安に公開する予定です。
開発したデモ用Webアプリを材料に、国や大学からのサポートおよび皆様からの支援金(こちらのページの一番下から支援可能です)ならびに(エンジェル)投資家様などから開発資金を集めます。
なお、本デモアプリを利用した研究を現在進めており、その成果を論文として発表をすることで資金調達を有利に進める予定です。論文の発表は予定が読めない部分もありますが、2024年度中にアクセプトを目指しています。
プロトタイプの開発
開発において最初にすべきことは、弊社が開発するバーチャル細胞がどの程度正しいかを示すことだと考えています。
実は、下記リストで挙げたように各研究グループがバーチャル細胞の開発をして論文として発表しています。下記のバーチャル細胞は、ヒトの皮膚線維芽細胞から心筋細胞、肝細胞、神経細胞への分化シミュレーションを実施しており、弊社も同様のシミュレーションができるように開発を進め、実験にて実証された因子をどの程度予測できるか比較をします。プロトタイプは2024年9月を目安に公開する予定です。
なお、こちらについても比較結果を論文として発表をする予定です。論文の発表は(1)同様に予定が読めない部分もありますが、2024年度中にアクセプトを目指しています。
完全版の開発
完全版の作成に際して、再度資金調達を実施します。この段階では競合との違いや優位性は明瞭になっていると思われるため、その内容をベースに営業をすることで資金を集めます。
完全版では、2で挙げた細胞以外にもデータベース*1にある限りの細胞種類を対象にバーチャル細胞の機能を拡張します。なお、完全版はライセンスとして販売をする予定です。2025年度中にサービスが開始できるよう目指します。
こちらについても論文として発表をする予定です。論文の発表は(1)同様に予定が読めない部分もありますが、2025年度中にアクセプトを目指しています。
*1: データベースについては、HUMAN CELL ATLASおよびATACdbを利用します。
バーチャル細胞の機能詳細
表に整理すると以下のようになります。
バージョン | デモ | プロトタイプ | 完全版 |
種 | マウス | ヒト | ヒト |
細胞種 | 2次リンパ節を構成する細胞 | 皮膚線維芽細胞, 心筋細胞, 肝細胞, 神経細胞 | データベース*4にある全ての細胞 |
アルゴリズム選択*1 | 弊社のみ | 弊社に加えて競合5つ*1 | 弊社に加えて競合5つ*1 |
シミュレーション*2 | 可能 | 可能 | 可能 |
転写因子導出*3 | 可能 | 可能 | 可能 |
言語 | JP/EN | JP/EN | JP/EN |
*2:細胞の状態(=遺伝子発現量のセットとエピゲノムの情報全体)の時間変化を計算して可視化する機能です(下図左)(色は細胞の種類に対応しています)。転写因子を加えた場合の変化も計算可能です(下図中央(Nkx2-3という転写因子を加えた例になります))。特定の遺伝子発現量の変化を可視化することも可能です(下図右(Nkx2-3ありなしについて、Chst4とMadcam1の遺伝子発現量の変化を示した例になります))。



*3:元細胞と目的細胞のそれぞれについて遺伝子発現量のセット(RNA-Seqという実験で得られます)とエピゲノムの情報(ATAC-Seqという実験で得られます)を入力することで、目的細胞に到達するために元細胞に加えるべき転写因子の組合せを逆算して出力する機能です。
*4: データベースについては、HUMAN CELL ATLASおよびATACdbを利用します。
バーチャル細胞の理論
バーチャル細胞の仕組み・理論について簡単に説明をいたします。
遺伝子発現制御モデル
下図は弊社が仮定している遺伝子発現制御のイメージ図です。

\(g1\), \(g2\), \(g3\)は転写因子であり、\(e1\), \(e2\), \(e3\)のようなゲノム上の領域(エンハンサー等)へ結合して遺伝子\(T\)のプロモーター活性に影響を与えて発現量を決めているモデルになります。式で表すと以下のようになります。
$$[T] = f(g_1 e_1, g_2 e_2, ⋯, g_n e_n)$$
この他、弊社では目的変数として遺伝子以外にゲノム上の領域も仮定しています。例えば\(e3\)に\(g3\)が結合することで、遺伝子\(T\)のプロモーター活性だけではなく、\(e2\)というゲノムの開閉状態を変えるという状況までモデリングしていることになります。
目的変数に対して、どの領域とどの転写因子の組合せを説明変数として選ぶかについては現時点では明かすことは出来ませんが、簡単に述べますと、全てのパターンを網羅せず、ある仮定のもと選択した領域/転写因子の組合せを採用しています。なお、全てのパターンを網羅すると後述するモデルの性能が上がらないことは確認しています。
モデルの作成
前述したモデルの式の関数\(f\)はscRNA-SeqとscATAC-Seqのデータを用いて深層学習によって決定されます。
scRNA-SeqとscATAC-Seqの実験のデータがあるということは、1細胞毎に遺伝子\(T\)の発現量、転写因子\(g_i\)の発現量、ゲノム領域の強度\(e_i\)が得られているということを意味します(下図)。

そこで学習用の細胞について遺伝子\(T\)の発現量を並べたベクトル、転写因子\(g_i\)の発現量とゲノム領域の強度\(e_i\)の積を並べた行列を作成し、深層学習によってモデル\(f\)を決定することが出来ます。
その後、作成したモデル\(f\)を用いてテスト用の細胞について遺伝子\(T\)の発現量を予測し、実際の値との相関係数を計算してモデル\(f\)の性能を調べます。
\(f\)の性能が高くなるような深層学習のアーキテクチャ(CNN等)の選択は現時点では明かすことは出来ませんが、デモアプリ作成時は最低でも相関係数が0.8を超えています。
細胞の状態微分方程式
前述した以下の式の状態では、時刻を考慮できておりません。
$$[T] = f(g_1 e_1, g_2 e_2, ⋯, g_n e_n)$$
そこで、まずは全微分を考えて以下のように変形をします。
$$d[T] = \sum_{i=1}^n \frac{\partial f}{\partial (g_i e_i)}d(g_i e_i)$$
$$= \sum_{i=1}^n \frac{\partial f}{\partial g_i} \frac{\partial g_i}{\partial (g_i e_i)}d(g_i e_i)$$
$$= \sum_{i=1}^n \frac{\partial f}{\partial g_i} \frac{1}{e_i}d(g_i e_i)$$
続いて両辺を時間微分して整理します。
$$\frac{d[T]}{dt} = \sum_{i=1}^n \frac{1}{e_i}\frac{\partial f}{\partial g_i} \frac{d(g_i e_i)}{dt}$$
$$= \sum_{i=1}^n \frac{1}{e_i}\frac{\partial f}{\partial g_i} (e_i \frac{d g_i}{dt} + g_i \frac{d e_i}{dt})$$
$$= \sum_{i=1}^n \frac{\partial f}{\partial g_i}\frac{d g_i}{dt} + \frac{g_i}{e_i} \frac{\partial f}{\partial g_i}\frac{d e_i}{dt})$$
弊社では最後の式を「細胞の状態微分方程式」と呼んでいます。
この微分方程式を用いて細胞の現在の時刻の状態から次の時刻の状態を計算し、目的細胞へ到達するために必要な因子を導出します。

コメント