2005年度森基金研究成果報告書

E-Cell数理解析環境の設計と実装

政策・メディア研究科修士2年 バイオインフォマティクス・クラスタ

海津一成

学籍番号: 80424405

Abstract

システム・バイオロジーという分野が注目されるようになったが, シミュレーションそのものに比べて, モデリング, そして数理解析は本来研究においてシミュレーションと同等に重要であるにも関わらずあまり注目されてこなかった. 近年ようやくこれらのプロセスに関する諸研究が表われはじめたが, 各研究ごとに分散しており, 統合された環境と呼べるものはほとんど存在しない.
そこで本研究では, これまでに蓄積されてきた解析手法, 及びにE-Cellシステム特有の機能を活かした新たな解析手法を統合し, 今まで存在しなかったシステム・バイオロジーに特化した数理解析の共通E-cell Analysisの設計と開発に取り組み, パッケージとしてまとめるとともに外部へも公開していく. こうした実用・公開をともなった設計・開発により, 今まで適用することが困難だった解析を誰もが容易に利用することが可能となり, 研究サイクルを速め, より質の高い結果を得ることができるようになると期待される.


序論

E-Cell Project(http://www.e-cell.org)はシステムバイオロジー研究において必要となる様々な作業における要素の一部分 のみを対象とするのではなく,研究を通じた一連の 流れ全体を内包し,同時に外へと開かれた``統合環境''としてのソフトウェア E-Cell Systemの開発に努めてきた.さらにE-Cellプロジェクトによって得られた知見の共有という観点に対しては, E-Cell Systemのシステム,アルゴリズムに適用可能形式として定義されたモデル記述 言語E-Cell Model description Language(以下,EML)として, また統合モデル記述言語として 他の様々なソフトウェアで使用可能なSystems Biology Markup Language (以下,SBML)http://sbml.org/との相互変換が2004年度までに石田達也氏,櫻田剛史氏 を中心として,実現された.また,WEBを通じた情報共有の場として E-Cell Developers Network,http://ecdn.e-cell.org/ (以下,ECDN)が開発され ている.
統合シミュレーション環境E-Cell System Version 3は統合環境としての設計上, システムバイオロジー研究,使用の 流れを想定して, それぞれに対応した以下の3つのパート・環境から構成されている.

まず, モデリングを行うための環境としてのE-Cell Modeling Environment, そうして得られたEML形式のモデルを扱い, 実際にシミュレーションを行うための環境としてE-Cell Simulation Environmentがある. このE-Cell Simulation Environmentが通常シミュレータと呼ばれる部分に相当する. そして最後にこの2つの環境にまたがってこれらを扱い, モデルやそこから得られたデータに関して数理的な解析を行うための環境として数理解析環境E-Cell Analysis Toolkitが存在する.
これまでシミュレーションの性質上欠かせないものとしてE-Cell ME,SEを中心に研究・開発 がなされてきたが,それらを用いた解析を行うE-Cell AEに関してはE-Cell Systemに おける環境が十分でなく,プロジェクト内部においても各研究で分散していた.そこで前年度において,システムズバイオロジーの 分野で最も注目を集めており,様々な応用が研究されつつある Metabolic Control Analysis(以下,MCA)に着目し,その実装を行った.今回はそれらをさらに洗練したものとして数理解析環境をパッケージ化するとともに, MCAのような動的な解析手法と同様に近年非常に大きな役割を果たしつつある静的な解析手法を実装した. さらに石田氏によって開発されていたSBMLとEMLの相互変換プログラムであるSBMLImporter/Exporterを再設計し, これまで以上に正確で, さらに拡張性の高いものとした. これにより, SBMLによって作成された多くの既存のモデルに対しても解析環境を利用することができるようになるとともに, E-Cellプロジェクトで得られた知見を一般的に外部にまで公開することができるようになった.

静的ネットワーク解析Elementary Flux Mode, Extreme Pathway

Elementary Flux Model(EFM)(Schusterら, 1999)やExtreme Pathway(EP)(Schillingら, 2000)は静的ネットワーク解析の代表的手法 のひとつである. 静的ネットワーク解析とはMetabolic Control Analysisと違い常微分方程式 のような各反応の式を必要とせずに, そのネットワークを表す化学量論行列のみから解析 を行うものである. このような解析法は細胞全体の経路などのような大規模で複雑なネットワーク に対し, すべての反応を調べるといった実験的に労力のかかる作業を行なうことなしに 現在比較的得られている結果から行うことができるため, 非常に有用であり, 近年特に注目 されている. 動的なモデルはこのような情報を必然的に含むため, 動的モデルに対して 静的なネットワーク解析を適用することも有意義であろう. EFMとEPとは両者とも同様の概念に 従って得られてきたもので前述のKernel Matrix(Null-space)を実際の生化学的ネットワークに 対して意味を持つように拡張したものであると言える. どちらも反応の可逆・不可逆を考慮して入出力 フラックスInput/Output Fluxを介して定常値を実現しうる経路群eq1.pngを発見する.

path1.png

たとえば, 具体的に上図に示したようなHeinrich, R.とRapoport, T.A.による単純化された赤血球解糖系モデル(1975)に適用した場合, 以下のような二つの経路が得られる. これらの経路はそれぞれ2,3-ビスホスホグリセリン酸サイクルによる経路とPhosphoglycerate kinaseによる経路を表している. この結果はE-Cell Analysis Toolkitを用いることで一般的なPCを用いて1秒以内に得ることができる.

path2.png

そこから得られてくる結果はEFM, EPなど用いる手法により幾分異なるが,その導出のアルゴリズム はガウスの消去法をベースにしており, 共通している点が多い. 異なる点は不可逆な反応に対する 取り扱い方である. すべてが可逆な反応であればKernel Matrixと同様の結果が 得られる. 実際にKernel Matrixの定義はeq2.pngと書ける. 不可逆な反応を含む場合, 得られる経路の数は量論行列のランクより多いこともあれば少な くなることもある. 実際にはEFM, EPは各可逆反応の扱いかたを変えることによって違い を包含し, 基本的には共通のアルゴリズムを用いることとした. このアルゴリズムの内容についての詳細に関しては省略するが, 計算において重要なことの ひとつはKernel Matrixの計算, すなわちガウスの消去法による場合と異り, 計算の途中 においてその行列のサイズが変化する点である. すなわちガウスの消去法が, 扱う量論行列 の大きさに対して一定のオーダーに従うアルゴリズムであるのに対し, このアルゴリズムは そのような束縛を正確に得ることが難しい. 実際現実的な計算時間では結果が得られない場 合も多い.そのため, 計算時間を少なく保つために様々なアルゴリズムが開発されている (GagneurとKlamt, 2004)(Wagner, 2004)が, 現時点では計算時間の短縮にも限界がある. WEB上での解析などを可能にするためには長い 計算時間を必要とする解析は現実的でない. あまりに複雑なネットワークに対する計算は このようなインタラクティブ性の高いインターフェイスではなく, 各時スクリプトを実行 することを要求するとしても, 比較的一般的と言える小規模と思われるものについては 現実的な時間で結果を返すことは必須である. そのため, 最小限のコスト削減の方法として, EFMやEPと比べて計算コストを見積ることが可能であり,一般に比較的速い時間で結果の得られる Kernel Matrixを参照する最適化の手法を用いる.

すなわち, Kernel Matrixを参照することによって定常状態においてはかならず0となるフラックスをあらかじめ除外し, また同時に必ず同じ比率となる経路同士はまとめて一つのフラックスとして捕らえることで余分な計算を省略する. この手法を用いることでMulquiney, Kuchelによる53反応を含む詳細な赤血球の代謝モデルにおいては15反応にまで縮合できる. これにより, これまで3分程度かかっていた計算がおよそ1秒程度で得られるまでに高速化できた. これによりオンラインでの利用も現実的なスケールで結果を返すことができるようになった. さらにこの差は, ネットワークが巨大なものになるほど, また実際の生化学モデルにみられるような疎な量論行列を持つネットワークにおいてはより効果的で大きなものとなる.

また, このEFM, EPの手法を量論行列の転置行列に対して適用することによって, 物質 の定常状態について静的な情報が得られる. これらはネットワークに対し, 物質のプールの 概念を与える.(FamliとPalsson, 2003) 具体的には後述の赤血球解糖系のモデルなどでは物質の含む炭素Carbonの 総和をあらわすプールやより単純にATPやADPの含むリン酸基の総量などである. この 手法はEFM, EPとアルゴリズムが共通しているため, 応用することは容易である. しかし, 与える量論行列において主に輸送を表す境界にあたる反応についていくつかの 条件を課す. 境界にあたる物質, 例えば細胞外のLactose, Pyrubateなどの物質濃度や ヘキソキナーゼHKの基質となるグルコースなどを, シミュレーションにおいては一定値を とると仮定するとしても, 明示的に定義しなければならない. 従って実際にシミュレーションにおいて使用するモデルについて単純に適用して も十分に有意義な結果が得られないことがある. このような点においても静的ネットワーク 解析と動的なシミュレーションに必要な情報との差が若干存在する.

数理解析環境E-Cell Analysis Toolkit

数理解析環境であるE-Cell Analysis Toolkitはその名の通り, 一連の関数及びにクラスのライブラリとして提供される. E-Cell System version 3はユーザインターフェイスとしてPythonスクリプト言語による操作を可能としている. E-Cell Modeling Environmentにおけるモデルを扱うクラスはEmlオブジェクト, またE-Cell Simulation Environmentにおけるシミュレータに関するクラスはSessionオブジェクトとして実装されている.

map1.png

E-Cell Analysis Toolkitではまず, これらのクラスを効率よく操作するためにEmlSupportクラスを提供する. このクラスはEmlオブジェクトを継承しており, 特定のモデルを操作するために用いる. 同時にそのメンバ関数からSessionクラスを生成することが可能であるとともに, モデルに関するもっとも基本的で一般的な情報である量論行列をも関数から呼び出し可能である. こうして得られた量論行列をもとに今回実装された静的ネットワーク解析を行うことができる. 今回の実装により静的ネットワーク解析も非常に高速に行うことが可能となったため, WEBオンライン(ECDN)におけるインターフェイスにおいても静的解析が利用できる. もちろん, 前年度までに作成されていた動的解析手法であるMCAなどの手法も利用可能である. 上図はE-Cell Analysis Toolkitの概要を示した関係図である. 図に示したようにE-Cell Analysis Toolkitに加えて前年度までに石田達也氏によって実装されていたSBML, EML間の相互変換プログラムを新たに設計し直し, 実装することによってより拡張性が高く, またこれまで正確に変換できなかったモデルに関しても問題なく変換することができるようになった. このSBMLImporter/Exporterを用いることでE-Cellプロジェクト外においてモデルが作成された場合であっても一般的なモデル記述言語であるSBMLによって記述されていればE-Cell Analysis ToolkitだけでなくE-Cell Systemを利用することができる.

参考文献

[1] Heinrich,R.and Schuster,S.(1996) The Regulation of Cellular Systems,Chapman & Hall.

[2] Heinrich,R.and Rapoport,T.A.(1975) BioSystems7,130-136.

[3] Schuster, S., Dandekar, T.and Fell, D.A.(1999) Trends Biotechnol, 17, 53-60.

[4] Schilling, C.H., Letscher, D.and Palsson, B.\O.(2000) J theor Biol, 203, 229-248.

[5] Gagneur, J. and Klamt, S. (2004) BMC Bioinformatics., 5, 175-195.

[6] Wagner, C. (2004) J. Phys. Chem. B, 108, 2425-2431.

[7] Mulquiney, P.J., Kuchel, P.W. (2003) Modelling Metabolism With Mathematica: Detailed Examples Including Erythrocyte Metabolism, Crc Pr I LIc