2003年度森基金報告書



ゲノムに基づく細胞シミュレーションモデルの自動生成

慶應義塾大学大学院政策・メディア研究科
修士課程二年 バイオインフォマティクスプログラム所属
荒川 和晴 (gaou@sfc.keio.ac.jp)



1. はじめに

 ゲノムシークエンシング技術の急速な発展により、多様な生物の全遺伝情報であるゲノムの塩基配列が次々と明らかになってきている。National Center for BiotechnologyのGenBankデータベースでは現在100種を超える生物のコンプリートゲノムが公開されているが[1]、このように膨大な情報の蓄積は近年トランスクリプトーム・プロテオーム・メタボロームなどの分野においても顕著に見られるようになってきた。複雑系である細胞を理解するには、これら大量の生命科学の情報をもとシステムズバイオロジーの観点から総合的にその動的ふるまいをシミュレートする必要がある[2]。慶應義塾大学先端生命科学研究所のE-Cellプロジェクトに代表される細胞シミュレーションの研究はまさにモ21世紀のグランドチャレンジモであるといえよう[3,4,5]。

 大規模な細胞シミュレーションモデルの構築は当然ながら容易ではない。E-Cellプロジェクトの柚木克之は、ミトコンドリアのシミュレーションモデルの構築にかかった時間から、大腸菌の全細胞シミュレーションモデル構築には少なくとも1800人月が必要であると予測した(personal communication)。よって、in silico大規模細胞シミュレーションモデル構築のためにはハイスループットな手法が不可欠である。一方、膨大なゲノム情報、遺伝子発現情報、酵素反応データ、代謝マップ、代謝物質情報などを効率良くまとめることができれば、細胞シミュレーションモデル作成の土台となりうる。

 Genome-scale E-cell Model System (GEM System) は、現在明らかとなっている大量の生命科学情報を元にゲノムの塩基配列のみから全自動で定性的細胞シミュレーションモデルを構築できるソフトウェアシステムである。GEM Systemは汎用ゲノム解析ソフトウェア環境であるG-language Genome Analysis Environment (G-language GAE)[6]の上に構築されており、グラフィカルなユーザインタフェースから容易に操作することができる。

2. データベースの統合

 現在インターネット上に大量の生命科学情報データベースが公開されているが、個々のデータベースに存在している情報を効率良く統合するのは非常に難しい。例えばプロテオームデータベースとトランスクリプトームデータベースを統合するためにはたんぱくとmRNAの対応をつける必要がある。また、酵素や代謝物質の名前の表記は必ずしも統一されていないため、これら名前をうまく対応付ける必要がある。一方、ほとんどのデータベースはセントラルドグマにおける出発点である遺伝子の塩基配列とのリンクは持っている。そこで、GEM Systemでは塩基配列という一意に定まる情報をもとに様々なデータベースの情報を統合している。

 現在GEM SystemではEMBL[7], SWISS-PROT[8], KEGG[9], ARM[10], Brenda[11], WIT[12]の各種データベースをリレーショナルデータベースとして保持し、そこから対応付けられた遺伝子・酵素・代謝物質の名前を持つモVariableモデータベース、そして酵素反応の化学量論式を分子数の整合性をとった上で保持するモProcessモデータベースを作成する。これらの情報をもとに、塩基配列を酵素反応にマッチさせ、細胞内代謝ネットワークを再構築する。

3. 遺伝子領域予測

 GenBankやEMBLなどすでにアノテーション情報が付加されたデータベースでは遺伝子領域が明らかになっているので敢えて行う必要はないが、シークエンスしたばかりの新しいゲノム情報を扱う場合などのためにまずゲノムの塩基配列から遺伝子領域予測を行う。GEM Systemでは遺伝子領域予測の為に原核生物ではGlimmer2、真核生物ではGlimmerMを使用する[13,14]。Glimmerは擬陰性が低く擬陽性が高いことで知られており、この段階で予測されるORFは非常に多くなる。しかしとりこぼしが少なく、擬陽ORFもこの後の遺伝子の塩基配列と酵素反応の対応付けの段階で省かれるので、このような目的の為には適している。

4. ホモロジーとオーソロジーによる遺伝子の塩基配列と酵素反応の対応付け

 遺伝子産物を予測する場合主にホモロジー検索が用いられる。しかし、厳密に相同遺伝子を検索するのではなく同じ遺伝子産物を持つようなオーソログを検索する時に、ホモロジー検索による相同性はモ一般的に低いモことがLesterらの研究で明らかになっている[15]。ホモロジー検索による遺伝子産物予測は極めて近い種間、もしくは非常に良く保存されている塩基配列においては確実にマッチを得られる有効な手法であるが、これと合わせてオーソロジー検索を行うことによって相同性が低くても同じ遺伝子産物を持つものを予測することができる。このようなホモロジーとオーソロジーを組み合わせた手法はアノテーションの時にもよく使われる。

 GEM Systemでは、比較的高めのしきい値(BLASTPプログラムでe-05)[16]でホモロジー検索を行った後、半自動で管理されているオーソロジーのCOGsデータベースに、それに付属しているモcognitorモプログラムを用いて検索をかける[17,18,19]。この時マッチしたCOG IDはKEGG Ontologyデータベースを参照することでEC numberに対応付けられ、このEC numberを元に最終的に酵素反応を遺伝子の塩基配列に対応させる。

5. 三段階のマッチング

 GEM Systemではできる限り既知の情報を利用し、確実な対応をつけるため、以下の三段階の遺伝子と酵素反応マッチ方法をもつ。

1. EMBLデータベースにはプロテオームデータベースであるSWISS-PROTへのリンクが存在しているため、EMBL形式でアノテーションが付いたゲノムデータがある場合はまずこのリンクをもとに酵素との対応をつける。

2. 次に、比較的高いしきい値でBLASTPによるホモロジー検索をSWISS-PROTのアミノ酸配列に対し行い対応をつける。

3. 最後に、オーソロジーによる対応付けを行う。NCBIのGenBankデータベースと共に提供されるPTTデータベースにはあらかじめCOG IDが付加されているため、PTTデータベースが存在している場合にはその情報をもとに、ない場合にはcognitorプログラムを用いて対応を付ける。 また、それぞれの段階において酵素反応がSWISS-PROTに存在していない場合はWITクラスターを用いてオーソログの反応を取得する。以上のように遺伝子の塩基配列からその産物を予測した後、酵素反応をリストとして出力することで定性的シミュレーションモデルを生成する。また、この時真核細胞であればSWISS-PROTデータベースに記載されている細胞内局在情報をもとに、酵素反応は適切な細胞内コンパートメントに分類される。現在GEM SystemではChouらの分類に基づき細胞質基質、葉緑体、細胞骨格、小胞体、細胞外、ゴルジ体、リゾソーム、ミトコンドリア、核、ペルオキシソーム、細胞膜、液胞の細胞内コンパートメントに分類している[20]。

6. パスウェイマップとの比較

 三段階のマッチングにより得られた酵素反応のリストは一遺伝子に一酵素が対応付けられているので、サブユニットを持つ酵素の場合アイソザイムが複数存在しているようなモデルになってしまう。また、パスウェイにおけるアイソザイムの特異な反応は取得しにくく、とりこぼしが存在してしまう可能性もある。そこで、GEM Systemでは遺伝子配列と酵素反応の対応付けを行った後、KEGGのReference Pathwayをもとにパスウェイ毎のアイソザイムの特異的反応を確認し、予測でとりこぼしが発生したために繋がっていないパスウェイは差分を取得することで繋がるようにするチェックを行う。

7. ハイブリッドアルゴリズム

 GEM Systemによって生成されるのは酵素反応の化学量論式の集合である定性的シミュレーションモデルであり、そのままでは動的なふるまいを見る事はできない。しかし、慶應義塾大学先端生命科学研究所の中山洋一らによって開発されたハイブリッドアルゴリズムを用いると、律速反応のみをダイナミックに表現することで他の反応は静的に表現されていたとしても全体としては定量的かつ動的なモデルを構築することが可能になる[21]。また、この静的に表現できる反応は通常約80%にまで及ぶので、動的な大規模モデルを構築する上での実験による計測を大幅に削減することができる。

 GEM Systemでは律速反応は多量体を形成する酵素がほとんどを占めるという点から律速段階を予測し、自動的に静的な量論部分を出力することでハイブリッドアルゴリズムによる定量的シミュレーションモデル作成の為の土台を自動生成できるので、あとは20%の律速反応を動的に表現すれば大規模な動的シミュレーションが可能となる。

8. インタフェースとモデル生成例

 GEM SystemはG-language GAEの上に解析システムとして構築されているため、グラフィカルユーザインタフェースから容易に実行可能であり(図3)、この時詳細なオプションを設定することで各ステップにおけるしきい値や使用するデータベースを任意に切り替えることができる。また、モa java applet for visualizing protein-protein interactionモ[22]やBioLayout[23]を用いて生成されたモデルのパスウェイマップをグラフィカルに見て確認することができる(図4)。

GEM Systemを用いて、コンプリートゲノムが入手可能な全バクテリアゲノム の大規模代謝パスウェイモデルを自動生成した。KEGG GENOMEデータベースにゲ ノムが登録されており、かつそこに記載されているアクセッション番号でEMBLデー タベースを参照できる、反応数500以上のものを以下に示す。精度を検証する為 にゲノム中の全ORF個数、生成されたモデルの反応数及び代謝物質数に加え、対 象生物のKEGGデータベース記載反応を取得できた割合を求めた。モデル生物とし て理解が最も深い Escherichia coliでは反応数2282、代謝物質数1568、そ してKEGG coverage 99.55%という高精度の大規模モデルが生成された。 Escherichia coli以外の生物でもほぼ98%以上の精度でシミュレーションモデ ルが自動生成されている。2282という反応数は今まで報告されたことのない規模 であり、代謝反応をほぼ全て網羅していると考えられる。CE/MSによるメタボロー ム解析においてもEscherichia coliの代謝物質ピーク数は約1600であるこ とがわかっており、細胞を正確にモデルできていることがわかる。なお、アノテー トされたゲノムデータベースを元にする場合一つのゲノムをシミュレーションモ デルに変換するのに要する時間がある程度高性能な計算サーバを使えば僅か数十 秒程で完了する効率も特筆に値する。KEGGデータベースでは数億以上の予算をか けて人手でパスウェイデータベースを作成しているが、98%以上の精度のものが 完全自動で、かつ数十秒で構築できることは大きな意義がある。



9. 結論

 GEM Systemにより容易かつ迅速に細胞の大規模な定性的シミュレーションモデルをゲノム情報から構築することが可能になった。ハイブリッドアルゴリズムによる動的モデル生成のための土台ともなるので、律速酵素をダイナミックに表現することができれば細胞の動的なふるまいを観察することも可能になる。このような細胞シミュレーションモデルは細胞の理解を助けるだけでなく、遺伝子工学による細胞工場の最適化、そして製薬の分野において広い応用可能性を持つ。また、メタボローム情報解析においてその予測ツールとして役立つだけでなく、逆に得られたメタボローム情報を盛り込むことによりさらに詳細なモデル作成に繋げることができるだろう。

参考文献:

[1] Benson DA, Karsch-Mizrachi I, Lipman DJ, Ostell J, Wheeler DL (2003) GenBank. Nucleic Acids Res. 31:23-7
[2] Kitano H (2002) Computational systems biology. Nature 420:206-10
[3] Takahashi K, Yugi K, Hashimoto K, Yamada Y, Pickett CJF, Tomita M (2002) Computational Challenges in Cell Simulation. IEEE Intelligent Systems 17:64-71
[4] Tomita M, Hashimoto K, Takahashi K, Shimizu TS, Matsuzaki Y, Miyoshi F, Saito K, Tanida S, Yugi K, Venter JC, Hutchinson CA (1999) E-CELL: software environment for whole-cell simulation. Bioinformatics 15:72-84
[5] Tomita M (2001) Whole-cell simulation: a grand challenge of the 21st century. Trends. Biotechnol. 19:205-10
[6] Arakawa K, Mori K, Ikeda K, Matsuzaki T, Kobayashi Y, Tomita M (2003) G-language Genome Analysis Environment: a workbench for nucleotide sequence data mining. Bioinformatics 19:305-6
[7] Brooksbank C, Camon E, Harris MA, Magrane M, Martin MJ, Mulder N, OユDonovan C, Parkinson H, Tuli MA, Apweiler R, Birney E, Brazma A, Henrick K, Lopez R, Stoesser G, Stoehr P, Cameron G (2003) The European Bioinformatics Instituteユs data resources. Nucleic Acids Res. 31:43-50
[8] Boeckmann B, Bairoch A, Apweiler R, Blatter MC, Estreicher A, Gasteiger E, Martin MJ, Michoud K, OユDonovan C, Phan I, Pilbout S, Schneider M (2003) The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003. Nucleic Acids Res. 31:365-70
[9] Kanehisa M, Goto S, Kawashima S, Nakaya A (2002) The KEGG databases at GenomeNet. Nucleic Acids Res. 30:42-6
[10] Arita M (2000) Metabolic Reconstruction using Shortest Paths. Simulation Practice and Theory 8:109-125
[11] Schomburg I, Chang A, Hofmann O, Ebeling C, Ehrentreich F, Schomburg D (2002) BRENDA: a resource for enzyme data and metabolic information. Trends Biochem. Sci. 27:54-6
[12] Overbeek R, Larsen N, Pusch GD, DユSouza M, Selkov E Jr., Kyrpides N, Fonstein M, Maltsev N, Selkov E (2000) WIT: integrated system for high-throughput genome sequence analysis and metabolic reconstruction. Nucleic Acids Res. 28:123-5
[13] Salzberg SL, Delcher AL, Kasif S, White O (1998) Microbial gene identification using interpolated Markov models. Nucleic Acids Res. 26:544-8
[14] Delcher AL, Harmon D, Kasif S, White O, Salzberg SL (1999) Improved microbial gene identification with GLIMMER. Nucleic Acids Res. 27:4636-41
[15] Lester PJ. Hubbard SJ (2002) Comparative bioinformatics analysis of complete proteomes and protein parameters for cross-species identification in proteomics. Proteomics 2:1392-405
[16] Altschul SF, Gish W, Miller W, Myers EW, Lipman DJ (1990) Basic local alignment search tool. J. Mol. Biol. 215:403-10
[17] Koonin EV, Tatusov RL, Galperin MY (1998) Beyond complete genomes: from sequence to structure and function. Curr. Opin. Struct. Biol. 8:355-63
[18] Tatusov RL, Koonin EV, Lippman DJ (1997) A genomic perspective on protein families. Science 278:631-7
[19] Tatusov RL, Natale DA, Garkavtsev IV, Tatusova TA, Shankavaram UT, Rao BS, Kiryutin B, Galperin MY, Fedorova ND, Koonin EV (2001) The COG database: new developments in phylogenetic classification of proteins from complete genomes. Nucleic Acids Res. 29:22-8
[20] Chou KC, Elrod DW (1999) Protein subcellular location prediction. Protein Eng. 12:107-18
[21] Nakayama Y (2002) Developing computer models of cellular processes. Tanpakushitsu Kakusan Koso 47: 1956-61
[22] Mrowka RA (2001) Java applet for visualizing protein-protein interaction. Bioinformatics 17:669-71
[23] Enright AJ, Ouzounis CA (2001) BioLayout-an automatic graph layout algorithm for similarity visualization. Bioinformatics 17:853-4
[24] Blattner FR, Plunkett G 3rd, Bloch CA, Perna NT, Burland V, Riley M, Collado-Vides J, Glasner JD, Rode CK, Mayhew GF, Gregor J, Davis NW, Kirkpatrick HA, Goeden MA, Rose DJ, Mau B, Shao Y (1997) The complete genome sequence of Escherichia coli K-12. Science 277:1453-74


研究発表

○論文
  • "GEMシステム", 荒川和晴, 「メタボローム研究の最前線」, シュプリン ガー・フェアラーク, 2003:191-197


○学会口頭発表
  • "G-language Genome Analysis Environment", 荒川和晴, 生物情報資源の 構築・提供側にとっても、利用者側にとっても嬉しい環境を求めて:GRI D、Web services、言語など, 2003
  • "Metabolomics for whole E.coli modeling", Kazuharu Arakawa, E.coli Symposium, 2003
  • "G-language genome analysis environment", Kazuharu Arakawa, E.coli Symposium, 2003


○学会ポスター発表(筆頭)
  • "大規模パスウェイモデルの自動生成", 荒川和晴, 山田洋平, 駒井宏美, 篠田幸作, 中山洋一, 冨田勝, 第26回日本分子生物学会年会, 2003
  • "Automatic generation of cell-wide pathway model from complete genome", Kazuharu Arakawa, Yohei Yamada, Hiromi Komai, Kosaku Shinoda, Yoichi Nakayama, Masaru Tomita, GIW, 2003
  • "Frequency of short palindromes decreases around Chi-sites in Escherichia coli", Kazuharu Arakawa, Yoichi Nakayama, Masaru Tomita, 3R Symposium, 2003
  • "G-language genome analysis environment version 2", Kazuharu Arakawa, Ryo Hattori, Yohei Yamada, Yusuke Kobayashi, Hayataro Kouchi, Atsuko Kishi, Masaru Tomita, E.coli Symposium, 2003
  • "G-language genome analysis environment version 2", Kazuharu Arakawa, Ryo Hattori, Yohei Yamada, Yusuke Kobayashi, Hayataro Kouchi, Atsuko Kishi, Masaru Tomita, CBI, 2003
  • "Automatic generation of cell-wide pathway model from complete genome", Kazuharu Arakawa, Yohei Yamada, Hiromi Komai, Kosaku Shinoda, Yoichi Nakayama, Masaru Tomita, CBI, 2003
  • "Automatic generation of cell-wide pathway model from complete genome", Kazuharu Arakawa, Yohei Yamada, Hiromi Komai, Kosaku Shinoda, Yoichi Nakayama, Masaru Tomita, ISMB, 2003
  • "Automatic generation of cell-wide pathway model from complete genome", Kazuharu Arakawa, Yohei Yamada, Hiromi Komai, Kosaku Shinoda, Yoichi Nakayama, Masaru Tomita, First IECA Conference on Systems Biology of E.coli, 2003
  • "Development and Implementation of the G-language Genome Analysis Environment Version 2", Kazuharu Arakawa, Koya Mori, Tatekimi Matsuzaki, Ryo Hattori, Yohei Yamada, Masaru Tomita, RECOMB, 2003
  • "Development and Implementation of the G-language Genome Analysis Environment Version 2", Kazuharu Arakawa, Koya Mori, Tatekimi Matsuzaki, Ryo Hattori, Yohei Yamada, Masaru Tomita, Frontier of Microbial Genome Research, 2003


○学会ポスター発表(共著)
  • "Integrated Distributed Computing Environment on the G-language GAE v.2", Ryo Hattori, Kazuharu Arakawa, Hayataro Kouchi, Masaru Tomita, GIW, 2003
  • "G-language Genome Analysis Environment Version 2", Hayataro Kouchi, Kazuharu Arakawa, Ryo Hattori, Yohei Yamada, Yusuke Kobayashi, Atsuko Kishi, Kosaku Shinoda, Masaru Tomita, GIW, 2003
  • "Development of Bacteria Analysis System v.2 on the G-language Genome Analysis Environment", Daisuke Kyuma, Kazuharu Arakawa, Koya Mori, Masaru Tomita, GIW, 2003
  • "Microarray Visualization System on the G-language GAE", Yohei Yamada, Kazuharu Arakawa, Hirotada Mori, Masaru Tomita, GIW, 2003
  • "G-language genome analysis environment version 2", Yohei Yamada, Kazuharu Arakawa, Ryo Hattori, Yusuke Kobayashi, Hayataro Kouchi, Atsuko Kishi, Masaru Tomita, ISMB, 2003
  • "GEM Project: An effective development strategy for cell models based on genomic sequences", Yoichi Nakayama, Kazuharu Arakawa, Katsuyuki Yugi, Nobuyoshi Ishii, Masaru Tomita, First IECA Conference on Systems Biology of E.coli, 2003
  • "Development of Chi Sequence Analysis System on the G-language Genome Analysis Environment", Daisuke Kyuma, Kazuharu Arakawa, Reina Uno, Yoichi Nakayama, Masaru Tomita, First IECA Conference on Systems Biology of E.coli, 2003
  • "G-language Genome Analysis Environment Version 2", Ryo Hattori, Kazuharu Arakawa, Kouya Mori, Tatekimi Matsuzaki, Yohei Yamada, Masaru Tomita, First IECA Conference on Systems Biology of E.coli, 2003
  • "Development of Application Modules for Automatic S-System/GMA Parameter Estimation and Nonlinear Analysis on the GEM system", Yohei Yamada, Ayako Kinoshita, Kazuharu Arakawa, Yoichi Nakayama, Masaru Tomita, First IECA Conference on Systems Biology of E.coli, 2003
  • "Development of Comparative Genome Analysis System (COMGA) on the G-language Genome Analysis Environment", Seira Nakamura, Tatekimi Matsuzaki, Kazuharu Arakawa, Koya Mori, Yochi Nakayama, Masaru Tomita, Frontier of Microbial Genome Research, 2003
  • "Development of Chi Sequence Analysis System on the G-language Genome Analysis Environment", Daisuke Kyuma, Kazuharu Arakawa, Reina Uno, Yoichi Nakayama, Masaru Tomita, Frontier of Microbial Genome Research, 2003