2008年度 森基金成果報告書
結合ドメインを考慮した複合体予測アルゴリズムの改良
慶應義塾大学政策・メディア研究科後期博士課程3年
小澤陽介
1.研究背景
近年大規模に蓄積されたタンパク質間相互作用ネットワークの資源を利用し、情報科学的手法により、タンパク質の重要な機能単位である複合体を予測する手法が開発されている。しかしながらそれらの手法は多くの偽陽性を含むことが知られており、精度の点で問題がある。我々は昨年度の研究課題において、複合体抽出時にタンパク質の物理的な結合ドメインを考慮することによって、既存の複合体予測手法の精度を2倍以上に向上させることに成功した。しかし現在のデータ量では、ある程度現実的な時間で複合体の予測が可能であるが、今後さらにPPIデータが蓄積されると、グラフ上の考慮すべき組み合わせは指数的に増加することが予測できる。その問題を解決するため、昨年度開発した手法を計算量の点で改良し、現実的な時間で複合体の予測が可能になるようにすることを研究課題とする。
2.研究目的
(1)タンパク質間相互作用データから、結合ドメインを考慮することにより、複合体を高精度で抽出すること。及び(2) (1)を現実的な時間で計算可能にすること。
3.研究方法
IVV法で得られたデータのほかにBIND、HPRDのような公共のタンパク質間相互作用データベースに蓄積された1対1のタンパク質間相互作用データを用いて、複合体の予測を行う。複合体の予測は大きく3つの手順にわかれる。
1).既知の複合体抽出のアルゴリズムを用いて、第一の複合体候補をあげ、2). IVV法で得られたデータやiPfamなどからドメイン間相互作用を抽出する3).2で得られたドメイン間相互作用を1で得られた第一の複合体予測結果にあてはめ、ドメイン間相互作用が同時になりたつものを、最終的に予測する複合体とする。このとき、この問題を整数計画法の問題に変形して、解くことで速度を改良した。
図1: ドメインを考慮した複合体の抽出
4.結果
ドメインを考慮して複合体を抽出した結果、4種類の既存の複合体抽出方法でドメインを考慮しない場合に比べて、精度が約2〜3倍に向上した。
表1: 既知の複合体の一部にマッチしたものの割合(既知の複合体にマッチした数/予測された複合体数)。括弧内は精度。
5.まとめ
・既知複合体抽出の制度を既存の手法に比べて、2〜3倍に向上
6.実績
ポスター発表(2件)
・小澤陽介, 斎藤輪太郎 、藤森茂雄、鹿島久嗣、石坂正道、柳川弘志、宮本悦子、冨田勝(2008) 結合ドメインを考慮したタンパク質複合体の予測, BMB2008, 神戸
・Yosuke Ozawa, Rintaro
Saito, Shigeo Fujimori, Hiroshi Yanagawa, Etsuko
Miyamoto-Sato, Masaru Tomita (2008) A novel method considering physical binding
domain for extracting protein complexes, 16th Annual International Conference
Intelligent Systems for Molecular Biology, Toronto
・