Shine-Dalgarno配列を用いたB.subtilisの翻訳量のモデル化と予測

政策・メディア研究科 バイオインフォマティクス専攻 修士1年 森航哉

Introduction

バクテリアの翻訳機構にはShine-Dalgarno配列(SD配列)が大きな影響を与えている ことが知られているが、これの翻訳量に対する影響を正確にモデル化した研究は ない。そこで、特にSD配列がはっきりとしているBacillus subtilis を用いて、このシグナル配列を情報学的手法でモデル化し、翻訳量を予測することを 試みた。しかしながら、SD配列はバラエティに富んでおり、通常のアライメントを 用いてモデル化をするのが困難であった。このため、曖昧なパターンも扱うことが 可能なNeural Networkを用いることでモデル化を試みた。

また、Bacillus subtilisについては胞子形成時にRibosome の量が大幅に減少することが分かっており、胞子形成に関係する遺伝子のSD配列 には何らかの特徴があるのではないかと考えられている。そこで、胞子形成遺伝子 とそれ以外の遺伝子の一次構造に特徴があるかどうかを、Neural Networkを 用いて解析した。

Methods

1、Information content

遺伝子上流配列を、SD配列(SD)・SD配列とスタートコドンの間(GS)、 スタートコドン下流14bp(IR)に分割して、それぞれの領域の情報量を求める。 SDとIRの情報量の計算には以下の式を用いた。

また、GSの情報量の計算には以下の式を用いた。

上記の式をBacillus subtilisの遺伝子配列上流に当てはめ、情報量のMatrixを 作成し、SD配列周辺のモデル化を行なった。

2、Neural Network

図1 Neural Network Architecture

Feedforward Backpropagation Nerworkを用いた。各ノードの活性化関数には標 準的なシグモイド関数を用いた。またバイアスユニットを各レイヤーに用い、動 的に活性化閾値を設定した。 各リンクの初期値は±0.3、学習率ηは0.1、モーメンタムαは0.9とした。また、 平均自乗誤差RMSが0.1以下で、学習が成功したと判定した。また入力については、 1つの塩基配列を4つのInput NodesにEncodeしたものを入力として使用した。

ネットワークの動作テストのために行なった、SD配列とRandom配列の選別に ついては、以下のデータを用いた。SD配列については、以下の2つの条件にある ものを用いた。(1)遺伝子上流配列に16SrRNAの3'末端をアライメントにかけ、6 塩基以上マッチしたもの(2)hypothetical, predicted, unknownを除いたもの。 これは、SD配列が確実に存在しているものを選択するためである。Random配列 については、乱数を塩基配列に置き換えたものを用いた。出力についてはNodes を1つにし、SD配列であれば1を、Random配列であれば0を出力するように学習 させた。Hidden Layerについては、8、10、20、40の各Nodes数でそれぞれ100回 の試行を行なった。

次にSD配列と翻訳量の予測については、D. Barrickが1994年に出したE.coli を用いた実験データを使用した。この論文では、Random配列を実際のE.coliの 遺伝子上流配列に埋め込んで、in vivoで発現させたときの発現量を測っている。 この配列と発現量を用いてNetworkを学習させた。出力についてはNodesを1つに し、測定値のLogを取ったものに0.1をかけた値になるように学習させた。 Hidden Layerについては、8、10、12、20、30、40、60、80の各Nodes数でそれ ぞれ100回の試行を行なった。

また、これらの学習を追えたNetworkを、TTCKでB.subtilisとE.coliを用いて 行なっている実験データに適応した。翻訳量の予測については、論文のデータ がE.coliに基づいているためE.coliの結果に、SD配列とRandom配列の選別に用 いたNetworkをB.subtilisの結果に適応した。

最後に胞子形成遺伝子の選別については、Sonenshein A.L.らの胞子形成遺伝 子リストを用いた。B.subtilisの遺伝子を、このリスト中に存在している胞子 形成遺伝子と、それ以外のものに分け、胞子形成遺伝子であれば1を出力するよ うに学習させた。それ以外の遺伝子については、(1)遺伝子上流配列に16SrRNA の3'末端をアライメントにかけ、6塩基以上マッチしたもの、(2)hypothetical, predicted, unknownを除いたもの、(3)胞子形成に関わらないもの、を用いた。 Hidden Layerについては、8、10、12、20、40、60、80の各Nodes数でそれ ぞれ100回の試行を行なった。

Results & Discussions

1、Information content

表1 B.subtilisのSD配列の情報量Matrix

1

2

3

4

5

6

a

1.214

1.632

-2.185

-9.954

1.466

-0.988

t

-1.426

-2.596

-9.954

-9.954

-0.561

-1.866

g

0.143

-0.625

1.917

1.995

-0.915

1.679

c

-2.310

-3.561

-9.954

-6.494

-5.146

-5.784

表1から、B.subtilisにおいてはAAGGAGという配列が、SD配列として最も コンセンサスがあるということが分かった。また、GSについては7〜9bpをピークと して正規分布をとった。スタートコドンについては、ATGが77%を占めていることが 分かった。

上記の結果より、B.subtilisで最も情報量の大きい配列は、AAGGAG-NNNNNNNN-ATG という配列であるということが分かった。このことから、この配列が最も コンセンサスのとれている配列であるということができる。このように強い コンセンサスのある配列が遺伝子上流にあるということは、これらが翻訳に対して 何らかの影響を及ぼしている可能性が高いと思われる。ただし、コンセンサスが 強いからといって、翻訳効率が良いとは限らないので、注意が必要である。

しかし、この情報量を使った手法では、正確にSD配列を抽出するのが困難で あった。SD配列があまりにもバラエティーに富んでいるため、全体のコンセンサスは 見つかるが、個々の遺伝子におけるSD配列を特定することができなかった。このため、 このデータから翻訳効率をモデル化するのは難しいと考えられる。

2、Neural Network

SD配列とRandom配列の選別については、93.43%の精度でSD配列を見分けることが でき、false positiveは4.84%、phi coefficientは0.891であった。(表2)このことか ら、典型的なSD配列についてはパターンを認識できていると思われる。Hidden Layer Nodesの数については、20〜40のときが最も精度がよかった。

表2 SD配列識別精度

nodes

8

10

20

40

φ coefficient

0.888

0.889

0.891

0.891

accuracy (%)

93.29

93.25

93.32

93.43

false positive (%)

4.92

4.90

4.79

4.84

次にSD配列と翻訳量の予測については、相関係数0.759の精度が得られた。(表3) この時のHidden Layer Nodesは8であった。Hidden layerのnode数が増加する に従って相関係数は下がっており、過学習を起こしているのではないかと 考えられる。この相関係数から、実測値と予測値の間には強い相関関係がある と判断でき、このことからSD配列の一次構造からある程度翻訳量の予測が 可能であると考えられる。

表3 翻訳量予測精度

nodes

8

10

12

20

30

40

60

80

coefficient

0.759

0.757

0.756

0.746

0.743

0.741

0.743

0.740

また、TTCKで我々が行なっている実験データにこれらのNetworkを適用してみ た。その結果、Barrickのデータで学習させたNetworkをE.coliの発現データに 適用したものでは、ObservationとExpectの相関係数が0.578であった。(図2)上記の テスト配列から考えられる精度から考えると比較的高い値が出ており、ある程 度は一次配列から発現量を予測できているようである。また、SD配列とRandom 配列の選別を学習させたNetworkをB.subtilisの実験結果に適応したところ、発 現量とSD配列の真偽の間に、相関係数0.196という結果が得られた。この networkは発現量を予測するように学習されてはおらず、相関係数が低いのは ある程度当然と考えられる。

図2 E.coliの相関図

胞子形成遺伝子の選別については、Hidden Layer Nodesが80の時が最も が良く、41.83%の精度で胞子形成遺伝子を見分けることができ、false positiveは49.36%、phi coefficientは0.217であった。(表4)非常に false positiveが高いことから、通常の遺伝子が胞子形成遺伝子と認識されて しまっていることが分かる。また、胞子形成遺伝子集団から(1)遺伝子上流配列 に16SrRNAの3'末端をアライメントにかけ6塩基以上マッチしたもの、 (2)hypothetical, predicted, unknownを除いたものを抽出し、これとそれ以外 の遺伝子で学習をさせたところ、学習が収束しなかった。つまりNetworkがこの 二つの集団のパターンを見分けられなかったことを意味している。このことか ら、胞子形成遺伝子とそれ以外の遺伝子は、非常に類似した上流配列を持って おり、その一次配列のみからは特徴を抽出できないのではないかと考えられる。 そのため、一次配列以外の2次構造などの要素も加えて学習させる必要があるの ではないかと考える。

表4 翻訳量予測精度

nodes

8

10

12

20

40

60

80

φ coefficient

0.177

0.179

0.175

0.197

0.198

0.205

0.217

accuracy (%)

41.87

40.67

40.01

40.39

39.36

40.96

41.83

false positive (%)

53.15

52.57

52.76

50.79

50.32

50.29

49.36

convergent rate (%)

98

99

100

100

100

100

100

Conclusion

情報量を用いた手法により、SD配列のコンセンサスを見つけることが できた。しかし、翻訳効率をモデル化するのは困難であると思われる。

Neural Networkを用いることで、一次配列のみからある程度発現量を予測できる と考えられる。このことから、翻訳効率をモデル化できる目処がついた。

胞子形成遺伝子の一次構造には特徴が無い可能性が考えられる。