真核生物における5'非翻訳領域の配列保存性と
コドン頻度の相関

政策・メディア研究科 坂井寛章
政策・メディア研究科

1.Abstract

先学期Mus musculusのcDNAデータを用いた解析を、Arabidopsis thaliana(シロイヌナズナ)、Drosophila melanogaster(ショウジョ ウバ エ)、Homo sapiens(ヒト)、Mus musculus(マウス)の4種 の真核生物において、Genbankのデータを用いて行った。ヒトについては Genbank中のmRNAのデータのみを扱い、他の3種については、サンプル数の関係 で全てのデータを対象にして解析を行った。

マウスのcDNAの解析では、Kozakのコンセンサス配列の中でもポジション-1、-3 と+4において、コドン頻度と塩基の保存性の間に相関が見られたが、ヒトでは そのような傾向が現れなかった。さらに驚くことに、同じマウスにおいても、 GenbankとcDNAデータとでは傾向に違いがあることも明らかになった。

唯一の植物ゲノムであるシロイヌナズナにおいては特にどのポジションにもコド ン頻度の偏りと塩基保存度に相関は見られなかったが、A-rich であることが分 かった。

ショウジョウバエでは、ポジション-3の他に-4にも強い相関が見られた。+4にも 相関が見られるが、前の2ポジション程ではなかった。

2.はじめに

5'末端に結合した40SサブユニットがmRNA上を移動しながらどのように開始部位 を認識するのかについては、多くのmRNAで、5'末端から最初のAUGコドンが開始 コドンとして認識されていることが確かめられ[1]、さらに詳細な解 析で、開始コドンの周辺にGCC(A/G)CCaugGというコンセンサス配列(Kozakのコン センサス配列)が存在することが明らかになった[1]。特に開始コド ンから-3の位置にあるプリン塩基(AorG)と開始コドン直後(ポジション+4)のG残 基が効率的な翻訳に重要で他のポジションに比べ強く保存される傾向があり、こ れらのポジションへの変異は、翻訳量を低下させ、leaky scanning(リボソーム が開始コドンを認識できずに通りすぎてしまうこと)を起こしやすくするという ことも様々な実験で確かめられている[2,3,4,5]。 Kozakのコンセンサス配列は、脊椎動物以外の生物には当てはまらないという研 究もあり、脊髄動物のmRNAに特有のものではないかということが言われている [6]。

今学期は、マウス以外の真核生物について同じ解析を行い、マウスで見られ た相関が真核生物一般に見られるものであるのかどうか検証を行った。

3.解析方法


3-1.CAI値

CAI値は、Sharp らによって提案された、コドン頻度の偏りを定量化する指標の 一つであり、ribosomal protein 遺伝子のような、一般的に発現量が高いとされ る遺伝子のコドン頻度を参照して、全ての遺伝子についてコドン頻度の偏りを数 値化するものである[7]。

まず、参照する遺伝子群のコドン頻度から、RSCU(relative synonymous codon usage)値を算出し、レファレンステーブルと呼ばれるものを作成する。RSCU値は、 各アミノ酸における同義語コドンの使用頻度の平均に対する、各同義語コドンの 割合を意味する。

Xijはi番目のアミノ酸に対するj番目の同義語コドンの使用回数である。 次に、各アミノ酸の中で最も使用頻度が高いコドンを1とした、その他の同義語 コドンの使用頻度をw値として定義する。

以上のようにして算出したw値をもとにして、遺伝子ごとにCAI値を計算する。

ここで wk は、遺伝子の中のk番目のコドンのw値、Lは その遺伝子の中に含まれるコドンの総数を表す。

今回の解析ではレファレンステーブルを作成するための遺伝子として、 ribosomal protein、elongation factor、heatshock protein、outer membrane protein、RNA polymerase subunit、をコードする遺伝子群を利用した。

3-2.増加情報量

増加情報量は、複数の配列を参照して、各ポジションでのコンセンサスの強さを 数値化する指標の一つであり[8]、下記の式によって算出される。 増加情報量が高いということは、その塩基ポジションで何らかの塩基の強いパター ンが存在するということを意味している。

\begin{displaymath} I(L)=\sum_{b=A,T,G,C} f(b,L)log_{2} \frac{f(b,L)}{f(b)} \end{displaymath}

今回の解析では、まず対象とするエントリー配列についてCAI値を算出し、開始 コドン周辺(上流20bp、下流10bp)を抽出した。次に、周辺配列をCAI値順に並べ、 下から任意の数ずつの配列セットを作成し(H. sapiens,{\it M. musculus(cDNAデータ)250、M. musculus(Genbank)200、{\it A. thaliana150、D. melanogaster100)、各配列セットについて、各塩基 ポジションの増加情報量を求め、ポジション別にグラフにプロットした。

4.結果

図1に、先学期行った理研マウス完全長cDNAデータを用いて行った解析 の結果の一部をのせる。Kozakのコンセンサス配列(GCC(A/G)CCatgG)の中でも、 ポジション-3と-1においてCAI値と増加情報量に相関が見られるのが分かる。ま た、+4にも弱い相関が見られる。これらのポジションについて、CAI値と塩基含 有量の関係を見てみると、確かにKozakのコンセンサス配列に相当する塩基の含 量がCAI値と相関を示しているのが分かる。

図1:理研マウス完全長cDNAデータを用いた解析の結果~~~ポジション- 6〜+6までのCAI値と増加情報量の相関のグラフ(上)、ポジション-3,-1,+4におけ るCAI値と各塩基含量の相関関係(下)

一方図2は、M. musculusのGenbankのデータを用いて同じ解析 を行ったものの結果である。前述の3ポジションについては、cDNAのような顕著 な結果が見られない。さらに塩基含量を調べてみると、ポジション-3においては、 アデニンとグアニンの含量が相反していることが分かった。ポジション-1につい てはKozakのコンセンサス配列に相当するシトシンに相関が見られ、+4はグアニ ンであるが、全体的に含量は高いものの、CAI値との間に相関は見られなかった。


図2:マウスのGenbankデータを用いた解析の結果~~~ポジション- 6〜+6までのCAI値と増加情報量の相関のグラフ(上)、ポジション-3,-1,+4におけ るCAI値と各塩基含量の相関関係(下)

図3はヒト(H. sapiens)のGenbankデータで解析を行った結果で ある。マウスと同じように、ポジション-3では、グアニンの含量がCAI値と正の 相関を示しているのに対して、アデニンの含量が負の相関を示しているため、増 加情報量に相関が見られなくなっている。ポジション-1と+4については、増加情 報量に顕著な相関は見られないが、Kozakのコンセンサス配列に相当する塩基(シ トシン(ポジション-1)、グアニン(ポジション+4))がCAI値と正の相関を示してい ることが分かる。


図3:ヒトのGenbankデータを用いた解析の結果~~~ポジション- 6〜+6までのCAI値と増加情報量の相関のグラフ(上)、ポジション-3,-1,+4におけ るCAI値と各塩基含量の相関関係(下)

シロイヌナズナは唯一の植物ゲノムであり、開始コドン周辺のコンセンサス配 列はKozakのコンセンサス配列とは別のものが存在することが知られている。 図4を見ても分かるように、コンセンサスの強さと同義語コドン使用の偏りの 間にはほとんど相関が見られない。塩基の含量を見てみても、ポジション+4で アデニンの含量が弱い相関を示している他はほとんど相関を示している塩基は 見られない。ただ全体的にアデニンの含量が高いのが分かる。


図4:シロイヌナズナのGenbankデータを用いた解析の結果~~~ポジション- 6〜 +6までのCAI値と増加情報量の相関のグラフ(上)、ポジション-3,-1,+4におけ るCAI値と各塩基含量の相関関係(下)

最後にショウジョウバエであるが、ポジション-4の増加情報量とCAI値との間に 非常に強い正の相関が見られるのが分かる。ポジション-3、+4にも相関が見られ、 これら3つのポジションでは、Kozakのコンセンサス配列に相当する塩基の含量が CAI値と相関を示しているということも明らかになった。ただ、-3ポジションで は、ヒトやマウスのGenbankのデータの解析で見られたように、アデニンとグア ニンの含量が対称的になっている(図5参照)。


図5:ショウジョウバエのGenbankデータを用いた解析の結果~~~ポジション- 6〜+6までのCAI値と増加情報量の相関のグラフ(上)、ポジション-4,-3,+4におけ るCAI値と各塩基含量の相関関係(下)

5.考察

まず今回の解析で予想外だったことが、マウスとヒトのGenbankデータでの解析 結果が、マウスcDNAデータの解析結果とうまく一致しなかったことである。ヒト に限っての話ならばマウスと違う傾向があるのかもしれないという可能性も考え られるところであるが、同じマウスのデータを用いても結果が一致しないという ことで、今回の結果をどう捉えるかが難しくなってしまった。

まず考えられるのがプログラムのバグによる結果の不一致である。今回の解析で はGenbankのデータ解析用にプログラムを改良して行ったので、最初はその可能 性も考えられたが、実はここに載せたマウスcDNAの解析データは、そのプログラ ムを用いて行ったものであり、マウスのGenbankデータの解析結果との不一致は、 プログラムによるものではないということが明らかになった。

次に考えられるのが、解析に用いたデータの問題である。同じマウスのデータで はあるが、そこに含まれる遺伝子は同じであることはないので、解析に用いた遺 伝子が異なるために結果が違ってしまったということが考えられる。

ただ、同じGenbankのデータを用いて解析を行ったヒトのデータを見てみると、 マウスのGenbankデータの解析結果と非常によく似ているため、遺伝子の違いよ りは、Genbankのデータ構成自体に結果相違の原因があるのではないかと思われ る。

マウスの両方の解析結果ととヒトの解析結果を比較すると、ポジション-1とポジ ション+4については、増加情報量とCAI値の間に共通に相関が見られ、Kozakのコ ンセンサス配列に相当する塩基のコンセンサスが強くなっているのが分かる。し かし、ポジション-3については、塩基の含量を見たときに、マウスcDNAデータの 解析結果では、Kozakのコンセンサス配列に相当するアデニンとグアニンの含量 が共に上昇しているのに対し、マウス、ヒトのGenbankデータの解析結果では、 アデニンとグアニンの含量が相反している。マウス、ヒト共に、アデニンの含量 は、CAI値が高くなるに従い低下し、グアニンの含量はCAI値が高くなるのに伴っ て上昇している。

今回の解析ではCLEANUPというツールで重複データを取り除いたデータを用いて いるが、目で見てみると完全に取り除かれているというわけではないことが分か るので、もう一度データを吟味し直して解析をする余地はありそうである。

6.謝辞

今日まで本研究を続けるに当たり、慶応義塾大学環境情報学部の冨田勝教授には、 筆舌に尽くしがたい多大な助言、助力を賜りました。そして同大学大学院政策・ メディア研究科の鷲尾尊規氏には、研究を進める上で数々の貴重な御意見、アド バイスをいただきました。その他、本研究は実に多くの方々の御協力の上に成り 立つものであり、今日まで本研究をサポートしていただいた全ての方々に、この 場をお借りして感謝の意を申し上げたいと思います。本当にありがとうございま した。

参考文献

Kozak M (1987) An analysis of 5'-noncoding sequences from 699 vertebrate messenger RNA. Nucleic Acids Res. 15:8125-8148

Kozak M (1986) Point mutations define a sequence flanking the AUG initiator codon that modulates translation by eukaryotic ribosomes. Cell 44:283-292

Kozak M (1989) Context effects and inefficient initiation at non-AUG codons in eukaryotic cell-free translation systems. Mol. Cell. Biol. 9:5073-5080

Handley-Gearhart PM et al. (1994) Human ubiquitin-activating enzyme, E1. Indication of potential nuclear and cytoplasmic subpopulations using epitope-tagged cDNA constructs. J. Biol. Chem. 269:33171-33178

Shire D et al. (1995) An amino-terminal variant of the central cannabinoid receptor resulting from alternative splicing. J. Biol. Chem. 270:3726-3731

Cavener DR, Ray SC (1991) Eukaryotic start and stop translation sites. Nucleic Acids Res. 19:3185-3192

Sharp PM, Li WH (1987) The codon adaptation index --a measure of directional synonymous codon usage bias, and its potential applications. Nucleic Acids Res. 15:1281-1295

Schneider T, Stormo GD, Gold L. (1986) Information content of binding sites on nucleotide sequences. J. Mol. Biol. 188:415-431