2001年度森基金研究育成費森基金成果報告書
真核生物における選択的スプライシングのメカニズム解明
政策・メディア研究科修士課程1年 小知和裕美

1. はじめに

生物が生命活動を続けていく上で、タンパク質は欠かすことのできないものである。タンパク質はアミノ酸がつらなってできる巨大分子であるが、どのアミノ酸をどのような順序でつなげるか、という情報は細胞の核内DNAの遺伝子領域に記述されている。あるタンパク質が合成される際、そのタンパク質の情報が記された遺伝子領域はDNAからRNAに転写され、特定のタンパク質の情報だけが記述されたmRNAが生成される。通常、1つの遺伝子には1つのタンパク情報が記述されているが、ヒトをはじめとした高等生物では、1つの遺伝子に複数のタンパク情報が記述されていることがある。こお仕組みには選択的スプライシングが大きく関わっている。真核生物の遺伝子には、タンパク質の情報が記述されていないイントロンという領域が存在する。特定のタンパク質の情報だけが記述されたmRNAが生成されるには、このイントロン領域を取り除くスプライシングという工程があるが、このイントロンの除去の方法が複数通りあることによって、複数のタンパク質が生成されることがある。この仕組みが選択的スプライシング である。

ヒトゲノム計画により、ヒトのDNA配列が明らかになりつつある中で、ヒトゲノム上に存在する遺伝子数が注目を集めている。ヒトの生体機能は高度かつ複雑で、その機能を司るタンパク質も多種多様に存在している。そのため、それらのタンパク質の設計図であるヒトの遺伝子数は、他の生物と比較しても多いであろうと考えられていた。ところが、ヒトゲノムのドラフトシーケンス発表と同時期に、ヒトの遺伝子数は3万個であるという報告がなされ[1]、当初予測されていた10万個の3分の1 にも満たない報告に衝撃が走った。では、ヒト体内で発現している10万個以上ともいわれるタンパク情報が、この3万個の遺伝情報にどのようにコードされているのか、このギャップを埋めるのが選択的スプライシングであると考えられている。

真核生物は、タンパクのコード領域を担うエキソンがイントロンに分断された形をとっており、選択的スプライシングはこのエキソンを異なる形で組み合せることにより「スプライス・バリアント」とよばれる複数の変異配列を生成する。中でも、コード領域における選択的スプライシングは、結果として複数のタンパク質を生成し、限られた遺伝情報から効率よくタンパク質を作り出す。ヒトにおいて、選択的スプライシングを呈する遺伝子は5-40%と幅広く予測されており [2] [3] 、様々な選択的スプライシングデータベースも作成されているが [4] [5] 、リストアップされている遺伝子数は予測されている遺伝子数には到底及んでいない。

バイオテクノロジーと情報科学の急速な発展により、100万以上のESTs (expressed sequence tags) が公共のデータベースにて公開されている。この膨大なEST情報は、新しい遺伝子の発見に寄与するだけでなく[6]、選択的スプライシングを行う遺伝子の新規発見にも有用である。これまで、(1)EST配列をゲノム配列にマッピングさせる手法 [7] (2)完全長mRNA配列とEST配列とを比較する手法 [8] (3)EST 配列をクラスタリングする手法 [9] など、様々な選択的スプライシング遺伝子の予測方法が報告されている。このように、選択的スプライシング候補の遺伝子を探る方法として膨大なESTsが効果的な材料ではあるが、ESTs をアセンブルした仮想的なmRNAを候補として挙げているにとどまるため、実際にタンパクとして発現しているかなどの信頼性において多少の疑問が残る。そこで注目したのが、完全長cDNAを用いるという研究手法である。

完全長cDNA ライブラリの作成は日本が率先して進めている研究分野であり、理化学研究所が作成したマウスの21,000 cDNAs [10] や東京大学医化学研究所が作成したヒトの8,000cDNAsをはじめとして数々の成果を挙げている。私はこれまで、この膨大な完全長cDNAデータを利用して選択的スプライシング候補の遺伝子を探ることを卒業論文のテーマとして取り組んできた[11] 。この研究では、候補のcDNAは挙げられたものの、cDNAがプロセシングを受けた配列であるためイントロン情報が含まれておらず、スプライシングパターンの特定が困難であった。そこで本研究では、完全長cDNA配列とゲノム配列とを比較しデータベースを作成することで、選択的スプライシングパターンを推定することを目的とした。またマウスcDNAに関しては、マイクロアレイデータを用いて組織特異的な発現パターンがみられた選択的スプライシング候補のcDNAを同定し、データベースに発現情報を付加する。

しかし、この選択的スプライシングによるcDNAのデータベースが作成されたとしても、あくまで推定のデータベースであるため、選択的スプライシングの制御配列を探すにあたり混在するノイズが大きいことが予想される。選択的スプライシングの制御配列を特定するには、既に報告されている遺伝子を集団とした統計的解析がより有効な方法である。そのため我々は、公共のデータベースであるGenBankに 'alternative splicing(選択的スプライシング)' の記述がなされているmRNAを抽出し、cDNAと同様の手法を用いることで選択的スプライシングによるmRNAについての網羅的解析を行う前準備を整えることにした。将来的にはこのデータベースを活用し、組織や発育段階に応じて特異的に発現するmRNAについてASF(alternative splicing factor)が結合するバインディングサイトのコンセンサス配列を特定することを目指す。


[TOPへ 1. はじめに 2. 研究手法 3. 結果 4. 考察 5.今後の展望  6. 参考文献 7. 実績 ]