ヒト遺伝子コレクション

コレクション構築の経緯


これまで様々な方法でヒト細胞のcDNAライブラリーを作製してきました。初期のライブラリーは、完全長率が低かったので、開始コドンから始まるコーディング領域を有さないものも多く含まれていました。その後、新しく開発した「ベクターキャッピング法」を用いることにより、完全長率が95%以上まで向上し、ほとんどのクローンがキャップ部位から始まる完全長cDNAを有するようになりました。


このベクターキャッピング法を用いることにより、網膜色素変性症の原因遺伝子探索の一環として、ヒト網膜由来の細胞株ARPE-19とY79から完全長cDNAライブラリーを作製し、7,067種類の遺伝子、39,643クローンの完全長cDNAを取得することができました(K11-2)。網膜に多く発現している遺伝子については、全長配列を決定し論文発表を行いましたが、単に塩基配列情報を公開するだけでは、コレクションの価値が半減し、宝の持ち腐れとなります。完全長cDNAを用いてタンパク質を合成し、その機能解析を行うことによって、はじめて完全長cDNAクローンの真価が発揮されます。かといって、このコレクションを国立障害者リハビリテーションセンター(NRCD)で維持・管理していくのは困難でした。


理研バイオリソースセンターへの寄託


そんな折、理研バイオリソースセンター(理研BRC)の遺伝子材料開発室の村田武英博士から、クローン寄託の打診がありました。これ幸いと話に乗り、2011年に全クローンを理研BRCに移管し、「NRCD Human Full-Length cDNAクローンの提供」として一般公開されることになりました。遺伝子材料開発室の皆さんのお力で、後述するように立派なクローンリストも出来上がりました。このコレクションは、公的研究機関か民間企業の研究機関かを問わず、研究用としてすべてご利用いただけます。もし、特許性が生じても、我々が権利を主張することはありませんので、企業の方も自由にお使いいただけます。


コレクションの特徴


理研BRCのサイトにも記載しているように、本コレクションに含まれるcDNAクローンは次のような特徴を有しています。


(1)キャップ付加部位からポリAテールまでの全長配列を含む完全長cDNAである。

ベクターキャッピング法を用いて作製された完全長cDNAには、5’端にキャップ依存的にGが一個挿入されるので、Gの有無によって完全長かどうか判定できる。本クローンセットに含まれるクローンは、この完全長の要件を満たしている。


(2)人工的な変異や欠失が少ない。

cDNA合成工程にPCR反応や制限酵素処理を含まないので、これらの処理によって生成されることの多い変異や欠失を含む可能性が極めて低い。また、cDNA分子間で組換えなどは起こらず、得られたcDNAは単一のmRNA分子に由来するものである。


(3)希少遺伝子や超長鎖遺伝子を含む。

出発材料のmRNAが微量で済むので、mRNAの発現量や長さによるバイアスがかからず、希少遺伝子や超長鎖遺伝子の完全長cDNAが合成される。実際、これまで取得が困難とされていた7kbp以上の完全長cDNAを有するクローンを多数含んでおり、これまでに同定された最長のクローンは12.8kbpのDMXL1であった 。


(4)多くのバリアントを含む。

前項と同じ理由により、希少遺伝子も効率良くクローン化されるので、転写開始点、スプライシング、ポリA付加部位が異なる多くのバリアントを含んでいる 。


(5)cDNAの向きが一定である。

ベクタープライマーを使用しているためcDNAインサートの向きが一義的に決まる。従って、アンチセンス遺伝子由来のcDNAの同定が容易にできる 。


この他に、用いたベクターはT7プロモーターとSV40プロモーターを有しているので、インビトロ転写・翻訳や動物細胞内発現によって、タンパク質を調製できるという特徴も有しています。


コレクションリストの見方


理研BRCのサイトには、遺伝子の名前をアルファベット順に並べたコレクションの一覧表が載っています。遺伝子名は、NCBIのGene Symbolに準拠しています。


コレクション一覧表-A

この一覧表の中の遺伝子名をクリックすると、その遺伝子に関する情報とコレクションに含まれているクローンIDが表示されます。例えば、GOLGB1を例に取ると次のようになります。


GOLGB1

「HP ID」は、遺伝子に対して我々が付与した番号です。これまでさまざまなヒト細胞のcDNAライブラリーから無作為にcDNAクローンを単離し、5’端の一部塩基配列(~500bp)を決定し、GenBankデータベースを用いてホモロジー検索を行い、遺伝子の名前を同定しました。同定された順にHP番号がふってあり、現在、HP00001からHP11141まであります。ただ、部分塩基配列解析の済んだARPE-19とY79由来のcDNAクローンのみで、理研BRCに寄託してあっても未解析のクローンや他の細胞から得られたクローンは含まれず、このリストのHP番号には抜けがあります。


「Gene ID」、「Gene Symbol」、「Protein Name」は、NCBIのEntrez Geneに記載のものです。「RefSeq」と「Length of RefSeq」は、このクローンがとられた時点で、GenBankに記載されていた番号と長さですので、最新の番号と長さはNCBIのGeneで確認する必要があります。多くの場合、複数のアイソフォームが存在します。なお、機能不明の遺伝子の場合、「Gene Symbol」と「Protein Name」が、その後のアノテーション過程で変更されたものもあるので、注意が必要です。


一覧表A-Z listの最後にある「others」には、対応するRefSeqが存在しないクローンを載せてあります。ESTデータベースであるUniGene(現在運用終了)に登録されている場合、その番号も載せてありますが、ESTにもないクローンは、我々のコレクションにだけ存在する希少遺伝子と考えられます。実際、NCBIのGeneに、HP番号がGene Symbolとして採用されているものもあります(例えばHP09053)。


「Clone ID」は、クローンに付与された番号です。ARはARPE-19細胞由来、RBはY79細胞(retinoblastoma)由来を意味します。続く記号と番号は、グリセロールストックのプレート番号で、最後の記号と番号は、プレート内の位置を示します。上記のGOLGB1のARiS161G17を例にとると、このクローンはARPE-19由来であり、プレート番号ARiS161のプレート(384ウェル)のG行17列のウェルに入っていることを意味しています。


「Vector」はライブラリー作製に用いたファージミドベクターです。全クローンについて、「5’-terminal sequence」に5’端の60bpの塩基配列が記載されています。GOLGB1の場合、ARPE-19とY79の両方のライブラリーからクローンが得られており、転写開始点も同じであることがわかります。ちなみに、5’端のGはキャップ依存的に付加したGであり、完全長であることを意味しています。全長配列をDDBJに登録したものについては、「Accession No.」に番号を記載してあります。


Clone IDに記載のクローン番号、例えばARiS161G17をクリックすると、下記のようにクローンに関する情報が出てきます。この中の「Sequence, submitted」項目のAccession No.をクリックすると、DDBJに登録した全塩基配列情報を見ることができます。また、「Gene Symbol and ID」の項目にある「other clone of GOLGB1 in our bank」をクリックすると、理研BRCの他のバンクに登録されているクローンの情報が得られます。ちなみに、GOLGB1は11.2kbpの超長鎖遺伝子なので、完全長cDNAとして登録されているのは我々のクローンのみです。


ARiS161G17

上図の「Sequence information」には、理研BRCによって塩基配列をチェックした結果のシーケンスファイルが載っています。「Seq File (by primer A)」には5’端の部分塩基配列ファイル(ベクターの配列を含む)、「Seq File (by primer C)」には3’端の部分塩基配列ファイル(ポリ(A)テールを含まない)、「Seq File (contig)」には全長塩基配列ファイル、「PDF File」には制限酵素切断片のアガロースゲル電気泳動写真とシーケンスの波形データファイルが掲載されています。


コレクションの内訳


コレクションの中から下記の遺伝子について、今後順次紹介していく予定です。なお、1番目から3番目までの遺伝子については、論文(K11-2)のTableやSupplementary Tableにも記載されていますのでご参照ください。



現在公開されているのは、上記の網膜細胞株由来のクローンのみですが、理研BRCにはまだ5’端の部分塩基配列解析が行われていない多数のクローンを寄託してあります。その内訳は、次の通りです。


  • ARPE-19ライブラリー:52,800クローン
  • Y79ライブラリー:52,800クローン
  • ヒト胚性癌細胞株NT2/D1ライブラリー:76,800クローン
  • ヒト精巣ライブラリー:76,800クローン

これらのクローンの解析に興味をお持ちの方には提供可能ですので、私までご連絡ください。これまで網膜細胞株から単離した約48,000クローンの解析によって、多くの新規希少遺伝子や長鎖遺伝子の完全長cDNAクローンが得られたことから、これらのライブラリーからもまだデータベースに登録されていない多くの新規遺伝子や新規バリアントが得られる可能性が高いと思われます。関連する分野の研究者の皆さんに是非解析していただきたいと考えています。

トップへ戻る