配列データベース
配列データベース(はいれつデータベース、 シーケンスデータベース 、英: sequence database)は、生物科学系の幅広い分野の研究に資するためにDNAの塩基配列やタンパク質のアミノ酸配列など(シーケンス)の情報を格納したデータベースである。バイオインフォマティクスにおける主要な研究開発領域の一つである。
目次
1 データベースの形態
1.1 扱う情報の範囲
1.1.1 塩基配列データベース
2 応用
2.1 配列データベースを検索する
3 課題
3.1 大量に配列が登録され続けていることによる不整合の問題
3.2 注釈づけと実験的な裏付け
4 関連項目
4.1 データベースへの格納形式
4.2 公共の配列データベース
4.3 分散処理
5 外部リンク
データベースの形態
扱う情報の範囲
配列データベースは、一つの種の生物から採られた配列だけを格納する方針で構築されることもあるし、配列決定されたすべての種の生物から採られた配列をすべて格納する方針が採られている場合もある。前者の例としては、出芽酵母のすべてのタンパク質を含む配列データベースなどが挙げられる。後者の例としては、公共の塩基配列データベースとして、日本DNAデータバンク (DDBJ) 、EMBL、NCBI GenBank が構築され、公に提供されている。
配列情報そのものだけではなく、その配列を解析した機関や研究者、遺伝子の機能、染色体上の位置など様々な情報が付随しているのが普通である。これらは分子遺伝学や生物情報学はもちろん、幅広い生物科学系の研究の基盤として重要な情報となる。
塩基配列データベース
塩基配列情報を扱う前述の3データベースは密接な連携をとりながら運営されており、どのデータベースに登録された情報も自動的に他のデータベースに共有され参照できる仕組みになっている。現在では、塩基配列データを伴う学術論文を雑誌に掲載する際には、その情報をこれらのデータベースのいずれかに提供して登録を依頼し、それぞれのレコードに対応するID(アクセッション番号)を取得して論文中に明示することが求められるのが普通である。そのため、これらのデータベースは世界中で実験的に求められた塩基配列情報を高い網羅性をもって収納しており、生物科学系の幅広い分野の研究者にとってなくてはならないツールの一つとなっている。
応用
配列データベースを検索する
配列データベースに対しては、さまざまな手法で検索を行うことができる。
最も一般的な手法は、おそらく手元にある既知のDNAの塩基配列やタンパク質のアミノ酸配列と、類似する配列を検索することであろう。BLASTプログラムはこの種の手法を実現するプログラムとして最もよく利用されているものの一つである。
また、ある特定の遺伝子について、多数の生物種における相同な遺伝子の配列を抽出し比較するというのもよくある状況である。
多くのデータベースではホームページにおいて簡易にこうした作業が実現できるように工夫されている。しかし大量の情報を相手にする場合、ホームページ経由の作業は一般に著しく非効率的である。そこで、このような作業を自動的に行うためのプログラムやそれらのプログラムを構築するためのプログラミングライブラリが多数開発され公開されている。
課題
大量に配列が登録され続けていることによる不整合の問題
遺伝子の配列データを蓄積している大規模な配列データベースが直面している大きな問題は、個人研究者から大規模ゲノムシーケンシングセンターまで、さまざまな登録者から配列データが登録されていることである。このことはデータベースに高い網羅性をもたらしたが、一方で、配列のデータおよび配列に付された生物学的なアノテーション(注釈)のデータの品質のばらつきが非常に大きい(品質の高いデータと品質の低いデータが混在する)という問題が出てきている。
さらに冗長性の問題がある。複数の研究機関が、既に配列データベースに登録されている配列と完全に同一な配列や、ほとんど同一な配列を、重複して登録してしまうということが、しばしば起きている。このことに気がつかずに複数の情報源からの情報を不用意にまとめてしまうと、結果として整合性に欠ける解析をしてしまうことになり、非常に問題である。
注釈づけと実験的な裏付け
配列データベースのアノテーションは、研究機関での実験的な作業に基づいてつけられているのではなく、過去にアノテーションがつけられた配列を類似性検索をした結果に基づいてつけられている事例が多い。
いったん類似する配列のアノテーションにもとづいてアノテーションを登録すると、それ以降にはそのアノテーションに基づいて別の類似する配列にアノテーションがつけられることが、起こりえてしまう。
このようにして「遷移的アノテーション問題」が引き起こされるのである。
なぜなら、配列データベースのデータと実際にウェットな研究をしている研究機関で得られたデータの間で、配列の類似性によるアノテーションの伝播が何度か起こっているであろうからである。
そのため現状では、配列データベースを有効に利用するには、大規模な配列データベースに登録されているアノテーションについては、強く懐疑的な態度をとる必要がある。
ただし、高い品質で実験的に得られたデータについて記述した公表論文を参照して検証できる場合は、強く懐疑的な態度をとる必要はないであろう。
関連項目
データベースへの格納形式
- FASTAフォーマット
公共の配列データベース
日本DNAデータバンク (DDBJ)- EMBL
GenBank - 米国生物工学情報センター (NCBI)
分散処理
- SIMAP
- UniProt - ユニバーサルタンパク質データベース、Swiss-ProtとTrEMBLとPIRのタンパク質データの中央リポジトリ
外部リンク
- 日本DNAデータバンク (DDBJ) の配列データベース
- 欧州バイオインフォマティクス研究所 (EBI) の配列データベース
- NCBI の配列データベースに登録された完全に配列決定されたゲノム
- スタンフォード大学の酵母のゲノムの配列データベース