BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース ビッグデータ革命と遺伝子情報解析

ビッグデータ革命と遺伝子情報解析

ブックマーク

原文(投稿日:2014/01/17)へのリンク

Curoverse 社とTute Genomics 社は、遺伝子の配列解析技術を一般消費者のもとへと届けることを目指している企業であるが、先月、双方とも担保付き債権1500万ドルの資金提供を受けた。Curoverse は、生物医学系の企業に対するプライベートクラウドプラットフォームであり、オープンソースの生物情報学プラットフォームである Arvados をベースにしている。一方の Tute Genomics 社は、研究者がヒトのエクソームやゲノムのデータから遺伝子配列を解読するのを支援するクラウドベースの遺伝子解析ソリューションを提供している。

遺伝子配列解析に必要なコストは年々低下してきており、より多くのユーザに向けてサービスを市場展開するのが容易になってきている。同時に、ストレージ容量とコンピュータの計算能力もムーアの法則に従って増大しつづけており、ヒトのゲノム全体を一箇所に格納して解析するのも簡単になってきている。

とはいえ、ヒトのゲノム全体の完全な配列データは100・,000GBの容量である。100万人分の顧客のデータならばエクサバイト、つまり1,000,000TBもの容量にも達する。UCバークレイの研究者たちは、このようなデータベースを管理するための実現可能な方法を提案している。それは3つに階層化されたストレージであり、その最終階層は100PBに達するものだが、第2の階層は1ペタバイト級データを扱い、第3の階層ではテラバイト級データを扱うという構成になっている。また、この第3階層だけがRDBMSベースとしている。この研究の最大の目標は、個人別のオーダメイド医療の実現である。ヒトはDNAの99.9%が共通と言われており、仮説によれば多数の患者の全ゲノム配列の解析を実施すれば、残りの0.1%に何があるのか解明できるだろうと言われている。これが実証されれば、ガンを含む多くの疾病の予知や治療に役立つに違いない。

>

コンピュータの能力の側面でみると、ゲノム解析を高速化するために専用設計のハードウェアが利用されるようになっている。この10年で、ヒトの遺伝子配列解析にかかるコストは1/100,000に低下しており、解析に要する時間は、かつては13年を要するとされていたものが3日以下にまで短縮している。

研究の世界では、ゲノムデータを解析して保存している解析センターが既にいくつか存在しているが、それらのデータは全て少数の患者から採取されたものである。真の課題は、これらの異なる形式のアーカイブ群を横断的に統合して一つデータセットにすることであり、患者の治療内容や治療成績について相互参照を実現することである。

この何年かで、いくつかの民間企業が大衆向けのゲノム解析の提供ビジネスに参入しはじめている。Illumina社, Seven Briges Genomics社Complete Genomics社等のような企業は、研究者や民間組織に対して、4桁ドル台(1,000~9,999ドル)の価格で全ゲノム配列の解読を提供している。Illumina 社は最近、かねてから待望の1,000ドルのゲノム解析サービス HiSeq X Ten を発表した。

Illumina 社は、BaseSpaceと呼ばれるクラウド型コンピューティング&ストレージプラットフォームをサービス開始したが、このプラットフォームは科学者達が Amazon Web Services内に格納したデータについて配列を決定し、解析し、そして共同作業を実施できるようにするものである。また、専用のAPIとSDKを使って、生命情報科学向けのアプリケーションを開発することもできる。

一方で、Seven Brigeds Genomics社は、ヒトゲノムの配列解析に、Amazon EC2, S3とMongoDBのようなクラウドとNoSQLデータベース技術を組み合わせて使用している。データストレージのコストを下げるため、 Amazon Glacier も使われている。Seven Bridges の PaaS では、データパイプラインの設定のためのGUIを提供している。このGUIは、事前に定義されたモデルを使ったり、目的のタスクに合うように手動で修正することもできる。

意欲的な生命情報科学系の開発者にとって、Crossbow はゲノム全体のリシーケンス解析(既知の配列との差分解析)のために使えるツールの一つである。幾つかのライブラリを結合することにより、Crossbowは100ドル未満のAWS使用料金で、3時間以内にヒトゲノムの解析ができる。インテル社は段階的に学べる Crossbow のガイドを提供しており、GitHub上でそのソースコードも公開している。

150億ドルの遺伝子解析産業はちょうどヒートアップを始めたばかりであり、技術の進歩は、我々が現在までに目にしてきたものを遥かに超えて、Quantifid Self(医学的ライフログ) の概念を拡張していくことだろう。

 

 

 

この記事に星をつける

おすすめ度
スタイル

BT