BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース AWSがAmazon Genomics CLIの提供開始とオープンソース化を発表

AWSがAmazon Genomics CLIの提供開始とオープンソース化を発表

原文(投稿日:2021/10/06)へのリンク

Amazon Genomics CLIは、AWS上でペタバイト規模のゲノミクス(genomics)データを容易に処理するためのツールだ。今年始めにプレビュー版が公開されていたが、今回それがオープンソースとして一般に提供されるようになった。Genomics CLIの目標は、クラウドリソースのプロビジョン、設定、スケールアップを自動化することによって、クラウド内にゲノミクスのワークフローをセットアップして実行する時に必要な、手間のかかる作業を取り除くことにある。

一般的に、ゲノムのシーケンシング(sequencing)は大量のデータを生成する。例えば人のゲノムは、30億文字を越えるコードで構成されている。従って、感染症や食品病原体や毒素といったものを追跡するために、一人ないし複数の人のシーケンスを解析するには、特有のステップのシーケンスあるいはワークフローとして、さまざまなツールをオーケストレーションすることが必要になる。ゲノミクスやバイオインフォマティクスのコミュニティでは、WDLやSnakemakeといった特別なワークフロー定義言語が開発されているが、大量のデータ処理 — コンピューティングやストレージといったインフラストラクチャのスケーリングを必要とする — に苦労しているのが現状だ。 

Amazon Genomics CLIを使えば、WDLなどで記述されたワークフローを、AWS上の最適化されたインフラストラクチャを使って実行することが可能になる。このワークフローは、一つ以上の"コンテキスト"と呼ばれるもので実行される。Amazon Web Servicesのチーフエバンジェリスト(EMEA)であるDanilo Poccia氏が、AWSブログの記事で、コンテキストの概念を次のように説明している。

コンテキストは、ワークフローエンジンの構成とデプロイ、データアクセスポリシの作成、および大規模な運用に必要なコンピューティングクラスタのチューニング(AWS Batchを使用して管理する)といった、時間を要するタスクをカプセル化して自動化するものです。

出典: https://aws.amazon.com/genomics-cli/

Amazon Genomics CLIは、ユーザのラップトップにインストールして、自身のAWSアカウントでアクティベートすることができる。これによってS3バケットや仮想プライベートクラウド(VPC)、DynamoDBテーブルといった、Amazon Genmics CLIの動作に必要なコアインフラストラクチャが生成される。VPCは既存のものでもよい。この時点でユーザは、プロジェクトを作成するか、インストールしたCLIのサンプルプロジェクトを利用することが可能になる。Amazon Genomics CLIのプロジェクト(YAMLファイル)は、ワークフロー、データセット、それらを処理するためのコンテキストをリンクするものだ。プロジェクトをデプロイしてコンテキストが立ち上がれば、ワークフローの実行が可能になる。実行中の結果はS3バケットに格納されており、Amazon Genomics CLIを使用して検索することができる。 

Amazon Genomics CLIは比較的新しいので、SopraSteriaのソフトウェアアーキテクトであるFlorian Clanet氏のツイートのように、今後オープンソースコミュニティのさらなる注目を集める可能性がある。

このクールなAWSのオープンソースプロジェクト"Amazon Genomics CLI"に注目して、#hacktoberfest2021 に備えましょう。生物多様性、創薬、健康問題の研究における生物学的データ分析をスケールアップする手段として、AWSリソースのパワーが活用できるのです!

Amazon Genomics CLIは現在、AWS GovCloud(米国)と中国内のリージョンを除くすべてのAWSリージョンで使用することができる。課金の対象となるのは、CLIによって生成されるAWSリソースのみである。詳細はAmazon Genomics CLIの資料に説明されている。

この記事に星をつける

おすすめ度
スタイル

BT