BT

InfoQ ホームページ ニュース Facebookがタンパク質配列を処理するAIモデルをリリース

Facebookがタンパク質配列を処理するAIモデルをリリース

ブックマーク

原文(投稿日:2020/09/22)へのリンク

Facebook AI Researchの科学者チームが、DNA配列のタンパク質データを処理するディープラーニングモデルをリリースした。モデルには約7億のパラメータが含まれており、2億5,000万のタンパク質配列によるトレーニングで生物学的特性を学習した結果として、ゲノミクス予測タスクにおける現在の最先端技術の改善に使用することが可能である。

同チームがbioArxivに公開した論文では、このモデルを使用したいくつかの実験が紹介されている。チームの研究者たちは、自然言語処理(NLP)で使用されるものと同等のテクニックを採用し、タンパク質の遺伝的コードを表現するアミノ酸の配列に対して教師なし学習(unsupervised learning)を使用して、Transformerディープラーニングモデルをトレーニングした。Transformerは、3D構造や進化的関係(evolutionary relationship)など、いくつかの特性をエンコードしていることを研究者が示した配列の表現、ないし埋め込み(embedding)を学習した。さらにチームは、この埋め込みを入力特徴(input feature)として使用することにより、遺伝子変異の進化的適応度の予測など、一般的なシーケンスデータを処理する他のマシンラーニングタスクのパフォーマンスを改善する可能性についても示唆している。

NLPのディープラーニングモデルでは一般的に埋め込み(embedding) -- 高次のベクタのより低次な空間への変換 -- を、ネットワークの最初のレイヤとして使用する。このような埋め込みでは、オリジナルデータの関係が興味深い方法でエンコードされる場合が少なくない。例えば、有名なGoogleのword2vecでは、埋め込み空間内でベクトル演算を実行することにより、"パリ — フランス + ポーランド = ワルシャワ"のような結果を生成することが可能だ。

タンパク質配列の埋め込みを学習するため、チームは、NLPで使用されるBERTモデルをベースとして、6億6,920万のパラメータを持つTransfomerニューラルネットワークを構築した上で、自己教師型学習を使用し、Uniparcデータベースから取得した2億5,000万のシーケンス上でトレーニングを行った。トレーニングデータはアミノ酸の配列で構成されている。NLPトレーニングの穴埋め形式言語モデル(masked language modeling)と同じように、各入力シーケンスは、その一部を特別なマスクトークンでランダムに置き換えることで"破損(corrupt)"されており、ネットワークは取り除かれたアミノ酸を正しく識別するようにトレーニングされた。

トレーニング後、チームは、ネットワークが学習した埋め込みのプロパティを調査した。埋め込みは、それぞれのアミノ酸を埋め込み空間内にマップする。研究者たちはこの空間に、"疎水性および極性残基の明確なクラスタ化、芳香族アミノ酸、および分子量と電荷による組織化"が見られる、と報告している。タンパク質あるいは遺伝子もまた、その構成アミノ酸のポイントを平均化することで、この空間にマッピングすることが可能である。異なる種からのオーソロガス遺伝子の埋め込み表現に主成分分析(PCA)を用いることにより、科学者たちは、"線形次元の低減は種とオルソロジ(orthology)をバリエーションの主軸とすることで回復可能である"と述べている。

化学的および遺伝的関係のエンコーディングに加えて、埋め込みは、後続のマシンラーニングタスクへの入力としても有用である。そのようなタスクのひとつが、二次構造予測である。このタスクでは、マシンラーニングモデルによって、タンパク質連鎖の一部の局所的3次元形式の予測を試みる。入力シーケンスの埋め込み表現を含めることで、研究チームは、これまでの最高値を2.5パーセントポイント改善することに成功した。3次元タンパク質構造と突然変異の影響を予測するタスクも、埋め込みデータによって改善された。

論文の筆頭著者であるAlex Rives氏はTwitterで、その成果のいくつかを強調している。ディープラーニング研究者のGwern Branwen氏に、モデルで使用するパラメータを7億に限定した理由について質問されたRives氏は、単一GPUで処理可能な最大数であったからだ、と答えている。それに対するBranwen氏の返答は、

もっと多くを処理できたと思います。論文には、リバーシブルレイヤや精度低下に関する言及は見当たりませんでした。コンテキストウィンドウを低減するという選択肢もあります。1024ウィンドウがすべて飽和することはほぼありません(例えば、1024番目のトークンと2番目のトークンの予測精度に大差はありません)。

NLPの専門知識をゲノミクス問題に適用している大手ハイテク企業はFacebookだけではない。Googleは先日発表したBigBird NLPモデルも、2つのゲノミクスのタスクにおいてパフォーマンス記録を更新している。GoogleはBigBirdのコードをリリースしていないが、FacebookはモデルをオープンソースとしてGitHubで公開している。

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

BT

あなたのプロファイルは最新ですか?プロフィールを確認してアップデートしてください。

Eメールを変更すると確認のメールが配信されます。

会社名:
役職:
組織規模:
国:
都道府県:
新しいメールアドレスに確認用のメールを送信します。このポップアップ画面は自動的に閉じられます。