Facebookがタンパク質配列を処理するAIモデルをリリース

原文(投稿日：2020/09/22)へのリンク

Facebook AI Researchの科学者チームが、DNA配列のタンパク質データを処理するディープラーニングモデルをリリースした。モデルには約7億のパラメータが含まれており、2億5,000万のタンパク質配列によるトレーニングで生物学的特性を学習した結果として、ゲノミクス予測タスクにおける現在の最先端技術の改善に使用することが可能である。

同チームがbioArxivに公開した論文では、このモデルを使用したいくつかの実験が紹介されている。チームの研究者たちは、自然言語処理(NLP)で使用されるものと同等のテクニックを採用し、タンパク質の遺伝的コードを表現するアミノ酸の配列に対して教師なし学習(unsupervised learning)を使用して、Transformerディープラーニングモデルをトレーニングした。Transformerは、3D構造や進化的関係(evolutionary relationship)など、いくつかの特性をエンコードしていることを研究者が示した配列の表現、ないし埋め込み(embedding)を学習した。さらにチームは、この埋め込みを入力特徴(input feature)として使用することにより、遺伝子変異の進化的適応度の予測など、一般的なシーケンスデータを処理する他のマシンラーニングタスクのパフォーマンスを改善する可能性についても示唆している。

NLPのディープラーニングモデルでは一般的に埋め込み(embedding) -- 高次のベクタのより低次な空間への変換 -- を、ネットワークの最初のレイヤとして使用する。このような埋め込みでは、オリジナルデータの関係が興味深い方法でエンコードされる場合が少なくない。例えば、有名なGoogleのword2vecでは、埋め込み空間内でベクトル演算を実行することにより、"パリ — フランス + ポーランド = ワルシャワ"のような結果を生成することが可能だ。

タンパク質配列の埋め込みを学習するため、チームは、NLPで使用されるBERTモデルをベースとして、6億6,920万のパラメータを持つTransfomerニューラルネットワークを構築した上で、自己教師型学習を使用し、Uniparcデータベースから取得した2億5,000万のシーケンス上でトレーニングを行った。トレーニングデータはアミノ酸の配列で構成されている。NLPトレーニングの穴埋め形式言語モデル(masked language modeling)と同じように、各入力シーケンスは、その一部を特別なマスクトークンでランダムに置き換えることで"破損(corrupt)"されており、ネットワークは取り除かれたアミノ酸を正しく識別するようにトレーニングされた。

トレーニング後、チームは、ネットワークが学習した埋め込みのプロパティを調査した。埋め込みは、それぞれのアミノ酸を埋め込み空間内にマップする。研究者たちはこの空間に、"疎水性および極性残基の明確なクラスタ化、芳香族アミノ酸、および分子量と電荷による組織化"が見られる、と報告している。タンパク質あるいは遺伝子もまた、その構成アミノ酸のポイントを平均化することで、この空間にマッピングすることが可能である。異なる種からのオーソロガス遺伝子の埋め込み表現に主成分分析(PCA)を用いることにより、科学者たちは、"線形次元の低減は種とオルソロジ(orthology)をバリエーションの主軸とすることで回復可能である"と述べている。

化学的および遺伝的関係のエンコーディングに加えて、埋め込みは、後続のマシンラーニングタスクへの入力としても有用である。そのようなタスクのひとつが、二次構造予測である。このタスクでは、マシンラーニングモデルによって、タンパク質連鎖の一部の局所的3次元形式の予測を試みる。入力シーケンスの埋め込み表現を含めることで、研究チームは、これまでの最高値を2.5パーセントポイント改善することに成功した。3次元タンパク質構造と突然変異の影響を予測するタスクも、埋め込みデータによって改善された。

論文の筆頭著者であるAlex Rives氏はTwitterで、その成果のいくつかを強調している。ディープラーニング研究者のGwern Branwen氏に、モデルで使用するパラメータを7億に限定した理由について質問されたRives氏は、単一GPUで処理可能な最大数であったからだ、と答えている。それに対するBranwen氏の返答は、

もっと多くを処理できたと思います。論文には、リバーシブルレイヤや精度低下に関する言及は見当たりませんでした。コンテキストウィンドウを低減するという選択肢もあります。1024ウィンドウがすべて飽和することはほぼありません(例えば、1024番目のトークンと2番目のトークンの予測精度に大差はありません)。

NLPの専門知識をゲノミクス問題に適用している大手ハイテク企業はFacebookだけではない。Googleは先日発表したBigBird NLPモデルも、2つのゲノミクスのタスクにおいてパフォーマンス記録を更新している。GoogleはBigBirdのコードをリリースしていないが、FacebookはモデルをオープンソースとしてGitHubで公開している。

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Reddit、"AWS S3"やその他のシステムからメディアメタデータを"AWS Aurora Postgres"に移行

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

コードのための大規模言語モデル：QCon Londonにて、Loubna Ben Allal氏語る

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方