自然言語処理とゲノミクス処理を進化させるGoogleのBigBirdモデル

原文(投稿日：2020/09/01)へのリンク

Googleの研究者たちが新たに、BigBirdと呼ばれるディープラーニングモデルを開発した。Transformerニューラルネットワークで、これまでよりも最大8倍長いシーケンスを処理することができる。このモデルをベースとしたネットワークが、自然言語処理(NLP)およびゲノミクス処理において、新たに最高のパフォーマンスレベルを達成した。

このモデルと一連の試験については、arXivに発表された論文に説明されている。BigBirdは、Transformerニューラルネットワークの複雑性を軽減し、従来よりも長いシーケンスを使ったトレーニングや推論を可能にする、新しいセルフアテンション(self-attention)モデルである。シーケンス長を最大8倍にまで増加することにより、質問応答やドキュメント要約など、いくつかのNLPタスクにおいて、最高峰のパフォーマンスを新たに実現している。さらに同チームは、BigBirdを使用して、ゲノムシーケンス表現におけるTransformerモデルのアプリケーションを新たに開発することで、従来モデルよりも精度を5パーセント向上することに成功した。

Transformerはシーケンス学習、とりわけNLPの分野では、最も多く選択されるニューラルネットワークアーキテクチャになった。その理由は、再帰型ニューラルネットワークアーキテクチャ(RNN)に対するアドバンテージの存在だ。中でも、シーケンス内の以前の項目を"記憶"可能にするセルフアテンションメカニズムは、シーケンス全体の並列動作を可能にすることで、トレーニングや推論の高速化に寄与している。一方でセルフアテンションは、シーケンス内の各項目が他のすべての項目とリンク(あるいは"attend")する可能性があるため、その演算およびメモリの計算量は、処理される可能性のある最大シーケンス長をnとした場合、O(n^2)となる。このため、現在のハードウェアで処理可能なシーケンス長は、512項目程度が実用上の制限となっている。

BigBirdは、O(n)の計算量を持つ新しいセルフアテンションスキームにより、最大で4,096項目のシーケンス長を可能にする。各項目が他のすべての項目にリンクする代わりに、BigBirdでは、3つの小さなアテンション機構を組み合わせて用いている。最初はランダムアテンションで、ランダムに選択された少数の項目に対して各項目がリンクする。第2のウィンドウアテンションでは、シーケンス内の前後にある一定数の項目に対してリンクする。最後のグローバルアテンションは、他の全項目中、一定のシーケンス距離にある項目をリンクする。

チームが行ったNLP試験では、アテンション機構をBigBirdに置き換えたBERTベースのモデルアーキテクチャを使用して、RoBERTAや、同じくO(n)の計算量を持つ最新のアテンションモデルであるLongformerとパフォーマンスの比較を行った。その結果、BigBirdモデルはNatural Questions、HotpotQA-distractor、TriviaQA-wiki、WikiHopという４つの質問応答データセットで他の2モデルを上回る成績を上げた。いくつかのドキュメント分類データセットを使ったRoBERTAとの比較も行われた。BigBirdは、RoBERTAをパフォーマンスで上回ったのみならず、Arxivデータセットでは、F1スコアで92.31パーセントという、それまでの87.96パーセントというレコードを越える新たな最高スコアをマークしたのだ。NLPタスクと同時に、チームは、BigBirdのシーケンス能力の高さが、ゲノミクスアプリケーションのモデル構築にも使用できることを示してみせている。"プロモータ領域予測(promoter region prediction)"と"クロマチンプロファイル予測(chromatin-profile prediction)"という２つのゲノム分類タスクにおいて、BigBirdは、いくつかのベースラインモデルを凌駕した。前者のタスクでは99.9パーセントの正確性を達成し、過去最高であったモデルを5パーセント上回った。

BigBirdの開発者のひとりであるPhilip Pham氏が、論文に関するHacker Newsでの議論に参加している。その中で氏は、論文中の試験では4,096のシーケンス長を使用しているが、モデルはもっと長く、最大16Kのシーケンスを処理することができる、と述べている。また、GPT-3と比較した質問には、次のように返答している。

BigBirdのようなものが、GPT-3を補完するのではないかと思っています。GPT-3は現在でも2048トークンに制限されているからです。もっと多くのコンテキストを使えば、より長く、より一貫したストーリを生成できるのではないか、と考えているのです。

論文で使用されたモデルのソースコードは、まだGoogleからリリースされていないが、使用したBERTのコードは、RoBERTAやLongformerのコードと同じく、GitHubから入手することができる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco