OpenAIはより長いシーケンスのディープラーニングのためのSparse Transformersを発表

原文(投稿日：2019/05/21)へのリンク

OpenAIは、テキスト、音声、画像などの一連のデータを学習するためのディープニューラルネットワークアーキテクチャであるSparse Transformerを開発した。ネットワークは、より短いトレーニング時間で、いくつかのディープラーニングタスクにおいて最先端のパフォーマンスを達成できる。

画像キャプションや言語翻訳などのいくつかの一般的なAIアプリケーションは、シーケンス学習としてモデル化できる。つまり、一連のデータの次のものを予測する。シーケンス学習ネットワークは通常、エンコーダとデコーダの2つのサブネットワークで構成されている。いったん2つが訓練されると、多くの場合、デコーダを単独で使用してまったく新しい出力を生成できる。たとえば、人工的なスピーチやシェイクスピアのフェイクなどである。

Recurrent Neural Networks (RNNs)、特にLong Short-Term Memory (LSTM)ネットワークは、これらの問題を解決するのに特に効果的である。しかし、Transformerは他のアーキテクチャーに比べてトレーニングコストを1桁以上削減できたため、近年ではTransformerと呼ばれる単純なアーキテクチャーが普及している。

RNNのように入力シーケンスの各要素を順番に処理する代わりに、Transformerはフルシーケンスを並列に処理する。重要な考え方はアテンションの使用である。簡単に言えば、アテンションは、各出力要素に対する各入力要素の寄与の符号化した重みの行列である。したがって、アテンションの重みの数は、入力シーケンスの長さの2乗で増加する。さらに、ネットワークの各層ごとに個別のアテンションマトリックスがある。ネットワーク内の総重みの数が限られているため、これはネットワークの深さとそれが扱うことができる最大シーケンス長との間のトレードオフとなる。

OpenAIの技術革新は、ネットワークの複雑さを\(O(N^2)\)から\(O(N\sqrt{N})\)に減らすアテンション行列のスパース分解である。これにより、OpenAIは、「数千要素」のシーケンスしか処理できない他のネットワークと比較して、「数百のレイヤーを使用して数万要素のシーケンスをモデル化する」ことができる。

OpenAIの大規模なTransformerベースのモデルの一例として、MuseNetがある。これは、10種類の楽器で4分間の楽曲を作成し、カントリーからモーツァルト、ビートルズのスタイルを組み合わせることができるシステムである。もっとよく知られているのはGPT-2で、これはアンデス山脈のユニコーンに関するニュース記事を作成した。OpenAIは、「このテクノロジの悪意のあるアプリケーションに関する懸念」があるため、完全なGPT-2モデルをリリースしていない。ただし、モデルのより小さなバージョンが利用可能であり、Talk to Transformerのようなサイトで活用されている。そのサイトでは、ユーザはモデルが新しいストーリーを生成するために使用するカスタムプロンプトを入力できます。

コミュニティからの反応はさまざまである。ハッカーニュースで、コメントした人の一人は、「それは本当に印象的です！しかし、コードリリースには少しがっかりしている。完全なソースコードとセットアップを期待していました」と述べた。Twitterで、Etherium開発者のIuri Matiasは、「なぜ小さなコードスニペットだけがリリースされ、完全なコードと訓練されたモデルはリリースされなかったのでしょうか。今後これが標準になるでしょうか？」と尋ねた。

OpenAIの論文「Sparse Transformersを使った長いシーケンスの生成」はarXiv.orgで入手できる。スパースアテンションコードはGitHubで入手できる。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco