OpenAIが質問応答AIのWebGPTを発表

原文(投稿日：2022/01/25)へのリンク

OpenAIはWebGPTを開発した。GPT-3に基づく長い形式の質問応答用のAIモデルである。WebGPTは、Web検索クエリを使用して、その応答のサポートするリファレンスを収集する。Redditの質問に対する回答について、人間の審査員が69％の確率で、最高投票の回答よりも好んだ。

発表はOpenAIブログで行われた。WebGPTは、OpenAIの事前トレーニング済みGPT-3自然言語処理（NLP）モデルのバージョンである。Webブラウザーを使って検索エンジンのクエリを実行し、リンクをたどり、ソースを引用するように微調整されている。モデルは、Explain Like I'm 5 (ELI5) subredditから収集されたデータセットでトレーニングされている。トレーニングには、人間のフィードバックを組み込んだ教師あり学習と強化学習（RL）の組み合わせを使っている。モデルは、幅広いトピックの自由形式の質問に対して段落の長さの回答を生成できる。OpenAIは次のように述べている。

人間のフィードバックとWebブラウザーなどのツールによって、堅牢で本当の汎用AIシステムへの有望な道のりが提供されます。私たちの現在のシステムは、困難な状況やなじみのない状況に悪戦苦闘しています。それでもこの方向への大きな進歩を表しています。

質問応答（QA）は長い間AIの研究対象であった。ただし、ほとんどのデータセットは、短い回答を持つ単純な「トリビアタイプ」の質問にフォーカスしていた。2019年、よりスマートなデジタルアシスタントを作成することを目的として、FacebookとGoogleの研究者チームが、長い形式の質問応答（LFQA）タスクを提案した。これは、より複雑で自由形式の質問に対して、より豊富な回答を生成するAIを必要とするものである。チームはまた、LFQAモデルのトレーニングとベンチマークのためにELI5 subredditからスクレイピングされた大規模なデータセットを収集した。これは、平凡な質問（商品の価格がいつも「.00」ではなく「.99」で終わるのはなぜか）から、評価が難しい質問（なぜ皆が管理者にRedditゴールドを与えるか）まで、広範な質問（および関連する回答）で構成されている。

OpenAIのGPT-3モデルは、QAベンチマークで評価すると非常に優れていることが示されていた。TriviaQAベンチマークにおいて微調整なしで最大71.2％のスコアを獲得した。ただし、多くの言語モデルと同様に、GPT-3はしばしば幻覚を起こす。つまり、合理的に見えるが実際には正しくない回答を生成する。この問題に対処するために、多くの研究者は、情報検索メカニズムを加えて深層学習QAモデルを拡張した。このメカニズムでは、応答を生成するモデルのデコーダーメカニズムに追加のコンテキストを提供するために知識ベースにクエリが実行される。

OpenAIも同様のアプローチをとったが、モデルに情報検索を含める代わりに、Web検索エンジンと直接対話するようにモデルをトレーニングした。それは「人間がうまくやることができ、言語モデルが模倣できる」タスクである。チームは最初に、事前にトレーニングされたGPT-3モデルによって生成されたテキストコマンドを介して制御できるWebブラウジング環境を開発した。次に、モデルはRLエージェントとして動作する。質問とWebブラウザーの現在のページで構成される環境が与えられると、エージェントは、検索クエリの発行、リンクの追跡、ページからのコンテキストの抽出、最終結果の生成などのコマンドを生成する。このエージェントは、人間が生成した例の教師あり学習と、報酬モデルを使用したRLとの組み合わせを使って微調整される。

チームは、ELI5データセットとTriviaQAの両方でWebGPTを評価した。ELI5の評価では、OpenAIはRedditから投票数の多い回答を収集し、モデルと同じWebブラウジング環境を使って人間のデモンストレーターにも回答させた。研究者は請負業者を雇って、WebGPTの回答を人間の回答と比較した。WebGPTの回答は、69％の割合でRedditの回答よりも好まれ、56％の割合でデモンストレーターの回答よりも好まれた。TriviaQAベンチマークでは、WebGPTはGPT-3を上回った。75％の割合で正しい回答であり、54％の確率で「正しく有益な」回答を生成した。

InfoQは以前、外部の知識ベースを使用してAI言語モデルのパフォーマンスを向上させる取り組みを他にも記事にしてきた。例えば、知識グラフでトレーニングされたBaiduのERNIE 3.0や、インターネット検索を使って会話コンテキストを補足するFacebookのBlenderBot 2.0チャットボットがある。最近、DeepMindはRetrieval Enhanced TRansfOrmers（RETRO）を開発した。これは、事前にトレーニングされたTransformerモデルを拡張する方法で、モデルの注意メカニズムに情報検索を組み込んでいる。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

12のソフトウェア・アーキテクチャの落とし穴とその避け方

AI、ML、データエンジニアリングのInfoQトレンドレポート - 2023年9月

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

Decathlon社、Backend for Frontend (BFF)パターンを採用し、フロントエンドチームを強化

HashnodeがStep Functions、EventBridge、RedisでAWS上にスケーラブルなフィードアーキテクチャを構築

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

Meta社、24000基以上のGPUから成るAIインフラ設計を発表

Databricks、オープンソースの汎用LLM "DBRX" を発表

Kubecost、ネットワーク監視機能を備えたバージョン2.0を発表

マージキューでGitHubのデプロイを改善する

CNCF、Kubernetes上のKafkaを簡素化するStrimziをインキュベートする

QCon London

InfoQ Live Roundtable

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

OpenAIが質問応答AIのWebGPTを発表

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。