OpenAIが質問応答AIのWebGPTを発表

原文(投稿日：2022/01/25)へのリンク

OpenAIはWebGPTを開発した。GPT-3に基づく長い形式の質問応答用のAIモデルである。WebGPTは、Web検索クエリを使用して、その応答のサポートするリファレンスを収集する。Redditの質問に対する回答について、人間の審査員が69％の確率で、最高投票の回答よりも好んだ。

発表はOpenAIブログで行われた。WebGPTは、OpenAIの事前トレーニング済みGPT-3自然言語処理（NLP）モデルのバージョンである。Webブラウザーを使って検索エンジンのクエリを実行し、リンクをたどり、ソースを引用するように微調整されている。モデルは、Explain Like I'm 5 (ELI5) subredditから収集されたデータセットでトレーニングされている。トレーニングには、人間のフィードバックを組み込んだ教師あり学習と強化学習（RL）の組み合わせを使っている。モデルは、幅広いトピックの自由形式の質問に対して段落の長さの回答を生成できる。OpenAIは次のように述べている。

人間のフィードバックとWebブラウザーなどのツールによって、堅牢で本当の汎用AIシステムへの有望な道のりが提供されます。私たちの現在のシステムは、困難な状況やなじみのない状況に悪戦苦闘しています。それでもこの方向への大きな進歩を表しています。

質問応答（QA）は長い間AIの研究対象であった。ただし、ほとんどのデータセットは、短い回答を持つ単純な「トリビアタイプ」の質問にフォーカスしていた。2019年、よりスマートなデジタルアシスタントを作成することを目的として、FacebookとGoogleの研究者チームが、長い形式の質問応答（LFQA）タスクを提案した。これは、より複雑で自由形式の質問に対して、より豊富な回答を生成するAIを必要とするものである。チームはまた、LFQAモデルのトレーニングとベンチマークのためにELI5 subredditからスクレイピングされた大規模なデータセットを収集した。これは、平凡な質問（商品の価格がいつも「.00」ではなく「.99」で終わるのはなぜか）から、評価が難しい質問（なぜ皆が管理者にRedditゴールドを与えるか）まで、広範な質問（および関連する回答）で構成されている。

OpenAIのGPT-3モデルは、QAベンチマークで評価すると非常に優れていることが示されていた。TriviaQAベンチマークにおいて微調整なしで最大71.2％のスコアを獲得した。ただし、多くの言語モデルと同様に、GPT-3はしばしば幻覚を起こす。つまり、合理的に見えるが実際には正しくない回答を生成する。この問題に対処するために、多くの研究者は、情報検索メカニズムを加えて深層学習QAモデルを拡張した。このメカニズムでは、応答を生成するモデルのデコーダーメカニズムに追加のコンテキストを提供するために知識ベースにクエリが実行される。

OpenAIも同様のアプローチをとったが、モデルに情報検索を含める代わりに、Web検索エンジンと直接対話するようにモデルをトレーニングした。それは「人間がうまくやることができ、言語モデルが模倣できる」タスクである。チームは最初に、事前にトレーニングされたGPT-3モデルによって生成されたテキストコマンドを介して制御できるWebブラウジング環境を開発した。次に、モデルはRLエージェントとして動作する。質問とWebブラウザーの現在のページで構成される環境が与えられると、エージェントは、検索クエリの発行、リンクの追跡、ページからのコンテキストの抽出、最終結果の生成などのコマンドを生成する。このエージェントは、人間が生成した例の教師あり学習と、報酬モデルを使用したRLとの組み合わせを使って微調整される。

チームは、ELI5データセットとTriviaQAの両方でWebGPTを評価した。ELI5の評価では、OpenAIはRedditから投票数の多い回答を収集し、モデルと同じWebブラウジング環境を使って人間のデモンストレーターにも回答させた。研究者は請負業者を雇って、WebGPTの回答を人間の回答と比較した。WebGPTの回答は、69％の割合でRedditの回答よりも好まれ、56％の割合でデモンストレーターの回答よりも好まれた。TriviaQAベンチマークでは、WebGPTはGPT-3を上回った。75％の割合で正しい回答であり、54％の確率で「正しく有益な」回答を生成した。

InfoQは以前、外部の知識ベースを使用してAI言語モデルのパフォーマンスを向上させる取り組みを他にも記事にしてきた。例えば、知識グラフでトレーニングされたBaiduのERNIE 3.0や、インターネット検索を使って会話コンテキストを補足するFacebookのBlenderBot 2.0チャットボットがある。最近、DeepMindはRetrieval Enhanced TRansfOrmers（RETRO）を開発した。これは、事前にトレーニングされたTransformerモデルを拡張する方法で、モデルの注意メカニズムに情報検索を組み込んでいる。

作者について

Anthony Alford

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Justin Sheehy、AIハイプの時代における責任ある開発者であるために

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

QCon London：Netflix、サーバー駆動型通知で時間とコストを節約

InfoQ Dev Summit Boston：AIハイプの時代において責任ある開発者であるために

JetBrains IDE RustRoverが無償の非商用ライセンスで正式リリース

マルチリージョン・データレジデンシーのためのアーキテクチャを理解する

Uber社、DynamoDBからLedgerStoreに1兆レコードを移行し、年間600万ドルを節約

QCon London：Meta社、モノリシック・アーキテクチャを用いわずか5ヶ月でThreadsをリリース

包括的なパブリックソフトウェア・プラットフォームを構築するためのアイデア

製品としてのプラットフォームを構築することで、ソフトウェア・エンジニアはどのように力を得たか？

ソフトウェア製品チームを技術投資家に変える

Amazon Q Apps、企業向け生成AIアプリの作成簡素化を目指す

MariaDBがオープンソースのVectorプレビューを発表、MySQLのデフォルトオプションを目指す

Pinterest、世界最大級のHBaseデプロイメントをシャットダウン

SlackがKubernetes StatefulSetsのBedrock Operatorをリリース

RADIUSプロトコルの脆弱性により、ネットワーク機器の認証が暴露される

HashiCorp、KubernetesとNomadの統合を強化したConsul 1.19をリリース

InfoQ Live Roundtable

InfoQ Dev Summit Munich

QCon San Francisco

QCon London

Login with:

アカウントをお持ちでない方

OpenAIが質問応答AIのWebGPTを発表

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。