AI研究者、間違いからの学習を模倣することでLLMベースの推論を改善する

原文リンク(2023-11-09)

マイクロソフト、北京大学、西安交通大学の研究者は、人間が自分の失敗から学ぶ方法を再現することによって、大規模言語モデル（LLM）の数学問題を解く能力を向上させる技術を開発したと発表した。

研究者らによると、LLMは問題を段階的に解決できることが示されているが、これはLLMが推論能力を持っていることを意味するものではない。

正確な推論に必要な基本的な論理やルールを純粋に理解することなく、人間の推論の表面的な振る舞いを模倣しているだけなのかもしれない。この理解不足が推論過程でのミスを招き、現実世界を支配する論理やルールについて事前に意識を持つ世界モデルの助けが必要となる。

LeMa（Learning from Mistakes）と名付けられた彼らが提案するアプローチは、GPT-4を様々なLLMによって生成される不正確な推論に対する一種の「修正者」として使用することからなる。例えば、LeMaは次のような問題に対して正しい解を提供できる。

ジェームズはメディア帝国を作る。彼は2000ドルで映画を制作する。DVDの製作費は1枚6ドルである。彼はそれをその2.5倍で売る。彼は週に5日間、1日に500本の映画を売る。20週間でいくらの利益が出るだろうか？

最初のステップで、GPT-4は間違いを特定する。第二のステップでは、GPT-4は間違いの原因を説明する。最後に、GPT-4は間違いを訂正し、新しい答えを生成する。

LeMaは上記のどのステップでも失敗する可能性があるため、訂正をその品質に基づいて3つのグループに分類する。研究者たちは、生成された50個の訂正のうち35個が「優」、11個が「良」、4個が「不良」であることを発見した。

すべての正解は、最終的に元の解答を生成したLLMにフィードバックされ、微調整される。

研究チームは、GSM8Kと MATHという2つの数学推論タスクでこのアプローチをテストし、従来のアプローチと比較して改善が見られることを発見した。LeMaはまた、WizardMath やMetaMathのような特殊なLLMの性能を向上させ、GSM8Kで85.4%、MATHで27.1%の pass@1の精度を達成した。

その他の興味深い結果としては、GPT-3.5-TurboはGPT-4の代わりに修正者として使用するには力不足であることが示された。同様に、GPT-4は難易度がもっとも低い2つのレベルの問題では良好な結果を示したが、難易度が上がるにつれて正答率が低下した。

最後に、チームはコード、データ、モデルをGitHubリポジトリで公開した。

作者について

Sergio De Simone

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

AnthropicがClaude Code品質苦情の6週間を3つのプロダクト変更の重なりと特定

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleがGemma4をApache 2.0ライセンスでリリース、マルチモーダルおよびエージェント機能搭載

AnthropicがClaude Platformを提供開始、AWS上で

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

Argo CD 3.3、安全なGitOps削除と円滑な日常運用を実現

Teleport社、企業インフラ全体でAIエージェントを保護するAgentic Identity Frameworkを発表

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027

AI研究者、間違いからの学習を模倣することでLLMベースの推論を改善する

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。