OpenAI、QCon AI NYCで企業向けのファインチューニングを発表

原文リンク(2025-12-17)

QCon AI NYC 2025において、OpenAIのWill Hang氏は、ツールを使用するエージェントの性能を向上させることを目的とした強化学習型ファインチューニングアプローチであるAgent RFTの概要を発表した。

Hang氏は、モデルの重み付けを変更する前にプロンプトやタスクの最適化から始める実用的な改善方法を説明した。具体例として、要件の簡素化、ツールの誤用を防ぐためのガードレールの追加、ツールの説明の改善、そしてエージェントが下流の意思決定をより適切に行えるようにツールの出力を改善することなどを述べた。これらの措置はしばしば高い効果を発揮するが、ツール間の一貫した多段階の推論を必要とするタスクでは限界に達する可能性があると主張した。

彼はファインチューニングの選択肢をスペクトラムとして位置付けた。教師ありファインチューニングは、入力から出力への予測可能なマッピングが存在し、一定のスタイルや構造を模倣することが目標である場合に効果的であると説明された。選好最適化は、ペア比較を使用して出力を好ましい応答にシフトさせる方法として説明され、OpenAIのDirect Preference Optimizationガイドでは、モデル出力を比較することでファインチューニングを行う方法として記載されている。現在、この手法はテキスト入力と出力に限定されていると述べられている。強化学習型ファインチューニングは、モデルが長い軌跡を通じて戦略を発見する必要があるタスクに適しており、単一のデモンストレーション完了パターンを再現するよりも効果的であると強調された。

報酬ハッキングに注意してください！採点者のエッジケースを解決してください。連続報酬は二値報酬よりも効果的です。 - Will Hang氏、OpenAI

Agent RFTは、ツールを使用するエージェント向けに適応された強化学習型ファインチューニングとして紹介され、モデルがトレーニング中のロールアウトで異なる戦略を探索し、採点者から学習信号を受け取る仕組みである。OpenAIのドキュメントでは、このループを候補応答をサンプリングし、定義した採点者でスコアリングし、そのスコアに基づいてモデルを更新するプロセスとして説明している。Hang氏は、軌跡全体にわたるクレジット割り当てを強調し、ツール選択やツールコール構造を含む初期の決定が下流の結果に基づいて強化または抑制される可能性があると述べた。彼は、エージェントをツールを通じて外界と相互作用できるシステムとして説明し、単にユーザープロンプトに応答するだけではないと述べた。

Hang氏は、ツールの例として、コーディングエージェント向けのターミナル、顧客サポート向けの社内業務システム、文書検索や取得のエンドポイントを挙げた。彼は、ツール出力が同じコンテキストウィンドウに戻るため、ツールコール、ツール出力、推論トークン、最終応答が単一の多段階軌跡を形成すると強調した。また、採点者がワークフローの中核的な成果物になると述べた。セッションでは、単純なマッチャー、モデルベースのジャッジ、コードベースの採点者、エンドポイント採点者、複数の採点者を組み合わせて精度と遅延を共同で最適化する方法など、複数の採点スタイルが説明された。

セッションでは、回答の精度だけでは捉えられない運用特性にも焦点が当てられた。Hang氏は、Agent RFTを使用して不要なツールコールを削減し、ツールコールの予算を守り、非常に長い軌跡のロングテイルを削減することで予測不可能な遅延やユーザー体験の劣化を防ぐ方法を説明した。スライドでは、推論トークンとツールコールがトレーニングを通じて減少したトレーニングトレースが参照され、エージェントがより少ないステップで同様またはより良いタスク結果を達成することを学習できるという考えと一致している。

Wenjie Zi氏はプレゼンテーションの後半を引き継ぎ、ユースケースの紹介やプラットフォーム設定の詳細を説明した。具体例として、制約されたツールコール予算の下で大規模な文書コーパスから関連するコンテンツを特定する必要がある金融向けの例が挙げられた。その設定では、エージェントが検索、リスト作成、ファイル読み取りツールをエンドポイントの背後で使用し、採点者が最終回答を採点する。彼女は、数値回答であっても表面的なフォーマットの違い、単位、小さな変動による偽陰性を減らすためにモデルベースの採点者を使用することを強調した。

Zi氏は、エージェント型コーディングやその他のドメインにおける広範な例を説明し、多くのツール、隔離された実行コンテキスト、正確性とプロセス効率をバランスさせる報酬設計を備えた環境に焦点を当てた。報告された成果は、計画の改善、長い軌跡のテイルの削減、場合によっては並列ツールコールへのシフトによる逐次ターンの削減を強調している。

開発者は、OpenAIの強化学習型ファインチューニングおよびモデル最適化ドキュメントを確認し、数か月以内にinfoq.comでプレゼンテーションの録画を視聴できる。

作者について

Andrew Hoblitzell

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Andrew Hoblitzell

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

OpenAI、QCon AI NYCで企業向けのファインチューニングを発表

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

NVIDIA社のDynamoが、マルチノードLLM推論の課題に対応

KubriX社が「アウト・オブ・ザ・ボックス」をコンセプトとした内部開発者プラットフォームを発表

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

OpenAI、QCon AI NYCで企業向けのファインチューニングを発表

作者について

Andrew Hoblitzell

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。