QCon AI NYC 2025において、OpenAIのWill Hang氏は、ツールを使用するエージェントの性能を向上させることを目的とした強化学習型ファインチューニングアプローチであるAgent RFTの概要を発表した。
Hang氏は、モデルの重み付けを変更する前にプロンプトやタスクの最適化から始める実用的な改善方法を説明した。具体例として、要件の簡素化、ツールの誤用を防ぐためのガードレールの追加、ツールの説明の改善、そしてエージェントが下流の意思決定をより適切に行えるようにツールの出力を改善することなどを述べた。これらの措置はしばしば高い効果を発揮するが、ツール間の一貫した多段階の推論を必要とするタスクでは限界に達する可能性があると主張した。
彼はファインチューニングの選択肢をスペクトラムとして位置付けた。教師ありファインチューニングは、入力から出力への予測可能なマッピングが存在し、一定のスタイルや構造を模倣することが目標である場合に効果的であると説明された。選好最適化は、ペア比較を使用して出力を好ましい応答にシフトさせる方法として説明され、OpenAIのDirect Preference Optimizationガイドでは、モデル出力を比較することでファインチューニングを行う方法として記載されている。現在、この手法はテキスト入力と出力に限定されていると述べられている。強化学習型ファインチューニングは、モデルが長い軌跡を通じて戦略を発見する必要があるタスクに適しており、単一のデモンストレーション完了パターンを再現するよりも効果的であると強調された。
報酬ハッキングに注意してください!採点者のエッジケースを解決してください。連続報酬は二値報酬よりも効果的です。 - Will Hang氏、OpenAI
Agent RFTは、ツールを使用するエージェント向けに適応された強化学習型ファインチューニングとして紹介され、モデルがトレーニング中のロールアウトで異なる戦略を探索し、採点者から学習信号を受け取る仕組みである。OpenAIのドキュメントでは、このループを候補応答をサンプリングし、定義した採点者でスコアリングし、そのスコアに基づいてモデルを更新するプロセスとして説明している。Hang氏は、軌跡全体にわたるクレジット割り当てを強調し、ツール選択やツールコール構造を含む初期の決定が下流の結果に基づいて強化または抑制される可能性があると述べた。彼は、エージェントをツールを通じて外界と相互作用できるシステムとして説明し、単にユーザープロンプトに応答するだけではないと述べた。
Hang氏は、ツールの例として、コーディングエージェント向けのターミナル、顧客サポート向けの社内業務システム、文書検索や取得のエンドポイントを挙げた。彼は、ツール出力が同じコンテキストウィンドウに戻るため、ツールコール、ツール出力、推論トークン、最終応答が単一の多段階軌跡を形成すると強調した。また、採点者がワークフローの中核的な成果物になると述べた。セッションでは、単純なマッチャー、モデルベースのジャッジ、コードベースの採点者、エンドポイント採点者、複数の採点者を組み合わせて精度と遅延を共同で最適化する方法など、複数の採点スタイルが説明された。
セッションでは、回答の精度だけでは捉えられない運用特性にも焦点が当てられた。Hang氏は、Agent RFTを使用して不要なツールコールを削減し、ツールコールの予算を守り、非常に長い軌跡のロングテイルを削減することで予測不可能な遅延やユーザー体験の劣化を防ぐ方法を説明した。スライドでは、推論トークンとツールコールがトレーニングを通じて減少したトレーニングトレースが参照され、エージェントがより少ないステップで同様またはより良いタスク結果を達成することを学習できるという考えと一致している。
Wenjie Zi氏はプレゼンテーションの後半を引き継ぎ、ユースケースの紹介やプラットフォーム設定の詳細を説明した。具体例として、制約されたツールコール予算の下で大規模な文書コーパスから関連するコンテンツを特定する必要がある金融向けの例が挙げられた。その設定では、エージェントが検索、リスト作成、ファイル読み取りツールをエンドポイントの背後で使用し、採点者が最終回答を採点する。彼女は、数値回答であっても表面的なフォーマットの違い、単位、小さな変動による偽陰性を減らすためにモデルベースの採点者を使用することを強調した。
Zi氏は、エージェント型コーディングやその他のドメインにおける広範な例を説明し、多くのツール、隔離された実行コンテキスト、正確性とプロセス効率をバランスさせる報酬設計を備えた環境に焦点を当てた。報告された成果は、計画の改善、長い軌跡のテイルの削減、場合によっては並列ツールコールへのシフトによる逐次ターンの削減を強調している。
開発者は、OpenAIの強化学習型ファインチューニングおよびモデル最適化ドキュメントを確認し、数か月以内にinfoq.comでプレゼンテーションの録画を視聴できる。