BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース OpenAI社がAIエージェントのウェブ検索機能やディープリサーチ機能のベンチマーク評価を実現する「BrowseComp」を発表

OpenAI社がAIエージェントのウェブ検索機能やディープリサーチ機能のベンチマーク評価を実現する「BrowseComp」を発表

原文リンク(2025-05-04)

OpenAI社が新たなベンチマーク「BrowseComp」を公開し、ウェブ検索の困難な情報を探し出すAIエージェントの性能のベンチマークスコア評価が可能になった。 このベンチマークは、1,266の難解な問題で構成されており、AIエージェントの複数ウェブサイトを跨いだ粘り強いウェブナビゲート機能や、複雑に絡み合った情報収集能力が評価される。

SimpleQAをはじめとする従来型のベンチマークは単一事実情報の収集能力評価に特化しており、ブラウジング機能搭載型GPT-4oなどの高速ブラウジング対応モデルの台頭で「飽和状態」に達している。一方、BrowseCompは数十、数百のウェブサイトを行き来しながら、情報を収集精査するエージェントの能力を計測する。 BrowseCompの問題には、端的かつ明確な回答が可能であり、参照型ソリューションとの照合で評価が容易に行える。

OpenAI社の見解では、「包括的な指標ではないものの有益なベンチマーク評価になる」という点では、プログラミング大会にコーディングエージェントで参加するメリットとAIエージェントにBrowseCompを使用するメリットにはよく似ているとのことだ。BrowseCompは現実世界のユーザーの要求を包括的に網羅できているわけではないが、「粘り強くクリエイティブに情報収集を行う上で根幹となる重要な性能」の評価測定を行う。ここで評価されるディープリサーチ機能は、次世代のAIアシスタントに不可欠な機能となるだろう。

人間には「記憶容量と世界全体の認識に関する限界」、「注意散漫や疲労状態への陥りやすさ」、マルチタスク困難といった特徴があり、ウェブナビゲーションに苦心を強いられる。たいして、機械知能は再現率や連続した実行処理に秀でており、理論上は人間の手動操作を上回る処理が可能だ。だが現実では、AIシステムはこうした潜在能力を発揮できずにいる。近年、大規模言語モデルが躍進を遂げているが、AIエージェントが「複数の情報源を跨ぎ、コンテキストに依存したニュアンスを含む事実の検索処理において期待を下回っている」状況に変化はない。従来のベンチマークは、アクセスの容易な情報を検索する再現率の測定評価を主としており、検索支援、利用規約の要約、粘り強いナビゲート機能や柔軟な検索アプローチが必要なファクトチェックといった実用的な用途に求められる複雑なブラウジング機能の測定評価に特化したものではない。

BrowseCompのデータセットの収集は、トレーナーとなる人間の手で実行されている。このデータセット用には、「議論の余地を排除した、端的で、時代の影響を受けない単一回答」を持つ事実探索型の問題が構築されている。 BrowseCompのベンチマークとしての難易度基準を担保するために、GPT-4o(ブラウジング機能の有無は不問)、OpenAI o1、初期のディープリサーチモデルを含む主要なモデルでは、BrowseCompの問題が解けないことをトレーナーが確認済みだ。さらに、回答がGoogle検索を5回実行した場合も検索結果の1ページ目では発見できないほか、回答までに10分以上を要する人がほとんどとなるように問題の難易度が調整されている。BrowseCompのベンチマークでは「逆の質問」を作成するアプローチが採用され、事実情報を起点に「検索しづらいが検証はしやすい」問題が構築されている。こうしたアプローチでは、複数の大規模な検索スペースの特徴を結合するのが一般的だ。

OpenAI社では、今回発表となるBrowseCompベンチマークを使用して、GPT-4oGPT-4.5OpenAI o1といったブラウジング機能非搭載モデルや、ブラウジング機能搭載型のGPT-4oやディープリサーチモデルなどのウェブ対応システムを含むいくつかの自社モデルのベンチマークスコア評価を測定した。 測定結果では、ディープリサーチモデルの「問題の約半数に回答可能という、他の全モデルを大幅に上回る性能」が明らかになった。ディープリサーチモデルは、「ウェブの自律的検索、複数の情報源からの情報の評価や統合、検索アプローチの適応」に必要な性能を発揮しているが、こうした性能が、回答が困難になるように設計されたBrowseCompの問題に取り組む上で重要となる。

出典: BrowseCompで測定したOpenAIモデルの正確性とキャリブレーションスコア

BrowseCompのリリースを受けて、ウェブ検索やAIを利用した検索支援の将来性に関する議論が巻き起こっている。

一連のAIエージェントやディープサーチの躍進について、Knowatoa社の創業者 Michael Buckbee氏は楽観できる点と懸念すべき点の両方を表明している。

検索処理におけるAIの影響はポジティブなものであると考えています。一方で、現在の検索市場にネガティブな影響を及ぼす技術革新があるとすれば、それは「ディープリサーチ」エージェントでしょう。

また、同氏は自身の見解を次のように説明している。

我々の猛進する未来では、検索結果の「レポート」だけを読み、検索結果自体には目も通さない習慣が出来上がっていることでしょう。新たなAIモード、ディープリサーチツール、インターフェースといったツールの使用状況から、こうした将来の訪れがはっきりと目にとれます。

AI活用アドバイザー兼開発者 Nishant Sinha氏は、BrowseCompの問題の難易度に関する重大な点を以下のように強調している。

Browser UseのAIエージェントでは、ウェブページ上のUI要素の認識精度や、自然言語での一連の指示を実行する処理能力が向上してきました。今回リリースされたBrowseCompのベンチマーク測定は、こうした機能のいい負荷テストになっています!BrowseCompの登場で、アクセスの容易な情報検索能力測定にとどまらず、いくつもの扉をくぐり抜けた先にある「隠された」情報を見つける性能も評価することができるのです。

開発者や研究者としてBrowseCompの試用を検討中であれば、GitHub repositoryからBrowseCompのベンチマークが利用可能である。 BrowseCompで用いられているアプローチや知見情報の詳細は、研究論文の全文の参照がお勧めだ。 また、OpenAI社のディープリサーチモデルに関連する最新記事もぜひご一読を。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT