MicrosoftはEvals for Agent Interop、AIエージェントが現実的なデジタル業務シナリオにおいてどの程度相互運用できるかを評価するためのオープンソース・スターターキットを発表した。このキットは厳選されたシナリオ、代表的なデータセット、評価ハーネスを提供し、チームがメール、カレンダー、ドキュメント、コラボレーションツールなどの各種サーフェスにまたがってエージェントの評価を実行できるようにしている。この取り組みはエージェント型AIシステムがエンタープライズワークフローへと移行する中で、体系的かつ再現可能な評価への業界全体のシフトを反映している。
大規模言語モデルを活用した自律型エージェントを構築するエンタープライズは、従来のテスト手法では対応が想定されていなかった新たな課題に直面している。エージェントは確率的に振る舞い、アプリケーションと深く統合され、ツールに跨って連携するため、個別の正確性指標だけでは実運用におけるパフォーマンスを十分に理解できない。エージェント評価はAI開発における重要分野として台頭しており、特にエージェントが業務プロセス、コンプライアンス、および安全性に影響を及ぼす可能性のあるエンタープライズ環境においてその重要性が増している。最新の評価フレームワークは最終結果だけでなく、行動パターン、コンテキスト認識、マルチステップタスクに対するレジリエンスも測定することを目指している。
Evals for Agent Interopスターターキットは再現可能かつ透明性のある評価ベースラインをチームに提供することを目的としている。テンプレート化された宣言的評価仕様(JSONファイル形式)とスキーマ準拠やツール呼び出しの正確性といったシグナルを測定する評価ハーネスが含まれており、一貫性や有用性などの品質についてキャリブレーション済AIジャッジによる評価も行う。初期段階ではメールおよびカレンダーのやり取りを含むシナリオにフォーカスしているが、今後はより高度なスコアリング機能、追加ジャッジオプション、広範なエージェントワークフローのサポートへと拡張される予定である。
Microsoftは異なるスタックおよびモデルバリアントを用いて構築された「strawman」エージェント間の比較分析インサイトを提供するため、スターターキットにリーダーボードのコンセプトも含めている。これにより組織は相対的パフォーマンスを可視化し、早期に失敗モードを特定し、本格展開前に候補エージェントについてより情報に基づいた意思決定を行うことが可能となる。
GitHubリポジトリではオープンソースライセンスの下でスターターコードを公開している。評価アーティファクトおよび評価ハーネスコンポーネントが提供されており、テストの実行や複数のエージェント候補の直接比較が可能である。プロジェクトはベースライン評価スイートを構成しており、開発者は自らのドメインに合わせてルーブリックを調整し、テストを再実行し、異なる制約条件下でエージェントの挙動がどのように変化するかを観察できる。
開始するには、開発者はEvals for Agent Interopリポジトリをクローンし、付属の評価シナリオを実行してエージェントのベースラインを確立し、その後、自身のワークフローに合わせてルーブリックやテストをカスタマイズできる。このキットは3イメージのDocker Compose構成として提供されており、開発者がローカル環境で容易に実行できるようになっている。