MicrosoftがEvals for Agent Interopスターターキットをオープンソース化、エンタープライズAIエージェントのベンチマーク向け

原文リンク(2026-02-27)

MicrosoftはEvals for Agent Interop、AIエージェントが現実的なデジタル業務シナリオにおいてどの程度相互運用できるかを評価するためのオープンソース・スターターキットを発表した。このキットは厳選されたシナリオ、代表的なデータセット、評価ハーネスを提供し、チームがメール、カレンダー、ドキュメント、コラボレーションツールなどの各種サーフェスにまたがってエージェントの評価を実行できるようにしている。この取り組みはエージェント型AIシステムがエンタープライズワークフローへと移行する中で、体系的かつ再現可能な評価への業界全体のシフトを反映している。

大規模言語モデルを活用した自律型エージェントを構築するエンタープライズは、従来のテスト手法では対応が想定されていなかった新たな課題に直面している。エージェントは確率的に振る舞い、アプリケーションと深く統合され、ツールに跨って連携するため、個別の正確性指標だけでは実運用におけるパフォーマンスを十分に理解できない。エージェント評価はAI開発における重要分野として台頭しており、特にエージェントが業務プロセス、コンプライアンス、および安全性に影響を及ぼす可能性のあるエンタープライズ環境においてその重要性が増している。最新の評価フレームワークは最終結果だけでなく、行動パターン、コンテキスト認識、マルチステップタスクに対するレジリエンスも測定することを目指している。

Evals for Agent Interopスターターキットは再現可能かつ透明性のある評価ベースラインをチームに提供することを目的としている。テンプレート化された宣言的評価仕様（JSONファイル形式）とスキーマ準拠やツール呼び出しの正確性といったシグナルを測定する評価ハーネスが含まれており、一貫性や有用性などの品質についてキャリブレーション済AIジャッジによる評価も行う。初期段階ではメールおよびカレンダーのやり取りを含むシナリオにフォーカスしているが、今後はより高度なスコアリング機能、追加ジャッジオプション、広範なエージェントワークフローのサポートへと拡張される予定である。

Microsoftは異なるスタックおよびモデルバリアントを用いて構築された「strawman」エージェント間の比較分析インサイトを提供するため、スターターキットにリーダーボードのコンセプトも含めている。これにより組織は相対的パフォーマンスを可視化し、早期に失敗モードを特定し、本格展開前に候補エージェントについてより情報に基づいた意思決定を行うことが可能となる。

GitHubリポジトリではオープンソースライセンスの下でスターターコードを公開している。評価アーティファクトおよび評価ハーネスコンポーネントが提供されており、テストの実行や複数のエージェント候補の直接比較が可能である。プロジェクトはベースライン評価スイートを構成しており、開発者は自らのドメインに合わせてルーブリックを調整し、テストを再実行し、異なる制約条件下でエージェントの挙動がどのように変化するかを観察できる。

開始するには、開発者はEvals for Agent Interopリポジトリをクローンし、付属の評価シナリオを実行してエージェントのベースラインを確立し、その後、自身のワークフローに合わせてルーブリックやテストをカスタマイズできる。このキットは3イメージのDocker Compose構成として提供されており、開発者がローカル環境で容易に実行できるようになっている。

作者について

Edin Kapić

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Edin Kapić

この記事に星をつける

このコンテンツのトピックは .NET です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社、Rust向けQUICおよびHTTP/3を容易にするtokio-quicheをオープンソース化

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

AIコーディングアシスタントはデリバリーを加速しない、なぜならコーディングがこれまでボトルネックではなかったから

Grab、リアルタイムデータ品質監視をプラットフォームに追加

OpenAIがHarness Engineeringを発表：Codexエージェントが大規模ソフトウェア開発を牽引

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

GoogleがGemini CLI Conductorに自動レビュー機能を追加

Googleの8つの基本的マルチエージェント設計パターン

DuckDB社のWebAssemblyクライアント、ブラウザ上でIcebergデータセットへのクエリが可能に

Google Cloudは、130,000ノードのGKEクラスターを用いてKubernetesの大規模スケールを実証

オープンソースのAgent Sandbox、Kubernetes上でAIエージェントの安全な展開を可能に

AI駆動サイバー脅威と戦うには多層防御がキー、CNCFレポートが明らかに

QCon AI Boston

Online InfoQ Architect Certification

Online InfoQ AI Engineering Certification

QCon San Francisco

MicrosoftがEvals for Agent Interopスターターキットをオープンソース化、エンタープライズAIエージェントのベンチマーク向け

作者について

Edin Kapić

この記事に星をつける

このコンテンツのトピックは .NET です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター