Google Stax、AIモデル評価を開発者向けによりアクセシブルに

原文リンク(2025-09-29)

Google StaxはAIモデルの主観的評価を、客観的かつデータ駆動型で再現可能なプロセスに置換えるためにデザインされたフレームワークだ。Googleは汎用ベンチマークに頼るのではなく、AI開発者は彼らの特定ユースケースに合わせて評価プロセスをテーラリングできるようになると言っている。

Googleによると、品質、レイテンシ、コストを比較することによる評価は、特定ソリューションに最適なモデルを選択するために重要だ。プロンプトエンジニアリングやファインチューニングの努力が、実際に結果を改善しているかどうかを評価するためにも不可欠である。再現可能なベンチマークの価値があるもう一つの分野は、エージェントや他のコンポーネントが確実に連携して動作することを確実化できる、エージェントのオーケストレーションである。

Staxは人間のジャッジと自動評価関数を組み合わせたベンチマークを構築するためのデータとツールを提供する。開発者は本番化可能データセットか、既存データをアップロードして、もしくは人工的データセットを生成するためにLLMを使って作ったデータセットをインポートできる。同様にStaxには冗長性や要約など一般的メトリックスのためのデフォルト評価関数一式が含まれており、より具体的もしくはよりきめ細やかな評価基準のためのカスタム評価関数を作成することもできる。

カスタム評価関数は数ステップで作成でき、ジャッジの役割を果たすLLMの選択から始める。ジャッジにはテスト対象モデルの出力を評価する方法を指示するプロンプトが提供される。このプロンプトには評価関数が格付に用いる0.0から1.0の数値スコアが関連付けられた、カテゴリの定義を含まねばならない。加えて、好ましい応答形式の指示が含まれる必要があり、{{output}}、{{input}}、{{history}}、{{expected_output}}、および{{metadata.key}}を参照するための変数を使用することができる。評価関数の信頼性を確保するため、信頼できる人間による評価に対する古典的な教師あり学習アプローチを用いてキャリブレーションする必要がある。評価関数プロンプトは、それによる評価と信頼できる評価者による評価の一貫性を向上させるために、反復プロセスを通じてファインチューニングされることがある。

Google Staxは、AIモデル評価のための唯一のソリューションではない。その競合には、OpenAI Evals、DeepEval、MLFlow LLM Evaluateなどがあり、それぞれアプローチと機能が大きく異なる。

現在StaxはOpenAI、Anthropic、Mistral、Grok、DeepSeek、Google自身を含む、増え続けるモデルプロバイダーのリストに対してベンチマークをサポートしている。加えて、カスタムモデルエンドポイントでも使用可能だ。ベータ版は無料で使用できるが、Googleは将来的に課金モデルを導入する可能性があると述べている。

データプライバシーに関する最終的な注意点：Googleはプロンプト、カスタムデータセット、評価関数を含むユーザーデータを所有せず、自社の言語モデルのトレーニングにも使用しないと宣言している。しかし他のプロバイダーを使用する場合、そのプロバイダーのデータポリシーも適用されることに注意する必要がある。

作者について

Sergio De Simone

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco

Google Stax、AIモデル評価を開発者向けによりアクセシブルに

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。