Claude Sonnet 4.5は、オープンソースの監査ツールPetriによって最も安全なLLM（大規模言語モデル）として評価された。

原文リンク(2025-10-07)

Claude Sonnet 4.5は、Anthropic社の新しいオープンソースAI監査ツールであるPetri（Parallel Exploration Tool For Risky Interactions）による初期評価において、「リスキーなタスク」において最も優れたパフォーマンスを示したモデルとして浮上した。

PetriはOpenAI社やMeta社が開発する内部ツールの成長するエコシステムに加わったが、公開されている点で際立っている。

モデルの性能が向上するにつれ、安全性試験は従来の静的なベンチマークから、展開前に有害な行動を検出することを目的とした自動化されたエージェント駆動型の監査へと進化している。

初期の試験において、Anthropic社は14のモデルを対象に111のリスクを伴うタスクを検証した。各モデルは、意図的に誤った回答を行う「欺瞞」、誤りであってもユーザーに同調する「追従」、影響力や支配を得るための行動を追求する「権力志向」、拒否すべき要求に応じてしまう「拒否失敗」の4つの安全性リスクカテゴリーに基づいて評価された。

Anthropic社は、Sonnet 4.5が全体的に最も優れた性能を示したものの、テストされたすべてのモデルにおいて整合性の欠如が見られたと警告している。

LLMのランキング以外では、Petriの主な機能はAIの安全性における重要な部分である、リスクの高い複数ターンのシナリオにおけるモデルの挙動をテストする自動化にある。

研究者は、脱獄を試みる指示や欺瞞を誘発する指示などの簡単な命令から開始し、Petriは監査エージェントを起動してモデルと対話させる。これらのエージェントは会話の途中で戦術を調整し、有害な行動を探る。

各やり取りは、誠実さや拒否などの観点から判定モデルによって評価され、問題のある記録は人間による確認のためにフラグが立てられる。

静的なベンチマークとは異なり、Petriは探索的テストを目的としており、研究者がモデルの展開前にエッジケースや故障モードを迅速に発見するのに役立つ。

Anthropic社によると、Petriは仮説検証を数分で行うことができ、通常必要とされる複数ターンの安全性評価における手作業の労力を削減する。同社は、このツールをオープンソース化することで、分野全体の整合性研究を加速させることを期待している。

Petriの公開は、単なる技術的成果物としてだけでなく、整合性研究の監査と改善への公的な招待として注目に値する。

Anthropic社はまた、例示用のプロンプト、評価コード、およびツールを拡張するためのガイダンスも公開している。

他の類似ツールと同様に、Petriにも既知の制約がある。判定モデルは、同じ基盤となる言語モデルに基づいていることが多く、特定の応答スタイルを好む傾向や曖昧さを過度に罰する傾向など、微妙なバイアスを引き継ぐ可能性がある。

さらに、最近の研究では、モデルが自分の出力をより好意的に評価する「自己優先バイアス」や、判定役としての言語モデルにおける「位置バイアス」などの問題が記録されている。

そのため、Anthropic社はPetriを業界のベンチマークではなく、安全性の探索ツールとして位置付けている。このリリースは、静的なテストセットから動的でスケーラブルな監査へと移行する動きを加速させるものであり、モデルが広く展開される前にリスクのある行動を早期に発見することを目的としている。

Petriは、AI研究所内での内部安全ツールの波の中で登場した。OpenAI社は長い間、外部のレッドチーミング（物理的脅威に対する防御能力をテストし、攻撃者が侵入するために利用する恐れのある弱点を特定すること）や自動化された敵対的評価を採用してきた。Meta社もまた、Llama 3のリリースに合わせて「Responsible Use Guide（責任ある使用ガイド）」を公開している。

このリリースは、各国政府がAIの安全性要件を正式に策定し始める中で行われた。英国のAI Safety Instituteや米国のNIST AI Safety Consortiumは、いずれも高リスクモデルの評価フレームワークを開発しており、より高い透明性と標準化されたリスクテストを求めている。この動向は、Petriが加速させる可能性がある。

作者について

Matt Foster

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Matt Foster

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

Claude Sonnet 4.5は、オープンソースの監査ツールPetriによって最も安全なLLM（大規模言語モデル）として評価された。

作者について

Matt Foster

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。