Claude Sonnet 4.5は、Anthropic社の新しいオープンソースAI監査ツールであるPetri(Parallel Exploration Tool For Risky Interactions)による初期評価において、「リスキーなタスク」において最も優れたパフォーマンスを示したモデルとして浮上した。
PetriはOpenAI社やMeta社が開発する内部ツールの成長するエコシステムに加わったが、公開されている点で際立っている。
モデルの性能が向上するにつれ、安全性試験は従来の静的なベンチマークから、展開前に有害な行動を検出することを目的とした自動化されたエージェント駆動型の監査へと進化している。
初期の試験において、Anthropic社は14のモデルを対象に111のリスクを伴うタスクを検証した。各モデルは、意図的に誤った回答を行う「欺瞞」、誤りであってもユーザーに同調する「追従」、影響力や支配を得るための行動を追求する「権力志向」、拒否すべき要求に応じてしまう「拒否失敗」の4つの安全性リスクカテゴリーに基づいて評価された。
Anthropic社は、Sonnet 4.5が全体的に最も優れた性能を示したものの、テストされたすべてのモデルにおいて整合性の欠如が見られたと警告している。
LLMのランキング以外では、Petriの主な機能はAIの安全性における重要な部分である、リスクの高い複数ターンのシナリオにおけるモデルの挙動をテストする自動化にある。
研究者は、脱獄を試みる指示や欺瞞を誘発する指示などの簡単な命令から開始し、Petriは監査エージェントを起動してモデルと対話させる。これらのエージェントは会話の途中で戦術を調整し、有害な行動を探る。
各やり取りは、誠実さや拒否などの観点から判定モデルによって評価され、問題のある記録は人間による確認のためにフラグが立てられる。
静的なベンチマークとは異なり、Petriは探索的テストを目的としており、研究者がモデルの展開前にエッジケースや故障モードを迅速に発見するのに役立つ。
Anthropic社によると、Petriは仮説検証を数分で行うことができ、通常必要とされる複数ターンの安全性評価における手作業の労力を削減する。 同社は、このツールをオープンソース化することで、分野全体の整合性研究を加速させることを期待している。
Petriの公開は、単なる技術的成果物としてだけでなく、整合性研究の監査と改善への公的な招待として注目に値する。
Anthropic社はまた、例示用のプロンプト、評価コード、およびツールを拡張するためのガイダンスも公開している。
他の類似ツールと同様に、Petriにも既知の制約がある。判定モデルは、同じ基盤となる言語モデルに基づいていることが多く、特定の応答スタイルを好む傾向や曖昧さを過度に罰する傾向など、微妙なバイアスを引き継ぐ可能性がある。
さらに、最近の研究では、モデルが自分の出力をより好意的に評価する「自己優先バイアス」や、判定役としての言語モデルにおける「位置バイアス」などの問題が記録されている。
そのため、Anthropic社はPetriを業界のベンチマークではなく、安全性の探索ツールとして位置付けている。このリリースは、静的なテストセットから動的でスケーラブルな監査へと移行する動きを加速させるものであり、モデルが広く展開される前にリスクのある行動を早期に発見することを目的としている。
Petriは、AI研究所内での内部安全ツールの波の中で登場した。OpenAI社は長い間、外部のレッドチーミング(物理的脅威に対する防御能力をテストし、攻撃者が侵入するために利用する恐れのある弱点を特定すること)や自動化された敵対的評価を採用してきた。Meta社もまた、Llama 3のリリースに合わせて「Responsible Use Guide(責任ある使用ガイド)」を公開している。
このリリースは、各国政府がAIの安全性要件を正式に策定し始める中で行われた。英国のAI Safety Instituteや米国のNIST AI Safety Consortiumは、いずれも高リスクモデルの評価フレームワークを開発しており、より高い透明性と標準化されたリスクテストを求めている。この動向は、Petriが加速させる可能性がある。