BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

原文リンク(2026-04-04)

Anthropicは長時間にわたる自律的アプリケーション開発を支援するためのマルチエージェント・ハーネス設計を導入した。フロントエンド設計およびフルスタックソフトウェア開発の両方をターゲットとしている。このアプローチはプランニング、生成、評価を担う別個のエージェントにタスクを分割し、数時間に及ぶAIセッションにおいて一貫性を維持しつつ出力品質を向上させることを目的としている。

この設計は自律型コーディングワークフローに共通する課題、例えばコンテキスト喪失やタスクの早期終了に対処するものである。Anthropicのエンジニアは構造化ハンドオフ成果物と併せてコンテキストリセットを実装し、ワークフローの次のエージェントが定義済みの状態から処理継続できるようにした。これはコンテキストを保持するが、モデルがコンテキスト上限に近づくことに慎重になり、延長されたタスクにおけるパフォーマンスへ影響を与える可能性があるコンパクションとは異なる。

出力の自己評価ももう一つの焦点であった。エージェントは特に設計のような主観的タスクにおいて自身の結果を過大評価する傾向がある。この問題を軽減するためAnthropicは、少数ショット例およびスコアリング基準でキャリブレーションされた、独立した評価エージェントを導入した。

Anthropic Labsのエンジニアリングリード Prithvi Rajasekaran氏は述べた

作業を担うエージェントと、それを評価するエージェントを分けることが、この課題の解決に強力な手段となることが分かっています。

フロントエンド設計において、チームは4つの評価基準を確立した:デザイン品質、独創性、作りこみ、機能性。評価エージェントはライブページをナビゲートし、Playwright MCPを用いてインターフェースと対話し、反復サイクルで生成エージェントをガイドするための詳細な批評を提供する。各サイクルでは段階的にリファインされた出力が生成される。反復回数は1回の実行あたり5回から15回に及び、最大で4時間かかる場合もあり、視覚的独自性と機能的正確性を備えた設計が生成される。

業界の実務者はこのフレームワークの構造化されたアプローチをハイライトしている。Artem Bredikhin氏がLinkedInにこう書いた

長時間稼働するAIエージェントが失敗する理由は単純です:新しいコンテキストウィンドウを開くたびに記憶が失われるからです。ブレークスルーは構造です:JSON機能仕様、強制テスト、コミット単位での進捗、動作するアプリの状態で各セッションが開始されることを保証するinitスクリプト。

別の専門家 Raghus Arangarajan氏はLinkedInでこうコメントした

3エージェントフレームワークは数時間にわたるセッションのための再現可能なワークフローを提供し、評価およびイテレーションを生成から分離することで、全体的な信頼性と出力品質を向上させます。

Anthropicのエンジニアはこのフレームワークを異なるタスクタイプに適用し、パフォーマンス向上を評価した。その結果、プランニング、生成、評価を分離することで、主観的評価をより適切に扱いつつ、客観的タスクにおける再現性を維持できることが確認された。構造化されたマルチエージェントワークフローはエージェント間の責任とハンドオフを明確に定義することにより、長時間セッションにおける段階的な進捗を促進する。

運用面ではチームは評価基準を確立し、スコアリング機構をキャリブレーションするとともに反復出力を監視する必要がある。エージェントは評価を自動実行するが、初期キャリブレーションおよび品質検証のために人間の監視が依然として重要である。このワークフローはタスクの分散処理を支援し、依存関係に応じて複数のエージェントを並列実行または順次実行できる。

AIモデルが進化するにつれハーネスの役割は変化する可能性があり、一部のタスクは次世代モデルによって直接処理されるようになるかもしれない。同時に性能向上したモデルにより、ハーネスはより複雑な作業に取り組むことが可能となる。エンジニアはハーネスの組み合わせ空間がモデルの能力とともに進化する中で、実験を行い、トレースを監視し、タスクを分解し、ハーネスを調整していく必要がある。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT