AnthropicがClaude Code用の新Code Review機能を発表、複数AIレビュアーを用いてコード変更を解析するエージェントベースのプルリクエストレビューシステムが追加されている。本機能は、チームおよびエンタープライズユーザー向けにリサーチプレビューとして提供されている。
本システムはプルリクエストがオープンされると自動的に実行され、複数のエージェントを並列にディスパッチして変更内容を検査する。Anthropicによれば、これらのエージェントは潜在的バグを探索し、誤検知を低減するために検出結果を検証し、プルリクエスト上にレビュー要約およびインラインコメントを投稿する前に、問題を重大度でランク付けする。
Anthropicは、割り当てエージェント数はプルリクエストの規模や複雑性に応じてスケールすると述べている。より大規模または複雑な変更にはより深い解析が行われる一方、小規模な変更にはより簡易なレビュー・パスが実行される。同社は平均レビュー時間約20分と報告している。
社内では数か月にわたり自社のほとんどのプルリクエストに本システムを使用してきたと、Anthropicは述べている。同社によれば、導入後、実質的なレビューコメントが付与されたプルリクエストの割合は16%から54%に増加した。変更行数が1,000行を超えるプルリクエストでは84%で検出事項が生成され、平均7.5件の問題が特定されたとAnthropicは報告している。変更行数が50行未満のプルリクエストでは31%で検出事項が生成され、平均0.5件の問題が特定されている。
社内利用においてエンジニアが誤りと判断した指摘は、全体の1%未満であったとAnthropicは述べている。同社は本ツールが人間のレビュアーを置き換えるのではなく、支援する目的で設計されており、プルリクエストを自動承認することはないと述べている。
AnthropicのCode Review発表に対するコミュニティの反応はおおむね好意的であり、開発者は報告された解析の深さおよびマルチエージェントアプローチを、より軽量なAIレビューツールとの差別化要因としてハイライトしている。一部のコメント投稿者がその価格設定が小規模チームでの導入を制限するかもしれないと言う一方で、報告された20分のレビュー時間や、プルリクエストあたり15~25ドルのコストが高頻度のエンジニアリングワークフローにおいて実用的かどうかを疑問視する声もあった。
AI ResearcherのNir Zabari氏はコメントした:
表面的には良さそうに聞こえますが、技術的詳細を共有しておらず(各並列エージェントが何にフォーカスしているのかのような)、また、15~25ドルかかると述べている点以外(現在のOpus価格設定に基づくと約3Mトークン相当)、なぜ他のツールより優れているのかを説明していません。言い換えればこのような機能はオープンソース化する価値があります。
一方、ユーザー @rohiniが投稿した:
Claudeがコードを書いて、Claudeがそれをレビューするのですか? それでは最低限の安全基準すら満たしていません。
今回のリリースによりAnthropicは、GitHubのCopilot code review機能やCodeRabbitなどのツールが既に自動化されたプルリクエスト分析を提供しているAIコードレビュー市場に、より直接的に参入することになる。Anthropicの差別化要因はマルチエージェント・レビューアーキテクチャと、軽量なレビューではなくより深く時間をかけた解析を重視している点である。