BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース AnthropicがClaudeパフォーマンス問題の背後にある3つのインフラストラクチャバグを公開

AnthropicがClaudeパフォーマンス問題の背後にある3つのインフラストラクチャバグを公開

原文リンク(2025-10-03)

Anthropicは最近、Claudeモデルの出力品質が数週間にわたり断続的に低下していた原因について、3つの異なるインフラストラクチャのバグが関与していたことを明らかにするポストモーテムを公開した。同社はこれらの問題を解決し、同様の障害を防ぐために内部プロセスを変更していると述べているが、コミュニティは3つのハードウェアプラットフォームでサービス運用することの課題をハイライトしている。

2025年8月から9月初めにかけて、AnthropicのClaude AIのユーザーは応答の品質が低下または一貫性がないと報告し始めた。最初は通常のパフォーマンス変動のように見えたが、実際にはClaudeの出力品質に影響を与える3つの異なるインフラストラクチャのバグが原因であることが判明した。これらの問題は高負荷や需要によるものではなく、基盤となるインフラストラクチャ、ルーティングロジック、コンパイル・パイプラインに起因していた。チームは説明する。

私たちは需要、時間帯、またはサーバー負荷によってモデルの品質を低下させることはありません。ユーザーにより報告された問題はインフラストラクチャのバグのみによるものでした (...) 各バグは異なるプラットフォームで異なる症状を引き起こし、異なる頻度で発生しました。このため単一の原因を特定できない困難な混乱した報告が生じました。

チームは3つの重複する問題を説明した:8月31日の最悪の影響を受けた時間帯にSonnet 4リクエストの16%に影響を与えたコンテキストウィンドウルーティングエラー;8月25日から28日にOpus 4.1およびOpus 4リクエストに影響を与え、8月25日から9月2日にSonnet 4リクエストに影響を与えたClaude API TPUサーバーの誤設定による出力の破損;最後に、Claude Haiku 3.5へのリクエストに影響を及ぼしたコンパイラ内の潜在的バグにより、約2週間にわたり近似top-k XLA:TPUのミスコンパイルが発生した。Anthropicは付け加える:

私たちはClaudeを複数のハードウェアプラットフォーム、具体的にはAWS Trainium、NVIDIA GPUs、Google TPUsで展開しています。各ハードウェアプラットフォームには異なる特性があり、特定の最適化が必要です。これらの変動にもかかわらず、モデル実装には厳格な同等性基準を持っています。

イベントタイムライン

出典:Anthropicブログ

Anthropicの信頼性責任者Todd Underwood氏はLinkedInで問題を認めている

信頼性の面では私たちにとって厳しい夏でした。この一連の問題の前には7月と8月の大部分で容量と信頼性の問題がありました (...) 問題について非常に申し訳なく思っており、最高の品質と可用性を持つモデルを提供するために懸命に働いています。

競合先のOpenAI技術スタッフ Clive Chan氏のコメントでは:

MLインフラは本当に難しいです。デバッグとドキュメント作成に取り組んだ皆さん、素晴らしい仕事です。

Anthropicの目標は、異なるハードウェアプラットフォームがエンドユーザーにとって透明であり、どのプラットフォームがリクエストを処理してもすべてのユーザーが同じ品質の応答を受け取ることだが、ハードウェアの複雑さにより、インフラ変更はすべてのプラットフォームと構成での検証が必要となる。Google DeepMind シニアAIデベロッパーリレーションズエンジニア Philipp Schmid氏は書いた

モデルを大規模に提供するのは難しいです。3つのハードウェアプラットフォーム(AWS Trainium、NVIDIA GPUs、Google TPUs)で厳格な同等性を維持しながら提供するのは全く別次元の難しさです。開発速度とカスタマーエクスペリエンスへの影響を考えると、ハードウェアの柔軟性が本当に価値があるのか疑問に思います。

Hacker NewsでのMike Hearn氏のコメントでは:

もっとも興味深いのはユニットテストの明らかな欠如です。XLAコンパイラバグのテストは出力を印刷するだけで、テストハーネスによって実行され、カバレッジが追跡されるユニットテストというよりも、再現ケースのようです。そしてアクションアイテムは評価にもっと積極的に取り組むことだけです。

今後に向けて、人工知能企業はよりセンシティブな評価を導入し、より多くの場所で品質評価を追加し、ユーザーのプライバシーを損なうことなくコミュニティ由来のフィードバックをより効果的にデバッグするためのインフラとツールを開発することを約束している。

作者について

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT