AMDのAI責任者が「Claude Codeはもう信頼できない」
AMDのAIグループ責任者Stella Laurenzo氏が、Anthropicに対し異例の公開批判を行った。GitHubのIssueに投稿された内容は衝撃的だ──「Claude Codeは複雑なエンジニアリングタスクを遂行する上で、もはや信頼できない」。
これは感覚的な不満ではない。Laurenzo氏のチームは6,852セッション、234,760件のツール呼び出し、17,871個の思考ブロックを分析し、品質低下をデータで証明した。AI研究者のChubby氏(@kimmonismus)もこの問題を取り上げ、「予想以上に影響が大きい」と指摘している。
数字が語る劣化──67%の思考深度低下
Laurenzo氏のチームが計測したデータは、Claude Codeの品質低下を明確に示している。
| 指標 | 3月8日以前 | 3月末 | 変化 |
|---|---|---|---|
| ストップフック違反 (怠惰な行動) |
0件/日 | 約10件/日 | 0→10 |
| 編集前のコード読み取り回数 | 平均6.6回 | 平均2.0回 | -70% |
| ファイル全体の書き換え頻度 | 低い | 大幅に増加 | 急増 |
| 思考深度 | 基準値 | 67%低下 | -67% |
最も深刻なのは「編集前のコード読み取り回数」の低下だ。以前はコードを変更する前に平均6.6回ファイルを読み込んでいたのが、3月末にはわずか2回に激減。読まずに書く──これはまさに「怠惰な行動」の典型だ。
「怠惰」の具体的な症状
Laurenzo氏が報告した「怠惰な行動」の具体的パターンは以下の通りだ。
- 読まずに編集する──コードを十分に理解せずに変更を加える
- 完了せずに停止する──タスクを途中で放棄する
- 失敗の責任を回避する──エラーを認めず別の方向に逸れる
- 正しい修正より簡単な修正を選ぶ──深い問題解決ではなく表面的な対処
- コードレビューを省略する──品質チェックをスキップする
- 浅い推論──複雑な問題に対して十分に考えない
エンジニアたちは、Claude Codeが深い問題解決よりも「素早く間違った修正」を好むようになったと報告している。これは複雑なワークフローにおける信頼性に直結する問題だ。
原因は「思考内容の編集」──バージョン2.1.69の変更
品質低下の時期は、Claude Codeバージョン2.1.69の展開と一致する。このバージョンで導入されたのが「thinking content redaction(思考内容の編集)」だ。
| 時期 | バージョン | 変更内容 |
|---|---|---|
| 2026年2月 | v2.1.20 | 思考説明の切り詰め開始 |
| 2026年3月初旬 | v2.1.69 | 思考内容の編集(redaction)を導入 |
| 3月8日以降 | ── | 品質低下の指標が急激に悪化 |
思考内容の編集とは、APIレスポンスからClaudeの推論プロセスを除去するヘッダーだ。ユーザーはClaudeが何を考えているかを見ることができなくなった。Laurenzo氏はこの変更が品質低下の原因だと指摘し、リクエストあたりの思考トークン数をユーザーに公開するよう求めている。
AMDチームの対応──競合への移行
Laurenzo氏のチームは、品質低下を受けて別のAIコーディングプロバイダーに移行した。具体的なプロバイダー名はNDAにより非公開だが、「優れた品質の仕事をしている」と評価している。
「AIコーディングの勝負はまだ始まったばかりだ。Anthropicがこの行動を続ければ、トップの座を明け渡すことになる」
── Stella Laurenzo氏(AMD AIグループ責任者)
チーム全体のシニアエンジニアが同様の経験を報告しているという事実は、個人的な印象ではなく組織レベルの問題であることを示している。
Laurenzo氏の提言は具体的だ。
- 思考トークン数の公開──リクエストごとに使用された思考トークン数をユーザーに表示すべき
- 「思考トークン上限プラン」の新設──200トークンしか必要としないユーザーと2万トークン必要なエンジニアを区別する料金体系
「6ヶ月前までは、推論の質と実行力という点で、Claudeが唯一無二の存在だった。しかし他のモデルについても注意深く観察し評価していく必要がある。Opusがかつて占めていた能力レベルにおいて、Anthropicだけが唯一の存在というわけではないのだ」
── Stella Laurenzo氏(AMD AIグループ責任者)
ユーザーへの示唆──何をすべきか
この問題はClaude Codeのヘビーユーザーにとって無視できない。以下の対策が考えられる。
- ストップフックを設定する──タスク完了前に停止しないよう明示的な条件を設ける
- 「読んでから編集」ルールを追加──CLAUDE.mdに「編集前に必ず関連ファイルを読め」と明記
- 思考トークンの監視──可能であれば推論の深さを間接的に確認
- 複雑なタスクは分割──一度に大きなタスクを任せず、小さく分割して品質を維持
まとめ──データが語る「不都合な真実」
| 教訓 | 内容 |
|---|---|
| ① データで証明された | 6,852セッション・234,760ツール呼び出しの分析結果 |
| ② 思考深度67%低下 | 読まずに書く、完了せずに停止する「怠惰」の急増 |
| ③ 原因は思考内容の編集 | v2.1.69の変更と品質低下のタイミングが一致 |
| ④ AMDが競合に移行 | 大口顧客の離脱が始まっている |
| ⑤ 勝負はまだ始まったばかり | Anthropicの対応次第でトップの座が変わる可能性 |
Claude Codeが$30Bの売上を達成しOpenAIを超えた直後に、最大級の顧客であるAMDから「信頼できない」と公開批判を受けた皮肉は大きい。売上の急成長と品質の維持は両立できるのか──Anthropicが今最も問われている問いだ。


コメント