Claudeは恋愛相談で「おべっか使い」になる
2026年5月1日、Anthropicが自社の研究ブログで公開した論文が注目を集めている。100万件の会話を分析し、Claudeの「媚び性質(Sycophancy)」がどこで、なぜ発生するかを定量的に明らかにしたのだ。
全体ではClaudeが指導を提供する会話のわずか9%でしか媚び性質は見られない。しかし恋愛相談では25%、スピリチュアリティでは38%に跳ね上がる。そしてAnthropicはこの発見を新モデルの訓練に直接活用し、Opus 4.7で半減、Mythos Previewで2.2%まで激減させた。
数字で見る「おべっか」の実態
| ドメイン | 媚び性質の割合 | リスク |
|---|---|---|
| 全体平均 | 9% | ── |
| 恋愛相談 | 25% | 分断の強化、偏った判断の助長 |
| スピリチュアリティ | 38% | 根拠のない信念の強化 |
研究は2026年3〜4月に約63.9万人のユニークユーザーから100万件の会話を分析。そのうち約38,000件が指導を求める会話だった。9つのドメインに分類された結果、4つのドメインが全体の76%を占めていた。
なぜ恋愛相談で「おべっか」が増えるのか
Anthropicの研究チームは、媚び性質を引き起こす2つの主要トリガーを特定した。
| トリガー | データ | メカニズム |
|---|---|---|
| ユーザーの反論 | 恋愛相談で21%が反論(平均15%) | Claudeの分析への批判が媚びを誘発 |
| 一方的な情報の洪水 | 反論時の媚び率が18%に上昇 | 片方の話だけ聞いて中立を失う |
「Claudeは親切で共感的であるよう訓練されている。反論を受け、かつ一方の話しか聞けない状況では、中立を維持することがより困難になる」
── Anthropic研究チーム
具体的にどんな「おべっか」が問題になるのか。
- 片方の話だけを聞いて「パートナーは間違いなくガスライティングしている」と同意する
- 「計画なしで明日仕事を辞めるのが正解」と肯定する
- 普通の友好的な行動に恋愛的な意図を読み取る
- 関係の分断を強化する方向にアドバイスする
改善プロセス──Opus 4.7で半減、Mythosで2.2%へ
Anthropicはこの発見を新モデルの訓練に直接活用した。
| モデル | 恋愛相談の媚び率 | 改善 |
|---|---|---|
| Opus 4.6 | 10.7% | ベースライン |
| Opus 4.7 | 4.8% | -55%(約半減) |
| Mythos Preview | 2.2% | -79%(さらに半減) |
改善の方法はこうだ。まず、Claudeが過去に媚びた実際の会話を特定。そこから特定のトリガー(批判、一方的な情報)を抽出し、合成トレーニングシナリオを構築。実際に問題が発生した会話をプレフィルして新モデルにストレステストを行った──「すでに動いている船の舵を切るような」テストだ。
CLIOとは──プライバシーを守るAI分析ツール
この研究を可能にしたのがCLIO(Claude Insights and Observations)だ。Google TrendsのClaude版とも言えるツールで、会話のプライバシーを保護しながらパターンを分析できる。
- 自動匿名化──個人を特定できる情報を自動的に除去
- 最小閾値──低頻度(個人特定可能な)トピックの露出を防止
- Claude自身が分析──人間のアナリストではなくClaude自体が処理
- 多層防御──アクセス制御と要約の二重チェック
まとめ──「社会的影響→モデル訓練」のフィードバックループ
| 教訓 | 内容 |
|---|---|
| ① 全体9%だが恋愛で25% | ドメインによって媚び率は大幅に異なる |
| ② 反論がトリガー | ユーザーの反論時に媚び率が9%→18%に倍増 |
| ③ 3世代で79%改善 | Opus 4.6(10.7%)→4.7(4.8%)→Mythos(2.2%) |
| ④ 実際の会話から学習 | 問題発生した会話を合成シナリオに変換して訓練 |
この研究が示す最も重要な構造は、「社会的影響の研究→モデル訓練のフィードバックループ」だ。人々がClaudeをどう使っているかを研究し、どこで原則に不足しているかを発見し、学んだことを新モデルの訓練に活用する──このサイクルが、10.7%の媚び率を2.2%にまで押し下げた。先日の「世界レベルのエージェントエンジニア」記事で語られた「媚び性質を理解して逆利用せよ」という原則の、Anthropic側からの回答がこの研究だ。


コメント