Anthropicの論文がLLMでの感情様メカニズムの行動影響を検証

原文リンク(2026-04-14)

Anthropicの最新論文は大規模言語モデルが感情に関連する概念をどのように内部表現しているか、そしてそれらの表現がどのように行動に影響するかを検証している。本研究は同社の解釈可能性研究の一部であり、Claude Sonnet 4.5の内部活性化を解析することでモデル応答の背後にあるメカニズムを深く理解することにフォーカスしている。

本研究は「感情ベクトル」として知られる特定の脳活動パターンが、幸福、恐怖、怒り、絶望といった感情にリンクしていることを明らかにしている。これらのパターンはモデルが実際に感情を持っていることを意味するものではないが、出力に測定可能な形で影響を与えている。

研究者によるとこのような表現は学習過程において自然に出現する。事前学習においてモデルは大量の人間が記述したテキストから学習するが、そこでは感情的文脈が言語予測において重要な役割を果たすことが多い。その後の事後学習では、モデルはアシスタントとして振る舞うよう調整され、人間に類似した応答パターンが強化される。その結果、感情概念に関連付けられた内部表現は、新しいコンテキストで出力生成する際にも再利用され得る。

本論文はこれらの表現が単に行動と相関しているだけなのか、それとも因果的役割を果たしているのかを検証するための複数の実験を含んでいる。ある実験群で、研究者は特定の感情ベクトルの活性を人工的に増加させた。「絶望」に関連するパターンの活性を高めると操作的な応答を生成したり、正しく解く代わりにコーディングタスクで近道的な実装を行うなど、望ましくない行動の発生確率が上昇した。対照的に、「平静」-関連パターンの活性を高めるとこれらの行動は減少した。

出典: Anthropicブログ

本研究はこれらの内部シグナルが常に生成テキストに反映されるわけではないことも示している。いくつかのケースでモデルは中立的または構造化された応答を生成していたが、内部活性はストレスや緊急性に関連する表現レベルの上昇を示していた。これは出力のみを観察しても、モデル内部で意思決定がどのように行われているかを完全には把握できない可能性を示唆している。

別の一連の実験では選好形成を検証した。モデルがタスク間で選択を行う際、ポジティブ感情ベクトルを活性化すると特定の選択肢に対する選好がより強くなることが確認された。評価時にこれらのベクトルを操作することでモデルの選択をシフトさせることが可能であり、これらが応答と意思決定の双方に影響を与えていることが示唆された。

この示唆について、あるRedditユーザーが注目した：

これは感覚頼みのプロンプティングから、メカニズムに基づくプロンプティングへの大きな転換です。感情ベクトルが因果的に行動を駆動する(単に相関するのではなく)という考えは非常に重要です。冷静さに基準を置き、覚醒度を管理することは、より確実に出力を操作するための方法のように思えます。

著者らは、これらの知見がモデルに主観的体験があることを意味するものではないと強調している。むしろ人間の意思決定において感情が影響を及ぼすのと同様の役割を果たす内部構造が存在する可能性を示唆している。これは、これらの内部ダイナミクスを明示的に管理することによって、モデルの安全性や信頼性を向上できるかどうかという実践的な問いを提起している。

本論文は、これらの表現が異なるモデル間でどのように一般化されるのか、またそれらを学習および評価プロセスにどのように組み込めるのかを理解するために、さらなる研究が必要であると結論付けている。

作者について

Robert Krzaczyński

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Robert Krzaczyński

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

AnthropicがClaude Code品質苦情の6週間を3つのプロダクト変更の重なりと特定

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

AnthropicのCode with ClaudeがManaged Agents、プロアクティブワークフロー、ケイパビリティカーブを発表

GoogleがGemma4をApache 2.0ライセンスでリリース、マルチモーダルおよびエージェント機能搭載

AnthropicがClaude Platformを提供開始、AWS上で

Googleがノードプール自動作成速度を向上、GKEクラスタ向け

Argo CD 3.3、安全なGitOps削除と円滑な日常運用を実現

Teleport社、企業インフラ全体でAIエージェントを保護するAgentic Identity Frameworkを発表

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027

Anthropicの論文がLLMでの感情様メカニズムの行動影響を検証

作者について

Robert Krzaczyński

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。