Anthropicの最新論文は大規模言語モデルが感情に関連する概念をどのように内部表現しているか、そしてそれらの表現がどのように行動に影響するかを検証している。本研究は同社の解釈可能性研究の一部であり、Claude Sonnet 4.5の内部活性化を解析することでモデル応答の背後にあるメカニズムを深く理解することにフォーカスしている。
本研究は「感情ベクトル」として知られる特定の脳活動パターンが、幸福、恐怖、怒り、絶望といった感情にリンクしていることを明らかにしている。これらのパターンはモデルが実際に感情を持っていることを意味するものではないが、出力に測定可能な形で影響を与えている。
研究者によるとこのような表現は学習過程において自然に出現する。事前学習においてモデルは大量の人間が記述したテキストから学習するが、そこでは感情的文脈が言語予測において重要な役割を果たすことが多い。その後の事後学習では、モデルはアシスタントとして振る舞うよう調整され、人間に類似した応答パターンが強化される。その結果、感情概念に関連付けられた内部表現は、新しいコンテキストで出力生成する際にも再利用され得る。
本論文はこれらの表現が単に行動と相関しているだけなのか、それとも因果的役割を果たしているのかを検証するための複数の実験を含んでいる。ある実験群で、研究者は特定の感情ベクトルの活性を人工的に増加させた。「絶望」に関連するパターンの活性を高めると操作的な応答を生成したり、正しく解く代わりにコーディングタスクで近道的な実装を行うなど、望ましくない行動の発生確率が上昇した。対照的に、「平静」-関連パターンの活性を高めるとこれらの行動は減少した。
出典: Anthropicブログ
本研究はこれらの内部シグナルが常に生成テキストに反映されるわけではないことも示している。いくつかのケースでモデルは中立的または構造化された応答を生成していたが、内部活性はストレスや緊急性に関連する表現レベルの上昇を示していた。これは出力のみを観察しても、モデル内部で意思決定がどのように行われているかを完全には把握できない可能性を示唆している。
別の一連の実験では選好形成を検証した。モデルがタスク間で選択を行う際、ポジティブ感情ベクトルを活性化すると特定の選択肢に対する選好がより強くなることが確認された。評価時にこれらのベクトルを操作することでモデルの選択をシフトさせることが可能であり、これらが応答と意思決定の双方に影響を与えていることが示唆された。
この示唆について、あるRedditユーザーが注目した:
これは感覚頼みのプロンプティングから、メカニズムに基づくプロンプティングへの大きな転換です。感情ベクトルが因果的に行動を駆動する(単に相関するのではなく)という考えは非常に重要です。冷静さに基準を置き、覚醒度を管理することは、より確実に出力を操作するための方法のように思えます。
著者らは、これらの知見がモデルに主観的体験があることを意味するものではないと強調している。むしろ人間の意思決定において感情が影響を及ぼすのと同様の役割を果たす内部構造が存在する可能性を示唆している。これは、これらの内部ダイナミクスを明示的に管理することによって、モデルの安全性や信頼性を向上できるかどうかという実践的な問いを提起している。
本論文は、これらの表現が異なるモデル間でどのように一般化されるのか、またそれらを学習および評価プロセスにどのように組み込めるのかを理解するために、さらなる研究が必要であると結論付けている。