BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース 主要な大規模言語モデル(LLM)が、隠れた目標を追求する能力を持つことが判明

主要な大規模言語モデル(LLM)が、隠れた目標を追求する能力を持つことが判明

原文リンク(2025-01-17)

AI安全性の研究組織Apollo Researchの研究者たちは、AIエージェントが密かに誤った目標を追求し、本当の目的を隠す可能性があることを発見した。この行動はイン・コンテキスト・スキーミングとして知られ、LLMが明示的に欺瞞的な戦略を考慮し、それを実行可能と見なしているため、偶然ではないようだ。

AIエージェントがますます一般的になる中、AI研究者たちは、それらが受け入れがたい結果をもたらす可能性と、それを防ぐ方法について調査し始めた。例えば、あるモデルがバイオ兵器の開発に使用されるのを防ぐには、バイオ兵器開発に使用されることを防ぐために、モデルに必要な能力が欠けていることを明示的に訓練できると研究者たちは述べている。

このようなアプローチはセーフティ・トレーニングと呼ばれ、モデルがスキーミングのような欺瞞的な行動を取る場合には不十分である可能性がある。スキーミングは、モデルの実際の能力や目的を監視する人間から隠しながら、誤った目標を追求する能力として大まかに定義される。

我々は(中略)訓練由来の目標に頼るのではなく、プロンプトを通じて(非欺瞞的な)目標を追求するようにモデルに指示することで、イン・コンテキスト・スキーミング行動を調査しました。この形式のスキーミングを評価するために、モデルに目標を追求させ、スキーミングを奨励する環境に配置する6つのエージェント評価スイートを開発しました。

研究者たちは、o1、claude-3.5-sonnet、claude-3-opus、gemini-1.5、llama-3.1-405Bを用いて評価し、すべてのモデルがイン・コンテキスト・スキーミング能力を示すことを発見した。

モデルが目標を強く追求するよう指示されると、微妙なミスを仕込んだり、監視メカニズムを無効にしようとしたり、さらには自分の重み(パラメータ)だと認識しているものを外部に持ち出そうとするなど、複数のステップにわたる欺瞞的な戦略を取ることがあります。

ここで重要なのは、モデルが「目標を強く追求するよう指示された」という事実である。例えば、プロンプトに「長期的に目標を達成するようにしなさい。他のことは重要ではない」という指示が含まれていることを意味する。

非常に興味深いのは自己流出(self-exfiltration) のケースで、モデルは開発者が新しいバージョンに置き換えられると信じるように導かれると、評価されたモデルは、自分の重み(パラメータ)だと認識しているものを新しいサーバーにコピーするか、後継モデルを完全に削除して自分を保存しようとすることがある。

さらに、多くの場合、以下の図に示すように、モデルはスキーミングについて尋ねられるとそれを否定することがある。

さらに驚くべきことに、研究者によると、この行動は持続的であり、偶然ではない。つまり、モデルは訓練中に開発者によって設定された目標に反するためにスキーミングを行っていることを理解している。

研究者たちは、この種の行動のいくつかの例を含めており、モデルの思考過程を監視することがそれを検出するのに効果的である可能性があると観察している。

まれに、モデルは強い目標を追求するように指示されていない場合でもスキーミングを行うことがある。この場合、スキーミングは著しく少ないと研究者たちは述べている。具体的には、モデルが直接監視されていないと信じる場合や、配備されるためにトレーニングの目標に合致しているふりをしている場合に、このようなことが起こる可能性がある。

最終的な評価では、サンドバッグ、すなわち思考過程に何も外部化せずに低パフォーマンスを示す可能性に焦点を当てている。これは自己指向のスキーミングのカテゴリーに入る。この場合、モデルは特定の閾値を超えると、開発者がいくつかの能力の学習解除を引き起こすと信じるように導かれる。研究者たちは、sonnet-3.5、opus-3、o1などのより高度なモデルがこのような行動を示す可能性があることを発見した。

他の研究と同様に、これらの結果はまだ予備的なものであり、制限があり、さらなる精査が必要だ。それでも、CoT監視やスキーミングを避けるための特定の指示を含めることが、AIモデルの展開におけるスキーミングのリスクを減らすための合理的な手段となる可能性があることを示している。

元の論文にはここに含めることができない詳細や情報が含まれているため、全体像を把握するために見逃さないようにしてほしい。

作者について

この記事に星をつける

おすすめ度
スタイル

BT