InfoQ ホームページ ai-interpretability に関するすべてのコンテンツ
ニュース
RSSフィード-
Anthropicの「AI顕微鏡」が大規模言語モデルの内部構造を探る
Anthropicが最近発表した2つの論文は、大規模言語モデルの内部で起こるプロセスを明らかにしようとする試みで、解釈可能な概念を特定し、それを言語化する計算「回路」に結びつける方法と、ハルシネーション、プランニング、その他の主要な特徴を含むClaude Haiku 3.5の重要な挙動を特徴付ける方法を探求している。