OpenAIの研究グループが最近発表した論文では、現在のディープニューラルネットワーク(DNN)の限界の1つである「解釈可能性の欠如」を解決するための新しいアプローチの概要が示されている。研究者たちはGPT-4を用いることで、DNNの解釈可能性を自動化するための第一歩として、どのような事象がニューロンの活性化を引き起こすかを解釈する技術を構築することを目的としている。
OpenAIのDNNの解釈可能性のアプローチは、ニューロンの動作に関する解釈の生成、解釈に基づくニューロンの活性化のシミュレーション、解釈に対するスコアの算出という3つのステップで構成されている。
最初のステップではプロンプトがExplainerモデルに送られ、ニューロンの活性化に関する何らかの解釈を生成する。例えば次のような解釈が考えられる。 「ニューロン1の動作の解釈:このニューロンが行う主なことは、コミュニティに関連するフレーズを見つけること。」
次のステップはその解釈を使ってニューロンの動作をシミュレートすることだ。つまり見つかった解釈が正しいという仮説に基づいて特定のシーケンスの各トークンに対してニューロンがどのように活性化するかを決定する。これによりトークンのリストと活性化の確率を表す0から10までの整数が生成される。
第3ステップではシミュレーションと実際のニューロンの動作を比較することで、解釈を得点化することを目的としている。これはシミュレーションのステップで生成されたリストと、同じトークンのリストに対して実際のニューロンが生成した出力を比較することで達成される。このステップは3つのステップの中でもっとも複雑で、異なる結果を生み出す多くの異なるアルゴリズムが認められている。
この戦略によりOpenAIの研究者は確信や信頼に関連するフレーズを表すニューロン、物事がただしく行われたことを表すニューロンなど、自明でないニューロンに対する解釈の可能性を見つけることができたのである。しかし、この結果はまだ予備的なものであり、ニューロンの振る舞いが解釈可能かどうかなど、多くの基本的な疑問が残されていると研究者は述べている。
DNNの解釈可能性は、人間にとって理解しやすく、ドメインアプリケーションに関連する言葉でDNNの動作を解釈するという目標を追求する、非常に多くの研究トピックだ。
解釈可能性はDNNが期待通りに動作しており、信頼に足るかどうかを人間が判断するための鍵だ。この特性はDNNの故障が致命的な結果を引き起こす可能性がある場合に極めて重要だ。さらにエンジニアがDNNの誤作動の根本原因を特定するのにも役立つ。
解釈可能性には倫理的・法的な意味合いもある。例えば欧州の法律では人々はアルゴリズムによる決定に従わない権利と人間の介入を得る権利を有すると定められている。
DNNを解釈するためのOpenAIのアプローチの詳細に興味がある方はプロンプトのサンプルと、スコアリング検証技術、結果、 制限事項、代替評価アルゴリズムに関する完全な議論を含む彼らのオリジナル記事をお見逃しなく。