Google社は、現在の生成AIブームの火付け役であるトランスフォーマーモデルを音楽レコメンドに活用するアプローチについて説明した。現在YouTubeで実験的に適用されているこのアプローチは、音楽を聴く際のユーザーの一連の行動を理解し、そのコンテキストに基づいてユーザーの好みをより的確に予測できるレコメンダーを構築することを目的としている。
レコメンダーは、楽曲を聴く、スキップする、「いいね!」を押すなど、さまざまなユーザー行動から得られる情報を活用し、ユーザーが興味を持ちそうなアイテムについてレコメンデーションを行う。
Google社の研究者によれば、現在の音楽レコメンダーが失敗する典型的なシナリオは、ユーザーのコンテキストが変化したときである。このようなコンテキストの変化は、例えばリラックスできる音楽からアップビートな音楽へと、異なるジャンルやリズムへの音楽嗜好の変化を生み出す可能性がある。Google社の研究者によれば、このようなコンテキストの変化を考慮しようとすると、ユーザーの現在のコンテキストの中でのユーザーの行動を理解する必要があるため、レコメンデーションシステムのタスクは非常に難しくなるという。
トランスフォーマーアーキテクチャは、NLPやより一般的な大規模言語モデル(LLM)が示すように、入力データのシーケンスを理解するのに特に適しているからだ。Google社の研究者たちは、トランスフォーマーアーキテクチャが、ユーザーの文脈に基づく言語と同じように、ユーザーの一連の行動を理解する能力を示すかもしれないと確信している。
自己アテンション層は、文章中の単語間の関係を捉えていることから、ユーザーの行動間の関係も解決できる可能性が示唆されます。トランスフォーマーのアテンション層は、入力文の単語関係に似た、入力の断片(トークン)間のアテンションの重みを学習します。
Google社の研究者たちは、トランスフォーマーアーキテクチャを、生成モデルから、現在のユーザーコンテキストに基づく連続的なユーザー行動の理解に適応させることを目指している。そして、この理解をパーソナライズされたランキングモデルと融合することで、レコメンデーションを生成する。ユーザーの行動がコンテキストによって異なる意味を持つことを説明するために、研究者達は、ジムで音楽を聴いているユーザーが、よりアップビートな音楽を好むかもしれないことを語っている。通常、家にいるときはそのような音楽をスキップするため、ジムでのこの行動は注目度が低くなるはずだ。言い換えれば、レコメンダーはユーザーのコンテキストとグローバルユーザーのリスニング履歴で異なるアテンションウェイトを適用する。
私達は、ユーザーが以前聴いていた音楽を利用しつつ、普段聴いている音楽に近いアップビートな音楽を勧めます。事実上、私達は、音楽をランク付けするという現在のタスクにおいて、過去のどの行動が関連性があり、関連性がないかを学習しているのです。
その仕組みを簡単にまとめると、Google社のトランスフォーマー型レコメンダーは、典型的なレコメンデーションシステムの構造に従っており、3つの異なるフェーズで構成されている。コーパスやライブラリからアイテムを検索し、ユーザーの行動に基づいてそれらをランク付けし、ユーザーに選択範囲を狭めるためにそれらをフィルタリングする。アイテムをランク付けする際、システムは既存のランク付けモデルにトランスフォーマーを組み合わせる。各トラックはトラックエンベッディングと呼ばれるベクトルに関連付けられ、トランスフォーマーとモデルの両方に使用される。ユーザーの行動やトラックメタデータに関連する信号は、同じ長さのベクトルに投影されるので、トラックエンベッディングのように操作できる。例えば、トランスフォーマーに入力を提供するとき、ユーザーアクションの埋め込みと音楽トラックの埋め込みは、トークンを生成するために単純に足し合わされる。最後に、トランスフォーマーの出力は、多層ニューラルネットワークを使ってランキングモデルの出力と組み合わされる。
Google社の研究者によると、初期の実験では、スキップ率の減少やユーザーが音楽を聴く時間の増加など、レコメンダーの改善が見られたという。