中国科学院大学(UCAS)の研究者が最近、音声データとテキストデータの両方で動作するLLM、LLaMA-Omniをオープンソース化した。LLaMA-OmniはMetaのLlama-3.1-8B-InstructLLMをベースにしており、類似のベースラインモデルを凌ぐ性能を持ちながら、少ない学習データと計算量で動作する。
LLaMa-Omniのアーキテクチャは、入力に音声エンコーダ、出力に音声デコーダを含むことでLlama-3を拡張している。スタンドアロンの音声認識(SR)やテキスト音声合成(TTS)モジュールをLLMと直列に使用する他の方式に比べ、このアーキテクチャは入力音声プロンプトから出力音声生成までの待ち時間を短縮する。このモデルは、UCASチームが作成したカスタムデータセットInstructS2S-200Kで微調整された。これは、20万個の音声プロンプトと、それに対する予想される返答を収録している。研究者によれば次のように述べている。
実験結果によると、[ベースライン]音声言語モデルと比較して、LLaMA-Omniは、応答遅延が226msと短く、内容とスタイルの両方で優れた応答を提供します。さらに、LLaMA-Omniのトレーニングは、4つのGPUで3日未満で済み、最新のLLMに基づく音声対話モデルの迅速な開発が可能です。将来的には、生成される音声応答の表現力を高め、リアルタイム対話能力を向上させることを探求する予定です。
研究チームは、LLaMa-Omniの性能を、音声対テキスト指示追従(S2TIF)と音声対音声指示追従(S2SIF)の2つのタスクで評価し、Qwen2-Audioを含む他のベースラインモデルと比較した。評価データセットはAlpaca-Evalのサブセットであり、合計199のプロンプトが含まれる。チームはまた、音声ベースのプロンプトを生成するために、プロンプトをTTSシステムに入力した。
研究チームは、GPT-4oを用いて各モデルの出力を自動的に採点し、内容(出力がユーザーの指示を達成しているか)とスタイル(出力が音声対話に適しているか)を判定した。S2TIFタスクでは、LLaMA-Omniはスタイルでベースラインを上回り、S2SIFタスクでは、コンテンツとスタイルの両方で上回った。
Hacker Newsに掲載されたLLaMa-Omniに関するディスカッションで、あるユーザーは、音声とテキストのエンドツーエンドモデルと、スタンドアロンコンポーネントのカスケードシステムの利点を指摘している。
基本的に、音声からテキストへのデータロスがあります。そのロスは重要でない場合もあるが、出力品質を向上させる意味のある場合もあります。しかし、応答の遅延の改善、話者の記録の改善、会話の間への反応の改善など、他にも潜在的な利点があります。
Redditのユーザーも、このモデル、特に音声エンコーディングにOpenAIのWhisperモデルを使用していることについてコメントしている。
この入力アプローチは、LLaVAがLlamaとCLIPのグルーレイヤーをトレーニングすることで画像理解を追加したのと似ています。LLaMA-Omniは、LLaVAがCLIPを使うように、ささやき声をエンコーダーとして使います。そして、その埋め込みは、基礎となるLlamaモデルの特徴空間に投影されます。私は彼らの音声出力アーキテクチャをすぐには理解できなかったので、それについてはコメントできません。
LLMへの音声入出力の統合は、増加傾向にある。今年の初め、InfoQはOpenAIのGPT-4 omniのリリースを取り上げた。これは、音声データを扱うためにエンドツーエンドで学習されたGTP-4のバージョンである。InfoQはまた、AlibabaのオープンウェイトのQwen2-Audioも取り上げた。これは音声入力を扱えるが、出力はテキストのみである。
LLaMa-OmniのモデルファイルはHuggingfaceで入手できる。