昨年5月に初期プレビュー版が公開されたGemma 3nが正式に利用可能となった。モバイル優先のオンデバイスAIアプリケーションを対象としており、効率を向上させ、性能を改善するための新しい技術、Per-Layer EmbeddingsやTransformer Nestingといった手法が含まれる。
Gemma 3nは総パラメータ数を維持しつつ、モデルを実行する際に必要なRAMを削減するためにPer-Layer Embeddings(PLE)を使用する。この技術はコアとなるトランスフォーマーの重みを、通常はVRAM だがアクセラレーテッドメモリにのみロードし、それ以外のパラメータはCPUに保持することにより構成される。具体的には5億パラメータのモデルではアクセラレータにロードする必要があるのは2億パラメータのみ;8億パラメータのモデルでは4億パラメータとなる。
もう一つの斬新な手法はMatFormer(Matryoshka Transformerの短縮形)で、例えば4Bパラメータの大規模モデルを2Bパラメータの小規模バージョンを含む形に構成するためにTransformerをネスト化する。このアプローチはGoogleがエラスティック推論と呼ぶ機能を可能にし、開発者がフルモデルまたは高速で完全機能を備えたサブモデルを選択できるようにする。MatFormerはMix-n-Matchメソッドもサポートしており、開発者が中間サイズバージョンを作ることもサポートする:
この技術は主にレイヤーごとのフィードフォワードネットワークの隠れ次元(8192から16384まで)を調整し、一部のレイヤーを選択的にスキップすることにより、E4Bモデルのパラメータを正確にスライスできるようにします。
将来的にはGemma 3nは完全なエラスティック推論をサポートし、現在のタスクやデバイス負荷に応じてフルモデルとサブモデル間をその場で動的に切り替えることが可能になる。
Gemma 3nの推論を加速するためのもう一つの新機能は_KVキャッシュ共有_であり、ストリーミング応答アプリケーションにおける重要な指標である最初のトークンまでの時間短縮を目的としている。この技術はGoogleによると特に長いコンテキストで効率的である:
ローカルおよびグローバルアテンションの中間層のキーと値がトップレイヤーすべてと直接共有されることで、Gemma 3 4Bと比較してプリフィル性能が2倍向上します。
Gemma 3nはオーディオおよびビデオエンコーダーを備えたネイティブマルチモーダル機能も提供する。オーディオ面ではオンデバイスの自動音声認識および音声翻訳を可能にする。
エンコーダーは160msごとに1つのトークンを生成し(約1秒間に6トークン)、それらを言語モデルへの入力として統合することで、音声コンテキストの詳細な表現を提供します。
Googleは英語とスペイン語、フランス語、イタリア語、ポルトガル語間の翻訳で強力な結果を観察したと述べている。Gemma 3nのオーディオエンコーダーはストリーミングアーキテクチャのおかげで任意の長さの音声を処理可能だが、リリース時点では最大30秒のクリップに制限される。
最後にGemma 3nがGoogle Pixelデバイス上で256x256、512x512、768x768ピクセルの解像度をサポートし、最大60フレーム/秒を処理できることは強調する価値がある。Gemma 3と比較して量子化を使用した場合は13倍の速度向上(量子化なしでは6.5倍)を実現し、メモリ使用量は4分の1に削減されている。