Google DeepMindは視覚言語モデル(VLM)ファミリー PaliGemma 2をリリースした。PaliGemma 2は3つの異なるサイズと3つの入力画像解像度が利用可能で、複数の視覚言語ベンチマークで最先端の性能を達成している。
PaliGemma 2は2024年にリリースされたPaliGemmaファミリーのアップデート版である。オリジナルのPaliGemmaと同じSigLIP-So400mビジョンエンコーダー を使用しているが、Gemma 2 LLMにアップグレードされている。PaliGemma 2ファミリーは9つの異なるモデルを含んでおり、2B、9B、27BパラメータのLLMサイズと、224、448、896ピクセル平方解像度のビジョンエンコーダーを組み合わせている。研究チームは、PaliGemma 2を様々なベンチマークで評価し、光学式文字認識(OCR)、分子構造認識、放射線レポート生成などで新たな最先端記録を樹立した。Googleによると:
皆さんが PaliGemma 2で何を作るのか、とても楽しみです。活気に満ちたGemmaコミュニティに参加し、プロジェクトをGemmaverseで共有して、AI の無限の可能性を一緒に探求しましょう。これらのモデルの未来を形作り、この領域のイノベーションを推進するためには、皆さんのフィードバックと貢献が欠かせません。
PaliGemma 2は事前学習済みSigLIP-So400mビジョンエンコーダーとGemma 2 LLMを組み合わせたものである。この組み合わせは1Bの例を含むマルチモーダルデータセットでさらに事前学習される。事前学習済ベースモデルに加えて、Googleは画像とそれに対応する詳細説明を集めた(DOCCI)データセットでファインチューニングされたバリエーションもリリースしている。ファインチューニングされたバリエーションは長く、他のVLMが生成するものよりも「事実に基づいた文章」で詳細な画像キャプションを生成できる。
Googleはベンチマーク目的で他のファインチューニングされたバージョンも作成した。ベンチマークタスクにはOCR、表構造認識、分子構造認識、光学楽譜認識、放射線レポート生成、空間推論が含まれている。ファインチューニングされたPaliGemma 2はこれらのタスクのほとんどで従来の最先端モデルを上回る性能を示した。
チームはGPUではなくCPU上で動作する量子化バージョンのモデルの性能と推論速度も評価した。モデルの重みをフル32ビットから混合精度の量子化に削減しても「実用的な品質の差はない」ことが示された。
このモデルに関するHacker Newsのディスカッションであるユーザーはこう書いた:
Paligemmaは訓練が容易でファインチューニングに役立つことが証明されています。その主な欠点は、部分的に再訓練しないと複数の画像を扱えないことでした。この新バージョンは一度に複数の画像を入力として扱うことをサポートしていないようです。Qwen2vlはサポートしています。これは通常、ビジョンRAGに役立ちます。
Gemmaチームのメンバー Glenn Cameron氏はXでPaliGemma 2について書いた。手術ロボットの制御に使うことに関する質問へのレスポンスで、Cameron氏はこう答えた:
ロボットコマンドを生成するよう教えることはできると思います。しかしそのような重大な影響を及ぼすタスクに使うのはためらわれます...モデルの名前がPaLM(Pathways Language Model)であることに注目してください。PaliGemmaの "Pa" は "Pathways" を表しています。これはPaLI(Pathways Language and Image)モデルの系統をGemmaファミリーの言語モデルと組み合わせて継続しているためにそう名付けられています。
InfoQは以前、GoogleのVLMをロボット制御に使用する、Robotics Transformer 2(RT-2)および、PaLMとVision Transformer(ViT)モデルを組み合わせたPaLM-Eを含む取り組みについて取り上げている。
PaliGemma 2のベースモデルおよびファインチューニングされたバージョンとベースモデルをファインチューニングするためのスクリプト はHuggingfaceで入手できる。HuggingfaceではファインチューニングされたPaliGemma 2モデルのWebベースの視覚的質問応答デモ もホストしている。