DeepSeekはマルチモーダルモデルJanusのアップデート版、Janus-Proをリリースした。新モデルはトレーニング戦略、データスケーリング、モデルサイズを改善し、マルチモーダル理解とテキストから画像への生成能力を向上させている。
Janus-Proは理解タスクと生成タスクのための視覚エンコーディングを分離し、安定性とパフォーマンスの問題に対処している。このモデルは、テキストから画像への生成を強化するために合成美的データを取り入れており、単一トランスフォーマーアーキテクチャを維持しながらマルチモーダル理解と生成のための視覚エンコーディング経路を分離する自己回帰フレームワークに従っている。この設計により柔軟性が向上し、ビジュアルエンコーダロールの競合が軽減され、統一された構造を維持しながらタスク特化型モデルと競争力のあるパフォーマンスを達成している。
Janus-Proはマルチモーダル理解と視覚生成のパフォーマンスを向上させている。マルチモーダル理解はPOPE、MME-Perception(スケールされた)、GQA、MMUの平均精度を用いて測定される。ビジュアル生成はGenEvalとDPG-Benchを使用して評価される。Janus-Proはこれ迄の統合マルチモーダルモデルや一部のタスク特化型モデルを上回るパフォーマンスを示している。
このモデルはDeepSeek-LLM-1.5BとDeepSeek-LLM-7Bをベースにしている。より大きなモデルはMMBenchやGenEvalなどのベンチマークでより良いパフォーマンスを示している。ビジョンエンコーダとしてSigLIP-Lを使用し、384x384ピクセルの画像入力をサポートしている。画像生成はダウンサンプリングレート16のトークナイザーに依存している。
DeepSeekのJanus-Pro-7BとOpenAIのDALL-E 3は、どちらもテキストから画像への生成において先進的なモデルである。DeepSeekによるとJanus-Pro-7BはGenEvalやDPG-BenchなどのベンチマークでDALL-E 3を上回るパフォーマンスを示している。このパフォーマンスはJanus-Pro-7Bの改良された学習プロセス、データ品質、モデルサイズによるもので、より安定した詳細な画像の生成に寄与している。
DeepSeek Janusのリリースは大きな話題と多くのコメントを生み、Vedang Vatsa FRSA氏はシェアした:
DeepSeekのJanus-Pro-7Bが登場しました。GenEval/DPG-BenchでDALL-E 3とStable Diffusionを上回るパフォーマンスを示しています。理解/生成を分離し、安定した画像生成のためにデータ/モデルをスケールしています。統合され、柔軟性があり、コスト効率に優れています。オープンソースの勝利です!
AI専門家 Huzaifa Shoukat氏が投稿した:
DeepSeekの新しいJanus Proモデルは印象的です。画像を理解し、生成もできるマルチモーダルLLMです。1BモデルはTransformers.js経由でWebGPUを使ってブラウザ上で動作します。
Janus-ProはMITライセンスの下、GitHubで利用可能であり、モデルの使用はDeepSeek Model Licenseにより管理されている。セットアップ手順についてはリポジトリを参照することができる。