DeepSeekが新たなオープンソースAIモデル、Janus Proをリリース

原文リンク(2025-01-31)

DeepSeekはマルチモーダルモデルJanusのアップデート版、Janus-Proをリリースした。新モデルはトレーニング戦略、データスケーリング、モデルサイズを改善し、マルチモーダル理解とテキストから画像への生成能力を向上させている。

Janus-Proは理解タスクと生成タスクのための視覚エンコーディングを分離し、安定性とパフォーマンスの問題に対処している。このモデルは、テキストから画像への生成を強化するために合成美的データを取り入れており、単一トランスフォーマーアーキテクチャを維持しながらマルチモーダル理解と生成のための視覚エンコーディング経路を分離する自己回帰フレームワークに従っている。この設計により柔軟性が向上し、ビジュアルエンコーダロールの競合が軽減され、統一された構造を維持しながらタスク特化型モデルと競争力のあるパフォーマンスを達成している。

Janus-Proはマルチモーダル理解と視覚生成のパフォーマンスを向上させている。マルチモーダル理解はPOPE、MME-Perception（スケールされた）、GQA、MMUの平均精度を用いて測定される。ビジュアル生成はGenEvalとDPG-Benchを使用して評価される。Janus-Proはこれ迄の統合マルチモーダルモデルや一部のタスク特化型モデルを上回るパフォーマンスを示している。

このモデルはDeepSeek-LLM-1.5BとDeepSeek-LLM-7Bをベースにしている。より大きなモデルはMMBenchやGenEvalなどのベンチマークでより良いパフォーマンスを示している。ビジョンエンコーダとしてSigLIP-Lを使用し、384x384ピクセルの画像入力をサポートしている。画像生成はダウンサンプリングレート16のトークナイザーに依存している。

DeepSeekのJanus-Pro-7BとOpenAIのDALL-E 3は、どちらもテキストから画像への生成において先進的なモデルである。DeepSeekによるとJanus-Pro-7BはGenEvalやDPG-BenchなどのベンチマークでDALL-E 3を上回るパフォーマンスを示している。このパフォーマンスはJanus-Pro-7Bの改良された学習プロセス、データ品質、モデルサイズによるもので、より安定した詳細な画像の生成に寄与している。

DeepSeek Janusのリリースは大きな話題と多くのコメントを生み、Vedang Vatsa FRSA氏はシェアした：

DeepSeekのJanus-Pro-7Bが登場しました。GenEval/DPG-BenchでDALL-E 3とStable Diffusionを上回るパフォーマンスを示しています。理解/生成を分離し、安定した画像生成のためにデータ/モデルをスケールしています。統合され、柔軟性があり、コスト効率に優れています。オープンソースの勝利です！

AI専門家 Huzaifa Shoukat氏が投稿した：

DeepSeekの新しいJanus Proモデルは印象的です。画像を理解し、生成もできるマルチモーダルLLMです。1BモデルはTransformers.js経由でWebGPUを使ってブラウザ上で動作します。

Janus-ProはMITライセンスの下、GitHubで利用可能であり、モデルの使用はDeepSeek Model Licenseにより管理されている。セットアップ手順についてはリポジトリを参照することができる。

作者について

Daniel Dominguez

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Daniel Dominguez

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社、Rust向けQUICおよびHTTP/3を容易にするtokio-quicheをオープンソース化

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

Grab、リアルタイムデータ品質監視をプラットフォームに追加

OpenAIがHarness Engineeringを発表：Codexエージェントが大規模ソフトウェア開発を牽引

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

OpenAIがFrontierを発表、企業全体でAI エージェントを構築・デプロイ・管理するプラットフォーム

Meta社とHugging Face社、エージェント環境の共有ハブ「OpenEnv」を発表

OpenAI、QCon AI NYCで企業向けのファインチューニングを発表

オープンソースのAgent Sandbox、Kubernetes上でAIエージェントの安全な展開を可能に

AI駆動サイバー脅威と戦うには多層防御がキー、CNCFレポートが明らかに

NVIDIA社のDynamoが、マルチノードLLM推論の課題に対応

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

DeepSeekが新たなオープンソースAIモデル、Janus Proをリリース

作者について

Daniel Dominguez

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。