DeepSeek-V3.2が推論タスクでGPT-5を上回る

原文リンク(2026-01-06)

DeepSeekはDeepSeek-V3.2、オープンソース推論およびエージェント型AIモデル群をリリースした。高計算量版DeepSeek-V3.2-Specialeは、複数の推論ベンチマークにおいてGPT-5を上回り、Gemini-3.0-Proと同等の性能を示している

DeepSeekはDeepSeek-V3.2の開発において3つの新しい技術を適用した。第1にモデルの計算複雑性を削減するDeepSeek Sparse Attention（DSA）と呼ばれるより効率的なアテンション機構を使用した。第2に事前学習よりも多くの計算予算を消費する強化学習フェーズをスケールさせた。第3にモデルのツール利用能力向上のため、エージェント型タスク合成パイプラインを開発した。その結果はコーディング、推論、エージェント型ベンチマークの広範な分野において他のほとんどのオープンモデルを上回り、GPT-5やGemini-3.0-Proといったクローズドな最先端モデルと同等もしくはそれ以上の性能を発揮するモデルだ。しかし、DeepSeekチームは指摘した：

これらの成果にもかかわらず、最先端のクローズドソースモデルと比較するといくつか制約を認識しています……第1に総学習FLOPsが少ないため、DeepSeek-V3.2の世界知識の網羅性は主要なプロプライエタリモデルに依然として及びません。私たちは今後のイテレーションで事前学習の計算量を拡大することでこの知識ギャップに対処する予定です。第2にトークン効率は依然として課題です……今後の研究では効率向上のためにモデルの推論チェーンにおける知能密度の最適化に注力する予定です。第3に複雑なタスクの解決能力は依然として最先端モデルに劣っており、基盤モデルおよびポストトレーニング手法のさらなる改良へのモチベーションになっています。

InfoQは初期DeepSeek-V3のローンチや同社初の推論モデルDeepSeek-R1を含む、DeepSeekのこれまでのリリースを取り上げてきた；いずれも2025年初頭にリリースされている。2025年後半にはDeepSeek-V3.1、単一システムに思考モードと非思考モードを統合したハイブリッド推論モデルについてInfoQが報じている。

DeepSeek-V3.2のベンチマーク性能。画像出典：DeepSeek技術レポート

DeepSeek-V3.2は新しいDSAアテンション機構を使用している点を除き、DeepSeek-V3.1と同じアーキテクチャを採用している。チームはDeepSeek-V3.1のチェックポイントから開始し、DeepSeek-V3.2を生成するために事前学習継続前にコンテキスト長を128Kまで拡張した。Lはコンテキスト長、kはLより十分に小さい値とすると、新しいアテンション機構により計算量はO(L^2)からO(Lk)に削減されており、その結果、「長文コンテキストのシナリオにおいてエンドツーエンドで大幅な高速化」が実現された。

ポストトレーニングにおいてチームはスペシャリスト蒸留を使用している。彼らは特定ドメイン：コーディング、数学、複数のエージェントタスクに特化したスペシャリストモデル群を学習させた。その後これらのスペシャリストモデルがメインモデルをファインチューニングするための合成学習データを生成した。

Hacker NewsのDeepSeek-V3.2に関する議論では、高性能オープンモデルの利点を指摘するユーザーが複数見られた。あるユーザーが書いている：

AIベースのアプリケーションを構築しようとしているなら、ベンダー提供ソリューションと自前のハードウェアでオープンモデルをホスティングする場合のコストを比較するべきですし、比較可能です…それからGPT-5のようなもののコストと比較します。こちらは比較的単純で（100万）トークンあたりのコストはWebサイトから確認できます。DeepSeek（あるいはより実績ある企業を好むならQwen3）を動かすことで、クラウドシステムに比べてどれほどのコスト削減になるかに驚くでしょう…DeepSeekやQwenは他のモデルでは処理不能になるような安価なGPU上でも動作します。

DeepSeek-V3.2のモデルファイルはHuggingfaceからダウンロード可能である。ただし高計算量版DeepSeek-V3.2-Specialeは現時点、DeepSeek社のAPI経由でのみ利用可能となっている。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社、Rust向けQUICおよびHTTP/3を容易にするtokio-quicheをオープンソース化

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

Grab、リアルタイムデータ品質監視をプラットフォームに追加

OpenAIがHarness Engineeringを発表：Codexエージェントが大規模ソフトウェア開発を牽引

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

DeepSeek-V3.2が推論タスクでGPT-5を上回る

OpenAIがFrontierを発表、企業全体でAI エージェントを構築・デプロイ・管理するプラットフォーム

Meta社とHugging Face社、エージェント環境の共有ハブ「OpenEnv」を発表

オープンソースのAgent Sandbox、Kubernetes上でAIエージェントの安全な展開を可能に

AI駆動サイバー脅威と戦うには多層防御がキー、CNCFレポートが明らかに

NVIDIA社のDynamoが、マルチノードLLM推論の課題に対応

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

DeepSeek-V3.2が推論タスクでGPT-5を上回る

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。