DeepSeekはDeepSeek-V3.2、オープンソース推論およびエージェント型AIモデル群をリリースした。高計算量版DeepSeek-V3.2-Specialeは、複数の推論ベンチマークにおいてGPT-5を上回り、Gemini-3.0-Proと同等の性能を示している
DeepSeekはDeepSeek-V3.2の開発において3つの新しい技術を適用した。第1にモデルの計算複雑性を削減するDeepSeek Sparse Attention(DSA)と呼ばれるより効率的なアテンション機構を使用した。第2に事前学習よりも多くの計算予算を消費する強化学習フェーズをスケールさせた。第3にモデルのツール利用能力向上のため、エージェント型タスク合成パイプラインを開発した。その結果はコーディング、推論、エージェント型ベンチマークの広範な分野において他のほとんどのオープンモデルを上回り、GPT-5やGemini-3.0-Proといったクローズドな最先端モデルと同等もしくはそれ以上の性能を発揮するモデルだ。しかし、DeepSeekチームは指摘した:
これらの成果にもかかわらず、最先端のクローズドソースモデルと比較するといくつか制約を認識しています……第1に総学習FLOPsが少ないため、DeepSeek-V3.2の世界知識の網羅性は主要なプロプライエタリモデルに依然として及びません。私たちは今後のイテレーションで事前学習の計算量を拡大することでこの知識ギャップに対処する予定です。第2にトークン効率は依然として課題です……今後の研究では効率向上のためにモデルの推論チェーンにおける知能密度の最適化に注力する予定です。第3に複雑なタスクの解決能力は依然として最先端モデルに劣っており、基盤モデルおよびポストトレーニング手法のさらなる改良へのモチベーションになっています。
InfoQは初期DeepSeek-V3のローンチや同社初の推論モデルDeepSeek-R1を含む、DeepSeekのこれまでのリリースを取り上げてきた;いずれも2025年初頭にリリースされている。2025年後半にはDeepSeek-V3.1、単一システムに思考モードと非思考モードを統合したハイブリッド推論モデルについてInfoQが報じている。
DeepSeek-V3.2のベンチマーク性能。画像出典:DeepSeek技術レポート
DeepSeek-V3.2は新しいDSAアテンション機構を使用している点を除き、DeepSeek-V3.1と同じアーキテクチャを採用している。チームはDeepSeek-V3.1のチェックポイントから開始し、DeepSeek-V3.2を生成するために事前学習継続前にコンテキスト長を128Kまで拡張した。Lはコンテキスト長、kはLより十分に小さい値とすると、新しいアテンション機構により計算量はO(L^2)からO(Lk)に削減されており、その結果、「長文コンテキストのシナリオにおいてエンドツーエンドで大幅な高速化」が実現された。
ポストトレーニングにおいてチームはスペシャリスト蒸留を使用している。彼らは特定ドメイン:コーディング、数学、複数のエージェントタスクに特化したスペシャリストモデル群を学習させた。その後これらのスペシャリストモデルがメインモデルをファインチューニングするための合成学習データを生成した。
Hacker NewsのDeepSeek-V3.2に関する議論では、高性能オープンモデルの利点を指摘するユーザーが複数見られた。あるユーザーが書いている:
AIベースのアプリケーションを構築しようとしているなら、ベンダー提供ソリューションと自前のハードウェアでオープンモデルをホスティングする場合のコストを比較するべきですし、比較可能です…それからGPT-5のようなもののコストと比較します。こちらは比較的単純で(100万)トークンあたりのコストはWebサイトから確認できます。DeepSeek(あるいはより実績ある企業を好むならQwen3)を動かすことで、クラウドシステムに比べてどれほどのコスト削減になるかに驚くでしょう…DeepSeekやQwenは他のモデルでは処理不能になるような安価なGPU上でも動作します。
DeepSeek-V3.2のモデルファイルはHuggingfaceからダウンロード可能である。ただし高計算量版DeepSeek-V3.2-Specialeは現時点、DeepSeek社のAPI経由でのみ利用可能となっている。