Google AI Ultraサブスクリプションの一環として提供されるGemini 2.5 Deep Thinkは、並列思考技術と推論時間を拡張することでクリエイティブな問題解決に特化したモデルである。
クリエイティブな発想、戦略的計画、そして段階的なアプローチを必要とする高度な問題解決を目的として、Deep Thinkが設計された。 反復型開発や反復設計、科学的発見や数学的発見、アルゴリズムの開発などへの活用が期待されている。
現在は、2025年度国際数学オリンピック(IMO)金メダリスト並みの思考能力を示したモデルをさらに改良・最適化したモデルがリリースされているという。
Gemini Deep Thinkの最上位バージョンは、国際数学オリンピック(IMO)の出題問題6問のうち5問に完璧な回答を導き出し、合計35点を獲得しました。金メダリストに並ぶ成果です。 このときの解答はオンラインで閲覧が可能です。
グーグルは、この金メダリスト並みのモデルが複雑な問題解決の推論に数時間を要する一方、最新モデルは推論の深さと推論速度をトレードオフすることで高速化を実現しており、より実用的で普段使いに最適だと発表している。自社モデルのAlphaProofやAlphaGeometryで出場した2024年の国際数学オリンピック(IMO)競技会では、専門家が出題問題を自然言語からドメイン固有言語に変換し、そこから回答生成までにさらに三日間が必要であった。同社としては、こうした前年からの進歩を強調したい狙いがあるのだろう。
Gemini Deep Thinkは複数の代替解を並行生成し、推論プロセス全体でそれらを修正または統合した最適解にたどり着くことができるという。しかし、こうした平行思考を用いたアプローチには推論にコンテキストウィンドウを大きくする必要があるため、チャットなどのインタラクティブコンテンツへの使用には不向きだ。グーグルは、このモデルでは推論速度の低下やタイムアウトなどの問題が生じることがあるとしている。
他のGeminiファミリーと大きく異なるもう一つ点は、訓練に最新の強化学習技術を使用している点である。こうした訓練で推論経路の拡張を活用し、複数の仮説の同時検証が可能になっている。 また、精度の高い数学問題の解答をキュレートしたコーパスへアクセスできるようになっていることも、同モデルの大きな進歩の一つである。
グーグルは、Gemini 2.5 Deep ThinkがLiveCodeBench V6やHumanity’s Last Exam(人類最後の試験)などのベンチマークで最先端水準のパフォーマンスを叩き出したと公表している。
Redditでは、アーリーアダプターから有料ユーザーにもクエリの実行回数に上限が設けられているとの不満が寄せられている。リリース直後のクエリ回数制限は1日5回であったが、後日倍の10回にまで増えたという。一部のコメントでは、同モデルの運用に高いコストがかかっており、大量のGemini Proモデルを並行稼働させた場合と匹敵するとの見解が述べられている。
Geminiファミリーの別モデルと同じく、Gemini Deep Thinkにも、MoEアーキテクチャが採用されており、テキスト入力、画像入力、音声入力に対応したネイティブマルチモーダルに対応している。また、100万トークン対応の入力コンテキストウィンドウや192000トークンの出力ウィンドウもサポートしている。
グーグルからは、最適化されたDeep ThinkモデルがGoogle AI Ultraのプラン加入者にリリースされているほか、研究コミュニティ向けにオリンピックモデルも公表されている。