Agentica ProjectのオープンソースAIモデルDeepCoderがOpenAIのO1をコードベンチマークで上回る

原文リンク(2025-06-17)

Agentica ProjectとTogether AIは、Deepseek-R1-Distilled-Qwen-14Bを基盤としたオープンソースAIコードモデルDeepCoder-14B-Previewを公開した。このモデルはLiveCodeBenchで60.6%の合格率を達成し、OpenAIのO1モデルを上回り、O3-miniの性能に匹敵する結果を示した。

DeepCoder-14B-Previewは、Deepseekモデルを基に24,000件のコード問題を含むデータセットで強化学習（RL）を用いて微調整されたモデルだ。開発者は分散型RLフレームワークverlを改良し、エンドツーエンドのトレーニング効率を2倍に向上させた。モデルの作成に関連するすべての成果物、コード、データ、トレーニングログ、verlへの改良点を公開した。さらに、LiveCodeBench、Codeforces、HumanEval、数学ベンチマークAIME2024など複数のベンチマークでモデルを評価した。DeepCoderはこれらすべてで強力な性能を示し、O1やO3-miniのようなクローズドソースの推論モデルと「同等」またはそれ以上のスコアを記録した。プロジェクトチームによると、次のように述べている。

私たちの目標は、LLMのRLトレーニングを民主化することです。データセット、コード、トレーニングレシピを完全に共有することで、コミュニティが私たちの成果を再現し、RLトレーニングを誰でも可能にすることを目指しています。RLのスケーリングを進化させることは、共同体が主導する取り組みであり、オープンソースの貢献やスポンサーシップを歓迎します。LLM推論のためのRLの限界を押し広げるために、共に取り組みましょう。

DeepCoderチームはトレーニングプロセスに関する詳細や克服した課題についても公開した。まず、「高品質で検証可能な」コード問題のトレーニングデータが不足している点だ。多くの人気データセットは「ノイズが多い、または検証不可能な問題を含む」か、モデルが簡単に解けるものばかりだった。トレーニングデータセットを作成するため、チームは検証可能な解答と少なくとも5つの単体テストを含む問題のみを保持する自動化パイプラインを開発した。

また、RLトレーニングのボトルネックである「サンプリング」、つまりトレーニング中のモデルで推論するプロセスにも対応した。解決策としてプロセスをパイプライン化し、トレーニングと推論を並行して実行し、次のトレーニングバッチに推論結果を使用する方法を採用した。この方法により、トレーニングの反復時間を1.4倍短縮した。

コードモデルの性能とモデルパラメータの比較

LiveCodeBenchでのPass@1精度とモデルサイズの関係。画像出典：Together AI Blog

Redditでのモデルに関する議論では、あるユーザーが次のように述べた。

14bバージョンのq4量子化をollamaで試してみましたが、非常に感銘を受けました。このサイズで試した中では間違いなく最高のモデルです。本当にo3‑mini lowと同じくらい良いかどうか結論を出すには、もっとテストが必要ですが（というのも私はo3‑mini mediumしか使ったことがないので）、日常のタスクでの初期テストでは、確実に4oを超えていると感じました。

Andrew Ng氏のニュースレターThe BatchはDeepCoderを称賛し、次のように述べた。

コードに強化学習を適用することは有効ですが、2つの大きな課題があります。(i) 検証可能なコードのトレーニング例が比較的少ないこと、(ii) コードの報酬信号を計算するのに時間がかかることです。これは多くのテストケースを評価する必要があるためです。DeepCoder-14B-Previewの最適化により、この複雑さが軽減され、RLトレーニング期間が数か月から数週間に短縮されました。これらの最適化はTogether AIとAgenticaによるオープンソースRLライブラリVerl-pipelineに組み込まれており、開発者にとってモデルトレーニングの強力なツールとなっています。

推論レシピをオープンソース化したDeepCoderチームに敬意を表します。RLをうまく実行するノウハウを持つ企業は一握りですが、多くのチームはまだ実装を成功させることに苦労しています。RLトレーニング手法やデータキュレーション技術のオープンレシピは、分野を前進させるために重要です。

DeepCoder-14B-PreviewのトレーニングコードはGitHubで公開されている。モデルファイルはHuggingfaceからダウンロード可能だ。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

Agentica ProjectのオープンソースAIモデルDeepCoderがOpenAIのO1をコードベンチマークで上回る

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。