Agentica ProjectとTogether AIは、Deepseek-R1-Distilled-Qwen-14Bを基盤としたオープンソースAIコードモデルDeepCoder-14B-Previewを公開した。このモデルはLiveCodeBenchで60.6%の合格率を達成し、OpenAIのO1モデルを上回り、O3-miniの性能に匹敵する結果を示した。
DeepCoder-14B-Previewは、Deepseekモデルを基に24,000件のコード問題を含むデータセットで強化学習(RL)を用いて微調整されたモデルだ。開発者は分散型RLフレームワークverlを改良し、エンドツーエンドのトレーニング効率を2倍に向上させた。モデルの作成に関連するすべての成果物、コード、データ、トレーニングログ、verlへの改良点を公開した。さらに、LiveCodeBench、Codeforces、HumanEval、数学ベンチマークAIME2024など複数のベンチマークでモデルを評価した。DeepCoderはこれらすべてで強力な性能を示し、O1やO3-miniのようなクローズドソースの推論モデルと「同等」またはそれ以上のスコアを記録した。プロジェクトチームによると、次のように述べている。
私たちの目標は、LLMのRLトレーニングを民主化することです。データセット、コード、トレーニングレシピを完全に共有することで、コミュニティが私たちの成果を再現し、RLトレーニングを誰でも可能にすることを目指しています。RLのスケーリングを進化させることは、共同体が主導する取り組みであり、オープンソースの貢献やスポンサーシップを歓迎します。LLM推論のためのRLの限界を押し広げるために、共に取り組みましょう。
DeepCoderチームはトレーニングプロセスに関する詳細や克服した課題についても公開した。まず、「高品質で検証可能な」コード問題のトレーニングデータが不足している点だ。多くの人気データセットは「ノイズが多い、または検証不可能な問題を含む」か、モデルが簡単に解けるものばかりだった。トレーニングデータセットを作成するため、チームは検証可能な解答と少なくとも5つの単体テストを含む問題のみを保持する自動化パイプラインを開発した。
また、RLトレーニングのボトルネックである「サンプリング」、つまりトレーニング中のモデルで推論するプロセスにも対応した。解決策としてプロセスをパイプライン化し、トレーニングと推論を並行して実行し、次のトレーニングバッチに推論結果を使用する方法を採用した。この方法により、トレーニングの反復時間を1.4倍短縮した。
LiveCodeBenchでのPass@1精度とモデルサイズの関係。画像出典:Together AI Blog
Redditでのモデルに関する議論では、あるユーザーが次のように述べた。
14bバージョンのq4量子化をollamaで試してみましたが、非常に感銘を受けました。このサイズで試した中では間違いなく最高のモデルです。本当にo3‑mini lowと同じくらい良いかどうか結論を出すには、もっとテストが必要ですが(というのも私はo3‑mini mediumしか使ったことがないので)、日常のタスクでの初期テストでは、確実に4oを超えていると感じました。
Andrew Ng氏のニュースレターThe BatchはDeepCoderを称賛し、次のように述べた。
コードに強化学習を適用することは有効ですが、2つの大きな課題があります。(i) 検証可能なコードのトレーニング例が比較的少ないこと、(ii) コードの報酬信号を計算するのに時間がかかることです。これは多くのテストケースを評価する必要があるためです。DeepCoder-14B-Previewの最適化により、この複雑さが軽減され、RLトレーニング期間が数か月から数週間に短縮されました。これらの最適化はTogether AIとAgenticaによるオープンソースRLライブラリVerl-pipelineに組み込まれており、開発者にとってモデルトレーニングの強力なツールとなっています。
推論レシピをオープンソース化したDeepCoderチームに敬意を表します。RLをうまく実行するノウハウを持つ企業は一握りですが、多くのチームはまだ実装を成功させることに苦労しています。RLトレーニング手法やデータキュレーション技術のオープンレシピは、分野を前進させるために重要です。
DeepCoder-14B-PreviewのトレーニングコードはGitHubで公開されている。モデルファイルはHuggingfaceからダウンロード可能だ。