BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Meta社のオープンソースコード世代 LLM Code Llama

Meta社のオープンソースコード世代 LLM Code Llama

Meta社は最近、コード生成LLMであるCode Llamaをオープンソース化した。これはLlama 2の基礎モデルに基づいており、同じコミュニティ・ライセンスが適用されている。Code Llamaは500Bトークンのコードで微調整され、34Bパラメータまでの3つのモデルサイズが利用可能である。コード生成ベンチマークでの評価では、このモデルは他のすべてのオープンソースモデルを上回り、ChatGPTに匹敵した。

Meta社はCode Llama の開始時に、Llama 2の基礎モデルを3つのサイズ(7B、13B、34Bパラメータ)として採用した。これらは、質問や議論のようなコードに関連する自然言語だけでなく、コードの "ほぼ重複した "データセットで微調整された。また、Meta社は基本版以外に、各モデルサイズごとに2つのバリエーションを用意した。Code Llama - Pythonは、Pythonコードでさらに微調整され、Code Llama - Instructは、自然言語命令で微調整される。商業利用ライセンスは全9種類のバージョンがある。 Meta社によれば、

Code Llamaは、研究、産業、オープンソースプロジェクト、NGO、企業など、あらゆる分野のソフトウェアエンジニアをサポートするように設計されている。しかし、基本モデルやインストラクターモデルが提供できるものよりも、サポートすべき使用例はまだまだたくさんある。Code Llamaが他の人達にLlama 2を活用し、研究や商用製品のための新しい革新的なツールを生み出すきっかけになることを願っている。

InfoQは以前、GPT-3をベースとし、Github社のCopilotを動かすOpenAIのCodexを含む、他のコード生成AIモデルを取り上げた。GPTシリーズの他のモデルと同様に、CodexはOpenAIのウェブサービスAPIを通じてのみ利用できる。このため、BigCodeのStarCoderのようなオープンモデルの開発が進められている。StarCoderには、「許認可付ライセンス」コードで学習されるという利点もあり、その出力の使用がライセンス違反につながる可能性は低い。Llama 2とその派生モデル(Code Llamaを含む)は商用利用が許可されているが、Code Llamaのライセンスには、その成果物が "サードパーティのライセンスの対象となる可能性がある "と記載している。

Meta社は、コード上でのモデルの微調整に加えて、モデルが扱える入力の長さを増やすロングコンテキスト・ファインチューニングLCFT)も行った。Llama 2は4kトークンまでのシーケンスで開発されたが、Code LlamaのLCFTは16kまでのシーケンスを含む。Meta社の目標は、「補完や合成のためにリポジトリレベルの推論をアンロックする」ことであり、特定の関数やソースファイルだけでなく、プロジェクト全体のコードにモデルをアクセスさせることだ。メタ社の実験によると、このモデルは100kトークンまでのシーケンスに対して「安定した挙動」を示すという。

このモデルに関するX(旧Twitter)のスレッドで、トロス大学のFurkan Gözükara助教授は、HumanEvalベンチマークでGPT-4が依然としてCode Llamaを上回っていると指摘した。別のユーザーは、GPT-4は「34Bではない」、つまりGPT-4ははるかに大きなモデルだと答えた。プログラマー向けAIアシスタントのphindのメーカーは、34BパラメータバージョンのCode Llama-Pythonを微調整したバージョンをリリースし、HumanEvalで69.5%のpass@1スコアを達成し、GPT-4の公表スコア67%を上回ったと主張している。開発者の一人はHacker Newsで彼らのリリースについて議論し、次のように述べた。

このモデルはまだ始まったばかりで、初期の段階にすぎず、来週には改良が行われる予定だ。

Code LlamaのソースコードはGitHubで公開されている。モデルファイルはMeta社の承認申請後にダウンロードできる。

作者について

この記事に星をつける

おすすめ度
スタイル

BT