Microsoft、小型言語モデルPhi-2を発表

原文リンク(2023-12-19)

Microsoft Researchは、27億パラメータのTransformerベースの言語モデルであるPhi-2を発表した。Phi-2はGPT-3.5によって生成された1.4Tトークンの合成データでトレーニングされ、様々なベンチマークでより大規模なモデルを上回る性能を発揮する。

Phi-2は、MicrosoftのPhiモデル群の最新版であり、Webクローラーされたデータセットと合成された「教科書品質」のデータセットを組み合わせてトレーニングする。以前のPhiモデルには1.3Bのパラメータしか含まれていなかったが、コーディングと推論タスクで優れた性能を示した。Phi-2は従来のモデルの2倍の大きさで、96個のA100 GPUのクラスタで2週間トレーニングされている。推論、言語理解、コーディングのベンチマークにおいて70BパラメータのLlama-2モデルを凌駕し、最大25倍の大きさのモデルに匹敵する性能を持つ。Microsoftは以下のように説明している。

コンパクトなサイズのPhi-2は、研究者にとって理想的なプレイグラウンドであり、メカニズム的な解釈可能性の探求、安全性の向上、様々なタスクの微調整実験などにも適しています。我々は、言語モデルの研究開発を促進するために、Azure AI StudioのモデルカタログでPhi-2を利用可能にしました。

InfoQは最近、大規模な言語モデル（LLM）の能力を小規模なモデルで再現する取り組みをいくつか取り上げた。これらの多くは、ChatGPTのようなLLMを使って、より小さなモデルのための合成トレーニングデータセットを生成している。GoogleのDistilling Step-by-Stepメソッドは、教師LLMに、入力と出力ラベルの両方と、出力ラベルが選ばれた理由の「根拠」を含む、小さな微調整データセットを自動的に生成するよう促す。Microsoft ResearchのOrca 2は、合成トレーニングデータセットとPrompt Erasureと呼ばれる新しいテクニックを使用し、10倍のパラメータ数を含むモデルと同等以上のパフォーマンスを達成する。

Phiシリーズのモデルでもっとも革新的なのは、「教科書のような」データの合成データセットである。研究者たちは、データセットやその生成の詳細な情報を公表していないが、Phiモデルに関する過去の技術レポートにはハイレベルな説明が含まれている。データセットの目標のひとつは、"難易度、複雑さ、スタイル "の異なる「概念、スキル、シナリオ」の範囲をカバーする「多様で繰り返しのない」例を生成することだった。Phi-1.5のために、チームは言語理解問題の生成例として20,000の異なるトピックを選択した。

Microsoft ResearchでML基盤チームを率いるSebastien Bubeck氏は、Phi-2を微調整する追加作業について以下のようにX（旧Twitter）へ投稿している。

phi-2は更なる微調整のための良いベースである。我々は100万個の数学演習(phi-1のCodeExercisesと同様)で[微調整]し、最近のフランスの全国的な数学試験でテストした(phi-2のトレーニング終了後に公開)。結果は励みになる！自分のデータを試してみよう...。

PredeloのAI責任者であるMark Tenenholtz氏も、phi-2について、"知識の蒸留は本当に機能する "と投稿している。Phi-2 に関する Hacker News のディスカッションでとあるユーザーは、モデルのトレーニングにかかる計算コストはおそらく3万ドル程度、つまり "車より安い "と指摘した。また、別のユーザーもこう指摘している。

このモデルはGPT-4で生成されたデータでトレーニングされていることに注意してください。現在のAPI価格でデータを生成するのは、おそらく桁違いにコストが高くなる。これらの論文の要点は、トレーニングデータの質が重要だということだ。私はこれらの企業が重みよりもトレーニングデータを公開することを望む。

Phi-2モデルのウェイトはHuggingFaceで入手できる。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社、Rust向けQUICおよびHTTP/3を容易にするtokio-quicheをオープンソース化

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

Grab、リアルタイムデータ品質監視をプラットフォームに追加

OpenAIがHarness Engineeringを発表：Codexエージェントが大規模ソフトウェア開発を牽引

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

人工知能によって顧客とのつながりはどう変わるか

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

Agentic Postgres：AI対応機能と高速フォークを備えたAgentic Apps向けPostgres

NVIDIAがAI・ロボティクス・自動運転に跨るオープンモデル・データセット・ツールを公開

DeepSeek-V3.2が推論タスクでGPT-5を上回る

Google Cloudは、130,000ノードのGKEクラスターを用いてKubernetesの大規模スケールを実証

オープンソースのAgent Sandbox、Kubernetes上でAIエージェントの安全な展開を可能に

AI駆動サイバー脅威と戦うには多層防御がキー、CNCFレポートが明らかに

Online InfoQ Architect Certification

QCon AI Boston

Online InfoQ Architect Certification

QCon San Francisco

Microsoft、小型言語モデルPhi-2を発表

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。