Stability AIが70億パラメータのオープンソースな言語モデル「StableLM」を公開

Stability AIは、大規模言語モデル（LLM）スイートであるStableLMのための訓練済み重みづけモデルを2セット公開した。これらのモデルは、1.5兆個のテキストトークンで学習済で、CC BY-SA-4.0の下で商用利用が許可されている。

リリースされたモデルにはそれぞれ3Bと7Bのパラメータが含まれており、より大規模なモデルも近日中にリリース予定だ。トレーニングデータセットは、EleutherAIのThe Pileデータセットのアップデート版で、EleutherAIのモデルのトレーニングに使用されるデータは3倍である。また、StanfordのAlpacaデータセットを含む、命令フォローとチャットデータセットで微調整されたStableLMモデルのバージョンも含まれている。なお、微調整したモデルは、Alpacaのライセンス要件に基づき、非商用に限り利用可能である。Stability AIは次のように言及している。

StableLMモデルの公開により、Stability AIは、基礎的なAI技術をすべての人に届け続けたいと考えています。このモデルは、テキストとコードを生成でき、さまざまなダウンストリームアプリケーションを支援します。私たちの言語モデルは正しく学習させることで小さく効率的なモデルが高いパフォーマンスを出せることを示すものです...言語モデルはデジタル経済のバックボーンを形成するようになるでしょうし、誰もがそのデザインに意見を言える状態にしたいと考えています。私たちはStableLMのようなモデルを通じて透明性が高く、アクセスしやすく、支援的なAI技術に対するコミットメントを示したいのです。

OpenAIのGPT-3のような生成的LLMの成功は、同様の機能を持つ小規模なオープンソースモデルの開発に拍車をかけた。2022年、InfoQはEleutherAIのオープンソース20BパラメータLLMであるGPT-NeoX-20Bのリリースを取り上げ、さらに最近ではMetaの7BパラメータLLaMA LLMを取り上げたのである。OpenAIが公開したChatGPTは、LLMを "命令に従う"データセットで微調整することで性能が向上することを示し、LLaMAを微調整したスタンフォードのAlpacaなどの類似モデルの公開につながった。

StableLMのモデルは3Bと7Bパラメータのモデルだけがリリースされているが、Stability AIによると15B、30B、65Bのパラメータのモデルを準備中で、さらに175Bパラメータのモデルも予定されている。またチャットボットのアシスタントを微調整するためのオープンソースのデータセットをクラウドソーシングし、OpenAssistantなどのプロジェクトの取り組みを促進するとしているのだ。Stability AIはモデルのベンチマーク性能データを発表していないが、"会話やコーディング作業において驚くほど高い性能を発揮する "と主張している。

このリリースに関するHacker Newsでのディスカッションでは、あるユーザーがこう語っている。

リモートAPIを介してLLMへのアクセスを販売することは技術開発の "ラジオでの舞台劇"段階です。実際には何の意味もなくビジネスパーソンが慣れているだけなのです。それは長くは続かないでしょう。デバイスで動かすことでもっと多くの価値が引き出されます。フィーチャーフォンのために携帯電話会社に月々5ドル払うようなものです。

Stability社のCEOであるEmad Mostaque氏は、Twitterの"ask me anything" スレッドでStableLMに関する質問に答えている。モデルの訓練に使用するハードウェアについて質問されると、"3,000台のA100と512台のTPU v4 "を使用しているとのことだ。

StabilityのLLMリードであるStanislav Fortは、Twitterで役に立つヒントを投稿した。

初期のStableLMモデルについては、プロンプトに "User: "を追加してみて欲しい。これらのモデルの学習方法のため、evalsの前に "User: " を追加することで、事態はずっと良くなるはずだ。

StableLMモデルのコードはGitHubで、重みづけモデルとチャットインターフェイスのデモは、HuggingFaceで公開されている。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

Mezzalira氏のQCon London講演：「マイクロフロントエンド～設計から企業メリットと社内実装まで～」

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

Transformers v5、よりモジュール化され相互運用性の高いコアを導入

OpenAI、GPT-5.1モデルを発表。より高速で会話的に

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

Groupe SNCF、Talos OSとKubernetesでインフラを近代化

QCon London

QCon AI Boston

QCon San Francisco

Stability AIが70億パラメータのオープンソースな言語モデル「StableLM」を公開

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。