Metaがスケーラビリティを向上させたByte Latent Transformer LLMをオープンソース化

原文リンク(2025-01-07)

Metaはトークナイザーの代わりにバイトのパッチを処理する学習済み動的スキームを使用するLLMアーキテクチャByte Latent Transformer (BLT)をオープンソース化した。これにより、BLTモデルはLlama 3モデルと同等の性能を50%少ない推論FLOPSで実現できる。

ほとんどのLLMはテキストバイトを固定トークンセットにマッピングするが、これには有名なストロベリー問題を含むいくつかの欠点がある。それに対してBLTはバイトを動的にパッチにグループ化する。小規模言語モデルを使用してシーケンス内の次のバイトのエントロピーを計算し、エントロピーが増加したときに新しいパッチを開始する；基本的に小規模モデルは単語の終わりを予測しており、新しい単語をシーケンス内で生成することに比べて比較的容易なタスクである。BLTはバイトを直接扱うため、スペルミスを含むノイズの多い入力に対してより堅牢である。パッチサイズを増やすことで推論に必要なFLOPSを削減でき、同じ計算予算でより良いパフォーマンスの、より大きなモデルを実現できる。Metaによると、

BLTは新しい次元のスケーリングを実現し、固定された推論予算内でモデルとパッチサイズを同時に増加させることを可能にします。この新しいパラダイムは、実際の設定で一般的に遭遇する計算環境において有利になります。生のバイトデータに直接関与しながら、BLTはデータのロングテールを処理するモデルの能力も向上させ、ノイズの多い入力に対する堅牢性を大幅に改善し、サブワード構造の理解を深めます。全体としてこれらの結果はBLTを従来のトークン化ベースのアプローチに対する有望な代替手段として位置づけ、より効率的で適応可能な言語モデルのためのスケーラブルで堅牢なフレームワークを提供します。

LlamaのようなほとんどのLLMは固定されたトークンのセットで動作し、入力バイトのシーケンスはヒューリスティックを使用してトークンにマッピングされる。トークン化が必要なのは生のバイトでLLMを訓練するとトークンの代わりに膨大な計算量が必要になるためだが、いくつかの欠点もある。単語内の個々の文字をカウントするのに苦労するだけでなく、トークン化はLLMの複数言語の扱いや誤字の読解能力に影響を与える可能性がある。

MetaはBLTを評価する一連の実験を行い、トークンベースのモデルと比較した。彼らは固定された推論計算予算がトークンベースのモデルサイズを決定する一方で、パッチサイズを増やすことでより大きなBLTモデルを実現でき、その結果、モデルの精度が向上することを発見した。またBLTモデルはノイズの多い入力やリソースの少ない言語翻訳などの文字レベルのタスクにおいてLlama 3を上回る性能を示した。しかし研究者たちが新しいモデルをエンドツーエンドで訓練するのではなく、Llama 3モデルをBLTに変換しようとしたところ、いくつかのLLMベンチマークで「重大な」性能低下が見られた。

RedditでのBLTに関する議論の中で複数のユーザーが、モデルが「ストロベリー問題」を解決するのにBLTがどのように役立つかを指摘した。別のユーザーはこのように書いている：

[BLT]は100%進むべき方向です。また、任意のデータやファイルをバイトで表現できるため、マルチモダリティも簡単になります。ファイルは非常に多く存在します。唯一の問題は、2MBのデータには200万コンテキストサイズが必要になるため、メモリと計算能力の必要条件がまだ十分に満たされていないことです。

BLTのトレーニングおよび推論コードはGitHubで利用可能である。

作者について

Anthony Alford

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

AnthropicがMCPトンネルを導入、内部システムへのプライベート・エージェントアクセスのため

Claude CodeがDynamic Workflowsを追加、並列エージェント連携のため

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Platform Engineering Labs社、formaeをマルチクラウド対応に拡張

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027

Metaがスケーラビリティを向上させたByte Latent Transformer LLMをオープンソース化

作者について

Anthony Alford

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。