BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Metaがスケーラビリティを向上させたByte Latent Transformer LLMをオープンソース化

Metaがスケーラビリティを向上させたByte Latent Transformer LLMをオープンソース化

原文リンク(2025-01-07)

Metaはトークナイザーの代わりにバイトのパッチを処理する学習済み動的スキームを使用するLLMアーキテクチャByte Latent Transformer (BLT)をオープンソース化した。これにより、BLTモデルはLlama 3モデルと同等の性能を50%少ない推論FLOPSで実現できる。

ほとんどのLLMはテキストバイトを固定トークンセットにマッピングするが、これには有名なストロベリー問題を含むいくつかの欠点がある。それに対してBLTはバイトを動的にパッチにグループ化する。小規模言語モデルを使用してシーケンス内の次のバイトのエントロピーを計算し、エントロピーが増加したときに新しいパッチを開始する;基本的に小規模モデルは単語の終わりを予測しており、新しい単語をシーケンス内で生成することに比べて比較的容易なタスクである。BLTはバイトを直接扱うため、スペルミスを含むノイズの多い入力に対してより堅牢である。パッチサイズを増やすことで推論に必要なFLOPSを削減でき、同じ計算予算でより良いパフォーマンスの、より大きなモデルを実現できる。Metaによると、

BLTは新しい次元のスケーリングを実現し、固定された推論予算内でモデルとパッチサイズを同時に増加させることを可能にします。この新しいパラダイムは、実際の設定で一般的に遭遇する計算環境において有利になります。生のバイトデータに直接関与しながら、BLTはデータのロングテールを処理するモデルの能力も向上させ、ノイズの多い入力に対する堅牢性を大幅に改善し、サブワード構造の理解を深めます。全体としてこれらの結果はBLTを従来のトークン化ベースのアプローチに対する有望な代替手段として位置づけ、より効率的で適応可能な言語モデルのためのスケーラブルで堅牢なフレームワークを提供します。

LlamaのようなほとんどのLLMは固定されたトークンのセットで動作し、入力バイトのシーケンスはヒューリスティックを使用してトークンにマッピングされる。トークン化が必要なのは生のバイトでLLMを訓練するとトークンの代わりに膨大な計算量が必要になるためだが、いくつかの欠点もある。単語内の個々の文字をカウントするのに苦労するだけでなく、トークン化はLLMの複数言語の扱いや誤字の読解能力に影響を与える可能性がある。

MetaはBLTを評価する一連の実験を行い、トークンベースのモデルと比較した。彼らは固定された推論計算予算がトークンベースのモデルサイズを決定する一方で、パッチサイズを増やすことでより大きなBLTモデルを実現でき、その結果、モデルの精度が向上することを発見した。またBLTモデルはノイズの多い入力やリソースの少ない言語翻訳などの文字レベルのタスクにおいてLlama 3を上回る性能を示した。しかし研究者たちが新しいモデルをエンドツーエンドで訓練するのではなく、Llama 3モデルをBLTに変換しようとしたところ、いくつかのLLMベンチマークで「重大な」性能低下が見られた。

RedditでのBLTに関する議論の中で複数のユーザーが、モデルが「ストロベリー問題」を解決するのにBLTがどのように役立つかを指摘した。別のユーザーはこのように書いている:

[BLT]は100%進むべき方向です。また、任意のデータやファイルをバイトで表現できるため、マルチモダリティも簡単になります。ファイルは非常に多く存在します。唯一の問題は、2MBのデータには200万コンテキストサイズが必要になるため、メモリと計算能力の必要条件がまだ十分に満たされていないことです。

BLTのトレーニングおよび推論コードはGitHubで利用可能である。

作者について

この記事に星をつける

おすすめ度
スタイル

BT