BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース RWKVプロジェクト、LLM "Eagle 7B"をオープンソース化

RWKVプロジェクト、LLM "Eagle 7B"をオープンソース化

原文リンク(2024-03-12)

RWKVプロジェクトはこの程、75.2億パラメータの大規模言語モデル(LLM)である、Eagle 7Bをオープンソース化した。Eagle 7Bは、100以上の言語の1.1兆トークンのテキストで学習され、多言語ベンチマークにおいて他の同サイズのモデルを凌駕している。

Eagle 7BはReceptance Weighted Key Value(RWKV)アーキテクチャに基づいており、TransformerとRecurrent Neural Network (RNN)の両方の利点を併せ持ちながら、それらの欠点を減らした注目不要のTransformerとして説明されている。このアーキテクチャはまた、トークンあたりのジュールで測定されるエネルギー効率が最も高いものとしてベンチマークされている。Eagle 7Bは、MistralFalconLlama 2を含む他の7BパラメータLLMを、いくつかの多言語ベンチマークで上回っている。RWKVプロジェクトはLinux Foundationの支援を受けており、Eagle 7BはApache 2.0ライセンスで、個人・商用を問わず利用できる。プロジェクト・チームによれば、

RWKVは、シーケンシャル・データにおける複雑な関係をモデル化するための、スケーラブルで効率的なアーキテクチャの新しい道を開くでしょう。Transformersに代わる多くの製品が同様の主張で提案されていますが、数百億のパラメーターを持つ事前学習済みモデルでその主張を裏付けたのは我々の製品が初めてです。

GoogleがTransformerに関する研究を発表する以前は、RNNベースモデルが多くのAIアプリケーション、特に翻訳などの多言語NLP領域における最先端のソリューションだった。RNNのトレーニングには課題があり、その固有のシリアルな性質がTransformerよりも遅いため、Transformerは魅力的な代替手段だった。しかし、Transformerにも欠点がある。特に、その自己アテンションメカニズムは、計算とストレージの両方で2次的な複雑さを持ち、入力コンテキストの長さに制限がある。

これらの問題を解決するために、RWKVは、Attention-Free Transformer(AFT)の変種を使用し、モデルをRNNとして定式化できるように変更している。この定式化により、自己回帰生成に使用される推論時に効率的なモデルとなる。しかし、学習時には、標準的なTransformerと同様に、モデルの行列演算の多くを並列化できる。

RWKVアーキテクチャには既知の限界がある。入力コンテキストの長さに上限はないが、非常に長いコンテキストの「振り返り」を必要とするタスクでは、注意ベースのモデルほどうまくいかない可能性がある。同じ理由で、推論中にプロンプトの情報が失われる可能性があるため、「注意深く設計されたプロンプト」も必要となる。

Hacker Newsに掲載されたEagle 7Bに関するディスカッションで、あるユーザーがその利点をアピールしている。

これらのモデルはコンテキストのサイズが固定されておらず、より長いコンテキストに対して徐々にファインチューニングされています。コンテキストの長さは推論コストにも影響しません。性能のもう一つの側面は、訓練されたモデルがどれだけ性能がいいかということだけではなく、データ効率(訓練されたトークンあたりの性能)がいいかということです。

RWKVのリード開発者であるPeng Bo氏は、Xにこのモデルについて投稿し、同氏が「チェック不可能」と呼ぶベンチマーク、つまりarXivに投稿された新しい論文に対するモデルの当惑度を計算することで、その性能を示した。

Arxivは始まりです。最新のニュース、githubのリポジトリ、arXivの論文、ブログの投稿、Wikiの新エントリーなどを使うことができます。重要なのは、新しいデータでLLMをベンチマークすることです。ChatGPTによっても汚染される可能性はあるが、非常に古い(そして実際にノイズの多い)evalを使うよりはまだましでしょう。

Eagle 7BのコードはGitHubで、モデルの重みはHuggingfaceで利用可能である。

作者について

この記事に星をつける

おすすめ度
スタイル

BT