モバイルやノートパソコンでローカル実行可能な大規模言語モデル MLC LLMを公開

MLC LLMは、大規模言語モデルを様々なハードウェアやアプリケーションに展開することを目的とした新しいオープンソースプロジェクトだ。このプロジェクトにはユースケース毎にモデルのパフォーマンスを最適化するためのフレームワークも含まれている。

私たちのミッションは、誰もが自前のデバイス上でAIモデルをネイティブに開発、最適化、デプロイできるようにすることです。すべてがサーバーに頼ること無くスマホやノートPCのGPUでローカル実行できるようになります。

MLC LLMの基盤にはmachine learning compilation（MLC）と呼ばれるアプローチがあり、MLプログラミングの抽象化、学習駆動型検索、コンパイル、最適化されたライブラリランタイムの組み合わせにより、容易に導入できるようになっている。

サーバーに展開されるケースと比較すると、本プロジェクトはサポートするハードウェアスペックの異質性という課題に直面する。これにはCPU、GPU、その他のコプロセッサやアクセラレータの異なるモデルへの対応、メモリ制約への対応、OS環境の変化への対応が含まれ、例えばPythonや特定のパッケージなどの依存関係が必ずしも認められるとは限らない。

これらの目標を達成するために、MLC LLMは深層学習システム用のコンパイラスタックであるApache TVM Unityをベースに、Hugging FaceやGoogleのトークナイザー、Llama、Vicuna、Dollyなどのオープンソースの大規模言語モデルを活用している。

プロジェクトには、C++ CLI toolとiOS chat appが含まれており、コンパイルされた成果物と必要な前処理/後処理の統合方法は公開されている。

MLC LLMは、iPhone 14 Pro、M1またはA12Zチップ搭載iPad Pro、M1搭載MacBook Pro以降のモデルなど最近のApple SiliconやRaden Pro 5300M、AMD GPU on Steam Deck、RX6800 16G VRAMなどのAMD GPU、GTX 1060（6GB）、RTX 3080、RTX 2080TiなどのNVIDIA GPU、インテルUHD グラフィックス 630 GPUで展開できる。Android端末のサポートは現在準備中だ。

性能は対応ハードウェアによって大きく異なりNVIDIA GPU、AMD RX6800 16G VRAM、2021 MacBook Pro M1 Maxでは20トークン/秒を超えるスコアを記録している。比較参考値としては、M1 iPad Proは10.6トークン/秒、iPhone 14 Proは7.2トークン/秒であった。

プロジェクトメンテナによると、MLC LLMを使用することで、迅速な実験やコンパイラの最適化を試すことができ、最終的に狙ったターゲットに簡単にデプロイできるようになる、とのことだ。

MLCについてもっと詳しく知りたいならば、公式ドキュメントを参照してほしい。機械学習プログラムを表現するために使用される主要な抽象化、自動最適化技術、依存関係、メモリ、パフォーマンスに対する最適化方法について案内している。

なお、MLC LLMの関連プロジェクトとして、Webブラウザに特化したWebLLMもある。

作者について

Sergio De Simone

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Cloudflare社の年次総括：AIボットの過剰クロールと耐量子暗号50％到達、Goが倍増

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

Meta社、LLM規模学習とハイブリッド並列化を採用した広告生成モデルGEMを公開

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

APIプラットフォーム「Unkey」、パフォーマンス問題を受けサーバーレスを廃止

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

モバイルやノートパソコンでローカル実行可能な大規模言語モデル MLC LLMを公開

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。