Hugging Faceの大規模言語モデルを用いて複雑なAIタスクを解決するHuggingGPT

浙江大学とMicrosoft Research Asiaの研究者による最近の論文では、Hugging Faceのようなコミュニティで利用できる既存のAIモデルを管理するためのコントローラーとして、大規模言語モデル（LLM）の利用が検討されている。

この研究のキーとなる考え方は、異なるドメインで利用可能な既存のAIモデルを活用し、ChatGPTなどのLLMが示す高度な言語理解・生成能力を用いてそれらを接続することだ。

具体的には、ChatGPTを用いて、ユーザーからのリクエストを受けた際のタスクプランニングを行い、Hugging Faceで公開されている機能説明に従ってモデルを選択し、選択したAIモデルで各サブタスクを実行し、実行結果に応じて応答をまとめるというものだ。

研究者によると、このアプローチにより、言語、視覚、音声などの領域で高度なAIタスクを解決することが可能になるという。

ChatGPTとHugging Faceのモデルの接続を確立するために、HuggingGPTはHugging Faceライブラリのモデルに関する説明を使用し、ChatGPTのプロンプトに融合させる。

プロセスの第一段階はタスクの計画で、ChatGPTはユーザーのリクエストを分析し、ライブラリのモデルを使用して解決できるタスクに分解する。第2段階は、計画されたタスクをもっともよく解決できるモデルの選択のことだ。次の論理ステップは、タスクの実行、その結果をChatGPTに返すことだ。最後に、ChatGPTはすべてのモデルの予測値を統合して回答を生成する。

HuggingGPTでは、タスクの計画段階において、タスクの仕様とデモを使用する。タスク仕様には、ID、タスクタイプ（ビデオ、オーディオなど）、依存関係（前提条件となるタスクを定義）、タスク引数の4つのスロットが定義されている。デモではユーザーの要求を一連のタスク仕様に関連付ける。例えば、"In image /exp2.jpg, what is the animal and what is it doing?" というユーザーリクエストは、画像からテキストへの変換、画像分類、オブジェクト検出、そして最後の質問応答タスクという4つのタスクのシーケンスに関連付けられている。

論文を著した6名は、複数のサブタスクを含む単純なタスクと複雑なタスクの両方を含む多くの実験にHuggingGPTを使用したと述べている。

HuggingGPTは、ChatGPTを中心にHugging Face上の数百のモデルを統合し、テキスト分類、物体検出、意味分割、画像生成、質問応答、テキストからスピーチ、テキストからビデオといった24のタスクを実行した。実験結果は、マルチモーダル情報や複雑なAIタスクの処理におけるHuggingGPTの能力を実証している。

各ステージで大きな言語モデルと少なくとも一度は対話する必要があるため、HuggingGPTにはいくつかの制約がある。例えば効率と待ち時間、LLMが受け入れることができるトークンの最大数に関連するコンテキストの長さに関する制限や、LLMが時々指示に従わなかったりLLMが制御するモデルの1つが故障したりすることにより、システムの安定性が低下する、といった制限である。

作者について

Sergio De Simone

もっと見るより少なく

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

Netflixで2億3800万人の会員を管理するということ

Pinterestの広告ランキングの仕組みを解き明かす

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

Low Code/No Codeを採用する：確認するべき6つの適性

役に立つリンク集

地域を選ぶ

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

開発環境マネージャー Daytonaがオープンソースに

Spring BootによるAPIバックエンド構築実践ガイド第2版

Erlangランタイムの静的型付け関数型言語Gleamがバージョン1.0に到達

Reddit、"AWS S3"やその他のシステムからメディアメタデータを"AWS Aurora Postgres"に移行

Netflixで2億3800万人の会員を管理するということ

QCon London: Trainline社における、マイクロサービスアーキテクチャと技術組織のスケーリング

ソフトウェアチームにおけるテストの影響

エンジニアリングマネージャーへのアドバイス: 開発者が(より)クリエイティブになれるようにすること

ソフトウェア開発における"実験文化"の育成

コードのための大規模言語モデル：QCon Londonにて、Loubna Ben Allal氏語る

Pinterestの広告ランキングの仕組みを解き明かす

Apple社の研究者、異なるLLMを組み合わせて最先端の性能を実現する手法を詳説

CloudFormation IaC Generator"で、既存のAWSリソースをスキャンしてインポート可能に

Elastic社、OpenTelemetryをプロファイリング・エージェントで強化、システムの健全性に関する洞察をコミュニティと共有する

Netflix、eBPFのパフォーマンス効率向上を目指すbpftopを発表

QCon London

InfoQ Dev Summit Boston

InfoQ Dev Summit Munich

QCon San Francisco

Login with:

アカウントをお持ちでない方

Hugging Faceの大規模言語モデルを用いて複雑なAIタスクを解決するHuggingGPT

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリング です。

関連記事:

関連記事

関連スポンサーコンテンツ

InfoQ ニュースレター

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。