LLMベースシステムでCloudflareはRetrieval-Augmented Generationを利用するためのマネージドサービスを開始した。現在ベータ版の、Cloudflare AutoRAGは開発者がリッチなコンテキストデータをLLMに統合するパイプラインをより簡単に構築できるようにすることを目指している。
Retrieval-Augmented Generationは、独自またはドメイン固有の知識に関する質問にLLMがどれだけ正確に答えられるかを大幅に向上することができる。しかしその実装は決して簡単ではないと、Cloudflareのプロダクトマネージャー Anni Wang氏は説明する。
RAGパイプライン構築は動的な要素を組み合わせるパッチワークです。始めるための最低限だけでも複数のツールやサービス-データストレージ、ベクターデータベース、埋め込みモデル、LLM、カスタムのインデックス作成、検索、生成ロジック-を組み合わせる必要があります。
さらに厄介なことに知識ベースが変更されるたびに、このプロセス全体を繰り返す必要がある。
これを改善するためにCloudflare AutoRAGはRetrieval-Augmented Generationに必要なすべてのステップを自動化する:データを取り込み、自動的にチャンク化して埋め込みを行い、生成されたベクトルをCloudflareのVectorizeデータベースに保存し、セマンティック検索を実行し、Workers AIを使用して応答を生成する。また、すべてのデータソースをバックグラウンドで監視し必要に応じてパイプラインを再実行する。
AutoRAGの背後にある主な2つのプロセスは、インデックス作成とクエリ処理であるとWang氏は説明する。インデックス作成はデータソース接続から始まり、取り込まれ、変換され、埋め込みモデルを使ってベクトル化され、クエリ用に最適化される。現在、AutoRAGはCloudflare R2ベースのソースのみをサポートしており、PDF、画像、テキスト、HTML、CSVなどを処理できる。すべてのファイルは構造化Markdownに変換され、画像については物体検出とビジョン-言語変換を組み合わせて使用される。
クエリ処理はエンドユーザーがAutoRAG APIを通じてリクエストすることで始まる。プロンプトはその効果を高めるためにオプションで書き換えられ、その後インデックス作成時に適用されたのと同じ埋め込みモデルを使用してベクトル化される。生成されたベクトルはVectorizeデータベースの検索に使用され、関連するチャンクと、R2データソースからオリジナルコンテンツを取得するのに役立つメタデータが返される。最後に取得したコンテキストはユーザープロンプトと組み合わされ、LLMに渡される。
LinkedInで、Stratus CyberのCEO Ajay Chandhok氏は「ほとんどの場合、AutoRAGの導入は既存のR2バケットを指定するだけで済みます。コンテンツを投入すれば、あとはすべてシステムが自動で処理します」と述べた。
AutoRAGのもう一つのベネフィットは、BBCのシニアソフトウェアエンジニア Nicholas Griffin氏によれば「クエリ処理がほんの数行のコードで済む」ことだ。
Xでは一部の懐疑的な意見が浮上、「エンタープライズ用の本番レベルのスケーラブルなRAGシステムは、シングルパイプラインだけではなく、はるかに多くの要件やコンポーネントが必要である」とPoojan Dalal氏が指摘、「セマンティック検索だけの問題ではない」と付け加えた。
AutoRAGを使って成功裏にRAGアプリを構築したエンジニアのPranit Bauva氏は、現時点でのAutoRAGのいくつかの制限:埋め込みやチャンク化オプションが少なく、クエリの書き換えが遅いこと、AIゲートウェイがLlamaモデルでしか動作しないこと-おそらく初期段階のバグによる-も指摘している。彼は検索品質が欠けていることにも言及し、AutoRAGが本番で使用可能になるためには、与えられた質問に対して正しいコンテキストが取得されたかどうか評価する方法を提供する必要があると強調した。