Cloudflare AutoRAG、Retrieval-Augmented Generationを効率化

原文リンク(2025-04-30)

LLMベースシステムでCloudflareはRetrieval-Augmented Generationを利用するためのマネージドサービスを開始した。現在ベータ版の、Cloudflare AutoRAGは開発者がリッチなコンテキストデータをLLMに統合するパイプラインをより簡単に構築できるようにすることを目指している。

Retrieval-Augmented Generationは、独自またはドメイン固有の知識に関する質問にLLMがどれだけ正確に答えられるかを大幅に向上することができる。しかしその実装は決して簡単ではないと、Cloudflareのプロダクトマネージャー Anni Wang氏は説明する。

RAGパイプライン構築は動的な要素を組み合わせるパッチワークです。始めるための最低限だけでも複数のツールやサービス－データストレージ、ベクターデータベース、埋め込みモデル、LLM、カスタムのインデックス作成、検索、生成ロジック－を組み合わせる必要があります。

さらに厄介なことに知識ベースが変更されるたびに、このプロセス全体を繰り返す必要がある。

これを改善するためにCloudflare AutoRAGはRetrieval-Augmented Generationに必要なすべてのステップを自動化する：データを取り込み、自動的にチャンク化して埋め込みを行い、生成されたベクトルをCloudflareのVectorizeデータベースに保存し、セマンティック検索を実行し、Workers AIを使用して応答を生成する。また、すべてのデータソースをバックグラウンドで監視し必要に応じてパイプラインを再実行する。

AutoRAGの背後にある主な2つのプロセスは、インデックス作成とクエリ処理であるとWang氏は説明する。インデックス作成はデータソース接続から始まり、取り込まれ、変換され、埋め込みモデルを使ってベクトル化され、クエリ用に最適化される。現在、AutoRAGはCloudflare R2ベースのソースのみをサポートしており、PDF、画像、テキスト、HTML、CSVなどを処理できる。すべてのファイルは構造化Markdownに変換され、画像については物体検出とビジョン-言語変換を組み合わせて使用される。

クエリ処理はエンドユーザーがAutoRAG APIを通じてリクエストすることで始まる。プロンプトはその効果を高めるためにオプションで書き換えられ、その後インデックス作成時に適用されたのと同じ埋め込みモデルを使用してベクトル化される。生成されたベクトルはVectorizeデータベースの検索に使用され、関連するチャンクと、R2データソースからオリジナルコンテンツを取得するのに役立つメタデータが返される。最後に取得したコンテキストはユーザープロンプトと組み合わされ、LLMに渡される。

LinkedInで、Stratus CyberのCEO Ajay Chandhok氏は「ほとんどの場合、AutoRAGの導入は既存のR2バケットを指定するだけで済みます。コンテンツを投入すれば、あとはすべてシステムが自動で処理します」と述べた。

AutoRAGのもう一つのベネフィットは、BBCのシニアソフトウェアエンジニア Nicholas Griffin氏によれば「クエリ処理がほんの数行のコードで済む」ことだ。

Xでは一部の懐疑的な意見が浮上、「エンタープライズ用の本番レベルのスケーラブルなRAGシステムは、シングルパイプラインだけではなく、はるかに多くの要件やコンポーネントが必要である」とPoojan Dalal氏が指摘、「セマンティック検索だけの問題ではない」と付け加えた。

AutoRAGを使って成功裏にRAGアプリを構築したエンジニアのPranit Bauva氏は、現時点でのAutoRAGのいくつかの制限：埋め込みやチャンク化オプションが少なく、クエリの書き換えが遅いこと、AIゲートウェイがLlamaモデルでしか動作しないこと－おそらく初期段階のバグによる－も指摘している。彼は検索品質が欠けていることにも言及し、AutoRAGが本番で使用可能になるためには、与えられた質問に対して正しいコンテキストが取得されたかどうか評価する方法を提供する必要があると強調した。

作者について

Sergio De Simone

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは Cloud です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

Cloudflare AutoRAG、Retrieval-Augmented Generationを効率化

作者について

Sergio De Simone

この記事に星をつける

このコンテンツのトピックは Cloud です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター