DoorDash社、32Mラベルでセマンティック検索のための画像・テキスト・クエリを整列するDashCLIPを構築

原文リンク(2026-03-16)

DoorDash社は、製品画像、テキスト説明、ユーザークエリを共有表現空間で整列させることによりセマンティック埋め込みを生成するマルチモーダル機械学習システムDashCLIPを発表した。同アーキテクチャは、同社の消費財（CPG）マーケットプレイス全体における商品発見、ランキング、広告関連性の向上を目的とする。システムの学習には、検索クエリと関連カタログ商品を整列させるため、約3,200万件のラベル付きクエリ・商品ペアを用いた。

DoorDash社のマーケットプレイスは、生鮮食品、小売商品、電子機器、医薬品など多様なカテゴリにまたがる。この多様性は、構造化メタデータや過去のエンゲージメントシグナルに依存する従来の検索・推薦システムにとって課題である。これらの手法は、商品画像、説明文、ユーザー意図間のセマンティックな関係を捉え損なうことが多い。DashCLIPは、視覚情報とテキスト情報をクエリ文脈と統合したマルチモーダル表現を学習することでこの課題に対応する。

DashCLIPは、CLIP（Contrastive Language-Image Pretraining）などのコントラスト学習手法に基づく。製品画像、テキスト説明、ユーザークエリそれぞれに独立したエンコーダを用い、各々がベクトル埋め込みを生成する。学習時には、意味的に関連する項目同士を埋め込み空間内で近接させ、無関係な項目を遠ざける。アーキテクチャは、画像およびテキスト用のユニモーダルエンコーダ、それらを統合するマルチモーダルエンコーダ、さらに検索クエリを同一空間に写像するクエリエンコーダで構成される。これにより、テキスト説明が不完全な場合や視覚的属性が重要な場合でも、クエリと商品を照合できる。

DashCLIPアーキテクチャの概要図。エンコーダ群および埋め込み整列パイプラインを示す（出典:DoorDash社ブログ投稿）

DoorDash社は、2段階パイプラインでDashCLIPを学習した。第1段階では、カタログ内の約40万件の製品画像とタイトルのペアを用いて継続事前学習を実施し、事前学習済みのビジョン・ランゲージモデルをeコマース領域に適応させ、マルチモーダルな製品表現を学習した。第2段階では、Query Catalog Contrastive（QCC）損失と呼ばれるコントラスト目的関数を用いてユーザークエリと製品埋め込みを整列させ、関連するクエリ・商品ペアを近づけ、無関係なペアを分離した。このために、70万件の人手アノテーション済みクエリ・商品ペアを収集し、GPTベースのラベリングシステムを用いてデータセットを約3,200万件に拡張した。このハイブリッド手法は、過去のエンゲージメントのみに依存することによるバイアスを低減可能だ。

学習済みの埋め込みデータはDoorDash社のランキングシステムに統合される。クエリ埋め込みはK近傍探索により候補商品を取得し、その後、ユーザー行動、文脈シグナル、商品人気度を組み込む下流ランキングモデルによってスコアリングされる。これにより、セマンティックに関連性の高い検索およびランキングが可能だ。

ランキングパイプライン（出典:DoorDash社ブログ投稿）

オフライン実験では、DashCLIPの埋め込みはCLIP、BLIP、FLAVAなどのベースラインとなるビジョン・ランゲージモデルをランキングおよび検索タスクで上回った。オンラインA/B実験ではエンゲージメント指標が改善し、その後、スポンサー商品推薦の本番トラフィックに導入された。

広告およびランキング以外にも、これらの埋め込みは通路カテゴリ予測や商品クエリ関連性分類など追加タスクに汎化するとDoorDash社は報告する。共有マルチモーダル埋め込み層は、マーケットプレイスプラットフォーム内の複数の機械学習システムにおける基盤表現として機能可能だと述べている。

作者について

Leela Kumili

もっと見るより少なく

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

作者について

Leela Kumili

この記事に星をつける

このコンテンツのトピックは Products です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

AnthropicがClaude Code品質苦情の6週間を3つのプロダクト変更の重なりと特定

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleがGemma4をApache 2.0ライセンスでリリース、マルチモーダルおよびエージェント機能搭載

AnthropicがClaude Platformを提供開始、AWS上で

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

Argo CD 3.3、安全なGitOps削除と円滑な日常運用を実現

Teleport社、企業インフラ全体でAIエージェントを保護するAgentic Identity Frameworkを発表

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027

DoorDash社、32Mラベルでセマンティック検索のための画像・テキスト・クエリを整列するDashCLIPを構築

作者について

Leela Kumili

この記事に星をつける

このコンテンツのトピックは Products です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター