Googleがランドマーク認識および検索用の大規模データセットGoogle-Landmarks-V2をリリース

原文(投稿日：2019/05/10)へのリンク

Googleは、Landmark RecognitionとRetrieval用に改良されたデータセットとして、Google-Landmarks-v2をリリースした。2018年3月にリリースされたGoogle-Landmarksデータセットの、2回目のイテレーションである。この新バージョンには、200,000以上のランドマークに関する、500万枚のイメージが含まれている。世界中の写真家から集められた、彼ら自身の作であるイメージの集合に、Wikimedia Commonsの、歴史的だがあまり知られていないイメージが加えられたものだ。

今回のリリースに合わせて、Googleは、大規模なインスタンスレベルの画像認識を目的としたTensorflowベースのコードと関連モデルのDELFをオープンソースとして公開した。DELFはDetect-to-Retrieveを利用している。これは、特定のオブジェクトインスタンスを検索するのに適したイメージ表現である。

Landmark Recognition 2019とLandmark Retrieval 2019という、2つのコンパニオンKaggleチャレンジもローンチされた。前者がランドマークの包括的な認識を目的とするのに対して、後者の目的は、多数のイメージの集合の中から特定のランドマークに類似した表現をすべて挙げることだ。大規模な画像認識をより難しいものにしているのは、ランドマークの存在しない"ジャンク"イメージの存在と、トレーニングデータセットに特定のランドマークが不足していることである。

優勝チームは、今年後半にカリフォルニア州ロングビーチの2019 Conference on Computer Vision and Pattern Recognitionで行われるSecond Landmark Recognition Workshopに招待されて、自身の手法の発表を行う予定だ。昨年の、最初のGoogle Landmarkデータセットに基づいたKaggleの課題には、500チームを越えるデータ科学者たちが挑戦した。

ランドマーク認識は、3つの点において、他の画像認識の問題とは異なる。

インスタンスレベルの認識問題であること。すなわち、建物や山などの一般的な存在を認識するのではなく、エッフェル塔やナイアガラの滝といった、特定の記念碑やランドマークを認識することが目標である。
エンティティが多種に及んでおり、その数は、従来の画像認識の課題よりはるかに多い。Image-Net ILSVRCの課題やランドマークでは、表現として不十分だ。
ランドマークはほとんど変化のない、静的なオブジェクトである。イメージの変化は、露出や視点といったイメージのキャプチャ条件によって発生する。これは、オブジェクト（犬、車など）にさまざまなバリエーションがある、一般的な画像認識とは大きく異なる。

ランドマーク認識は、拡張現実モバイルアプリケーションにおいて、キャプチャされたランドマークを認識して関連情報を取得するために使用される。Googleは既に、ランドマーク識別機能専用のFirebase ML-kit APIを通じて、モバイル機器にランドマーク認識を提供しており、Blipparなど他の企業も、ランドマーク認識を含む実世界のオブジェクト認識アプリケーションを開発している。

Googleによる初のランドマーク認識の試みは、2009年にまで遡る。その当時において、すでに80％の正確性を備えたランドマーク認識エンジンが開発されていた。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

GitHub社、Free、Pro、およびPro+ユーザーからのCopilotインタラクションデータを、AIモデルのトレーニングに使用する方針

23年間潜伏していたリモート悪用可能なLinuxカーネル脆弱性の発見にClaude Codeが使われた

AI搭載ボットがGitHub Actionsワークフローを侵害、Microsoft、DataDog、CNCFプロジェクトにわたり

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

Anthropicが3エージェント・ハーネスを設計、長時間稼働するフルスタックAI開発を支援

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleがGemma4をApache 2.0ライセンスでリリース、マルチモーダルおよびエージェント機能搭載

AnthropicがClaude Platformを提供開始、AWS上で

TigerFSは開発者およびAIエージェント向けにPostgreSQLデータベースをファイルシステムとしてマウントする機能を提供

Teleport社、企業インフラ全体でAIエージェントを保護するAgentic Identity Frameworkを発表

Cloudflare社は、自社のエッジにアクティブなAPI脆弱性スキャンを追加

GitHub Copilot CLI一般提供開始

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027