BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Googleがランドマーク認識および検索用の大規模データセットGoogle-Landmarks-V2をリリース

Googleがランドマーク認識および検索用の大規模データセットGoogle-Landmarks-V2をリリース

ブックマーク

原文(投稿日:2019/05/10)へのリンク

Googleは、Landmark RecognitionとRetrieval用に改良されたデータセットとして、Google-Landmarks-v2をリリースした。2018年3月にリリースされたGoogle-Landmarksデータセットの、2回目のイテレーションである。この新バージョンには、200,000以上のランドマークに関する、500万枚のイメージが含まれている。世界中の写真家から集められた、彼ら自身の作であるイメージの集合に、Wikimedia Commonsの、歴史的だがあまり知られていないイメージが加えられたものだ。

今回のリリースに合わせて、Googleは、大規模なインスタンスレベルの画像認識を目的としたTensorflowベースのコードと関連モデルのDELFをオープンソースとして公開した。DELFはDetect-to-Retrieveを利用している。これは、特定のオブジェクトインスタンスを検索するのに適したイメージ表現である。

Landmark Recognition 2019Landmark Retrieval 2019という、2つのコンパニオンKaggleチャレンジもローンチされた。前者がランドマークの包括的な認識を目的とするのに対して、後者の目的は、多数のイメージの集合の中から特定のランドマークに類似した表現をすべて挙げることだ。大規模な画像認識をより難しいものにしているのは、ランドマークの存在しない"ジャンク"イメージの存在と、トレーニングデータセットに特定のランドマークが不足していることである。

優勝チームは、今年後半にカリフォルニア州ロングビーチの2019 Conference on Computer Vision and Pattern Recognitionで行われるSecond Landmark Recognition Workshopに招待されて、自身の手法の発表を行う予定だ。昨年の、最初のGoogle Landmarkデータセットに基づいたKaggleの課題には、500チームを越えるデータ科学者たちが挑戦した。

ランドマーク認識は、3つの点において、他の画像認識の問題とは異なる。

  • インスタンスレベルの認識問題であること。すなわち、建物や山などの一般的な存在を認識するのではなく、エッフェル塔やナイアガラの滝といった、特定の記念碑やランドマークを認識することが目標である。
  • エンティティが多種に及んでおり、その数は、従来の画像認識の課題よりはるかに多い。Image-Net ILSVRCの課題やランドマークでは、表現として不十分だ。
  • ランドマークはほとんど変化のない、静的なオブジェクトである。イメージの変化は、露出や視点といったイメージのキャプチャ条件によって発生する。これは、オブジェクト(犬、車など)にさまざまなバリエーションがある、一般的な画像認識とは大きく異なる。

ランドマーク認識は、拡張現実モバイルアプリケーションにおいて、キャプチャされたランドマークを認識して関連情報を取得するために使用される。Googleは既に、ランドマーク識別機能専用のFirebase ML-kit APIを通じて、モバイル機器にランドマーク認識を提供しており、Blipparなど他の企業も、ランドマーク認識を含む実世界のオブジェクト認識アプリケーションを開発している。

Googleによる初のランドマーク認識の試みは、2009年にまで遡る。その当時において、すでに80%の正確性を備えたランドマーク認識エンジンが開発されていた。

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT