BT

InfoQ ホームページ ニュース Googleが画像キャプションの機械学習モデルをTensorFlowに移行,オープンソース公開へ

Googleが画像キャプションの機械学習モデルをTensorFlowに移行,オープンソース公開へ

ブックマーク

原文(投稿日:2016/10/28)へのリンク

Googleは,TensorFlow画像キャプションモデルのオープンソース化に関する過去数年間の経緯について説明し,既存の実装と新たなアプローチとの精度を比較したテストとパフォーマンスベンチマーク結果を公開した。2014 Inception V1,2015 Inception V2,そして最新のInception V3モデルは,ImageNet 2012イメージ分類タスクに対するトップ5の精度が,それぞれ89.6, 91.8, 93.9パーセントに改善されている。マシンが生成したキャプションの品質測定には,ひとつの自然言語から別の言語への文書翻訳の精度を測定するBLEU-4メトリックを使用するが,それによると,TensorFlowベースのアプローチは,これまでの中心的なモデルであるDistBeliefを2ポイント上回っている。

既存の実装から新たなモデルに移植し,改善する上で指摘されている問題のひとつは,イメージ内のオブジェクトを分類するプロセスに対する,イメージ内のオブジェクトを説明して他のオブジェクトに関連付けするプロセスだ。今回のモデルでは分類フェーズに加えて,オブジェクトを詳細に説明する上で有用な情報を取り出すことのできるように微調整されたフェーズを導入して,この問題に対処していると考えられる。オブジェクトを識別するイメージ分類フェーズと,形容詞と前置詞句を追加するフェーズ,文法的に適切で人間的なキャプション構造を与えるフェーズとを分けているのだ。

こののイメージならば,まず列車が線路上にあること,続いて黄色と青であることが認識されて,それらが合成された結果として,線路上を走行する黄色と青の列車,というイメージが認識される。このケースでは,オブジェクトが動いているか静止しているかをモデルが決定可能かどうかではなく,トレーニングデータの中で,同様なイメージを記述した入力イメージキャプションがどのように説明しているかが問題となる。

新しいモデルは,学習済みのイメージキャプションのコンポーネントに組み入れることも可能なので,単一のトレーニング情報によらず,合成したコンポーネント全体で分類されたオブジェクトをユニークに組み合わせて,まったく新しいキャプションを生成することができる。こちらのでは,以前ならば存在しなかったキャプションが生成されている。

以前のモデル実装であるDistBeliefと,新しいTensorFlowベースのInception V3のトレーニング時間を比較したベンチマークによると,Nvidia K20 GPU上で3.0秒に対して0.7秒と,TensorFlowはDisBeliefに対して25%に短縮されている。TensorFlowベースのInception V3イメージ分類モデルに加えて,GoogleはInception-ResNet-v2リリースについても言及したが,パフォーマンスに関するベンチマークはまだ公表されていない。トレーニングデータ自体は提供されていないが,イメージに対して人が作成したキャプションがトレーニングデータの基本になる。

 
 

この記事を評価

関連性
スタイル
 
 

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

RESTlessnessに打ち勝つ

Matt McLarty 2019年3月13日 午前7時39分

.NET CLIクイックツアー

Jeremy Miller 2019年2月18日 午前1時55分

.NET CoreとDevOps

Dave Swersky 2019年2月6日 午後11時46分

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

BT

あなたのプロファイルは最新ですか?プロフィールを確認してアップデートしてください。

Eメールを変更すると確認のメールが配信されます。

会社名:
役職:
組織規模:
国:
都道府県:
新しいメールアドレスに確認用のメールを送信します。このポップアップ画面は自動的に閉じられます。