BT

研究者グループが3億件のデータセットを用いてイメージ認識の最先端技術を更新

| 作者: Roland Meertens フォローする 7 人のフォロワー , 翻訳者 h_yoshida フォローする 1 人のフォロワー 投稿日 2017年9月4日. 推定読書時間: 2 分 |

原文(投稿日:2017/07/28)へのリンク

研究者グループが、一般的に使用されている100万件ではなく、3億件のイメージで構成されたデータセットを対象にトレーニングを行なったモデルを用いることによって、いくつかのベンチマーク結果で最高レベルを更新することに成功した。

研究者の大多数は、100万件のイメージで構成されるImageNetデータセットを使用して、自らのオブジェクト検出アルゴリズムをトレーニングしている。2011年以降、このデータセットにはイメージが追加されていない。その一方で、このデータセット上のトレーニングされるニューラルネットワークのパラメータ数は増加すると同時に、こういったモデルのトレーニングにGPUのパワーが使用されるようになった。Googleの研究者たちとカーネギメロン大学(CMU)の研究者たちは、ふと疑問に思った – トレーニングデータ数を増やしたらどうなるだろう?

データ数を増やした時に何が起きるのかをテストするため、Googleは3億のイメージからなる内部データセットを作成し、18,291のカテゴリでラベル付けした。データのラベル付けは、生のWeb信号とWebページ間のコネクション、ユーザのフィードバックを組み合わせた、ノイズの多い方法で自動的に行なった。手動でラベル付けしなかったため、ラベルの20%程度にはノイズが含まれている。

その結論は、トレーニングデータの多さは有効である、というものだ。自動ラベリングのためイメージのラベルにはノイズが多かったが、それでもアルゴリズムの精度は3%向上した。つまりは、データ規模の大きさがラベル空間のノイズに勝ったのだ。次のグラフに示すように、トレーニングデータの量に対してパフォーマンスが対数的に向上することも明らかになった。この研究を実施した研究者たちは、100万イメージの結果から生成されたモデルであっても、現在使用しているモデルを調整することによって、アルゴリズムの正確性にはまだ向上の余地があると考えている。

研究者たちがMicrosoftが開発したオブジェクト検出ベンチマークであるCOCOオブジェクト検出ベンチマークを使って、3億件でトレーニングしたニューラルネットワークをテストしたところ、平均精度で34.3から37.4という最高レベルの結果を達成した。GoogleとCMUは、トレーニング方法と結果をコンピュータビジョンに関するICCVカンファレンスで公開した。その内容についても、“Revisiting Unreasonable Effectiveness of Data in Deep Learning Era”という論文で、無償で提供されている。

 
 

この記事を評価

採用ステージ
スタイル
 
 

この記事に星をつける

おすすめ度
スタイル

こんにちは

コメントするには InfoQアカウントの登録 または が必要です。InfoQ に登録するとさまざまなことができます。

アカウント登録をしてInfoQをお楽しみください。

あなたの意見をお聞かせください。

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする
コミュニティコメント

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

HTML: a,b,br,blockquote,i,li,pre,u,ul,p

このスレッドのメッセージについてEmailでリプライする

ディスカッション

InfoQにログインし新機能を利用する


パスワードを忘れた方はこちらへ

Follow

お気に入りのトピックや著者をフォローする

業界やサイト内で一番重要な見出しを閲覧する

Like

より多いシグナル、より少ないノイズ

お気に入りのトピックと著者を選択して自分のフィードを作る

Notifications

最新情報をすぐ手に入れるようにしよう

通知設定をして、お気に入りコンテンツを見逃さないようにしよう!

BT