BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース MITとToyotaが自動運転データセットDriveSegをリリース

MITとToyotaが自動運転データセットDriveSegをリリース

ブックマーク

原文(投稿日:2020/06/30)へのリンク

Toyotaの先進安全技術研究センター (CSRC) とMITのAgeLabは、自動運転研究のデータセットであるDriveSegをリリースした。DriveSegには、25,000フレームを超える高解像度ビデオが含まれており、各ピクセルには12クラスの道路オブジェクトの1つがラベル付けされている。DriveSegは、非営利目的で無料で利用できる。

AgeLabとCSRCの共同のプレスリリースでデータセットが発表された。DriveSegは、2つのデータセットで構成されている。最初のDriveSeg Manualには、都市を1回旅行したときにキャプチャされた5,000フレームの連続ビデオが含まれており、データの各フレームの各ピクセルに手動でラベルが付けられている。もう1つのサブセットであるDriveSeg Semi-autoには、それぞれ10秒の67のビデオクリップが含まれ、すべてのフレームのピクセルが自動プロセスと手動プロセスの組み合わせでラベル付けされている。データセットのリリースにおけるチームの目標は、コンピュータビジョンの研究、特にシーンのセグメンテーションにおける時間的ダイナミクス情報の役割を支援することである。CSRCのシニアプリンシパルエンジニアであるRini Sharony氏によると、

このデータセットを共有することで、自動運転システムと、周囲の環境の複雑さにさらに適応した高度な安全機能の研究を加速させたいと考えています。

自動運転車の研究の多くは、シーンのセグメンテーション、つまり、ビデオ内のオブジェクト (他の車両、歩行者、障害物、道路自体) の識別に関係している。深層学習モデルは、単一の画像内のオブジェクトを識別する優れた能力を実証できるが、完全にはほど遠いものである。DriveSegチームは、連続ビデオストリームの「時間的ダイナミクス」には、これらのモデルを改善できるより多くの情報が含まれている可能性があると考えている。ただし、トレーニングプロセスには、高品質のラベルが付いた大量のビデオデータが必要である。

高解像度画像の各ピクセルに手動でラベルを付けるという高いコストと労力 (単一の画像に注釈を付けるのに1時間以上かかる場合がある) は、そのようなデータセットの収集に課題をもたらす。自動運転研究用のいくつかのデータセットが最近リリースされた。これには、注釈付きまたはラベル付きのビデオおよび画像データが大量に含まれるデータセットが含まれるが、AudiのA2D2Waymo Open Datasetなど、これらの多くは境界ボックスを使用してオブジェクトにラベルを付ける。Cityscapesなどの一部のデータセットには、すべてのピクセルにラベルが付けられた画像が含まれているが、画像は連続したビデオストリームを形成しない。

DriveSeg Manualデータセットの場合、市街地をドライブしているときに、正面カメラから1つの2分47秒のビデオが、合計5,000フレームの1080P (1920x1080) の解像度でキャプチャされた。各フレームの各ピクセルには、車両、歩行者、道路、歩道、自転車、オートバイ、建物、地形、植生、電柱、信号機、または交通標識の12のクラスラベルのいずれかが付けられた。手動のラベリングプロセスの労力を軽減するために、DriveSegチームはWebベースの注釈ツールを作成し、AmazonのMechanical Turkを使用して注釈ワーカを雇用した。各作業者には3フレームのビデオが提供され、単一クラスのオブジェクト (たとえば、車両や歩行者) のすべてのインスタンスの概要を説明するように求められた。DriveSegチームは、彼らのツールが以前の作業と比較して「10分の1のコスト削減」を提供したと主張している。

DriveSeg Semi-autoデータセットは、自動ラベリング技術を組み込むことによってラベリングプロセスを拡張するためのチームの努力の結果である。データセットには、720P解像度 (1280×720) で合計20,100ビデオフレームのいくつかの短いクリップが含まれている。各ピクセルは、手動データセットで使用されているものと同じ12のクラスの1つでラベル付けされている。画像は、最初に「モデル融合」またはアンサンブル技術を使用して自動的にラベル付けされた。いくつかの異なるコンピュータビジョンモデルが各フレームに適用され、それらの出力が組み合わされて、各ラベルの信頼値とともにラベル付き画像が生成された。この画像は、信頼のない予測を削除できる人間の作業者に提示される。その結果、「高精度の粗い注釈付き画像」が得られる。

ManualデータセットとSemi-autoデータセットの両方が、IEEEのDataPortからダウンロードできる。プレスリリースとテクニカルペーパでは、データは非営利目的でのみライセンスされていると記載されているが、IEEEサイトは商用利用が許可されるCC BY 4.0ライセンスにリンクしている。
 

この記事に星をつける

おすすめ度
スタイル

特集コンテンツ一覧

BT