MITとToyotaが自動運転データセットDriveSegをリリース

原文(投稿日：2020/06/30)へのリンク

Toyotaの先進安全技術研究センター (CSRC) とMITのAgeLabは、自動運転研究のデータセットであるDriveSegをリリースした。DriveSegには、25,000フレームを超える高解像度ビデオが含まれており、各ピクセルには12クラスの道路オブジェクトの1つがラベル付けされている。DriveSegは、非営利目的で無料で利用できる。

AgeLabとCSRCの共同のプレスリリースでデータセットが発表された。DriveSegは、2つのデータセットで構成されている。最初のDriveSeg Manualには、都市を1回旅行したときにキャプチャされた5,000フレームの連続ビデオが含まれており、データの各フレームの各ピクセルに手動でラベルが付けられている。もう1つのサブセットであるDriveSeg Semi-autoには、それぞれ10秒の67のビデオクリップが含まれ、すべてのフレームのピクセルが自動プロセスと手動プロセスの組み合わせでラベル付けされている。データセットのリリースにおけるチームの目標は、コンピュータビジョンの研究、特にシーンのセグメンテーションにおける時間的ダイナミクス情報の役割を支援することである。CSRCのシニアプリンシパルエンジニアであるRini Sharony氏によると、

このデータセットを共有することで、自動運転システムと、周囲の環境の複雑さにさらに適応した高度な安全機能の研究を加速させたいと考えています。

自動運転車の研究の多くは、シーンのセグメンテーション、つまり、ビデオ内のオブジェクト (他の車両、歩行者、障害物、道路自体) の識別に関係している。深層学習モデルは、単一の画像内のオブジェクトを識別する優れた能力を実証できるが、完全にはほど遠いものである。DriveSegチームは、連続ビデオストリームの「時間的ダイナミクス」には、これらのモデルを改善できるより多くの情報が含まれている可能性があると考えている。ただし、トレーニングプロセスには、高品質のラベルが付いた大量のビデオデータが必要である。

高解像度画像の各ピクセルに手動でラベルを付けるという高いコストと労力 (単一の画像に注釈を付けるのに1時間以上かかる場合がある) は、そのようなデータセットの収集に課題をもたらす。自動運転研究用のいくつかのデータセットが最近リリースされた。これには、注釈付きまたはラベル付きのビデオおよび画像データが大量に含まれるデータセットが含まれるが、AudiのA2D2やWaymo Open Datasetなど、これらの多くは境界ボックスを使用してオブジェクトにラベルを付ける。Cityscapesなどの一部のデータセットには、すべてのピクセルにラベルが付けられた画像が含まれているが、画像は連続したビデオストリームを形成しない。

DriveSeg Manualデータセットの場合、市街地をドライブしているときに、正面カメラから1つの2分47秒のビデオが、合計5,000フレームの1080P (1920x1080) の解像度でキャプチャされた。各フレームの各ピクセルには、車両、歩行者、道路、歩道、自転車、オートバイ、建物、地形、植生、電柱、信号機、または交通標識の12のクラスラベルのいずれかが付けられた。手動のラベリングプロセスの労力を軽減するために、DriveSegチームはWebベースの注釈ツールを作成し、AmazonのMechanical Turkを使用して注釈ワーカを雇用した。各作業者には3フレームのビデオが提供され、単一クラスのオブジェクト (たとえば、車両や歩行者) のすべてのインスタンスの概要を説明するように求められた。DriveSegチームは、彼らのツールが以前の作業と比較して「10分の1のコスト削減」を提供したと主張している。

DriveSeg Semi-autoデータセットは、自動ラベリング技術を組み込むことによってラベリングプロセスを拡張するためのチームの努力の結果である。データセットには、720P解像度 (1280×720) で合計20,100ビデオフレームのいくつかの短いクリップが含まれている。各ピクセルは、手動データセットで使用されているものと同じ12のクラスの1つでラベル付けされている。画像は、最初に「モデル融合」またはアンサンブル技術を使用して自動的にラベル付けされた。いくつかの異なるコンピュータビジョンモデルが各フレームに適用され、それらの出力が組み合わされて、各ラベルの信頼値とともにラベル付き画像が生成された。この画像は、信頼のない予測を削除できる人間の作業者に提示される。その結果、「高精度の粗い注釈付き画像」が得られる。

ManualデータセットとSemi-autoデータセットの両方が、IEEEのDataPortからダウンロードできる。プレスリリースとテクニカルペーパでは、データは非営利目的でのみライセンスされていると記載されているが、IEEEサイトは商用利用が許可されるCC BY 4.0ライセンスにリンクしている。

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

この記事に星をつける

このコンテンツのトピックは AIと機械学習、データエンジニアリングです。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

Anthropicリード：エージェント型ループへの人間の関与維持にはMarkdownよりHTMLが有効に

GitHub社、2026年に向けたよりグローバルでAI課題に直面するオープンソースエコシステムを提示

AnthropicがClaude Code品質苦情の6週間を3つのプロダクト変更の重なりと特定

AIがソフトウェアライフサイクルの上流へ：コードレビューからPRDガバナンスへ

CloudflareがProject Thinkを発表：AIエージェント向け永続ランタイム

Dropbox社がGitHub社と協力し、モノレポのサイズを87GBから20GBに削減

プラットフォームエンジニアリングのインパクトをドライブし、測定する

エージェンティックAIパターンがエンジニアリング規律を強化

人工知能によって顧客とのつながりはどう変わるか

GoogleのAletheiaが完全自律型AIエージェンティック数学研究の最先端を突き進む

Anthropic解説、Claudeが自身の実行ハーネスを構築する仕組み

DuckDB、HTTPベースのクライアント／サーバープロトコル「Quack」を発表　マルチユーザー分析に対応

Kubescape 4.0、Kubernetesに実行時セキュリティとAIエージェントスキャン機能を追加

Amazon CloudWatch、OpenTelemetryメトリクス対応をプレビュー公開

Googleがノードプール自動作成速度を向上、GKEクラスタ向け

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ Engineering Leadership Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon AI New York

QCon London 2027