BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ ニュース Googleが弱い教師(Weak Supervision)をスケールし、ラベル付きデータセットの問題を克服

Googleが弱い教師(Weak Supervision)をスケールし、ラベル付きデータセットの問題を克服

ブックマーク

原文(投稿日:2019/05/01)へのリンク

Googleは、機械学習(ML)におけるラベル付きデータの必要性が重大なボトルネックであることを認識しており、最近ではオープンソースのSnorkelフレームワークを大規模化の問題を解決するために採用した。Googleはこの研究でスタンフォード大学とブラウン大学と共同研究を行った。Googleはその結果を彼らのAIブログと「Snorkel Drybell:産業規模での弱い教師のデプロイに関する事例研究」と題した科学研究論文として文書化した。

Snorkelは、手作業でデータをラベリングする代わりに、ソフトウェアアルゴリズムを使用してトレーニングデータに対するラベルを作成する。この手法は弱い教師として知られている。アルゴリズムは、知識グラフ、ルール、統計などの利用可能な組織の知識を使用できる。複数のアルゴリズムを使用して、同じデータにトレーニングラベルを付けることができる。各アルゴリズムは、1つ以上のラベルを割り当てることも、ラベルを割り当てないようにすることもできる。その後、Snorkelはその正確さの推定値に基づいてアルゴリズムに自動的に重み付けをする。Snorkelは、複数の弱い教師ラベリングアルゴリズムによって提供されるラベルの一致と不一致を比較することによって、正確さの推定値を作成する。Snorkelは、アルゴリズムの重みとそれに関連付けられたラベルに基づいて、各データポイントに対して1つの確率的なラベルを作成することによってその作業を完了する。

Googleは、Webスケールのデータを処理するという明言された目的を持って、SnorkelがSnorkel Drybellを作成するように調整した。Googleは、SnorkelとTensorFlowを統合することによって、共有メモリの計算を使うことで単一ノードのオリジナル設計を強化した。Googleは、当初Snorkelに存在していたトレーニングデータを表すデータモデルに厳密なコンテキスト階層を適用しなかった。Googleはまた、データを保存するためのデータベースの使用をやめ、代わりにデータを共有するために分散ファイルシステムを使用している。最後に、Googleは独立したラベリング機能によって、実行可能ファイルを分離し、データはファイルシステムを通して共有する。これらの変更により、GoogleはオープンソースのSnorkelプロジェクトをスケールすることができ、ウェブ規模で組織的知識を大量に使用して弱い教師アルゴリズムを使用してデータをラベル付けすることができるようになった。

GoogleはSnorkel Drybellを使用した2つの別々のモデルで、手でラベル付けした12,000と80,000のデータポイントを使用したトレーニングモデルと比較して、同程度の予測精度を達成した。さらに、Googleは、オフラインでSnorkel Drybellを使用して、ベンチマークデータセットでパフォーマンスを平均52%向上させた。その際、別々ではあるが関連するオンライン機能を使用するモデルのトレーニングをサポートする機能の入手に時間がかかる。

オリジナルのオープンソースバージョンであるSnorkelは、Googleによる研究の前から存在し、Stanford DAWNによって作成された。DAWNのホームページには、「DAWNはAIを活用したアプリケーションの構築を劇的に容易にすることでAIを民主化するための5年間の研究プロジェクトである。Snorkelはそのプロジェクトポートフォリオの中の1つのプロジェクトである。」 DAWNのビジョン、およびソフトウェア2.0での弱い教師の使用については、それぞれ「使えるレベルに達した機械学習のためのインフラストラクチャ:Stanford DAWNプロジェクト」および「ソフトウェア2.0における大規模マルチタスクおよび弱い教師の役割」に記載されている。

この記事に星をつける

おすすめ度
スタイル

BT