InfoQ ホームページニュースビッグデータ/マシンラーニングおよびAIにおけるバイアスの影響 - Leslie Miley氏のQCon San Franciscoでの基調講演より

ビッグデータ/マシンラーニングおよびAIにおけるバイアスの影響 - Leslie Miley氏のQCon San Franciscoでの基調講演より

2018年1月24日読了時間 6 分

作者：

Shane Hastie

翻訳者

h_yoshida

原文(投稿日：2017/11/20)へのリンク

先週のQCon San FranciscoでLeslie Miley氏が基調講演し、2016年の大統領選から米国の犯罪量刑に至るまで、データセットに内在するバイアスがいかに影響を及ぼしているかを説明した。

最初に氏が強調したのは、フェイクニュースやマシンラーニングやAIによって強化された偏向にソーシャルメディアが圧倒されたという点で、2017年が前例のない年であったことだ。氏はFacebookが認識している数値を詳細に説明した – 同社は2016年にフェイクニュースは問題ではないと主張していたが、2017年10月には1,000万人が偽の広告を目にしたことを報告した。さらに11月には、この数が12,600万人であり、さらに増え続けていると訂正した。Twitterは2016年9月から11月にかけて、全世界で28,800万人、米国で6,800万人が目にした131,000のツイートを生成した、6,000のロシア発のボットを検出している。氏は問う – なぜこのようなことが起きるのか？

氏はTwitterに在職中、アカウントチームで暴言回避(abuse-safety)のセキュリティテストを行なったことがある。その時に氏らは、ウクライナあるいはロシアで作成された数億のアカウントを特定している。それらが削除されたかどうかは分からない。Facebookでは、同社アカウントの最大2億が誤りか偽造、あるいは侵害されたものだ、と述べている。まだ対処されていない重大な問題があるのだ。

氏は続いて、2016年にTwitterがリリースしたアルゴリズムタイムラインについて説明した。このタイムラインは、最も関わりの多い人からのツイートをより多く見ることができるように設計されている。

最も人気のあるツイートが以前よりもはるかに広く見られるようになったことで、これまでにない規模での伝搬が可能になりました。

同社は目標を非常に効果的に達成した。しかしながら、その最も人気のあるツイートと記事が偽ニュースであった場合に問題がある。このシステムはニュースではなくプロパガンダを、猫のビデオではなく偏向した情報を配信している、と氏は言う。彼らは人々に対して、外に出てBlack Lives Matter(“黒人の命は重要だ”と訴える運動)に抗議するように訴えていた。首都のピザ屋に押し入って、銃を乱射せよと言うのだ。そして、ソーシャルメディアから受け取った偽情報のために、実際に誰かがそれを実行した。

FacebookとTwitterは出版社であり、メディア企業なのだ、と氏は主張する – しかし両社は“プラットフォーム”という扱いのため、メディア企業のような責任を負うことはない。FacebookとTwitterのメディア企業あるいはプラットフォームとしての役割については、現在も論争や議論が幅広く繰り広げられている。

ソーシャルメディアには10億近い数の偽アカウントが存在しており、虚偽の投稿を生成し、アルゴリズムによるタイムラインの機能を利用してコンテントを広く拡散することで、人々の気分や行動に偏見による影響を与えている。氏はFacebookが行なった、さまざまな投稿をタイムラインに挿入することで、人々の気分や行動がいかに変わるかを示す実験について紹介した。このようなことが可能だと発表した同社は、その後、他者が同じテクニックを使うことを防ぐために何かをしただろうか、と氏は疑問を投げ掛ける。何もしていない、というのが氏の意見だ。

偽データは、タイムラインのアルゴリズムが選択するものを決定するためのトレーニングの一部になる。

氏はこれを2008年の住宅金融危機に準える – 情報が収集され、ほとんどコントロールされることなく提示され、システムの仕組みや動作の理由が理解されていない、という点が同じなのだ。

なぜこれが問題なのか – 氏は、“次の大物”はAI/ML(マシンラーニング)企業であると確信した上で、彼らが過去の過ちを繰り返すのではないかという懸念を抱いているのだ。意識的なケアと努力がなければ、その可能性は極めて高い。

アルゴリズムが幅広い分野で利用されるようになったことで、成長と繁栄を続ける新たな産業が現れている。利用例として、氏はライドシェアについて説明した – ある特定の地域で、ほとんどのライドが5ドル以下であるとアルゴリズムが決定したらどうなるだろう？その地域にピックアップのために人を送るだろうか、レートの低いドライバを送り込むのではないだろうか？その地域に住む人たちには、どのような影響があるだろう？このような事は、すでに起こりつつある – そして、何が起こるのかはまだ分かっていないのだ。

判決に関するガイドラインでは、モデルのトレーニングに使用したデータセットに偏りがあったために、結果としてそのアルゴリズムでは、同じ犯罪に対して黒人系アメリカ人が有罪になる確率が45パーセント高くなっている。このアルゴリズムは修正されることなく、米国25の州に展開されている。

どのように構築されたのか、どのようにトレーニングされたのかといった情報のないまま、これらのアルゴリズムは雇用や医療、住宅ローンの利率など生活の多くの分野において、我々の生殺与奪をさらに握るに至っている。

これらの問題が顕在化し、崩壊しれば、国民がその後始末をすることになるのだ。

次に氏は、これらの問題が起こらないようにするためにできることを、具体的に示した。最初はトレーニングデータの出所に関する議論からだ – オーバーサンプリングされているのかアンダーサンプリングなのか、アルゴリズムはどのように構築されているのか？どのような情報が収集されたのか、どのように使用されるのか、計算ではどの要素が考慮されているのかが明確でなければならない。

氏は、我々が実行可能ないくつかのステップを提示した。

データトレーニング試験において、サークル外部の人を探そう – データセットを拡げるために。
使用されるデータが何であるかを徹底的に明確化しよう – データセットの識別とアルゴリズムの相互レビューを必ず行なうこと。
女性エンジニアをもっと雇用しよう- とにかくそうするのだ。女性の多いエンジニアリングチームほど、よい結果が得られる。
共感と自己認識に取り組もう – 自分自身の偏見を毎日少しずつ、絞り出すように努める(Obama大統領を参考に)。自身の共感と自己認識をリファクタリングしよう。

これらの話題をさらに掘り下げるためのソースのリストを提供して、氏は自身の講演を締め括った。

Elite Data Scienceの記事 “Bias-Variance Tradeoff”
Algorithm Watch
Algorithmic Justice League
EUのGeneral Data Protection Regulation(EU一般データ保護規則)
Federica Pelzel

氏は聴衆に対して次のように呼びかけた。

大量破壊ML兵器の開発は止めて、5年後、あるいはそれ以降に振り返った時、“ただのプラットフォームだ”と言えるようにしましょう。

最後に氏は、我々に監視や規制はないに等しい – 今回あげたような問題が政府による規制を引き起こす前に、我々自身が自制しよう、と語った。我々が構築しているものが、システム開発者よりも権利の低い人たちに与える影響について考える必要がある。

この記事を評価

提出

提出著者連絡

InfoQのすべての体験をアンロックして、そのメリットを最大限に活用しましょう

アカウントをお持ちでない方

Topics

Spring BootによるAPIバックエンド構築実践ガイド第2版

アーキテクチュラル・インテリジェンス – 次のAI

AIトレンドがソフトウェアチームに変革をもたらす

創造的活動：スタッフ・プラスは、「科学」というよりもむしろ「芸術」である

プラットフォーム・エンジニアリングによる開発者エクスペリエンス向上

役に立つリンク集

地域を選ぶ

ビッグデータ/マシンラーニングおよびAIにおけるバイアスの影響 - Leslie Miley氏のQCon San Franciscoでの基調講演より

この記事に星をつける

このコンテンツのトピックは QCon です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

もう一つのRust書き換え：OpenAIのCodex CLIをネイティブ化、NodeとTypeScriptをRustで再構築

マイクロソフトCTO、Rust Nation UKでRustの成功と課題、Rustへのコミットメントについて語る

Meta社、Rustで構築された高性能なPython型チェッカー「PyreFly」をオープンソース化

Uberのクエリアーキテクチャ：レイヤーの簡素化とオブザーバビリティの向上

Instagram、新ランキングフレームワークで通知疲れを軽減し、エンゲージメントを向上

Uber、CacheFrontの改善で毎秒1億5000万回の読み取りを達成

ソフトウェアエンジニアがスタッフプラスの役割に成長する方法

スペースシャトルとOrion MPCVのソフトウェアをNASAがどのようにテストしているか

デザイナーのサポート(置換えではない)にFigmaはどうAIを使うのか

PyTorch FoundationがRayを歓迎し、簡素化された分散AIのためのMonarchを発表

Memori、AIエージェント向けのSQLとMongoDBを活用したフルスケールのメモリレイヤーへ拡張

Discord、単一GPUワークフローから共有RayクラスターへのMLプラットフォーム拡張

GrafanaとGitLabがサーバーレスCI/CDの可観測性統合を導入

Helm、6年ぶりの大型リリースでKubernetesパッケージ管理を改善

AWS、ECS Express Modeを発表。コンテナ化アプリケーションの展開を簡素化

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco

ビッグデータ/マシンラーニングおよびAIにおけるバイアスの影響 - Leslie Miley氏のQCon San Franciscoでの基調講演より

この記事に星をつける

このコンテンツのトピックは QCon です。

関連記事:

関連記事

関連スポンサーコンテンツ

特集コンテンツ一覧

InfoQ ニュースレター