GoogleとOpenMinedは新たなオープンソースライブラリのPipelineDPをリリースした。これにより、研究者や開発者がバッチ処理システムを使って大規模なデータセットに差分プライベート集計を適用できるようになる。
このプロジェクトはOpenMinedとGoogle匿名化チームのコラボレーションである。差分プライバシーに対する実運用環境に適用できるレベルのツールを共同で作成することを目的としている。OpenMinedは非営利コミュニティで、安全でプライバシーを保護するオープンソースソフトウェアの研究と開発に焦点を当てている。以前にPyDPを開発して公開している。これは、Googleのオープンソースの差分プライバシーライブラリ上に構築されたPythonの差分プライバシーライブラリである。
差分プライバシーは、ユーザが生成したデータに人工的なノイズを追加しながらも、個人を特定できる情報を公開することなく高品質の結果を生成するデータサイエンスのプラクティスである。これは、個人のプライバシーを侵害することなく、科学研究を実施し、意味のあるレポートを生成するために、多くの大手テクノロジー企業によって使用されてきた。最近では、GoogleのCOVID-19コミュニティモビリティレポートとiPhoneで見られるCOVID-19接触通知に適用されている。
消費者がデータの共有にさらに注意を払い、規制当局がプライバシー要件を強化するにつれて、GoogleとOpenMinedは、差分プライバシーをより手が届きやすく使いやすいことが重要であると感じた。Googleプライバシーおよびデータ保護オフィスのプロダクトマネージャーMiguel Guevara氏は、より多くの開発者が差分プライバシーを使用できるようにすることが重要である理由を説明した。
これらの技術的進歩をより広いコミュニティと共有するという道徳的責任を感じました。また、多くの開発者から、Pythonを使ってこれらのアルゴリズムのいくつかを試してみたいと聞いています。それが、このライブラリをオープンソース化することにした理由です。開発者がそれを試して、差分プライバシーを備えた新しくエキサイティングな用途を見つけることを期待しています。
PipelineDPは、結果が差分プライベートであることを保証しながら、内部の差分プライバシーの複雑さを管理する高レベルのエンドツーエンドソリューションを提供する。一方で、その前身のPyDPは比較的低レベルのPython APIを提供し、そこにはドメインの専門知識と構成の追加が必要となる。
出典: https://pipelinedp.io/overview/
専門家以外が差分プライバシー理論を使ったデータ処理を簡単に使えるようにするために、PipelineDPは、外れ値やまれなカテゴリの保護、安全なノイズの生成、プライバシー予算の会計など、差分プライバシーの複雑さをカプセル化し、SparkやBeam開発者に馴染みのあるAPIとして提供する。count、sum、averageなどの標準的な計算はネイティブでサポートされている。他の集計タイプは、標準APIから簡単に拡張できる。
差分プライバシーのプラクティスを適用することで、データ品質が低下することがよくある。この課題を解決するためのPipelineDPの試みは、複雑なセットアップ不要のユーティリティ分析ツールキットだ。ユーザは、このツールキットを使って入力データの分析とパラメーター調整を行うことができる。
FacebookのOpacusやGoogleのTensorFlow Privacyなどの他の差分プライバシーオープンソースライブラリと比較すると、PipelineDPはベンダーロックインがなく、他のシステムとうまく相互運用できるという大きな柔軟性の利点がある。
PipelineDPはまだ実験段階であり、変更される可能性があることに注意してください。現時点では、プロジェクト開発者は本番システムでの使用を推奨しておらず、まだ全面的なテストはされていない。GoogleとOpenMinedのチームは、近い将来、より多くの機能を追加し、信頼性を向上させることを目指している。
PipelineDPライブラリは、OpenMinedのGitHubリポジトリで利用できる。このリポジトリには、自身で試せるように多くの例も含まれている。