BT

最新技術を追い求めるデベロッパのための情報コミュニティ

寄稿

Topics

地域を選ぶ

InfoQ ホームページ アーティクル GDPRについてデータサイエンティストとデータエンジニアは何を知るべきか?​

GDPRについてデータサイエンティストとデータエンジニアは何を知るべきか?​

原文(投稿日:2018/02/06)へのリンク

EUの新しいプライバシ規則のおかげで、データ管理はグローバルな組織にとって、さらに難しいものになろうとしています。これらの新しい規則は、規模を拡大してデータを使うプログラムにおいて、広範囲にわたって影響を与えるでしょう。

特に、EUの一般データ保護規則(GDPR)は、2018年5月25日に施行されます。そして、全世界年間売上高の4%までの制裁金により、GDPRは世界のどこよりも重大なデータ規則になっています。

GDPRは、理論上、EUの「個人データ」のみに適用されますが、この規則では、どのデータでも個人を識別できるものとしています。実際のところ、これは、広範囲にわたるEUのデータが、理論上はGDPRの範囲に入ることを意味します。研究研究を重ね、ほとんどどの種類のデータでも、データを生成する個人を明らかにすることが示されています。1つだけ例を挙げれば、携帯電話の位置データを集めたもの(特定のタイムスタンプで、携帯電話用の鉄塔がカバーするユーザ)は、論理的には匿名であるべきですが、73パーセントから91パーセントの正確さで、個人の軌跡を実際に識別できることを、研究者グループが最近論証しました

それでは、データサイエンティストやデータエンジニア - 組織内で情報を収集し、整理して、利用する責任のある人たち - は、GDPRに関して何を考えるべきでしょうか? データ戦略をどのように設計するべきでしょうか?

GDPRについて知るべきこと

ハイレベルのところでは、GDPRは、3つの基本的なバケツに分類される、法的要件を作り出します。収集管理、データ可視性、そして、データ使用の制限です。

収集管理は、組織が収集するデータと、収集される方法を管理することを含みます。GDPRは、例えば、データ主体の同意に結び付けられた、データに関する多数の制限によって、データ収集時のプライバシの優先順位付けを義務付けます。そのため、データ主体は、たびたび、あなたの組織がデータをどうしたいかを理解し、同意しなければならないでしょう。つまり、EU主体があなたの組織が収集するデータを生成する時に、データを収集している理由と、収集時のデータをタグ付けることについて正確に理解することが、最優先です。(この下にはもっといろいろなことがあります。)

データ可視性は、あなたの組織がどのデータを持ち、どのくらいの期間保持するか(そして、データを保持し続けることを計画しているか)を理解することを意味します。今では、大抵の組織は、データは「新しい石油」であることを理解し、多くはできる限り沢山のデータを収集することに最善を尽くしています。しかし、これらの組織のほとんどは、自分たちの持つデータ、そのデータの保存場所、そして、一度保存されたらその出所を完全には理解していません。

データサイロ、様々なチーム、幅広いデータに責任があるデータベースアドミニストレータ、真実に唯一の源はないことにより、私たちは、変わることなく、コンプライアンスとITアーキテクチャの問題の組み合わせとして、度々このことに遭遇します。GDPRの要件が実施される時に、このレベルの差異は規範にはなりません。ユーザがデータを削除することを要求したら、- これは、しばしば「忘れられる権利」として知られています - あなたの組織は、どこにそのデータがあるかを知っていて、そのデータを削除しなければならないでしょう。この種の可視性の要求の例は、GDPRに沢山あります

最後に、そして、おそらくもっとも重要なのは、データ使用の制限は、あなたの組織が、データに対して目的ベースの制限を実施しなければならないことを意味します。ユーザが自分のデータを「マーケティング」目的で同意した場合、例えば、収集から使用まで、その制限を追跡して、守らせる手段が必要でしょう。GDPRでは、受け入れられる6つの主要な目的を挙げています。各組織は、法務部がどの目的をGDPRに準拠すると考えるのか、自分たちのリストを改良するでしょう。このガイドは、例えば、データに対して、組織全体で15個だけ目的を持つことを提案します。これらの目的を追跡し、特定の目的の制限を持つデータは、その理由のために使われるだけだと証明することは、GDPRを実施する上でもっとも重要で難しい要求の1つになるでしょう。

基本的なGDPRのテストに通る方法

GDPRは、規則実施するEUのデータ保護機関により、すでに私たちに関係していると想像してください。

この記事を書いている時にも、GDPRの要件の多くは、まだ比較的不明瞭で、規則を管理する人たちは、数年でなければ、あと数ヶ月は従事するでしょう。つまり、十中八九、規則を管理する人たちは、GDPRが施行される日に100%準拠されることを期待している訳ではありません。むしろ、彼らは、規則の主な保有者に従う、妥当で真剣な努力を期待しています。

それでは、基本的な「GDPRテスト」に通るとは?

組織が、上述したように、それぞれのバケツで準拠していることを示せる必要があるということです。持っているデータを理解し、データを収集する時に何のためにデータを使うのかという理由、そして、これらすべての要求に準拠していることを示す報告書に対する権利を持つ、管理者やデータ主体に対して、このことすべてを証明できることです。

実際的な観点から、つまり、最低でも、あなたの組織で収集したデータは、それぞれ「目的」と「収集した時間」のフィールドに、新しく要求されるメタデータが必要になります。このようにして、データの利用時に、追跡して制限を実施できるでしょう。そして、データ保持の方針を実施できます。一定期間経てば、データを削除したり、匿名化したりしようとするでしょう。

データ収集からデータ利用、削除のすべての点で、何のデータを保持し、どのくらいの期間、そのデータを保持していたか、(そして、どのくらいの期間、データを保持するつもりか)、何のために使うか、そして、これらのバケツがGDPRの要求に沿っていることを示せれば、あなたのデータ管理プログラムは、やすやすと基本的な「GDPRテスト」に通るでしょう。

GDPRの機会

ここまで言っても、きちんとした組織は、GDPRを新しい要求以上のものとして見るでしょう。俊敏なデータ駆動の組織は、データを収集して利用するためにフレームワーク全体に取りかかる方法を再考する真の機会として、GDPRを見るでしょう。

世界の技術系最大手企業 - AmazonやGoogle等を考えてください - を見る場合、主な差別化要因は、そのような企業が収集して利用するデータの計算方法にあります。これは、事後の操作ではなく、注意深い計画とエンジニアリングに基づくものです。正しいデータを持てば、スーパーマーケットその他に小売するマーケティングから縦に分断できます。

実際に、学術文献は、よい統治はよりよいパフォーマンスに結びつくことを長く証明してきました。同じことは、データ管理プログラムについても言えます。よりよく、より長く続くデータ駆動の洞察には、どのようにデータが収集されるか、処分時には組織がどのデータを持っているかを、もっと慎重に考えて計画する必要があるでしょう。

実際に、GDPRによって与えられる1つの大事な機会があるならば、それは、データサイエンティストがアクセスして使うことができるデータが何かを、ようやく中央に集めて理解できるようになることです。私は、絶えず「データサイエンティスト」というタイトルは、実際には「データ回収業者」のようなものとして見ています。データサイエンティストの時間の相当の部分は、ただ必要なデータを探し、アクセスし、正しい状態に変換し、それからやっとデータを使うことに費やします。

このプロセスにより、多くの時間を無駄にし、失う可能性があります。データサイエンティストは、データから利用できるものを探すため、または、組織のデータ戦略の中のギャップに対して、1回限りのプロジェクト毎のソリューションを作り出すために雇われたのではありません。データサイエンティストは、データを洞察に変えるためにそこにいます。それがデータサイエンティストの得意とするところです。だから、データサイエンティストにはしばしばお金がかかるのです。

全体的なデータ戦略を作成し、組織全体でデータを管理するための中心となる場所を持つことで、ついに、データサイエンティストは、一番得意なことができるようになります。プロセスの中でより効率的に、より適合できるようになり、会社が素早く動く手助けをするでしょう。

GDPRの後にくるものは?

GDPRによって与えられる直接の機会以外に、データに関してまったく新しい考え方が与えられます。これは、データが現れるにつれて、新しい規則として、ますます重要になっていくものです。実際に、トルコから中国や他の場所へ、データはますます規制されるようになっています。つまり、データ管理は、データ駆動の組織にとって、もっとも重要な手段を与えるものの1つであり、もっとも大きな挑戦の1つになるでしょう。

データ管理の将来に関する洞察:

  • データレイクのようなものはありません。しばしば、データ管理になると、組織の最初の本能は、1つの場所にデータをすべて入れれば、自分たちの持っている問題がすべて解決すると考えます。(Sparkのように) 処理することが目的のデータレイクになると、これは非常に道理にかなっています。しかし、管理とデータ発見に関して、データレイクはしばしば大きな問題を作り出します。すぐにデータの池に変わって、それから沼になり、新しいデータが追加され、データ保管のための新しいツールが現れると、基礎をなすITアーキテクチャは進化します。データを保管する場所を中央に集めて、データ管理の問題を解決しようと考えるのは、長期的な問題の原因になります。
  • 多様性があなたの味方です。組織のデータを保管する方法を標準化しようとすることは、大規模な組織ではほとんど不可能です。その代わりに、データ管理へのアプローチを長期的に適合させるように考えることをお勧めします。つまり、保管システムとデータサイエンスツール全体が多様になると想定しましょう。実際に、多様性は避けられません。データを保管する場所と方法を標準化することが最優先ではないことを理解すれば、データ管理戦略の根幹となる、データへの方針の実施方法やどの方針を支持するかについて考えられるようになります。
  • 監査。監査。監査。監査できなければ、データ管理フレームワークが機能していることを証明できず、監査機関に実証できません。そのため、監査して、監査報告書を作成する能力を確実に中央に集めることは、データ管理戦略の重要なコンポーネントになるでしょう。そして、必要になる前に、監査能力を確実にテストしましょう。組織は、しばしば監査に必要なだけの正しいデータを収集していると考え、一般的に、ログエラーについて学ぶときには、手遅れになっています。

もちろん、GDPRの将来のデータ管理フレームワークには、多数のより重要な所有者がいます。しかし、あなたの組織が覚えておくべき重要な点は、データ管理は、IT部門でもどこでも、もはやデータ戦略の付随的なことではありえないことです。データに関する規則が増えるのと共に、組織全体のデータサイエンスの重要性はますます増加します。そのため、組織はさらにデータ管理を優先させることが必要でしょう。

著者について

Andrew Burt氏は、世界で主導的なデータサイエンスのためのデータ管理プラットフォーム、Immutaの個人情報保護責任者、かつ、法律エンジニアです。

この記事に星をつける

おすすめ度
スタイル

BT