BT

如何利用碎片时间提升技术认知与能力? 点击获取答案

关于GDPR,数据科学家和数据工程师需要知道些什么

| 作者 Andrew Burt 关注 0 他的粉丝 ,译者 薛命灯 关注 24 他的粉丝 发布于 2018年2月9日. 估计阅读时间: 9 分钟 | AICon 关注机器学习、计算机视觉、NLP、自动驾驶等20+AI热点技术和最新落地成功案例。

本文要点

  • 即将于2018年5月生效的GDPR将会改变企业收集和管理数据的方式。
  • 违反条例可能遭到罚款,罚款最高相当于整个企业利润的4%。
  • GDPR主要围绕数据的收集、数据的可见性和数据的使用限制。
  • 新的工具、框架和数据管理方式需要通过最基本的“GDPR测试”,以免违反条例。
  • GDPR为数据管理策略的现代化和数据科学应用的强化带来了契机。

欧盟最新隐私条例的推出,给企业的数据管理带来了更多的挑战。新条例将会给所有使用数据的应用程序带来深远的影响。

欧盟的通用数据保护条例(General Data Protection Regulation,GDPR)将会在2018年5月25日生效。如果企业违反条例,最高需要付出4%的利润作为罚款。因此,GDPR可以说是世界上罚款最重的数据条例。

从理论上说,GDPR只对欧盟地区的“个人数据”有效,但实际上,任何能够用于识别个人的数据都适用该条例。也就是说,任何欧盟地区的数据都在GDPR的管辖范围之内,因为研究表明,只要数据足够多,到最后都有可能关联到与数据主体。举个例子,最近有一组研究人员使用蜂窝位置数据(比如某一时间点某个信号塔覆盖到的用户数)——理论上这些数据都是匿名的——定位到个人的位置轨迹,准确率高达73%到91%。

那么,那些在企业中负责收集、组织和使用数据的数据科学家和数据工程师们应该如何看待GDPR?他们应该如何调整他们的数据策略?

关于GDPR,你需要知道些什么

从高层面来看,GDPR主要关注三个方面的问题:数据收集管理、数据可见性和数据使用限制。

收集管理涉及到如何管理数据和如何收集数据。GDPR要求在进行数据收集时,隐私是首要的考虑因素。例如,条例中有很多限制条件与数据主体的授权有关,也就是说,企业在收集数据时,需要让数据主体知道,并获得他们的同意。换言之,在企业收集用户的数据时,用户需要知道企业为什么要收集数据,这一点是重中之重。

数据可见性是指了解企业持有哪些数据以及将持有多长时间。现如今,大多数企业都意识到数据就是“宝藏”,他们竭尽所能地收集数据。但大部分企业对他们所持有的数据并不了解,或者不知道该把它们存在哪里,或者在保存好以后不知道数据的来源是哪里。

在Immuta,我们通常把这看成是合规和IT架构问题,我们有数据孤岛和不同的团队,数据库管理员负责管理各类数据。在GDPR出台之后,这种方式就不符合规范了。如果有用户要求删除他们的数据(这个是经常被“遗忘”的用户权利),企业就要找到这些数据,并删除它们。GDPR中例举了相关的例子。

最后,也是最重要的一点,数据使用限制指的是企业必须基于使用意图来使用数据。例如,如果一个用户只同意将数据用于“营销”,那么企业就必须遵循这样的限制。GDPR列出了六个合理的使用意图,企业可以在GDPR允许的范围内制定自己的使用意图。这个指南为企业提供了15个使用数据的建议。对于企业来说,遵循数据使用意图是最为重要也是最大的挑战。

如果通过基本的GDPR测试

我们先假设GDPR已经生效,欧盟当局开始强制执行该条例。

实际上,在写这篇文章的时候,GDPR还有很多模棱两可的地方,在接下来的几个月(甚至是几年),条例制定者还会对其进行调整。也就是说,在条例正式生效那天,条例制定者们并不会指望能够达到100%的合规性。他们期待的是人们能够以一种合理、严肃的态度和努力来遵守条例。

通过基本的“GDPR测试”意味着什么?

这意味着企业需要展示他们的合规性——了解收集的数据,了解数据的使用意图,并向条例制定者和数据主体证明自己能够做到这些。

更具体地说,企业收集的数据至少需要加入一些元数据,比如“意图”和“收集时间”。这样就可以更好地跟踪数据的使用,并严格遵守数据的保留时间。也就是说,在持有数据一段时间之后,需要删除或隐匿这些数据。

如果企业能够在这些方面展示他们的合规性,从数据收集、使用到删除,他们对数据有充分的了解,知道该持有数据多长时间,知道数据的使用意图,并且符合GDPR的每一项要求,那么他们就可以顺利地通过基本的“GDPR测试”。

GDPR下的机遇

在聪明的企业看来,GDPR不只是一组新准则而已。那些以数据为驱动的敏捷企业把GDPR看成是一种机遇,他们会重新思考他们的整体框架,以便更好地收集和使用数据。

以亚马逊和谷歌这样的科技巨头为例,他们的关键差异在于如何收集和使用数据。这些不是事后才来考虑的事情,而是需要进行谨慎的前期规划。拥有正确的数据才能让他们在营销、零售等方面无往不胜。

事实上,教科文献早就证实,好的监管会带来更好的产出,在数据管理方面也是如此。更好、更长远的数据洞见要求在数据的收集和销毁方面进行深思熟虑和谨慎的计划。

GDPR让数据科学家明白了他们能够访问和使用哪些数据,这或许就是GDPR为我们带来的主要机遇之一。我一直觉得“数据科学家”更像是“数据清道夫”——大多数数据科学家大部分时间都是在查找他们需要的数据上,然后访问这些数据,把它们转换到恰当的状态,然后使用它们。

但这种状况会导致大量的时间和资源的浪费。数据科学家并不是被请来做数据清道夫的,也不是为企业的数据策略做一次性解决方案的。他们的职责应该是从数据中挖掘洞见,这也是他们擅长的事情,这也就是为什么企业高薪聘请他们。

在组织中制定全盘的数据策略,并集中管理数据,数据科学家们就可以脱身出来做他们擅长的事情,从而让公司发展得更快,变得更高效和灵活。

GDPR实施之后会发生什么?

我们需要以全新的方式来看待数据,随着新规则的出现,它会变得越来越重要。事实上,不管是土耳其中国还是其他国家,数据变得越来越规范,对于以数据作为驱动的企业来说,数据管理变得越来越重要,也是最大的挑战之一。

以下是几点有关未来数据管理的洞见:

  • 数据湖不复存在。通常在说到数据管理时,企业的第一直觉是将所有数据放到一个地方,以此来解决所有的问题。如果是出于处理数据的目的(比如Spark),这样做是可以的。但说到数据监管和数据发现,数据湖就会成为问题。随着数据的不断加入、数据存储工具的不断出现以及底层IT架构的演进,数据湖会变成数据池塘,然后是数据沼泽。在未来,你可能需要通过集中存储数据来解决数据管理问题。
  • 多元化是你的好朋友。在大型组织中,以标准化的方式来存储数据是几乎不可能的,我建议要长远地考虑数据管理问题。你将会拥有多元化的数据存储系统和数据工具——事实上,多元化是不可避免的。一旦你意识到标准化并非你的首选,就要想想多元化,它才是数据管理策略的核心。
  • 进行审计。如果你不进行审计,就无法向条例制定者证明你的数据管理框架符合条例的要求。所以,要确保自己具有集中式的审计能力,创建审计报告是数据管理策略的一个关键组件。另外,在必要时需要对审计进行测试。企业通常认为他们为审计所收集的数据是正确的,但经常会出现错误,而一旦发现出问题就为时已晚。

关于GDPR之下的未来数据管理框架还有很多可以说的。对于企业来说,最为关键的是,数据管理不再只是数据策略中可有可无的一个组件。数据科学在企业中的重要性与日俱增,随着数据条例的出台,企业需要越来越重视数据管理。

关于作者

Andrew Burt 是Immuta的首席隐私保密管及法务工程师,Immuta是世界领先的数据管理平台。

 

 

查看英文原文What Do Data Scientists and Data Engineers Need to Know about GDPR?

评价本文

专业度
风格

您好,朋友!

您需要 注册一个InfoQ账号 或者 才能进行评论。在您完成注册后还需要进行一些设置。

获得来自InfoQ的更多体验。

告诉我们您的想法

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我
社区评论

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

允许的HTML标签: a,b,br,blockquote,i,li,pre,u,ul,p

当有人回复此评论时请E-mail通知我

讨论

登陆InfoQ,与你最关心的话题互动。


找回密码....

Follow

关注你最喜爱的话题和作者

快速浏览网站内你所感兴趣话题的精选内容。

Like

内容自由定制

选择想要阅读的主题和喜爱的作者定制自己的新闻源。

Notifications

获取更新

设置通知机制以获取内容更新对您而言是否重要

BT