Início Artigos O que cientistas e engenheiros de dados precisam saber sobre o GDPR?

O que cientistas e engenheiros de dados precisam saber sobre o GDPR?

08 mai. 2018 10 min(s) de Leitura

Pontos Principais

O GDPR, efetivo a partir de maio de 2018, fundamentalmente altera a maneira como todas as organizações globais coletam e gerenciam seus dados.
A violação do regulamento pode resultar em multas de até 4% da receita global da organização.
Os principais requisitos do GDPR giram em torno da possibilidade de gerenciar como os dados são coletados, mantendo a visibilidade sobre como esses dados são usados e permitindo a imposição de restrições ao uso desses dados.
Serão necessárias novas ferramentas, estruturas e formas de pensar sobre o gerenciamento de dados para passar no "teste GDPR" básico e evitar a violação do regulamento.
Por fim, o GDPR apresenta uma oportunidade para modernizar a estratégia de gerenciamento de dados e capacitar programas de ciência de dados existentes.

O gerenciamento de dados está ficando muito mais difícil para as organizações globais, graças às novas regulamentações de privacidade na União Europeia (UE). Essas novas regulamentações terão efeitos de longo alcance em todos os programas que usam dados em grande escala.

Especificamente, o Regulamento Geral de Proteção de Dados da UE (GDPR) entrará em vigor em 25 de maio de 2018. E, com multas de até 4% da receita global, torna-se a regulação de dados mais grandiosa em qualquer lugar do mundo.

Embora o GDPR se aplique teoricamente apenas aos "dados pessoais" utilizados na UE, o regulamento define isso como qualquer dado que possa levar à identificação de uma pessoa. Na prática, isso significa que qualquer dado usado em escala na UE deveria, teoricamente, ficar sob a alçada do GDPR, pois estudos após estudos têm mostrado que dados suficientes de (quase) qualquer tipo podem denotar os indivíduos que os geraram. Citando apenas um exemplo, um grupo de pesquisadores demonstrou recentemente que os dados agregados de localização celular (como o número de usuários cobertos por uma torre celular em um timestamp específico) - que, em tese, deveriam ser anônimos - podem realmente identificar a trajetória de um indivíduo com algo entre 73% a 91% de precisão.

Então, o que os cientistas e engenheiros de dados - as pessoas responsáveis por coletar, organizar e usar dados dentro das organizações - pensam sobre o GDPR? Como eles devem projetar suas estratégias de dados?

O que é necessário saber sobre o GDPR

De modo geral, o GDPR cria requisitos legais que se enquadram em três grupos básicos: gerenciamento de coleta, visibilidade de dados e restrições ao uso de dados.

O gerenciamento de coleta envolve o gerenciamento dos dados que as organizações coletam e maneiras como a coleta acontece. O GDPR determina que a privacidade seja priorizada no momento da coleta de dados, por exemplo, com muitas restrições de dados atrelados ao consentimento do titular dos dados - o que significa que este usuário frequentemente terá que entender e concordar com o que sua organização pretende fazer com seus dados. Isso significa que quando alguém na UE gera dados que uma organização coleta, será preciso entender exatamente por que a organização está coletando esses dados, de forma que marcar esses dados no momento da coleta será de extrema importância.

A visibilidade dos dados significa entender quais dados a organização possui e por quanto tempo os manterá (e se planeja mantê-los). Até agora, a maioria das organizações entende que os dados são "o novo petróleo" e muitas estão fazendo o possível para coletar o máximo possível. Mas a maioria dessas organizações não entende totalmente os dados que possuem, nem o local onde estão armazenados ou mesmo sua proveniência depois de serem armazenados.

Na Immuta, frequentemente nos deparamos com isso, como uma combinação de questões de conformidade e arquitetura de TI, com silos de dados, equipes diferentes e administradores de bancos de dados responsáveis por uma ampla variedade de dados e nenhuma fonte exclusiva de verdade. Com os requisitos de GDPR em vigor, esse nível de variação não pode ser a norma. Se um usuário exigir que seus dados sejam excluídos, conhecido como o "direito de ser esquecido", sua organização precisará saber onde seus dados estão e, em seguida, apagá-los. Exemplos desse tipo de requisito de visibilidade são abundantes no GDPR.

Por fim, e talvez mais importante, as restrições ao uso de dados significam que a organização terá que impor restrições baseadas em finalidades de uso. Por exemplo, se um usuário apenas consente como "marketing" a finalidade dos seus dados, a organização precisará de uma maneira de acompanhar, impor e garantir essa restrição, desde a coleta até o uso. O GDPR lista seis propósitos gerais que são aceitáveis, e cada organização deve refinar sua própria lista de quais propósitos seus departamentos jurídicos consideram compatíveis com o GDPR. Este guia, por exemplo, sugere ter apenas 15 propósitos para dados em toda a organização. O rastreamento dessas finalidades - e a comprovação de que os dados com certas restrições de finalidade só foram usadas por esse motivo - será um dos requisitos mais importantes e difíceis do GDPR na prática.

Como passar no teste básico do GDPR

Imagine que o GDPR já esteja valendo, com as autoridades de proteção de dados em toda a UE aplicando o regulamento.

No momento em que escrevo, fica claro que muitos dos requisitos do GDPR ainda são relativamente ambíguos, e há muito ajuste fino a ser realizado pelos reguladores durante os meses seguintes, ou até mesmo anos. Isso significa que, muito possivelmente, os reguladores não estarão esperando 100% de conformidade com o GDPR no dia em que entrar em vigor. Ao invés disso, esperarão um esforço razoável e sério para cumprir os principais pontos da regulamentação.

Então, o que significa passar no "teste básico do GDPR"?

Significa que as organizações precisarão demonstrar conformidade com cada um dos grupos descritos anteriormente - entender os dados que possuem, quando coletá-los, as razões pelas quais utilizaram esses dados e comprovar tudo isso para os reguladores ou ao titular dos dados, que podem ter direito a relatórios ilustrando a conformidade com todos esses requisitos.

Do ponto de vista prático, isso significa que, no mínimo, todos os dados coletados por uma organização precisarão de novos metadados obrigatórios com os campos "finalidade" e "horário da coleta". Dessa forma, torna-se possível acompanhar e impor restrições ao seu uso, bem como aplicar políticas de retenção de dados, tornando possível excluir ou tentar anonimizar esses dados após um determinado período de tempo.

Se puder demonstrar que em todos os momentos, da coleta de dados ao uso e exclusão de dados, há um entendimento exato de quais dados se tem, por quanto tempo os tem (e se planeja mantê-los) e para quais finalidades esses dados foram usados - o programa de gerenciamento de dados provavelmente passará pelo "teste básico do GDPR".

A oportunidade GDPR

As organizações inteligentes verão o GDPR mais do que um novo conjunto de demandas. As organizações ágeis e orientadas por dados verão o GDPR como uma verdadeira oportunidade para repensar a forma como abordam todo o seu framework para coletar e usar dados.

Quando olhamos para os gigantes da tecnologia do mundo, pense na Amazon, no Google e em outros, o principal diferencial está em quão calculistas são sobre os dados que coletam e usam. Esta não é uma operação post hoc, mas algo baseado em planejamento cuidadoso e em engenharia. Ter os dados certos é o que lhes permite rupturas interessantes do marketing para o varejo e muito mais.

De fato, a literatura acadêmica há muito tempo demonstra que a boa governança se traduz em melhor desempenho. O mesmo pode ser dito sobre os programas de gerenciamento de dados. Insights orientados por dados melhores e mais duradouros exigirão mais pensamento e planejamento deliberados sobre como os dados são coletados e quais estarão à disposição da organização.

De fato, se há uma grande oportunidade apresentada pelo GDPR, é finalmente dar aos cientistas de dados uma compreensão centralizada de quais dados podem acessar e usar. Vejo constantemente que o título "cientista de dados" é, na prática, mais parecido com "varredor de dados", na qual uma boa parte do tempo dos cientistas é gasto simplesmente tentando encontrar os dados que precisam, depois para ter acesso a ele, depois transformá-lo no estado certo para, somente então, usá-lo.

Este processo leva a uma enorme quantidade de tempo e potencial desperdiçados. Os cientistas de dados não são contratados para buscar dados ou para criar soluções pontuais, ou ainda para gerar soluções de lacunas na estratégia de dados da organização. Os cientistas de dados estão lá para transformar dados em insight. É nisso em que são bons e é por isso que são frequentemente tão caros.

Criar uma estratégia de dados holística e um local centralizado para o gerenciamento de dados em toda a organização permitirá que os cientistas de dados façam o melhor possível e ajudem empresas a se moverem mais rapidamente, tornando-as mais eficientes e mais adaptáveis ao processo.

O que vem depois do GDPR?

Além da oportunidade imediata apresentada pelo GDPR, existe uma forma totalmente nova de pensar sobre dados, que se tornará cada vez mais importante à medida que novas regulamentações sobre dados surgirem. De fato, da Turquia para a China e outros lugares, os dados estão se tornando cada vez mais regulamentados, o que significa que o gerenciamento de dados será um dos facilitadores mais importantes para as organizações orientadas por dados e também um dos seus maiores desafios.

Alguns insights sobre o futuro do gerenciamento de dados:

Não existe isso de data lake ou algo similar. Muitas vezes, quando se trata de gerenciamento de dados, o primeiro instinto de uma organização é pensar que colocar todos os seus dados em um único lugar resolverá todos os problemas que eles têm. Quando se trata de data lakes para fins de processamento (como Spark), isso faz muito sentido. Mas, para governança e descoberta de dados, os data lakes frequentemente criam grandes problemas, transformando-se rapidamente de bancos de dados em pântanos de dados, à medida que novos dados são adicionados e novas ferramentas para armazenamento de dados emergem e a arquitetura de TI subjacente evolui. Pensar que serão resolvidos os problemas de gerenciamento de dados centralizando o local em que se armazena os dados é uma receita para problemas de longo prazo.
A diversidade é sua amiga. Ao invés de tentar padronizar a maneira como se armazena os dados da organização, o que pode ser quase impossível em grandes organizações, recomendo pensar na adaptabilidade de longo prazo da abordagem ao gerenciamento de dados. Isto é, suponha que haverá diversidade nos sistemas de armazenamento e ferramentas de ciência de dados - de fato, essa diversidade é inevitável. Uma vez que se perceba que a padronização de onde ou como os dados são armazenados não é a prioridade número um, pode-se pensar em aplicar políticas nesses dados e em quais diretivas se apoiar, o que é a espinha dorsal de qualquer estratégia de gerenciamento de dados.
Auditoria. Se não é possível auditar, não há como provar que uma estrutura de gerenciamento de dados está funcionando e não há como demonstrar isso aos reguladores. Portanto, garantir que haja uma capacidade centralizada de auditar e criar relatórios de auditoria será um componente essencial de qualquer estratégia de gerenciamento de dados. Certifique-se de testar suas habilidades de auditoria antes que elas sejam necessárias. As organizações frequentemente pensam que estão coletando os dados certos para suas necessidades de auditoria e, com muita frequência, aprendem sobre erros de registro quando já é tarde demais.

Há muito mais pontos-chave para uma futura estrutura de gerenciamento de dados para o GDPR. Mas o principal diferencial para uma organização deve ser que o gerenciamento de dados não pode mais ser um componente incidental de sua estratégia de dados - no departamento de TI ou de outra forma. A crescente importância da ciência de dados entre organizações, combinada com o aumento na regulamentação de dados, significa que as organizações precisarão priorizar cada vez mais o gerenciamento dos dados.

Sobre o autor

Andrew Burt é diretor executivo de privacidade (Chief Privacy Officer) e engenheiro jurídico da Immuta, a principal plataforma mundial de gerenciamento de dados para ciência de dados.

Conteúdo publicado no tópico DevOps

Tópicos Relacionados:

Conteúdo editorial relacionado

O que cientistas e engenheiros de dados precisam saber sobre o GDPR?

Pontos Principais

Conteúdo relacionado de patrocinadores

O que é necessário saber sobre o GDPR

Como passar no teste básico do GDPR

Então, o que significa passar no "teste básico do GDPR"?

A oportunidade GDPR

O que vem depois do GDPR?

Sobre o autor

Avalie esse artigo

Conteúdo publicado no tópico DevOps

Tópicos Relacionados:

Conteúdo editorial relacionado

Conteúdo Relacionado de Patrocinadores

Conteúdo educacional

InfoQ Brasil Newsletter