BT

Disseminando conhecimento e inovação em desenvolvimento de software corporativo.

Contribuir

Tópicos

Escolha a região

Início Notícias Obtendo os dados necessários para a Ciência de Dados

Obtendo os dados necessários para a Ciência de Dados

Favoritos

Data Science (Ciência de Dados) é sobre quais dados são necessários, pois decidir quais dados coletar, criar ou manter é fundamental, argumenta Lukas Vermeer, um experiente profissional de Data Science e Product Owner de experiências no Booking.com.

A inovação de verdade começa com a reflexão de grandes questões, então torna-se evidente que os dados são necessários para encontrar as respostas de que se precisa. Vermeer falou sobre Data Science versus Data Alchemy na conferência GOTO Amsterdam 2016.

Christine Doig, Cientista de Dados Senior na Continuum Analytics, definiu Data Science como uma disciplina de equipe em:

Gosto de pensar em Data Science como algo que reúne diferentes áreas e linhas de pensamento, algo utilizado para resolver problemas em torno dos dados, transformar a informação em conhecimento e em algo intuitivo.

Ed Jones cita em seu artigo no InfoQ "O papel do Cientista de Dados em 2016", a importância de Big Data e Data Science:

Esta é a era do Big Data e ele veio para ficar. Com mais dados sendo coletados do que nunca, extrair valor a partir desses dados torna-se cada vez mais complexo. A lógica por trás da economia de Big Data é moldar nossas vidas de maneiras que não se pode sequer conceber ou prever; cada movimento eletrônico que fazemos produz uma estatística e insights sobre a nossa vida.

"Queremos verificar se as pessoas estão gostando das alterações que fizemos no website" disse Vermeer. O site Booking.com utiliza desse recurso e outras maneiras de coletar dados para continuamente melhorar e a experiência do cliente.

Vermeer afirmou que "Pode-se ter grandes quantidade de dados, mas não serão úteis se não souber o que fazer com isso." A quantidade de informações nem sempre levam às melhores decisões. Data Science são as informações de que se precisa, diferente dos dados que se têm. A Ciência é limitada pelos dados e esses limitados pela engenharia, disse Vermeer. É preciso pensar em como trabalhar com os dados para obter o progresso necessário.

Em sua palestra Vermeer utilizou exemplos da história da ciência no sistema solar. Para mostrar como os dados podem ser limitados pela engenharia, foi citado a ciência na astronomia. Ptolomeu não poderia observar o efeito Coriolis e a paralaxe estelar, pois seus equipamentos não possuíam precisão suficiente e ambos efeitos apresentam intensidade fraca. Essa ausência de evidências, entre outras coisas, o levou a concluir que a Terra não se movia. Para Ptolomeu, os dados para ambos efeitos foram claramente limitados pela engenharia do tempo. Facilmente observado em tempos passados, não menos verdadeiro nos dias atuais.

Vermeer argumentou que os modelos não precisam necessariamente serem verdadeiros, mas úteis para ajudar a prever o futuro. Múltiplos modelos podem auxiliar no entendimento dos dados que já se tem, porém não é possível provar que esse modelo em uso é o correto. Determinar qual deles é o mais próximo da realidade, exige uma nova coleta de dados.

Vermeer citou o website Kaggle.com, uma comunidade de cientistas de dados em que é possível aprender, resolvendo problemas complexos de ciência de dados, além de se reunir com outros cientistas de dados.

É possível realizar análises de sentimento, levando em conta os comentários de clientes que gostaram ou não de um hotel e até mesmo por palavras chave. Porém, ao invés disso, pode-se apresentar a essas pessoas dois formulários, tendo no primeiro que indicar o que mais gostaram e no segundo o que não gostaram. Essa abordagem resolve o desafio da análise de sentimento no momento da coleta dos dados, disse Vermeer.

Vermeer sugere pensar sobre os dados que podem ser criados. Em que esses dados se sobrepõe com os dados que já se tem e pode-se decidir entre manter esses dados ou recriá-los. Custo e risco (por exemplo o vazamento de informações de identificação pessoal "POII") são as principais razões para decidir entre manter ou recriar. O custo para manter os dados podem ser significantes. Há que se levar em consideração, dependendo dos dados em mãos.

Haverá ainda os dados de que precisa, porém não poderá obter. Como solução, é possível usar os dados representantes: que são dados que estão relacionados com as informações necessárias e que estão disponíveis para serem utilizados como substitutos quando não tem o dado real.

Vermeer deu como exemplo uma campanha utilizou o envio de e-mail do Booking.com, em que utilizam da personalização para promover destinos para os viajantes. Alguns clientes se assustam ao ver como esses e-mails foram formulados, pois isso os fazem pensar que um ser humano havia analisado suas compras passadas e estava apresentando algumas sugestões. Essas sugestões, foram realmente baseadas em um modelo de aprendizagem de máquina, não por juízo humano. Para a próxima campanha o texto do e-mail foi refeito, com dobro de impacto e sem fazer alterações ao modelo preditivo.

Para a Ciência de Dados ser ciência e não alquimia, decidir quais dados e como coletar esses dados é um passo fundamental, disse Vermeer.

"Pode-se dar ao luxo de estar errado ou se dar ao luxo de não saber?". Essas foram as questões feitas ao público por Vermeer no final de sua palestra. Citando Voltaire: "Julgue um homem por suas perguntas e não por suas respostas". Se as perguntas dessas pessoas me fazem pensar coisas que não havia considerado, então isso é bom, disse Vermeer.

Avalie esse artigo

Relevância
Estilo/Redação

Conteúdo educacional

BT