BT

Domino: Datascience-as-a-Service

por Michael Hausenblas , traduzido por Thiago Bolivar em 31 Mar 2014 |

O Domino, uma plataforma para a ciência analítica de dados, permite que qualquer pessoa realize um trabalho analítico usando linguagens como Python ou R.

De acordo com Nick Elprin (co-fundador da Domino), a plataforma permite que os cientistas possam se concentrar em suas análises, sem perder tempo com a infra-estrutura:

Ao passo que os volumes de dados vêm aumentando e as técnicas de análise vêm se tornando mais sofisticadas, acreditamos que as ferramentas mais modernas para realizar a análise de dados devem ser de fácil uso e não limitem o trabalho no campo da ciência de dados.

A plataforma Domino tem como pilares três funcionalidades:

  1. Implantação e execução na nuvem: O Domino executa um código existente (Python, R, Matlab, Julia, shell scripts, entre outros) no EC2, a fim de executar tarefas de longa duração e uso intensivo de recursos. O sistema disponibiliza toda a estrutura para que isso aconteça: gestão AMI, gestão do ciclo de vida das máquinas, transferência segura de dados entre máquinas e transferência segura dos resultados.
  2. Controle de Versão: A equipe do Domino percebeu que ferramentas de controle de versão, como git, são insuficientes para fluxos de trabalho de análise, pois não conseguem lidar com grandes conjuntos de dados e não fazem um relacionamento entre as entradas e os resultados (por exemplo: tabelas e figuras). O Domino faz o controle de versão de todo o projeto automaticamente, atualmente até 40 GB, tornando mais fácil manter a memória de todo o projeto, incluindo códigos, os dados e os resultados.
  3. Colaboração: Como um projeto do Github, projetos Domino podem ter colaboradores que podem ver, editar e executar um projeto. O Domino detecta conflitos, envia notificações atualizadas sobre os resultados das execuções e tem um bloco de notas interno para facilitar a discussão da equipe sobre o andamento do projeto.

Com a abordagem pague e use, os preços do Domino variam de contas gratuitas até assinaturas mensais. Como o InfoQ apurou com Nick Elprin, apesar de a plataforma ser bem recente, já vem sendo utilizada por todo o espectro de profissionais da ciência de dados: desde acadêmicos, como por exemplo um ecologista que analisa milhares de imagens para sua pesquisa, até empresas de marketing que ajudam seus clientes a atingirem seus objetivos.

Olá visitante

Você precisa cadastrar-se no InfoQ Brasil ou para enviar comentários. Há muitas vantagens em se cadastrar.

Obtenha o máximo da experiência do InfoQ Brasil.

Dê sua opinião

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão
Comentários da comunidade

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

Dê sua opinião

Conteúdo educacional

Feedback geral
Bugs
Publicidade
Editorial
InfoQ Brasil e todo o seu conteúdo: todos os direitos reservados. © 2006-2014 C4Media Inc.
Política de privacidade
BT