BT
rss
50:40

Data Science em Tempo Real com Storm

Postado por Fabiane Nardon  em  30 Jul, 2014

A maioria das aplicações de Data Science hoje se baseia no processamento em batch dos dados. Mas há um aumento de casos que processam imensas quantidades de dados em tempo real. Esta palestra irá mostrar uma solução usando o framework Storm; truques, armadilhas a evitar e aqueles segredos que apenas se aprende depois de processar terabytes de dados, serão apresentados com base em casos reais.

30:02

Big Data na prática: Resolvendo problemas de performance com Hadoop

Postado por Marcos Reis  em  25 Jul, 2014

Esta palestra mostrará os passos para se desenvolver uma solução usando algumas ferramentas que fazem parte do ecossistema do Hadoop: MapReduce, HDFS e HBase. Um típico programa Hadoop é composto de algumas fases como carregamento de dados no HDFS, operações MapReduce e recuperação do resultado do HDFS. Com base nessas características, analisaremos em que contexto o Hadoop pode fazer a diferença.

49:09

Big Data, Performance, POSIX, Real Time Bidding e desafios da propaganda na web

Postado por Tiago Peczenyj  em  26 Nov, 2013

Nessa palestra exploramos o desafio de analisar milhões de perfis de usuários por dia, na busca por otimização de campanha publicitárias na web, lidando com um fluxo cada vez maior de dados. Mostraremos como lidar com gargalos na consulta de dados, através do uso da interface POSIX, e seu impacto numa estrutura de Real Time Bidding, na busca pela menor latência possível.

47:37

Machine Learning em ambiente de mineração de dados

Postado por Everton Gago  em  07 Nov, 2013 2

Essa palestra apresenta uma visão geral sobre as técnicas de aprendizado de máquina e como podem ser utilizadas em ambientes de mineração de dados, permitindo a descoberta automática de informações. Toda a apresentação será baseada em exemplos práticos e ao final será mostrado um case real, onde aplicamos técnicas de machine learning para minerar dados de um grande município brasileiro.

39:55

Utilizando ferramentas open source para reorganizar seus dados em informações concretas

Postado por Fernando Meyer  em  05 Nov, 2013

Muito se fala do papel que os dados podem assumir no dia-a-dia de empresas, mas pouco se mostra como podem ser eficazes no auxílio das tomadas de decisões. Veja como seguir um caminho prático pelos emaranhados de termos e técnicas surgindo a cada dia neste campo que floresce como nova onda. Mostramos como transformar conjuntos de dados em informação – e por consequência em lucros.

47:24

Analisando e reduzindo grandes fluxos de dados em tempo real

Postado por Juan Lopes  em  25 Out, 2013

Qual a dificuldade de calcular a tamanho de um conjunto em um sistema distribuído? E de fazer isso sobre um fluxo quase infinito em tempo real? A apresentação introduz técnicas que resolvem esses problemas com abordagens determinísticas e probabilísticas. Será dado foco especial nos "streaming algorithms", explicando o funcionamento de estruturas como HyperLogLog, Count-Min e Bloom filters.

48:02

Big Data otimizado: Arquiteturas eficientes para construção de Pipelines MapReduce

Postado por Fabiane Nardon  em  16 Out, 2013 2

Essa palestra irá mostrar como arquitetar Pipelines MapReduce eficientes usando o framework Apache Crunch; como integrar pipelines com fontes de dados externas como Redis, MongoDB, ou mesmo BDs relacionais, e a melhor granularidade para seus jobs; além de identificar quando investir em uma arquitetura de MapReduce realmente faz sentido.

Pesquisa e desenvolvimento no Facebook: detalhes da arquitetura e aprendizados

Postado por Rodrigo Schmidt  em  16 Out, 2012 1

A apresentação trata aspectos do trabalho de engenharia, ambiente e cultura no Facebook, cobrindo diversas áreas e projetos. São abordados sistemas distribuídos para armazenar e buscar quantidades gigantescas de dados eficientemente, técnicas para lidar com notificações em tempo real via web e aprendizados ao construir produtos cross-platform que escalam para milhões de pessoas.

Hadoop como solução de Big Data

Postado por Wellington Chevreuil  em  27 Set, 2012

O Big Data envolve modelos de persistência da ordem de petabytes ou zetabytes de dados geralmente não estruturados. É o problema principal de serviços que enfatizam a análise de dados de comportamento de seus usuários como ponto crítico dos negócios. Conheça o Apache Hadoop, um sistema de persistência e processamento distribuído que vem se destacando como principal solução de Big Data.

Big Data e pesquisas em milhões documentos: um case brasileiro

Postado por Marco Reis  em  28 Ago, 2012 2

Nesta palestra é mostrada uma solução desenvolvida no Poder Judiciário para resolver o problema da busca em um conjunto de mais de 200 milhões de documentos jurídicos. O sistema criado procura atingir um equilíbrio entre soluções de NoSQL, full-text search e bancos relacionais.

Apache Cassandra e Brisk: alto desempenho e dados analíticos

Postado por Benjamin Coverston  em  25 Jul, 2012

Conheça mais sobre o Apache Cassandra um banco NoSQL, surgido da fusão do Big Table do Google com o Dynamo da Amazon. Juntamente com o Brisk, o Cassandra pode, além de executar transações em tempo real, fornecer dados analíticos detalhados.

Feedback geral
Bugs
Publicidade
Editorial
InfoQ Brasil e todo o seu conteúdo: todos os direitos reservados. © 2006-2014 C4Media Inc.
Política de privacidade
BT