Início Big Data no InfoQ Brasil

Artigos

Feed RSS

Mais novos Mais antigos

Série de artigos: Entendendo data science

Nesta série, exploramos maneiras de compreensão de data science, incluindo o entendimento de onde sua aplicação é ou não é necessária e como torná-la um ativo para você. O conteúdo dessa série é produzido por pessoas que já viveram e resolveram muitos dos desafios da aplicação de data science.

Francine Bennett traduzido por Roberto Pepato
em 30 jan., 2017
Big Data com Apache Spark Part 3: Spark Streaming

Este é o terceiro artigo da série Big Data com Apache Spark. Nos 2 primeiros artigos abordamos o processamento de dados estáticos. Neste artigo trataremos do processamento de dados em streaming e em tempo real. O artigo busca mostrar como podemos usar o Apache Spark para realizar análises sob informações em cenários onde os dados são gerados continuamente.

Srini Penchikala traduzido por Marcelo Costa
em 05 dez., 2016
O papel de um cientista de dados em 2016

O papel do Cientista de Dados está ganhando muita atenção ultimamente, devido ao fato das organizações começarem a utilizar Big Data e análise de dados para adquirir insights a respeito de seus dados. Este artigo apresenta uma visão sobre o papel do Cientista de Dados para o ano de 2016.

Ed Jones traduzido por Ivan Salvadori
em 31 ago., 2016
Big Data com Apache Spark Parte 2: Spark SQL

O Spark SQL, é parte integrante do framework de Big Data Apache Spark, utilizado para processamento de dados estruturados, que permite executar consultas SQL no conjunto de dados do Spark. É possível realizar tarefas ETL sobre os dados em diferentes formatos, como por exemplo JSON, Parquet, banco de dados e com isto, executar consultas ad-hoc.

Srini Penchikala traduzido por Marcelo Costa
em 13 abr., 2016
Big Data com Apache Spark - Parte 1: Introdução

O Apache Spark é um framework de big data construído para ser veloz, fácil de usar e com analises sofisticadas. Nesse artigo, Srini Penchikala mostra como o Spark ajuda no processamento e analise de Big Data com sua API padrão. Também compara o Spark com a implementação tradicional de MapReduce do Apache Hadoop.

Srini Penchikala traduzido por Luiz Santana
em 14 nov., 2015
Um comparativo entre MapReduce e Spark para analise de Big Data

MapReduce e Spark são os dois frameworks mais populares existentes atualmente para computação em cluster e análise de dados de larga escala (Big Data). Este artigo, apresenta a avaliação dos principais componentes arquiteturais do MapReduce e do Spark incluindo: shuffle, modelo de execução e cache por meio de um conjunto de dados a serem processados.

Marcelo Costa
em 09 nov., 2015
Aprendizado de Máquina e Computação Cognitiva

Baseado em um webinar sobre análise de dados, este artigo compreende tópicos sobre aprendizado de máquina e computação cognitiva, e como essas áreas estão relacionadas à Inteligência Artificial. Os palestrantes discutem como estas tecnologias estão sendo aplicadas no segmento de marketing digital e quais as preocupações que as organizações possuem para prover serviços de aprendizado de máquina.

Seth Earley traduzido por Cassiano Faria
em 04 nov., 2015
IA, ML e Engenharia de Dados

Hadoop na nuvem

Os provedores de soluções Hadoop, atualmente dentre as mais populares tecnologias de Big Data em ambientes de nuvem pública ou privada evoluíram. Há diversos fornecedores de soluções baseadas em Hadoop no mercado, como Cloudera, HortonWorks e MapR, provendo variadas soluções em nuvem. Este artigo, apresenta uma análise deste novo panorama.

Mathieu Despriee traduzido por Sergio Fernandes
em 22 mai., 2014
O estado do NoSQL

Stefan Edlich, professor acadêmico da universidade Beuth Hochschule de Tecnologia de Berlim, Alemanha, fez uma análise do NoSQL, considerando sua evolução, impacto financeiro, os padrões ou a falta deles, o cenário atual, os livros, os líderes e alguns recém-chegados, concluindo que NoSQL veio para ficar.

Stefan Edlich traduzido por André Campanini
em 21 nov., 2013
PostgreSQL: Armazenamento de dados em formato "schemaless"

No mundo NoSQL, schemaless é um recurso largamente anunciado como vantagem competitiva. Basicamente, significa não se preocupar com normalização de dados. Em teoria, este recurso permite armazenar dados sem um conhecimento prévio de chaves ou tipos de dados. Este artigo apresenta uma solução ao utilizar o PostgreSQL para armazenar e tratar dados em formato schemaless usando o Hstore.

Marcelo Costa
em 22 out., 2013

Artigos mais recentes

Artigos mais antigos