Análise em tempo real no Pinterest utilizando o MemSQL e o Spark Streaming

A Pinterest, empresa por trás da ferramenta de bookmarking visual que ajuda a descobrir e salvar idéias criativas, está usando análise de dados em tempo real para tomada de decisões orientada a dados (data-driven). Estão experimentando o MemSQL e as tecnologias Spark para o engajamento de usuários em tempo real.

Utilizando o MemSQL e o Spark, a Pinterest criou um pipeline para receber dados dentro do MemSQL utilizando o Apache Kafka e alimenta os dados dentro do Spark via Spark Streaming API. Essa solução fornece, em tempo real, informações sobre como os usuários estão interagindo com os Pins pelo mundo a fora. Isso ajuda a Pinterest a melhorar o mecanismo de recomendação mostrando os Pins relacionados para as pessoas usarem o serviço para diferentes casos de uso como: se planejar sobre quais produtos comprar, locais para ir e receitas para cozinhar.

Os dados de engajamento do Pin são inseridos em um tópico do Kafka que é então consumido pela tarefa do Spark streaming. Nessa tarefa cada Pin é filtrado e então enriquecido, com a geo-localização e a informação da categoria do Pin. Esse dado enriquecido é persistido pelo banco de dados MemSQL usando MemSQL Spark Connector e é disponibilizado para servir de consulta. O conector MemSQL Spark fornece ferramentas para leitura e escrita no banco de dados MemSQL usando o Spark. O conector usa MemSQLRDD para ler os dados do banco de dados MemSQL.

Essa solução oferece uma infra-estrutura que coleta, armazena e processa os dados de engajamento dos usuários em tempo real. Também ajuda a alcançar as seguintes recursos:

Alto desempenho no log de eventos usando um agente chamado Singer para coletar eventos de logs e enviá-los para um repositório centralizado;
Transporte e armazenamento confiável de log utilizando o Apache Kafka e serviço de persistência de log chamado Secor, que escreve de forma confiável esses eventos para o armazenamento de longo prazo na Amazon S3. Secor foi projetado para superar o fraco modelo de consistência do S3, sem a perda de dados e com escalabilidade horizontal e particionamento opcional de dados baseados em data.
Execução rápida de consulta de dados em tempo real que permite uma execução de consultas SQL sobre os eventos à medida que eles chegam.

Unlock the full InfoQ experience

Não tem uma conta no InfoQ?

Tópicos

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

APIs em tempo real no contexto do Apache Kafka

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

Entendendo Os Valores e Princípios Ágeis

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Links úteis

Escolha a região

Avalie esse artigo

Conteúdo publicado no tópico Arquitetura

Tópicos Relacionados:

Conteúdo editorial relacionado

Conteúdo relacionado de patrocinadores

Conteúdo educacional

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

Blockchain Empresarial: Jornada de uma rede multi-organização à produção

PHP 7 - Melhorias na biblioteca padrão

O último conteúdo do InfoQ Brasil

APIs em tempo real no contexto do Apache Kafka

Sete duras lições aprendidas na migração de um monólito para microservices

Adquira leads qualificados no mercado de desenvolvimento de software com a eMag InfoQ

Entendendo Os Valores e Princípios Ágeis

Somente empresas ágeis sobrevivem ao ambiente de negócios em constante mudança

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

A inteligência artificial estaria mais próxima do bom senso?

Desafios na avaliação postural humana em aplicativos de condicionamento físico baseados em IA

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Arquitetura de Microservices Multi-Runtime

Armadilhas de design NoSQL com Java

QCon London

QCon AI Boston

QCon San Francisco