SQL interativo no Apache Hadoop com Impala e Hive

Dois projetos de código fonte aberto, Impala e Hive como parte do projeto Stinger estão competindo pela liderança na corrida pelo SQL interativo para implementações Big Data. Recentemente a Cloudera anunciou que o Impala é de 6 a 69 vezes mais rápido do que a versão 0.12 do Hive e superou em média 2 vezes um não informado DBMS. A capacidade de utilização de SQL interativo em nós de servidores Hadoop significa que os dados só precisam estar disponíveis no HDFS podendo assim ser processados e analisados sem a necessidade de grandes transferências.

Usando um subconjunto modificado de um referência padrão da indústria TPC-DS, a Cloudera afirma que o Impala não é somente mais rápido que Hive, mas que também trabalha no Hadoop, e é mais rápido que um DBMS nativo usando armazenamento colunar. Dirk de Roos da IBM e outros criticaram estes resultados obtidos pela utilização de um subconjunto do TPC-DS em vez de todo o conjunto. Em uma outra situação ele executou testes usando uma tabela simples de fatos no Cloudera em vez dos seis que são utilizados pelo TPC-DS e isso poderia também ter sido utilizado para alcançar melhores desempenhos.

Além de grandes velocidades, os usuários de negócio do Hadoop precisam da flexibilidade que os padrões e ferramentas SQL podem oferecer. O suporte ANSI SQL multilinguagem em cascata pode ajudar as ferramentas de inteligência de negócios por meio da utilização de ODBC a troca de trabalho entre o Hive e Impala. O Impala possui suporte para sub consultas, agregações e um acesso a funções através do suporte do Hive. Além disso instalar Impala em um nó de servidores Hadoop significa que um novo conjunto de processos serão executados em conjunto, considerando que o Hive também é executado na JVM podendo coexistir no mesmo ambiente em que o Hadoop é executado.

Hive 0.12 é o codinome dado pela Hortonworks para a fase dois do Stinger. Quem baixar esta versão poderá instalar uma pré-versão chamada de fase três do Stinger. Na fase três do Stinger o Hive trabalha com o Tez que é um framework de uma aplicação construída sobre o Apache Hadoop NextGen MapReduce(YARN). Uma outra melhoria relacionada com a área de desempenho é a execução vetorizada de consultas que é análoga ao tempo de execução de códigos do Impala. Coma exemplicado pelo engenheiro HDInsight da Microsoft Eric Hanson, a execução vetorizada de consultas pode proporcionar um aumento de desempenho da CPU na execução de consultas com cenários intensos. A fase três do Stinger pode proporcionar um impulso no aumento de desempenho e melhorar a utilização de recursos sob vários casos de uso.

No cenário de tecnologia de códigos abertos para SQL interativos, uma nova alternativa surgiu recentemente da mesma empresa que tornou o código do Hive aberto há 5 anos atrás. O Facebook Presto é baseado no ANSI SQL e promete análises ad hoc através de velocidades escalares e interativa de até petabytes. O código está disponível no GitHub.

Unlock the full InfoQ experience

Não tem uma conta no InfoQ?

Tópicos

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

APIs em tempo real no contexto do Apache Kafka

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

Entendendo Os Valores e Princípios Ágeis

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Links úteis

Escolha a região

Avalie esse artigo

Conteúdo publicado no tópico Cloudera

Tópicos Relacionados:

Conteúdo editorial relacionado

Conteúdo relacionado de patrocinadores

Conteúdo educacional

Crank, o novo framework frontend com renderização assíncrona integrada - Bate papo com Brian Kim

Blockchain Empresarial: Jornada de uma rede multi-organização à produção

PHP 7 - Melhorias na biblioteca padrão

O último conteúdo do InfoQ Brasil

APIs em tempo real no contexto do Apache Kafka

Sete duras lições aprendidas na migração de um monólito para microservices

Adquira leads qualificados no mercado de desenvolvimento de software com a eMag InfoQ

Entendendo Os Valores e Princípios Ágeis

Somente empresas ágeis sobrevivem ao ambiente de negócios em constante mudança

COVID-19 e Mineração de Redes Sociais - Habilitando Cargas de Trabalho de Aprendizado de Máquina com Big Data

A inteligência artificial estaria mais próxima do bom senso?

Desafios na avaliação postural humana em aplicativos de condicionamento físico baseados em IA

Bate papo sobre o livro “De pé sobre os ombros: Um guia para líderes na transformação digital"

Arquitetura de Microservices Multi-Runtime

Armadilhas de design NoSQL com Java

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco