BT
x Por favor preencha a pesquisa do InfoQ !

SQL interativo no Apache Hadoop com Impala e Hive

por Alex Giamas , traduzido por José Renato Pequeno em 05 Mar 2014 |

Dois projetos de código fonte aberto, Impala e Hive como parte do projeto Stinger estão competindo pela liderança na corrida pelo SQL interativo para implementações Big Data. Recentemente a Cloudera anunciou que o Impala é de 6 a 69 vezes mais rápido do que a versão 0.12 do Hive e superou em média 2 vezes um não informado DBMS. A capacidade de utilização de SQL interativo em nós de servidores Hadoop significa que os dados só precisam estar disponíveis no HDFS podendo assim ser processados e analisados sem a necessidade de grandes transferências.

Usando um subconjunto modificado de um referência padrão da indústria TPC-DS, a Cloudera afirma que o Impala não é somente mais rápido que Hive, mas que também trabalha no Hadoop, e é mais rápido que um DBMS nativo usando armazenamento colunar. Dirk de Roos da IBM e outros criticaram estes resultados obtidos pela utilização de um subconjunto do TPC-DS em vez de todo o conjunto. Em uma outra situação ele executou testes usando uma tabela simples de fatos no Cloudera em vez dos seis que são utilizados pelo TPC-DS e isso poderia também ter sido utilizado para alcançar melhores desempenhos.

Além de grandes velocidades, os usuários de negócio do Hadoop precisam da flexibilidade que os padrões e ferramentas SQL podem oferecer. O suporte ANSI SQL multilinguagem em cascata pode ajudar as ferramentas de inteligência de negócios por meio da utilização de ODBC a troca de trabalho entre o Hive e Impala. O Impala possui suporte para sub consultas, agregações e um acesso a funções através do suporte do Hive. Além disso instalar Impala em um nó de servidores Hadoop significa que um novo conjunto de processos serão executados em conjunto, considerando que o Hive também é executado na JVM podendo coexistir no mesmo ambiente em que o Hadoop é executado.

Hive 0.12 é o codinome dado pela Hortonworks para a fase dois do Stinger. Quem baixar esta versão poderá instalar uma pré-versão chamada de fase três do Stinger. Na fase três do Stinger o Hive trabalha com o Tez que é um framework de uma aplicação construída sobre o Apache Hadoop NextGen MapReduce(YARN). Uma outra melhoria relacionada com a área de desempenho é a execução vetorizada de consultas que é análoga ao tempo de execução de códigos do Impala. Coma exemplicado pelo engenheiro HDInsight da Microsoft Eric Hanson, a execução vetorizada de consultas pode proporcionar um aumento de desempenho da CPU na execução de consultas com cenários intensos. A fase três do Stinger pode proporcionar um impulso no aumento de desempenho e melhorar a utilização de recursos sob vários casos de uso.

No cenário de tecnologia de códigos abertos para SQL interativos, uma nova alternativa surgiu recentemente da mesma empresa que tornou o código do Hive aberto há 5 anos atrás. O Facebook Presto é baseado no ANSI SQL e promete análises ad hoc através de velocidades escalares e interativa de até petabytes. O código está disponível no GitHub.

Avalie esse artigo

Relevância
Estilo/Redação

Olá visitante

Você precisa cadastrar-se no InfoQ Brasil ou para enviar comentários. Há muitas vantagens em se cadastrar.

Obtenha o máximo da experiência do InfoQ Brasil.

Dê sua opinião

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão
Comentários da comunidade

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

Dê sua opinião
Feedback geral
Bugs
Publicidade
Editorial
Marketing
InfoQ Brasil e todo o seu conteúdo: todos os direitos reservados. © 2006-2016 C4Media Inc.
Política de privacidade
BT

Percebemos que você está utilizando um bloqueador de propagandas

Nós entendemos porquê utilizar um bloqueador de propagandas. No entanto, nós precisamos da sua ajuda para manter o InfoQ gratuito. O InfoQ não compartilhará seus dados com nenhum terceiro sem que você autorize. Procuramos trabalhar com anúncios de empresas e produtos que sejam relevantes para nossos leitores. Por favor, considere adicionar o InfoQ como uma exceção no seu bloqueador de propagandas.