BT
x A sua opinião é importante! Por favor preencha a pesquisa do InfoQ sobre os seus hábitos de leitura!

SQL interativo no Apache Hadoop com Impala e Hive

por Alex Giamas , traduzido por José Renato Pequeno em 05 Mar 2014 |

Dois projetos de código fonte aberto, Impala e Hive como parte do projeto Stinger estão competindo pela liderança na corrida pelo SQL interativo para implementações Big Data. Recentemente a Cloudera anunciou que o Impala é de 6 a 69 vezes mais rápido do que a versão 0.12 do Hive e superou em média 2 vezes um não informado DBMS. A capacidade de utilização de SQL interativo em nós de servidores Hadoop significa que os dados só precisam estar disponíveis no HDFS podendo assim ser processados e analisados sem a necessidade de grandes transferências.

Usando um subconjunto modificado de um referência padrão da indústria TPC-DS, a Cloudera afirma que o Impala não é somente mais rápido que Hive, mas que também trabalha no Hadoop, e é mais rápido que um DBMS nativo usando armazenamento colunar. Dirk de Roos da IBM e outros criticaram estes resultados obtidos pela utilização de um subconjunto do TPC-DS em vez de todo o conjunto. Em uma outra situação ele executou testes usando uma tabela simples de fatos no Cloudera em vez dos seis que são utilizados pelo TPC-DS e isso poderia também ter sido utilizado para alcançar melhores desempenhos.

Além de grandes velocidades, os usuários de negócio do Hadoop precisam da flexibilidade que os padrões e ferramentas SQL podem oferecer. O suporte ANSI SQL multilinguagem em cascata pode ajudar as ferramentas de inteligência de negócios por meio da utilização de ODBC a troca de trabalho entre o Hive e Impala. O Impala possui suporte para sub consultas, agregações e um acesso a funções através do suporte do Hive. Além disso instalar Impala em um nó de servidores Hadoop significa que um novo conjunto de processos serão executados em conjunto, considerando que o Hive também é executado na JVM podendo coexistir no mesmo ambiente em que o Hadoop é executado.

Hive 0.12 é o codinome dado pela Hortonworks para a fase dois do Stinger. Quem baixar esta versão poderá instalar uma pré-versão chamada de fase três do Stinger. Na fase três do Stinger o Hive trabalha com o Tez que é um framework de uma aplicação construída sobre o Apache Hadoop NextGen MapReduce(YARN). Uma outra melhoria relacionada com a área de desempenho é a execução vetorizada de consultas que é análoga ao tempo de execução de códigos do Impala. Coma exemplicado pelo engenheiro HDInsight da Microsoft Eric Hanson, a execução vetorizada de consultas pode proporcionar um aumento de desempenho da CPU na execução de consultas com cenários intensos. A fase três do Stinger pode proporcionar um impulso no aumento de desempenho e melhorar a utilização de recursos sob vários casos de uso.

No cenário de tecnologia de códigos abertos para SQL interativos, uma nova alternativa surgiu recentemente da mesma empresa que tornou o código do Hive aberto há 5 anos atrás. O Facebook Presto é baseado no ANSI SQL e promete análises ad hoc através de velocidades escalares e interativa de até petabytes. O código está disponível no GitHub.

Olá visitante

Você precisa cadastrar-se no InfoQ Brasil ou para enviar comentários. Há muitas vantagens em se cadastrar.

Obtenha o máximo da experiência do InfoQ Brasil.

Dê sua opinião

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão
Comentários da comunidade

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

Dê sua opinião

Conteúdo educacional

Feedback geral
Bugs
Publicidade
Editorial
InfoQ Brasil e todo o seu conteúdo: todos os direitos reservados. © 2006-2014 C4Media Inc.
Política de privacidade
BT