BT

SQL interativo no Apache Hadoop com Impala e Hive

por Alex Giamas , traduzido por José Renato Pequeno em 05 Mar 2014 |

Dois projetos de código fonte aberto, Impala e Hive como parte do projeto Stinger estão competindo pela liderança na corrida pelo SQL interativo para implementações Big Data. Recentemente a Cloudera anunciou que o Impala é de 6 a 69 vezes mais rápido do que a versão 0.12 do Hive e superou em média 2 vezes um não informado DBMS. A capacidade de utilização de SQL interativo em nós de servidores Hadoop significa que os dados só precisam estar disponíveis no HDFS podendo assim ser processados e analisados sem a necessidade de grandes transferências.

Usando um subconjunto modificado de um referência padrão da indústria TPC-DS, a Cloudera afirma que o Impala não é somente mais rápido que Hive, mas que também trabalha no Hadoop, e é mais rápido que um DBMS nativo usando armazenamento colunar. Dirk de Roos da IBM e outros criticaram estes resultados obtidos pela utilização de um subconjunto do TPC-DS em vez de todo o conjunto. Em uma outra situação ele executou testes usando uma tabela simples de fatos no Cloudera em vez dos seis que são utilizados pelo TPC-DS e isso poderia também ter sido utilizado para alcançar melhores desempenhos.

Além de grandes velocidades, os usuários de negócio do Hadoop precisam da flexibilidade que os padrões e ferramentas SQL podem oferecer. O suporte ANSI SQL multilinguagem em cascata pode ajudar as ferramentas de inteligência de negócios por meio da utilização de ODBC a troca de trabalho entre o Hive e Impala. O Impala possui suporte para sub consultas, agregações e um acesso a funções através do suporte do Hive. Além disso instalar Impala em um nó de servidores Hadoop significa que um novo conjunto de processos serão executados em conjunto, considerando que o Hive também é executado na JVM podendo coexistir no mesmo ambiente em que o Hadoop é executado.

Hive 0.12 é o codinome dado pela Hortonworks para a fase dois do Stinger. Quem baixar esta versão poderá instalar uma pré-versão chamada de fase três do Stinger. Na fase três do Stinger o Hive trabalha com o Tez que é um framework de uma aplicação construída sobre o Apache Hadoop NextGen MapReduce(YARN). Uma outra melhoria relacionada com a área de desempenho é a execução vetorizada de consultas que é análoga ao tempo de execução de códigos do Impala. Coma exemplicado pelo engenheiro HDInsight da Microsoft Eric Hanson, a execução vetorizada de consultas pode proporcionar um aumento de desempenho da CPU na execução de consultas com cenários intensos. A fase três do Stinger pode proporcionar um impulso no aumento de desempenho e melhorar a utilização de recursos sob vários casos de uso.

No cenário de tecnologia de códigos abertos para SQL interativos, uma nova alternativa surgiu recentemente da mesma empresa que tornou o código do Hive aberto há 5 anos atrás. O Facebook Presto é baseado no ANSI SQL e promete análises ad hoc através de velocidades escalares e interativa de até petabytes. O código está disponível no GitHub.

Avalie esse artigo

Relevância
Estilo/Redação

Olá visitante

Você precisa cadastrar-se no InfoQ Brasil ou para enviar comentários. Há muitas vantagens em se cadastrar.

Obtenha o máximo da experiência do InfoQ Brasil.

Dê sua opinião

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão
Comentários da comunidade

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

Dê sua opinião
Feedback geral
Bugs
Publicidade
Editorial
Marketing
InfoQ Brasil e todo o seu conteúdo: todos os direitos reservados. © 2006-2016 C4Media Inc.
Política de privacidade
BT

We notice you’re using an ad blocker

We understand why you use ad blockers. However to keep InfoQ free we need your support. InfoQ will not provide your data to third parties without individual opt-in consent. We only work with advertisers relevant to our readers. Please consider whitelisting us.