BT

Databricks anuncia desempenho recorde em Big Data

| por Julio Faerman Seguir 0 Seguidores em 21 out 2014. Tempo estimado de leitura: 2 minutos |

A empresa Databricks, principal mantenedora do Apache Spark, apresentou recentemente o que pode se tratar de um novo recorde em Big Data: a ordenação de 100TB de dados (1 trilhão de registros) em apenas 23 minutos. O record anterior, estabelecido pelo Yahoo com Hadoop e Map Reduce, era de 72 minutos. O feito foi submetido para avaliação do Sort Benchmark na categoria Daytona Grey e, quando confirmado, poderá estabelecer o Spark como um dos principais projetos em Big Data.

A ordenação de dados em grande escala é uma operação relevante para benchmarks em Big Data. Ao contrário de outras operações, como filtragem e agregação, a ordenação não reduz o conjunto de dados. Isso coloca grande carga na rede durante a fase de shuffle, na qual os dados são redistribuídos entre as máquinas do cluster.

O desempenho anunciado foi possível graças a melhorias no Apache Spark, tanto na aplicação executada, quanto na sua infraestrutura. No Spark, um novo algoritmo de shuffle reduziu drasticamente a utilização de memória, o módulo de rede foi remodelado e o novo serviço de shuffle externo consegue entregar arquivos mesmo durante pausas de coleta de lixo da JVM. Na aplicação, a troca de QuickSort para TimSort e o melhor uso de do cache foram os principais destaques. A execução foi realizada em 206 instâncias i2.8xlarge do Amazon Elastic Compute Cloud, que contribuíram com rede de 10Gbps, Single-root IO Virtualization e discos SSDs.

Apesar de notável, o recorde trouxe algumas controvérsias. As diferenças de infraestrutura tornam difícil avaliar quanto da diferença de desempenho se deve ao software e quanto é relativo a simplesmente uma melhor infraestrutura. O record anterior foi estabelecido em 2100 nós, cada um com dois processadores hexacore Xeon E5-2630, com discos magnéticos e em data center dedicado, o que pode distorcer significativamente a comparação.

Além do recorde na ordenação de 100TB, também foi anunciado a ordenação de 1PB em 234 minutos usando 190 servidores. Apesar de não haver benchmark para esta escala, o último registro público de ordenação de petabyte foi o do Google em 2011, que alcançou a marca de 33 minutos, mas com 8000 computadores.

O Apache Spark têm sido adotado por grandes nomes na indústria de Big Data, como nos casos da Cloudera e do Yahoo. O recorde anunciado, mesmo com as ressalvas, é um marco importante no projeto e pode consagrar o Spark e seu ecossistema como uma das principais ferramentas para os cientistas de dados.

Avalie esse artigo

Relevância
Estilo/Redação

Olá visitante

Você precisa cadastrar-se no InfoQ Brasil ou para enviar comentários. Há muitas vantagens em se cadastrar.

Obtenha o máximo da experiência do InfoQ Brasil.

Dê sua opinião

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão
Comentários da comunidade

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

HTML é permitido: a,b,br,blockquote,i,li,pre,u,ul,p

Receber mensagens dessa discussão

Dê sua opinião

Faça seu login para melhorar sua experiência com o InfoQ e ter acesso a funcionalidades exclusivas


Esqueci minha senha

Follow

Siga seus tópicos e editores favoritos

Acompanhe e seja notificados sobre as mais importantes novidades do mundo do desenvolvimento de software.

Like

Mais interação, mais personalização

Crie seu próprio feed de novidades escolhendo os tópicos e pessoas que você gostaria de acompanhar.

Notifications

Fique por dentro das novidades!

Configure as notificações e acompanhe as novidades relacionada a tópicos, conteúdos e pessoas de seu interesse

BT