BT

Spark, Storm et les analyses temps-réel

par Alex Giamas , traduit par Julien Delhomme le 12 févr. 2014 |

Les analyses Big Data ont évolué ces dernières années, en même temps qu'a explosé le volume d'informations à traiter. Hadoop est sans aucun doute une plate-forme de choix pour les analyses et les calculs Big Data. Pourtant, les volumes de données, leur variété et la vélocité augmentant, Hadoop, en tant que Framework de traitements en mode Batch, ne peut pas satisfaire les besoins d'analyse temps-réel.

Databricks, la société derrière Apache Spark, a récemment levé 14 millions de $ pour accélérer le développement de Spark et de Shark. Spark est un moteur pour le traitement des données à grande échelle, écrit en Scala. Shark est une variation de Spark, compatible avec Hive.

Tout comme Spark, Storm vise à contourner la nature "batch" d'Hadoop en proposant de l'event processing et des capacités de calculs distribués. L'architecte conçoit une topologie de transformations, sous forme de graphe orienté acyclique, et a la possibilité de réaliser des calculs aussi complexes qu'il le souhaite, en appliquant une transformation après l'autre.

Nathan Marz a expérimenté directement ce fonctionnement et a proposé le paradigme appelé architecture lambda pour résoudre ces problématiques fondamentales d'architecture. L'architecture lambda consiste en une couche de service, la serving layer, mise à jour de temps en temps par une batch layer et en une speed layer, qui calcule les analyses temps-réel pour compenser la lenteur de la batch layer. Essentiellement, Hadoop fait ses calculs d'analyse en batch et, entre l'exécution des batchs, la speed layer met à jour de façon incrémentale les métriques en observant le flux des événements.

Spark et Storm peuvent tous deux opérer sur un cluster Hadoop et accéder au stockage d'Hadoop. Storm-YARN est l'implémentation open source de Yahoo qui vise la convergence entre Storm et Hadoop. Spark fournit une intégration native à Hadoop, à travers YARN (NextGen MapReduce). Intégrer des analyses temps-réel à des systèmes basés sur Hadoop permet, grâce à l'élasticité, une meilleure utilisation des ressources des clusters et permet de minimiser les transferts réseaux, car tout se trouve sur un même cluster.

En termes de support commercial, Cloudera a déjà annoncé le support de Spark et l'a inclus dans la distribution CDH. Hortonworks prévoit d'inclure Apache Storm dans HDP (Hortonworks Data Platform) durant la première partie de l'année 2014.

Bonjour étranger!

Vous devez créer un compte InfoQ ou cliquez sur pour déposer des commentaires. Mais il y a bien d'autres avantages à s'enregistrer.

Tirez le meilleur d'InfoQ

Donnez-nous votre avis

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

M'envoyer un email pour toute réponse à l'un de mes messages dans ce sujet
Commentaires de la Communauté

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

M'envoyer un email pour toute réponse à l'un de mes messages dans ce sujet

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

M'envoyer un email pour toute réponse à l'un de mes messages dans ce sujet

Discuter

Contenu Éducatif

Rien ne serait possible sans le soutien et la confiance de nos Sponsors Fondateurs:

AppDynamics   CloudBees   Microsoft   Zenika
Feedback Général
Bugs
Publicité
Éditorial
InfoQ.com et tous les contenus sont copyright © 2006-2014 C4Media Inc. InfoQ.com est hébergé chez Contegix, le meilleur ISP avec lequel nous ayons travaillé.
Politique de confidentialité
BT