BT

Accueil InfoQ Actualités Spark, Storm et les analyses temps-réel

Spark, Storm et les analyses temps-réel

Favoris

Les analyses Big Data ont évolué ces dernières années, en même temps qu'a explosé le volume d'informations à traiter. Hadoop est sans aucun doute une plate-forme de choix pour les analyses et les calculs Big Data. Pourtant, les volumes de données, leur variété et la vélocité augmentant, Hadoop, en tant que Framework de traitements en mode Batch, ne peut pas satisfaire les besoins d'analyse temps-réel.

Databricks, la société derrière Apache Spark, a récemment levé 14 millions de $ pour accélérer le développement de Spark et de Shark. Spark est un moteur pour le traitement des données à grande échelle, écrit en Scala. Shark est une variation de Spark, compatible avec Hive.

Tout comme Spark, Storm vise à contourner la nature "batch" d'Hadoop en proposant de l'event processing et des capacités de calculs distribués. L'architecte conçoit une topologie de transformations, sous forme de graphe orienté acyclique, et a la possibilité de réaliser des calculs aussi complexes qu'il le souhaite, en appliquant une transformation après l'autre.

Nathan Marz a expérimenté directement ce fonctionnement et a proposé le paradigme appelé architecture lambda pour résoudre ces problématiques fondamentales d'architecture. L'architecture lambda consiste en une couche de service, la serving layer, mise à jour de temps en temps par une batch layer et en une speed layer, qui calcule les analyses temps-réel pour compenser la lenteur de la batch layer. Essentiellement, Hadoop fait ses calculs d'analyse en batch et, entre l'exécution des batchs, la speed layer met à jour de façon incrémentale les métriques en observant le flux des événements.

Spark et Storm peuvent tous deux opérer sur un cluster Hadoop et accéder au stockage d'Hadoop. Storm-YARN est l'implémentation open source de Yahoo qui vise la convergence entre Storm et Hadoop. Spark fournit une intégration native à Hadoop, à travers YARN (NextGen MapReduce). Intégrer des analyses temps-réel à des systèmes basés sur Hadoop permet, grâce à l'élasticité, une meilleure utilisation des ressources des clusters et permet de minimiser les transferts réseaux, car tout se trouve sur un même cluster.

En termes de support commercial, Cloudera a déjà annoncé le support de Spark et l'a inclus dans la distribution CDH. Hortonworks prévoit d'inclure Apache Storm dans HDP (Hortonworks Data Platform) durant la première partie de l'année 2014.

Evaluer cet article

Pertinence
Style

Bonjour étranger!

Vous devez créer un compte InfoQ ou cliquez sur pour déposer des commentaires. Mais il y a bien d'autres avantages à s'enregistrer.

Tirez le meilleur d'InfoQ

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

Commentaires de la Communauté

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

BT

Votre profil est-il à jour? Merci de prendre un instant pour vérifier.

Note: en cas de modification de votre adresse email, une validation sera envoyée.

Nom de votre entreprise:
Rôle dans votre entreprise:
Taille de votre entreprise:
Pays/Zone:
État/Province/Région:
Vous allez recevoir un email pour confirmer la nouvelle adresse email. Ce pop-up va se fermer de lui-même dans quelques instants.