BT

Nouveau Early adopter ou innovator ? InfoQ a travaillé sur de nouvelles fonctionnalités pour vous. En savoir plus

Spark, Storm et les analyses temps-réel

| par Alex Giamas Suivre 0 Abonnés , traduit par Julien Delhomme Suivre 1 Abonnés le 12 févr. 2014. Durée de lecture estimée: 2 minutes |

Les analyses Big Data ont évolué ces dernières années, en même temps qu'a explosé le volume d'informations à traiter. Hadoop est sans aucun doute une plate-forme de choix pour les analyses et les calculs Big Data. Pourtant, les volumes de données, leur variété et la vélocité augmentant, Hadoop, en tant que Framework de traitements en mode Batch, ne peut pas satisfaire les besoins d'analyse temps-réel.

Databricks, la société derrière Apache Spark, a récemment levé 14 millions de $ pour accélérer le développement de Spark et de Shark. Spark est un moteur pour le traitement des données à grande échelle, écrit en Scala. Shark est une variation de Spark, compatible avec Hive.

Tout comme Spark, Storm vise à contourner la nature "batch" d'Hadoop en proposant de l'event processing et des capacités de calculs distribués. L'architecte conçoit une topologie de transformations, sous forme de graphe orienté acyclique, et a la possibilité de réaliser des calculs aussi complexes qu'il le souhaite, en appliquant une transformation après l'autre.

Nathan Marz a expérimenté directement ce fonctionnement et a proposé le paradigme appelé architecture lambda pour résoudre ces problématiques fondamentales d'architecture. L'architecture lambda consiste en une couche de service, la serving layer, mise à jour de temps en temps par une batch layer et en une speed layer, qui calcule les analyses temps-réel pour compenser la lenteur de la batch layer. Essentiellement, Hadoop fait ses calculs d'analyse en batch et, entre l'exécution des batchs, la speed layer met à jour de façon incrémentale les métriques en observant le flux des événements.

Spark et Storm peuvent tous deux opérer sur un cluster Hadoop et accéder au stockage d'Hadoop. Storm-YARN est l'implémentation open source de Yahoo qui vise la convergence entre Storm et Hadoop. Spark fournit une intégration native à Hadoop, à travers YARN (NextGen MapReduce). Intégrer des analyses temps-réel à des systèmes basés sur Hadoop permet, grâce à l'élasticité, une meilleure utilisation des ressources des clusters et permet de minimiser les transferts réseaux, car tout se trouve sur un même cluster.

En termes de support commercial, Cloudera a déjà annoncé le support de Spark et l'a inclus dans la distribution CDH. Hortonworks prévoit d'inclure Apache Storm dans HDP (Hortonworks Data Platform) durant la première partie de l'année 2014.

Evaluer cet article

Pertinence
Style

Bonjour étranger!

Vous devez créer un compte InfoQ ou cliquez sur pour déposer des commentaires. Mais il y a bien d'autres avantages à s'enregistrer.

Tirez le meilleur d'InfoQ

Donnez-nous votre avis

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

M'envoyer un email pour toute réponse à l'un de mes messages dans ce sujet
Commentaires de la Communauté

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

M'envoyer un email pour toute réponse à l'un de mes messages dans ce sujet

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

M'envoyer un email pour toute réponse à l'un de mes messages dans ce sujet

Discuter

Se connecter à InfoQ pour interagir sur ce qui vous importe le plus.


Récupérer votre mot de passe

Follow

Suivre vos sujets et éditeurs favoris

Bref aperçu des points saillants de l'industrie et sur le site.

Like

More signal, less noise

Créez votre propre flux en choisissant les sujets que vous souhaitez lire et les éditeurs dont vous désirez suivre les nouvelles.

Notifications

Restez à jour

Paramétrez vos notifications et ne ratez pas le contenu qui vous importe

BT