Spark, Storm et les analyses temps-réel

Les analyses Big Data ont évolué ces dernières années, en même temps qu'a explosé le volume d'informations à traiter. Hadoop est sans aucun doute une plate-forme de choix pour les analyses et les calculs Big Data. Pourtant, les volumes de données, leur variété et la vélocité augmentant, Hadoop, en tant que Framework de traitements en mode Batch, ne peut pas satisfaire les besoins d'analyse temps-réel.

Databricks, la société derrière Apache Spark, a récemment levé 14 millions de $ pour accélérer le développement de Spark et de Shark. Spark est un moteur pour le traitement des données à grande échelle, écrit en Scala. Shark est une variation de Spark, compatible avec Hive.

Tout comme Spark, Storm vise à contourner la nature "batch" d'Hadoop en proposant de l'event processing et des capacités de calculs distribués. L'architecte conçoit une topologie de transformations, sous forme de graphe orienté acyclique, et a la possibilité de réaliser des calculs aussi complexes qu'il le souhaite, en appliquant une transformation après l'autre.

Nathan Marz a expérimenté directement ce fonctionnement et a proposé le paradigme appelé architecture lambda pour résoudre ces problématiques fondamentales d'architecture. L'architecture lambda consiste en une couche de service, la serving layer, mise à jour de temps en temps par une batch layer et en une speed layer, qui calcule les analyses temps-réel pour compenser la lenteur de la batch layer. Essentiellement, Hadoop fait ses calculs d'analyse en batch et, entre l'exécution des batchs, la speed layer met à jour de façon incrémentale les métriques en observant le flux des événements.

Spark et Storm peuvent tous deux opérer sur un cluster Hadoop et accéder au stockage d'Hadoop. Storm-YARN est l'implémentation open source de Yahoo qui vise la convergence entre Storm et Hadoop. Spark fournit une intégration native à Hadoop, à travers YARN (NextGen MapReduce). Intégrer des analyses temps-réel à des systèmes basés sur Hadoop permet, grâce à l'élasticité, une meilleure utilisation des ressources des clusters et permet de minimiser les transferts réseaux, car tout se trouve sur un même cluster.

En termes de support commercial, Cloudera a déjà annoncé le support de Spark et l'a inclus dans la distribution CDH. Hortonworks prévoit d'inclure Apache Storm dans HDP (Hortonworks Data Platform) durant la première partie de l'année 2014.

Débloquez l'expérience InfoQ complète

Vous n'avez pas encore de compte InfoQ ?

Sujets

Comment Utiliser Le Chiffrement Pour La Défense En Profondeur Dans Les Apps Natives Et Navigateurs

Manipulation De Données Avec Programmation Fonctionnelle Et Requêtes Dans Ballerina

Les Prédictions De Temps Chez Uber Eats

Les Processus De Tests Individuels Ne Peuvent Convenir A Tout Le Monde.

Pourquoi La Gouvernance DevOps Est Cruciale Pour Permettre La Vélocité Des Développeurs

Liens utiles

Sélectionner votre région

Evaluer cet article

Ce contenu est dans le sujet Data Analysis

Sujets liés

Contenu éditorial lié

Contenu sponsorisé lié

Contenu Éducatif

La Nouvelle Version D'Asahi Linux Prend En Charge Les Processeurs Apple M1 Ultra Et M2

PostgreSQL 14 Casse Les Pilotes .NET Et Java Pour PostgreSQL

Docker Desktop 4.6 Pour Mac Améliore Les Performances De Partage

Comment Eviter Le Verrouillage Des Fournisseurs Sans Serveurs Avec Design Patterns ?

Manipulation De Données Avec Programmation Fonctionnelle Et Requêtes Dans Ballerina

Ballerina : Un Langage De Programmation Orienté Données

La Dette Technique Est Quantifiable En Tant Que Dette Financière : Impossible Pour Les Développeurs

Les Tests De Performance Doivent S'Appuyer Sur Les Tendances

Les Processus De Tests Individuels Ne Peuvent Convenir A Tout Le Monde.

Grab A Partagé Son Experience Sur La Conception De Plate-formes De Données Distribuées

Microsoft Research Développe un Nouveau Système de Language-Vision : VinVL

Les Prédictions De Temps Chez Uber Eats

Les Facteurs Clés De La "MFA Fatigue" Dont A Ete Victime Uber

Adoption D'Environnements De Développement À Distance Chez Slack

Pourquoi La Gouvernance DevOps Est Cruciale Pour Permettre La Vélocité Des Développeurs

QCon London

InfoQ Architect Certification

QCon AI Boston

QCon San Francisco