BT

Les pipelines de big data modernes avec Kubernetes

| par Srini Penchikala Suivre 33 Abonnés , traduit par Slim Ouertani Suivre 6 Abonnés le 16 janv. 2018. Durée de lecture estimée: 3 minutes |

Une note à nos lecteurs : Suite à vos retours, nous avons développé un ensemble de fonctionnalités qui vous permettent de réduire le bruit, tout en ne perdant pas de vue ce qui est important. Recevez des notifications en ligne et par e-mail en choisissant les sujets qui vous intéressent.

Les technologies de gestion de conteneurs telles que Kubernetes permettent d'implémenter les pipelines de Big Data modernes. Eliran Bivas, architecte senior en Big Data chez Iguazio, a pris la parole lors de la récente KubeCon + CloudNativeCon North America 2017 Conference sur les big data pipelines et sur la manière dont Kubernetes peut aider à les développer.

Par le passé, les solutions Big Data étaient principalement basées sur Hadoop, mais l'écosystème a évolué ces dernières années avec de nouvelles bases de données, des données en continu et des solutions d'apprentissage automatique qui requièrent plus que le modèle de déploiement Hadoop (Map/Reduce, YARN et HDFS). Ces solutions nécessitent également une couche d'ordonnancement de cluster pour héberger diverses charges de travail telles que Kafka, Spark et TensorFlow, en travaillant avec des données stockées dans des bases de données telles que Cassandra, Elasticsearch et le stockage en cloud.

Bivas a parlé des différentes équipes généralement impliquées dans le cycle de vie du développement logiciel et de leurs objectifs principaux. Les ingénieurs d'applications veulent un développement logiciel agile, tandis que les ingénieurs de données se soucient de l'emplacement des données et souhaitent que les systèmes de base de données continuent à fonctionner. Et les équipes de DevOps veulent que tous les systèmes fonctionnent avec moins de maintenance et de perturbations. En raison de la révolution des technologies des conteneurs, tous ces objectifs sont réalisables dans les organisations.

Il a discuté d'un framework commun pour créer des applications d'analyse bout-en-bout natives du cloud. Les développeurs doivent dissocier les services de données des applications et des frameworks pour rendre les solutions Big Data flexibles et efficaces. Il aide également les services de données qui sont généralement utilisés pour gérer différents types de données, tels que les données non structurées ou structurées ou en continu.

Les solutions doivent idéalement être basées sur des applications natives cloud et des frameworks et utiliser l'orchestration unifiée fournie par Kubernetes.

Bivas a décrit le modèle de flux analytique continu qui comprend des services de données au milieu pour analyser les données provenant des stores de données opérationnelles (bases de données relationnelles), des sources externes (IoT) utilisant des outils d'analyse de Big Data en container comme Spark et TensorFlow.

Les frameworks serverless comme Kubeless et OpenFaaS sont un excellent choix à utiliser dans ces solutions. Les solutions serverless sont faciles à déployer sans impliquer YAML, Dockerfile ou build. Ils prennent également en charge la mise à l'échelle automatique et les déclencheurs d'événements.

Bivas a discuté des détails d'architecture de Nuclio, une plate-forme serverless en temps réel récemment ouverte. L'architecture implique l'utilisation de Kubernetes comme alternative à YARN, et l'utilisation de frameworks tels que Spark ML, Presto, TensorFlow & Python et des fonctions serverless couplées à un stockage local et basé sur le cloud. Nuclio prend également en charge les sources d'événements et les sources de données pluggable.

Il a également parlé d'un cas d'utilisation par les clients de l'automobile d'analyse en temps réel pour la maintenance des véhicules. La solution inclut les données du véhicule diffusées en utilisant des API Web et des microservices utilisés pour l'ingestion de données. Les données du véhicule sont enrichies en temps réel avec les données météorologiques et routières pour trouver des corrélations entre les conditions météorologiques et les composants du véhicule.

La présentation comprenait une démo pour montrer les avantages de l'analyse de Big Data sur une architecture native cloud. Bivas a conclu la session avec quelques bonnes pratiques que les développeurs connaissent sur les outils fournis par Kubernetes, la journalisation des applications, la collecte des métriques et l'utilisation des métriques pour obtenir des informations sur les performances des applications.

Si vous souhaitez en savoir plus sur le framework Nuclio, consultez leur projet sur github, les exemples de code et la documentation.

Evaluer cet article

Pertinence
Style

Bonjour étranger!

Vous devez créer un compte InfoQ ou cliquez sur pour déposer des commentaires. Mais il y a bien d'autres avantages à s'enregistrer.

Tirez le meilleur d'InfoQ

Donnez-nous votre avis

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

M'envoyer un email pour toute réponse à l'un de mes messages dans ce sujet

This will benefit the countries by Bradshaw Layfield

These data pipes will certainly increase the speed and durability of the internet and certainly it will benefit the company’s regarding this. British Assignment Writers

appreciated coming here by Jordan Davidson

I definitely have generally appreciated coming here and getting to study all of those records. I propose this definitely permits me with British Essay Writing Service UK Online and it sure is a pride getting unto date on everything this is going on.

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

M'envoyer un email pour toute réponse à l'un de mes messages dans ce sujet

Html autorisé: a,b,br,blockquote,i,li,pre,u,ul,p

M'envoyer un email pour toute réponse à l'un de mes messages dans ce sujet

2 Discuter

Se connecter à InfoQ pour interagir sur ce qui vous importe le plus.


Récupérer votre mot de passe

Follow

Suivre vos sujets et éditeurs favoris

Bref aperçu des points saillants de l'industrie et sur le site.

Like

More signal, less noise

Créez votre propre flux en choisissant les sujets que vous souhaitez lire et les éditeurs dont vous désirez suivre les nouvelles.

Notifications

Restez à jour

Paramétrez vos notifications et ne ratez pas le contenu qui vous importe

BT