Accueil InfoQ Data Science sur InfoQ
-
Intel open source BigDL, une bibliothèque d'apprentissage en profondeur distribuée pour Apache Spark
Intel a publié les sources de BigDL, une bibliothèque d'apprentissage en profondeur distribuée qui s'exécute sur Apache Spark. Elle utilise les clusters Spark existants pour exécuter des calculs d'apprentissage approfondis et simplifie le chargement de données à partir de grands ensembles de données stockés dans Hadoop.
-
Expérimentation à grande échelle chez Spotify
Quand vous voulez augmenter le nombre de tests A/B, il faut adapter vos processus et plateformes, et cela peut impacter votre culture. Réaliser de la recherche produit avec des expériences contrôlées aide à valider vos hypothèses sur l'utilisation que vos clients font réellement de votre produit, et permet de vérifier si vos idées ont vraiment un effet sur les comportements client.
-
Les Défis du Stream Processing et de l’Architecture Lambda
L'architecture Lambda a été une solution populaire qui combine les traitements par lots et les traitements de flux. Kartik Paramasivam de LinkedIn a écrit sur la manière dont son équipe a abordé le traitement des flux et les défis de l'architecture Lambda en utilisant Apache Samza pour le traitement des données.
-
Microsoft experiences : un parcours possible
Dans un peu moins d'une semaine, le mardi 4 et mercredi 5 octobre, se tiendra Microsoft experiences'16. InfoQ FR vous donne une lecture possible du programme de cette année et des sessions techniques qui nous parlent le plus.
-
Testez Bien et Prospérez : Le Grand Débat à propos des Frameworks de Test Unitaire
Un article récent sur Reddit a suscité un débat entre les partisans de JUnit et du framework de test Spock, ayant comme thème central "Quel est le problème avec JUnit ?".
-
AirFlow rejoint Apache Incubator
AirFlow a récemment rejoint le programme Apache Incubator. AirFlow est un système de workflow et de planification conçu pour gérer les pipelines de données. Développé par Airbnb pour leur usage interne, AirFlow a été rendu open source en septembre dernier, comme précédemment rapporté par InfoQ.
-
Hazelcast version 3.6 : Améliorations de Performance et Cloud Management
Hazelcast a publié la version 3.6 de sa Data Grid en mémoire et de mise en cache phare, apportant de nombreuses améliorations en matière de performance et de nouvelles options de gestion du cloud et de déploiement sur conteneurs.
-
Riley Newman sur l'usage du Data Science chez Airbnb
Riley Newman, responsable du data science chez Airbnb, a publié un article décrivant la manière dont la startup définit et utilise le data science. Il explique que les données peuvent être perçues comme la voix des clients, et que le data science est un acte d'interprétation. Il explique également plusieurs initiatives particulièrement importantes pour augmenter la capacité du data science.
-
LinkedIn ouvre les Sources de PalDB, sa base de données Clé-Valeur en Lecture Seule
LinkedIn a ouvert le code source de PalDB, une base de données embarquée clé-valeur en lecture-seule, 8 fois plus rapide que LevelDB et plusieurs fois moins consommatrice en mémoire qu'un hashset.
-
MongoDB atteint la 3.2 et devient Enterprise Ready
MongoDB vient d'annoncer la nouvelle version de sa base NoSQL et produit. Capitalisant sur les nouvelles fonctionnalités introduites dans la 3.0, la version 3.2 étend et consolide l'intérêt de MongoDB vers le monde de l'entreprise.
-
IBM est en train de rendre Open Source 50 Projets
IBM a annoncé l’ouverture de son nouveau portail web appelé developerWorks Open, réunissant divers projets passés open source. Ses projets couvrent de nombreux domaines tels que Analytics, Cloud, IoT, Mobile, Sécurité, Social, Watson et autres. Jusqu'ici, IBM a ouvert le code source d'environ 30 projets, prévoyant d'augmenter ce nombre jusqu'à 50 d'ici la fin de l'année.
-
Amazon Web Services lance son service de Machine Learning
Amazon Web Services vient de lancer son service Amazon Machine Learning qui permet aux utilisateurs d'utiliser des modèles prédictifs sur le cloud. Après Google avec Prediction API, et Microsoft avec Azure Machine Learning, Amazon est le dernier grand fournisseur de cloud à lancer un service similaire.
-
Pivotal publie les sources de sa Suite Big Data
Pivotal a décidé de publier les sources des composants de base de sa Suite Big Data et a annoncé "l’Open Data Platform", une initiative qui vise la promotion open source et la standardisation du Big Data.
-
Sortie d'Apache Flink 0.8.0, Feuille de route pour 2015 publiée
Apache Flink a publié la version 0.8.0 de leur projet. Outre les améliorations des performances, de compatibilité et de stabilité habituelles, il a également ajouté l’API de streaming Scala, où les capacités de streaming étaient jusqu'à présent absentes. Apache Flink a également été récemment promu pour passer au plus haut niveau des projets Apache.
-
Les transactions distribuées tolérantes aux pannes en NoSQL
Il y a cinq ans de cela, beaucoup de bases de données NoSQL n’en étaient pas encore à leur version 1.0, et confronté au compromis CAP, il était courant de privilégier la disponibilité par rapport à la cohérence. De nouvelles bases supportant les transactions distribuées et tolérantes aux pannes entrent dans le jeu et redéfinissent nos attentes vis-à-vis des bases de données NoSQL.