Accueil InfoQ Data Science sur InfoQ
-
Domino: Datascience-as-a-Service
Le PaaS Domino, dédié aux data-sciences permet aux gens d'effectuer des analyses en utilisant des langages comme Python ou R dans le cloud (EC2).
-
Du SQL interactif dans Apache Hadoop avec Impala et Hive
Deux projets open source, Impala et Hive, faisant partie du projet Stinger, sont en concurrence pour le leadership de la course au SQL interactif dans le domaine du Big Data.
-
Google acquiert Nest : Le Big Data envahit l'énergie
Google vient d'acquérir Nest, le fabricant de thermostats intelligents et de détecteurs de fumée, pour 3,2 milliards de dollars. Une nouvelle source de données qui va aider Google à améliorer leur compréhension de comment les gens vivent.
-
Spark, Storm et les analyses temps-réel
Hadoop est sans aucun doute une plate-forme de choix pour les analyses et les calculs Big Data. Pourtant, les volumes de données, leur variété et la vélocité augmentant, Hadoop, en tant que Framework de traitements en mode Batch, ne peut pas satisfaire les besoins d'analyse temps-réel. Spark, Storm et la Lambda Architecture peuvent aider à combler les manques.
-
Livraison de l’ORM Hibernate 4.3 avec le support des spécifications JPA 2.1
La version finale d’Hibernate ORM 4.3, le framework d’ORM Java pour le mapping objet-relationnel, vient d’être publiée.
-
Les solutions SQL open source pour Hadoop : Où en sommes-nous ?
Avec Facebook qui a récemment rendu Presto open source, le marché déjà encombré des solutions SQL sous Hadoop est juste devenu un peu plus complexe. Un certain nombre d'outils sont en compétition pour capter l'attention des développeurs: Stinger d'Hortonworks autour de Hive, Apache Drill, Apache Tajo, Impala de Cloudera, Phoenix de Salesforce (pour HBase) et maintenant Presto de Facebook.
-
Le Big Data chez Netflix dirige les décisions liées au Business
Jeff Magnusson de l'équipe de Netflix a présenté leur plate-forme de données en tant que service lors de la conférence QCon SF 2013. Suite à la présentation, nous nous pencherons sur la pile de technologie utilisée, et sur la manière dont elle permet à Netflix de s'attaquer à des décisions de business importantes.
-
Martin Fowler sur l'austérité des données
Martin Fowler écrit sur le Datensparsamkeit, l'opposé du Big Data. Ce mot allemand peut être traduit approximativement par "l'austérité des données" ou simplement par ne "pas stocker plus que vos besoins".
-
Le moteur de requête SQL distribué de Facebook
Facebook a publié en Open Source Presto, son moteur de requête SQL distribué qui utilise une architecture de type pipeline plutôt qu'une conception de type Map/Reduce, comme on peut le trouver ailleurs. En production depuis le début de cette année, Facebook l'a depuis “deployé dans de multiples régions géographiques et [ils] ont réussi à le faire passer à l'échelle d'un cluster de 1 000 nœuds”.
-
Streaming Big Data avec Amazon Kinesis
Amazon a récemment annoncé Kinesis, un service qui permet aux développeurs de streamer de grandes quantités de données provenant de différentes sources et de les traiter. Le service est actuellement en limited preview.
-
Les tendances actuelles du NoSQL - Rencontre avec Peter Bell
Peter Bell nous donne un aperçu des dernières tendances du NoSQL, un type de bases de données qui évolue rapidement et qui couvre un ensemble de solutions aussi nombreuses que variées.
-
La Data Grid Java en mémoire de Hazelcast 3.0 supporte les Continuous Queries et l'Entry Processing
La dernière version de la Data Grid Java en mémoire de Hazelcast supporte l'entry processing, l'exécution multi-threadée, les continuous queries et l'indexation paresseuse. Hazelcast version 3.0, lancée pendant la conférence JavaOne, est celle qui comporte le plus de changements du produit depuis sa création en 2008 et l'effort a nécessité la réécriture de 70 à 80% du code.
-
RavenDB 2.5, l'agrégation dynamique et le Query Streaming
La version 2.5 de la base de données orientée documents RavenDB propose une agrégation dynamique permettant le support de requêtes complexes et une API "Unbounded results" utilisant le streaming pour récupérer des jeux de données de taille importante en une seule requête.
-
Une introduction aux réseaux de neurones avec C#
Les réseaux de neurones ont longtemps été un domaine prometteur dans le champ de la recherche pour explorer des concepts liés à l'apprentissage machine, connus sous le nom d'intelligence artificielle. Dr James McCaffrey, de Microsoft Research, a proposé récemment une introduction aux réseaux de neurones lors d'une présentation accompagnée d'exemples fonctionnels de code en C#.
-
Pattern un DSL d'Apprentissage Automatique pour Hadoop, annoncé par Concurrent Inc.
Pattern est un nouveau DSL d'apprentissage automatique pour Cascading, un Pattern Language pour créer des workflows sur des données.