Riley Newman, responsable du data science chez Airbnb, a publié récemment un article décrivant la manière dont la startup californienne définit et utilise le data science. Il explique que les données peuvent être perçues comme la voix des clients, et que le data science est alors un acte d'interprétation. Il explique également plusieurs initiatives particulièrement importantes pour augmenter la capacité du data science, comme des partenariats directs entre des data scientists et d'autres équipes, intégrant le data science dans tous les processus métier, et construisant une infrastructure de données stable.
Dans les premiers jours de l'entreprise, les créateurs d'Airbnb - Brian Chesky, Joe Gebbia, et Nathan Blecharczyk - rencontraient personnellement les hôtes et convives pour améliorer le service. L'entreprise le fait toujours, mais avec 30M de clients par an, il est maintenant impossible de rencontrer tout le monde. Comme alternative, Airbnb enregistre des évènements et actions sur sa plateforme de réservation et utilise des données comme indicateurs pour comprendre ce que les clients aiment ou n'apprécient guère. Ce type de retour est particulièrement intéressant pour prendre des décisions sur la "croissance de la communauté, le développement de produits, et la priorisation des ressources", mais il doit d'abord être déchiffré et traduit par des data scientists en "un langage plus approprié à la prise de décision".
Bien que fortement lié à l'histoire de l'entreprise, cette vision de la donnée comme "voix du client" et des data scientists comme "traducteurs" n'a pas été facile à préserver avec la croissance de l'entreprise. Parmi les nombreux aspects et initiatives décrits dans cet article, trois sortent du lot.
D'abord, les data scientists ne doivent pas être vus comme des individus passifs agrégeant des statistiques. Ils devraient interagir directement avec d'autres fonctions, pas seulement pour comprendre le problème à résoudre, mais aussi pour vérifier que ceux qui prennent les décisions comprennent pleinement le résultat de l'analyse et, dès lors les actions à mener. Les data scientists d'Airbnb sont d'ailleurs organisés en petites équipes en relation directe avec des ingénieurs, designers, managers produits, etc.
Ensuite, les données et le data science devraient être présents à chaque étape du processus de prise de décisions. Airbnb découpe généralement son processus en 4 étapes : Apprendre, Prévoir, Tester et Mesurer (Learn, Plan, Test, Measure) ; chacun bénéficie de plusieurs élément de data science. D'après Riley : "Plus nous nous disciplinons sur chacune de ces étapes de manière séquentielle, plus l'apport de chaque membre d'Airbnb est fort".
Dernière chose et non des moindres, le data science devrait s'appuyer sur une infrastructure rapide et stable pour minimiser le temps de collecte de données, et permettre à tous de répondre seul à des questions simples sur les données. Ceci est particulièrement utile pour démocratiser l'utilisation des données dans toutes les fonctions métiers, mais cela permet aussi aux data scientists de se concentrer sur des problèmes complexes.
Contacté par email, Riley donne quelques perspectives complémentaires sur les équipes de data science chez Airbnb.
InfoQ : Quels profils recherchez-vous pour rejoindre l'équipe data science ?
Riley : Nous cherchons des personnes avec des bagages différents. Je ne pense pas qu'il y ait un format standard de réussite dans ce champ, mais les tendances marquantes corrélées au succès sont : un esprit curieux/interrogateur, un oeil de lynx pour les détails, et un communiquant efficace. La compréhension des statistiques et de R ou Python sont aussi requis.
InfoQ : Comment savez-vous que vous avez un bon candidat ?
Riley : Nous avons ajusté le processus de recrutement les dernières années pour minimiser le niveau de friction possible entre les candidats et nos employés. Aujourd'hui, cela consiste surtout à donner des informations aux candidats, une question large, et regarder la manière dont ils attaquent le sujet. Quand ils sont prêts, ils présentent leur travail à quelques personnes de notre équipe pour discuter de ce qu'ils pensent du problème, le chemin choisit pour y répondre, et la manière dont ces résultats permettent d'agir. Les bons candidats montrent des traits de caractère dépassant le challenge de ce projet.
InfoQ : Quels outils et technologies utilisez-vous le plus comme data scientists ?
Riley : La plupart passe leur temps avec juste quelques outils : Hive et Presto (c'est-à-dire du SQL) pour extraire les données de notre cluster Hadoop, R et Python pour l'analyser, et Tableau pour la visualisation (parfois d'autres outils pour la couche de présentation). Si quelqu'un espère percer dans le milieu, il faut connaître SQL et R ou Python.
InfoQ : Quelles améliorations techniques recherchez-vous sur les prochaines années ?
Riley : Il y a en ce moment de nombreuses étapes entre la décision d'outiller un aspect de notre expérience produit avec l'enregistrement de données, et transformer ces données en perspectives activables qui instruisent une décision métier. Plus nous réduirons cette boucle de rétroaction, plus nous deviendrons efficaces.
En conclusion, réfléchissant sur ses cinq années chez Airbnb, Riley explique que "mesurer l'impact du data science est ironiquement difficile", mais chercher une infrastructure robuste, une capacité à construire des analyses d'impacts, et un usage systématique des données pour prendre toute sorte de décision est vraiment un bon signal.