Microsoft Research Développe un Nouveau Système de Language-Vision : VinVL

Microsoft Research a récemment développé un nouveau modèle de détection d'attributs d'objet pour le codage d'images, qu'ils ont nommé VinVL (Visual features in Vision-Language).

Pour imiter les capacités humaines à comprendre les images qu'ils voient et à interpréter les sons qu'ils entendent, les chercheurs en intelligence artificielle (IA) tentent de permettre à un ordinateur d'avoir les mêmes compétences. Ces compétences peuvent être rendues possibles en fournissant aux ordinateurs un langage visuel pour comprendre efficacement le monde qui les entoure. Par exemple, les systèmes de langage visuel (VL) permettent de rechercher les images pertinentes pour une requête textuelle (ou vice versa) et de décrire le contenu d'une image en utilisant un langage naturel. Ces systèmes se composent de deux modules :

Un module de codage d'image pour générer des cartes de caractéristiques d'une image d'entrée et
Un module de fusion Vision-Langage mappant l'image codée et le texte en vecteurs dans le même espace sémantique afin que leur similitude sémantique puisse être calculée en utilisant la distance de leurs vecteurs.

Source: https://www.microsoft.com/en-us/research/blog/vinvl-advancing-the-state-of-the-art-for-vision-language-models/

Les chercheurs de Microsoft ont travaillé sur l'amélioration du module d'encodage d'image en développant VinVL. En combinant des modules de fusion VL tels que OSCAR et VIVO avec VinVL, le système Microsoft VL établit un nouvel état de l'art sur les sept principaux benchmarks VL. Selon un article de blog de Microsoft Research , le système VL a atteint la première place dans les classements de VL les plus compétitifs, y compris Visual Question Answering (VQA), , et Novel Object Captioning (nocaps).De plus, le système Microsoft VL surpasse considérablement les performances humaines dans le classement des nocaps en termes de CIDEr (92,5 contre 85,3).Microsoft COCO Image Captioning

Microsoft a entraîné son modèle de détection d'attributs d'objet pour les tâches VL en utilisant un grand ensemble de données de détection d'objets contenant 2,49 millions d'images pour 1848 classes d'objets et 524 classes d'attributs et en fusionnant quatre ensembles de données de détection d'objets publics (COCO, Open Images, Objects365 et VG). Ils ont d'abord pré-entraîné un modèle de détection d'objet sur l'ensemble de données combiné - puis affiné le modèle avec une branche d'attribut supplémentaire sur VG, le rendant capable de détecter à la fois les objets et les attributs. En conséquence, le modèle peut détecter 1594 classes d'objets et 524 attributs visuels. De plus, selon le billet de blog, lors d'expériences menées par les chercheurs, le modèle peut détecter et encoder presque toutes les régions sémantiquement significatives dans une image d'entrée.

Dans le billet de blog, les auteurs déclarent :

Malgré les résultats prometteurs que nous avons obtenus, tels que le dépassement des performances humaines sur les repères de sous-titrage d'images, notre modèle n'atteint en aucun cas le niveau d'intelligence humaine de compréhension du langage visuel. Les directions intéressantes des travaux futurs incluent: (1) intensifier d'avantage le pré-apprentissage de la détection d'attributs d'objet en tirant parti de données massives de classification / marquage d'images, et (2) étendre les méthodes d'apprentissage de la représentation du langage visuel intermodal à la construction de modèles de langage fondés sur la perception qui peut ancrer les concepts visuels dans le langage naturel, et vice versa comme le font les humains.

Enfin, dans son blog de recherche, la société a annoncé qu'elle rendrait public le modèle VinVL et le code source. Plus de détails sont disponibles dans la publication de recherche et le code source dans un référentiel GitHub. De plus, Microsoft intégrera VinVL dans son offre de services cognitifs sur Azure.

Débloquez l'expérience InfoQ complète

Vous n'avez pas encore de compte InfoQ ?

Sujets

Comment Utiliser Le Chiffrement Pour La Défense En Profondeur Dans Les Apps Natives Et Navigateurs

Manipulation De Données Avec Programmation Fonctionnelle Et Requêtes Dans Ballerina

Les Prédictions De Temps Chez Uber Eats

Les Processus De Tests Individuels Ne Peuvent Convenir A Tout Le Monde.

Pourquoi La Gouvernance DevOps Est Cruciale Pour Permettre La Vélocité Des Développeurs

Liens utiles

Sélectionner votre région

Evaluer cet article

Ce contenu est dans le sujet Data Science

Sujets liés

Contenu éditorial lié

Contenu sponsorisé lié

Contenu Éducatif

La Nouvelle Version D'Asahi Linux Prend En Charge Les Processeurs Apple M1 Ultra Et M2

PostgreSQL 14 Casse Les Pilotes .NET Et Java Pour PostgreSQL

Docker Desktop 4.6 Pour Mac Améliore Les Performances De Partage

Comment Eviter Le Verrouillage Des Fournisseurs Sans Serveurs Avec Design Patterns ?

Manipulation De Données Avec Programmation Fonctionnelle Et Requêtes Dans Ballerina

Ballerina : Un Langage De Programmation Orienté Données

La Dette Technique Est Quantifiable En Tant Que Dette Financière : Impossible Pour Les Développeurs

Les Tests De Performance Doivent S'Appuyer Sur Les Tendances

Les Processus De Tests Individuels Ne Peuvent Convenir A Tout Le Monde.

Grab A Partagé Son Experience Sur La Conception De Plate-formes De Données Distribuées

Microsoft Research Développe un Nouveau Système de Language-Vision : VinVL

Les Prédictions De Temps Chez Uber Eats

Les Facteurs Clés De La "MFA Fatigue" Dont A Ete Victime Uber

Adoption D'Environnements De Développement À Distance Chez Slack

Pourquoi La Gouvernance DevOps Est Cruciale Pour Permettre La Vélocité Des Développeurs

Online InfoQ AI Engineering Certification

Online InfoQ Architect Certification

Online InfoQ AI Security & Privacy Engineering Program

QCon San Francisco

QCon London 2027

Microsoft Research Développe un Nouveau Système de Language-Vision : VinVL

Evaluer cet article

Ce contenu est dans le sujet Data Science

Sujets liés

Contenu éditorial lié

Contenu sponsorisé lié

Contenu Éducatif

InfoQ Newsletter hebdomadaire