L’IA de LinkedIn ajoute automatiquement des descriptions aux images

L’un des efforts les plus prometteurs de LinkedIn est un outil qui ajoute automatiquement des descriptions textuelles alternatives (attribut ALT) suggérées pour les images téléchargées sur LinkedIn, qu'il réalise en utilisant la plate-forme de services cognitifs de Microsoft et un ensemble de données uniques dérivées de LinkedIn.

L’IA de LinkedIn ajoute automatiquement des descriptions aux photos

Les auteurs contributeurs Vipin Gupta, Ananth Sankar, et Jyotsna Thapliyal de chez LinkedIn ont écrit dans leur post :

Une façon d'améliorer l'accessibilité des médias enrichis est de fournir une description textuelle alternative lors du téléchargement d'une image.

Une bonne description textuelle alternative décrit une image à fond tout en attirant l'attention du lecteur sur les détails importants.

Tous les principaux éléments ou objets de l'image doivent être identifiés et projetés dans une seule déclaration impartiale.

Actuellement, LinkedIn permet aux membres d'ajouter manuellement une autre description textuelle lors du téléchargement d'images ou de photos via l'interface web, mais tous les membres ne choisissent pas de profiter de cette fonctionnalité.

Afin d'améliorer l'accessibilité du site, notre équipe a commencé à travailler sur la création d'un outil qui ajoute une description textuelle alternative suggérée pour les images téléchargées sur LinkedIn.

Bien que la science de la vision par ordinateur ait fait de grands progrès ces dernières années, les descriptions automatiques de texte demeurent une tâche difficile, aggravées par le fait que les images sur LinkedIn ont tendance à tomber dans une catégorie professionnelle ou sont axées sur le travail, plutôt que d'être plus général ou générique.


Pourquoi d'autres descriptions textuelles ?


Il existe plusieurs façons pour les descriptions alternatives textuelles pour que les images puissent améliorer l'accessibilité des rich médias dans le flux.

Pour les membres utilisant la technologie d'assistance comme un lecteur d'écran, les descriptions textuelles alternatives fournissent une description textuelle du contenu de l'image.

De même, dans les zones où la bande passante peut être limitée, ces descriptions permettent aux membres de comprendre les caractéristiques clés d'une image, même si l'image elle-même ne peut pas être chargée.

dans les zones où la bande passante peut être limitée, ces descriptions permettent aux membres de comprendre les caractéristiques clés d'une image,
Source : Linkedin.com

Si un membre ne fournit pas une autre description textuelle au moment du téléchargement d'images, LinkedIn peut se tourner vers plusieurs méthodologies pour générer des descriptions textuelles alternatives à l'échelle, y compris l'apprentissage profond, le réseau neuronal et l'apprentissage automatique.


Quels défis sont liés à la génération automatique des descriptions textuelles ?



D’après LinkedIn, décrire une image ou une scène, c'est plus de l'art que de la science. Il n'y a pas de « bonne » description exacte, c'est toujours subjectif.

L'expertise du sujet et la connaissance de divers objets physiques et de leurs attributs sont nécessaires pour générer une bonne description de l'image.

En outre, une image n'est qu'une projection en deux dimensions de notre monde en trois dimensions à un moment donné dans le temps, et des informations basées sur le temps qui peuvent aider à identifier plus précisément les activités sont manquantes, ce qui rend l'écriture de descriptions textuelles alternatives encore plus difficile.

Pour surmonter ces obstacles, l'équipe a utilisé l'API Analyze de Cognitive Services pour développer une fonctionnalité qui génère des descriptions textuelles alternatives pour les photos classées par score de confiance.

Ils ont ensuite recruté des évaluateurs humains pour évaluer son rendement en conciliant les scores — qui étaient fondés sur d'autres descriptions textuelles, catégories et étiquettes — avec des légendes qu'ils ont eux-mêmes écrites.

Alors que l'API de Microsoft a reconnu des groupes de personnes, des objets comme les journaux, et des endroits comme un métro avec assez de succès, elle a d'abord bataillé contre les médias LinkedIn contenant des images avec un contexte professionnel comme des diapositives, des projecteurs, des expositions, conférences, séminaires, affiches, certificats, graphiques, et plus encore.

L'équipe de développement a résolu ce problème en évaluant la justesse des descriptions textuelles alternatives existantes sur LinkedIn, ce qui a contribué à exposer des modèles exploitables spécifiques à la qualité des légendes d'images.

Après avoir isolé les modèles, l'équipe a mis au point un méta classificateur qui aide à filtrer les descriptions textuelles qui « pourraient nuire aux expériences des membres [LinkedIn] », en plus d'un module de correction de description d'image qui identifie et corrige les expériences de descriptions incorrectes contenant des mots comme "capture d'écran.

Cette génération de légende automatique améliorée, disent-ils, a ouvert la voie à des modèles méta classificateurs créés qui prennent en compte les libellés de taxonomie, un dictionnaire associé, et le texte supplémentaire associé aux messages du flux LinkedIn.

Cette génération de légende automatique améliorée, disent-ils, a ouvert la voie à des modèles méta classificateurs créés qui prennent en compte les libellés de taxonomie


Gupta et ses collègues se sont posés les questions suivantes pour lancer le développement :

- L'ajout de médias enrichis dans le flux LinkedIn soulève une question : le flux est-il entièrement inclusif pour tous les membres de LinkedIn ?

- Par exemple, un membre qui a un handicap de vision peut-il encore profiter des médias enrichis dans le flux ?

- Est-ce qu'un membre dans une zone avec une bande passante limitée, ce qui pourrait empêcher une image de se charger complètement, peut-il encore avoir l'expérience complète du flux ?