Speech2Face AI peut “reconstruire” le visage d’une personne en fonction de sa voix Nécessite au moins trois secondes de voix pour générer un visage


Les photographies sont réalisées avec de la lumière. Et si vous pouviez prendre des portraits de personnes avec le son de leur voix ? Les chercheurs en intelligence artificielle ont travaillé sur la reconstruction du visage d’une personne en utilisant juste un court enregistrement audio de cette personne en train de parler. Les résultats ne sont toujours pas parfaits, mais dans certains cas, ils sont très proches du visage d’origine. Les scientifiques du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT ont publié pour la première fois un algorithme d’IA appelé Speech2Face dans un article de 2019. Comment parle-t-il ? », peut-on lire dans le résumé. “Nous avons étudié la tâche de reconstruire une image faciale d’une personne à partir d’un court enregistrement audio de cette personne parlant.” Bien sûr, ils ont précisé: “Gardez à l’esprit que notre objectif n’est pas de reconstruire une image précise de la personne, mais de récupérer les traits physiques caractéristiques qui sont en corrélation avec le discours d’entrée.”

La technologie de Speech2Face affiche des représentations hautement photoréalistes qui sont également trop génériques pour identifier une personne spécifique. Mais cela permet d’établir un profil suffisamment précis avec l’ethnie, le sexe et l’âge du sujet. La technologie capable d’estimer ces deux facteurs existait déjà, mais la composante ethnique est nouvelle pour Speech2Face AI.

La technologie continue de croître à pas de géant, s’appuyant sur divers domaines pour explorer de nouvelles capacités et fonctionnalités. L’un d’eux est de pouvoir “reconstruire” le visage d’une personne à partir d’un fragment de voix. De nombreux résultats montrent une forte similitude avec la personne derrière la voix.

L’article explique que l’objectif des chercheurs Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman et Michael Rubinstein du programme scientifique et de recherche du MIT n’est pas de reconstruire les visages des gens à l’identique, mais de créer une image. avec les caractéristiques physiques liées à l’audio analysé.

Pour y parvenir, ils ont utilisé, conçu et formé un réseau neuronal profond qui a analysé des millions de vidéos prises sur YouTube où les gens parlent. Au cours de la formation, le modèle a appris à corréler les voix avec les visages, ce qui lui a permis de produire des images avec des attributs physiques similaires à ceux des locuteurs, notamment l’âge, le sexe et l’origine ethnique. Le fonctionnement de l’algorithme s’articule autour de l’utilisation de deux composants principaux :

  • un encodeur ; qui extrait et enregistre le spectrogramme de forme d’onde audio, en reconnaissant un certain nombre de caractéristiques clés de celui-ci
  • un décodeur ; qui sur la base des caractéristiques précitées génère une image du visage, représenté de face et avec un geste neutre

Il n’y a eu aucune implication humaine dans le processus de formation, car les chercheurs n’ont pas eu besoin d’étiqueter manuellement des sous-ensembles de données : l’IA a simplement reçu une grande quantité de vidéo et l’a téléchargée pour déterminer les corrélations entre les traits vocaux et les traits du visage.

« Nous avons conçu et formé un réseau de neurones profonds pour effectuer cette tâche en utilisant des millions de vidéos naturelles de personnes parlant sur Internet/Youtube. Au cours de la formation, notre modèle apprend les corrélations audiovisuelles de la voix et du visage qui lui permettent de produire des images qui capturent divers attributs physiques des locuteurs, tels que l’âge, le sexe et l’origine ethnique. Cela se fait de manière auto-contrôlée, en utilisant la concurrence naturelle des visages et de la parole dans la vidéo Internet, sans qu’il soit nécessaire de modéliser explicitement les attributs. Nos reconstructions, obtenues directement à partir de l’audio, révèlent les corrélations entre les visages et les voix. Nous évaluons et quantifions numériquement comment et de quelle manière nos reconstructions Speech2Face à partir de l’audio ressemblent à de vraies images des visages des locuteurs.”

Une fois formée, l’IA était remarquablement douée pour créer des portraits basés uniquement sur des enregistrements vocaux qui ressemblaient à l’apparence réelle de l’orateur.


A gauche, le vrai visage (la référence), à ​​droite, l’image reconstruite par l’IA grâce au son de la voix

Pour analyser plus en détail la précision des reconstructions faciales, les chercheurs ont construit un “décodeur de visage” qui crée une reconstruction standardisée du visage d’une personne à partir d’une image fixe tout en ignorant les “variations non pertinentes” telles que la configuration et l’éclairage. . Cela a permis aux scientifiques de comparer plus facilement les reconstructions vocales avec les caractéristiques réelles du locuteur.

Encore une fois, les résultats de l’IA étaient étonnamment proches des vrais visages dans un grand pourcentage de cas.



A droite, l’image reconstruite par l’IA à partir du son de la voix. Au milieu, le travail du « décodeur facial ». A gauche, le vrai visage (la référence)

À propos, des enregistrements vocaux plus longs donnent un meilleur résultat. Les chercheurs l’ont démontré avec des exemples créés à partir d’extraits audio de trois ou six secondes.

Faiblesses et problèmes éthiques

Dans certains cas, l’IA avait du mal à déterminer à quoi ressemblerait le haut-parleur. Des facteurs tels que l’accent, la langue parlée et le ton de la voix étaient des facteurs qui provoquaient des “discordances entre le discours et le visage” dans lesquels le sexe, l’âge ou l’origine ethnique étaient incorrects.


Exemples d’erreurs. La première photo correspond au visage de la personne dans l’audio et la seconde à celui recréé par le programme

Les personnes à la voix forte (y compris les jeunes enfants) étaient souvent identifiées comme des femmes, tandis que les personnes à la voix grave étaient étiquetées comme des hommes. Un homme asiatique qui parlait anglais semblait moins asiatique que lorsqu’il parlait chinois. De toute évidence, si la même personne parle sa langue maternelle, on lui attribue la bonne origine ethnique.

Les chercheurs espèrent obtenir des résultats encore plus précis s’ils fournissent davantage de données d’entraînement plus représentatives de l’ensemble de la population mondiale. Ils sont conscients que AI lutte actuellement contre les préjugés raciaux et tentent de remédier à cette situation.

Les chercheurs ont noté que bien qu’il s’agisse d’une recherche purement académique, ils pensent qu’il est important de discuter explicitement d’un ensemble de considérations éthiques en raison de la sensibilité potentielle des informations faciales :

  • Vie privée : Comme mentionné, notre méthode ne peut pas retrouver la véritable identité d’une personne à partir de sa voix (c’est-à-dire une image exacte de son visage). En effet, notre modèle est formé pour capturer les caractéristiques visuelles (liées à l’âge, au sexe, etc.) qui sont communes à de nombreuses personnes, et uniquement dans les cas où il existe des preuves suffisamment solides pour lier ces caractéristiques visuelles aux attributs de voix/parole dans le Les données. En tant que tel, le modèle ne produira que des visages d’apparence moyenne, avec des caractéristiques visuelles caractéristiques en corrélation avec le discours d’entrée. Il ne produira pas d’images d’individus spécifiques.
  • Corrélations voix-visage et biais des ensembles de données : Notre modèle est conçu pour révéler les corrélations statistiques qui existent entre les traits du visage et les voix des locuteurs dans les données d’entraînement. Les données de formation que nous utilisons sont une collection de vidéos YouTube éducatives et ne représentent pas de manière égale l’ensemble de la population mondiale. Par conséquent, le modèle, comme c’est le cas pour tout modèle d’apprentissage automatique, est affecté par cette distribution inégale des données.

    Plus précisément, si un ensemble de locuteurs peut avoir des caractéristiques vocales et visuelles relativement rares dans les données, la qualité de nos reconstructions pour de tels cas peut être dégradée. Par exemple, si une certaine langue n’apparaît pas dans les données d’entraînement, nos reconstructions ne captureront pas bien les attributs faciaux qui peuvent être liés à cette langue.

    Veuillez noter que certaines des caractéristiques de nos visages prévus peuvent même ne pas être physiquement liées à la parole, par exemple la couleur ou le style des cheveux. Cependant, si de nombreux locuteurs de l’ensemble d’apprentissage qui parlent d’une manière similaire (par exemple, dans la même langue) partagent également un trait visuel commun (par exemple, une couleur ou un style de cheveux commun), alors ces caractéristiques visuelles peuvent apparaître dans les prédictions.

    Pour les raisons ci-dessus, nous recommandons que toute autre recherche ou utilisation pratique de cette technologie soit soigneusement testée pour s’assurer que les données de formation sont représentatives de la population d’utilisateurs prévue. Sinon, des données plus représentatives devraient être largement collectées.

  • Catégories : Dans notre section expérimentale, nous mentionnons les catégories démographiques inférées telles que “Blanc” et “Asiatique”. Ce sont des catégories définies et utilisées par un classificateur commercial d’attributs faciaux (Face++), et n’ont été utilisées que pour l’évaluation dans cet article. Notre modèle n’inclut ni n’utilise ces informations à aucun moment.

Quant aux usages, certains pensent qu’une employabilité commerciale de cet algorithme serait la possibilité de générer une image représentative de l’interlocuteur lorsqu’il passe un appel téléphonique ou écoute la radio.

La source : Discours2Face

Et vous ?

Que pensez-vous de Speech2Face ?
Voyez-vous des utilisations? Qui ?

Voir également :

Deux chercheurs ont trouvé plus de 1 000 faux profils LinkedIn en utilisant des visages générés par l’IA, plus de 70 entreprises ont créé de faux profils pour conclure des affaires
NVIDIA NeRF AI reconstruit presque instantanément une scène 3D à partir d’une poignée d’images 2D, Instant NeRF ne prend que quelques secondes pour s’entraîner
L’imageur DALL-E AI d’OpenAI peut désormais éditer des photos, les chercheurs peuvent s’inscrire pour l’essayer
Plus de 70 % des gens veulent que l’IA les aide, au lieu de faire tout le travail ou de ne rien faire, en effectuant des tâches simples comme des calculs ou en simplifiant les procédures.

Leave a Comment