Comment l’IA alimente vos visioconférences sans que vous le sachiez

Comment l'IA alimente vos visioconférences sans que vous le sachiez

Optimisation de la qualité de l’image et du son, traduction automatique, création d’espaces virtuels partagés… L’intelligence artificielle améliore l’expérience utilisateur.

Depuis près de deux ans et la généralisation du télétravail, les professionnels du monde entier sont enchaînés visioconférences Du matin au soir. Erreurs à répétition, retours d’expérience, images pixélisées, au début de la crise sanitaire ils ont dû composer avec des solutions qui n’offraient pas tout le confort de travail attendu pour un usage intensif. Depuis lors, des acteurs majeurs du marché tels que Zoom, Microsoft, Google et Cisco Web ont fortement professionnalisé leurs outils en faisant largement appel aux technologies de l’IA. De l’optimisation de la qualité de l’image et du son à l’amélioration de l’expérience utilisateur, leurs approches présentent de grandes similitudes.

Audio : réduire les bruits parasites

Le premier apport de l’IA ? Optimisation du son. Quoi de plus dérangeant que d’écouter un participant taper sur un clavier, l’environnement bruyant d’un open space ou le ventilateur de la climatisation d’une salle de réunion. Depuis algorithmes d’apprentissage en profondeur réduisent ces bruits parasites en éliminant tous les sons ponctuels ou continus qui sortent du spectre de fréquences de la voix humaine.

“L’IA aide à focaliser le flux audio sur la personne qui parle ou à harmoniser le volume des voix des participants”

“Cette optimisation sonore s’applique aussi bien aux postes de travail individuels qu’aux salles de réunion”, explique Xavier Hemery, responsable de l’architecture de collaboration pour l’expertise technique de collaboration chez cisco. “L’IA permet également de concentrer le flux audio sur la personne qui parle ou d’harmoniser le volume de la voix des participants, quelle que soit leur distance par rapport à un appareil de conférence téléphonique.”

Pour renforcer son expertise sur le sujet, Cisco a racheté, en août 2020, BabbleLab, spécialiste américain de l’expérience audio.

WebEx AI égalise les voix de tous les participants, quelle que soit leur distance par rapport à l’appareil de visioconférence. Il différencie également le discours d’un locuteur du bruit de fond. © Cisco

Les solutions de visioconférence utilisent également assistants vocaux pour composer un numéro ou démarrer une réunion. Zoom offre votre propre agent personnel tout en prenant en charge les appareils connectés à partir de nid google ou Amazon Alexa. Microsoft, de son côté, utilise son assistant interne, Cortana, pour gérer le contrôle vocal des appareils approuvés par Teams dans les salles de réunion. l’adjoint de ciscowebex reprend la notion de compétences, face à Amazon, pour interagir avec des systèmes tiers.

Vidéo : la qualité pour tous

Après le son, passez à l’image. L’IA doit garantir à l’utilisateur la meilleure qualité vidéo quel que soit son équipement et la qualité du réseau. Les algorithmes d’optimisation et de compression de la vidéo en streaming entrent en jeu pour pallier les éventuels écueils techniques. “Pour économiser de la bande passante, le flux vidéo est centré sur les personnes et non sur le fond statique”, explique François Familiari, ingénieur commercial senior chez Zoom.

Fonction Zoom “galerie intelligente”. © JDN / Capture

réunion google Il propose, pour sa part, de régler automatiquement la luminosité de l’image si l’environnement est faiblement éclairé. Sa fonction Autozoom permet, comme son son le suggère, de zoomer sur le visage de l’utilisateur si l’IA le juge trop éloigné de la caméra. Dans une salle de réunion, la reconnaissance faciale cadrera le visage du participant qui parle pour mieux capter ses expressions. Le suivi vidéo vous permet également d’être suivi lorsque vous vous déplacez dans la pièce.

“La reconnaissance faciale permet d’identifier un utilisateur, même s’il porte un masque, selon l’annuaire de l’entreprise”

“La reconnaissance faciale permettra d’identifier un utilisateur, même s’il porte un masque, depuis l’annuaire de l’entreprise. Ce sera intéressant dans un contexte international où les interlocuteurs ne se connaissent pas toujours”, ajoute Xavier Hemery. Dans le cadre du protocole sanitaire, le comptage des personnes présentes dans la salle permet également de vérifier la conformité des compteurs.

D’autres algorithmes assurent le contour des corps pour les restituer sur des fonds virtuels tandis que des filtres peuvent habiller les visages d’une paire de lunettes ou d’une barbe virtuelle. Zoom propose même une fonction “retoucher mon apparence” qui lisse la peau de votre visage pour la rendre plus belle. Dans le même esprit de gamification, la reconnaissance de forme peut afficher automatiquement une émoticône associée à un geste, comme un pouce levé pour approuver une déclaration ou une main levée pour demander à parler.

Dans une organisation du travail en mode hybride, l’IA joue également un rôle clé. Paradoxalement, les participants qui ont fait l’effort de venir sur le site sont de facto désavantagés. Ils apparaissent dans un même flux vidéo, parfois réduits à des têtes d’épingles s’ils sont nombreux dans l’image. La fonctionnalité appelée « focus sur les personnes » dans Cisco Webex ou « galerie intelligente » dans Zoom résout le problème. “Recadrer” les participants de la salle, puis les réenclenche dans une vignette individuelle comme s’ils se trouvaient derrière votre PC.

Fonction zoom pour une “vue immersive”. © JDN / Capture

Dans le même esprit, une autre vue, appelée “vue immersive” dans Zoom et “mode ensemble” dans Équipes Microsoft, rassemble tous les participants dans un même avion virtuel, comme une salle de classe ou un amphithéâtre. Autre fonctionnalité de Teams : “Pivot View” organise dynamiquement l’affichage entre les vignettes des intervenants et le contenu qu’ils partagent.

Traduction automatique et prise de notes

Les plateformes de visioconférence deviendront de véritables tours de Babel en permettant aux participants de choisir la langue commune de la rencontre (généralement l’anglais), qui sera sous-titrée dans la langue maternelle de chacun. En septembre dernier, Zoom annonçait la prise en charge d’une dizaine de langues dans un premier temps puis d’une trentaine pour ses services de transcription automatique et de traduction en direct.

Les technologies liées au traitement du langage naturel permettent également d’identifier les points forts (ou points saillants) d’une réunion à partir de la détection de mots-clés tels que « décision » ou « ordre du jour ». Un système de chapitre qui permet à l’utilisateur qui revoit un enregistrement d’aller directement au passage qui l’intéresse. Intégrée à un module de chat, l’IA peut, dans la même logique, jouer le rôle de modérateur en censurant les termes inappropriés ou les informations sensibles pour se conformer au cadre légal et réglementaire.

pour éviter le bombe zoom (c’est-à-dire l’intrusion d’un pirate informatique ou d’un troll dans une vidéoconférence supposée privée), Zoom a développé une IA qui analyse en permanence les médias sociaux pour détecter si un lien de session n’a pas été partagé publiquement. “L’administrateur reçoit une alerte immédiate”, précise François Familiari sur Zoom. “A lui de voir si cet échange est volontaire et, si non, s’il traduit une possibilité d’intrusion. Si c’est le cas, vous pouvez rappeler aux utilisateurs l’importance d’utiliser le mot de passe pour sécuriser l’accès et activer la fonction salle d’attente.

En attendant le métaverse…

L’avenir de la visioconférence pourrait bien passer par le métaverse. Des univers immersifs qui rendraient les réunions plus engageantes et inclusives en gommant davantage la distance physique. Microsoft et Cisco préparent des évolutions de leurs solutions sur le sujet. De son côté, Zoom a annoncé en septembre dernier un partenariat avec Oculus, propriété de Meta. L’éditeur a pour objectif d’apporter sa fonctionnalité de tableau blanc virtuel à Horizon Workrooms, l’outil de réunion de travail à distance de Facebook. À l’aide du casque et de la télécommande Oculus, les utilisateurs pourront interagir par gestes via le tableau blanc Zoom.

La fonction Oculus de Zoom prendra en charge la reconnaissance des gestes. © JDN / Capture

Leave a Comment