ADVERTISEMENT

L’imageur DALL-E AI d’OpenAI peut désormais éditer des photos, les chercheurs peuvent s’inscrire pour l’essayer


Le groupe de recherche en intelligence artificielle OpenAI a créé une nouvelle version de DALL-E, son programme de génération de texte en image. DALL-E 2 est une version à plus haute résolution et à plus faible latence du système d’origine, produisant des images qui représentent des descriptions écrites par l’utilisateur. Il inclut également de nouvelles fonctionnalités, telles que l’édition d’une image existante. Comme pour les travaux précédents d’OpenAI, l’outil n’est pas directement accessible au public. Mais les chercheurs peuvent s’inscrire en ligne pour prévisualiser le système, et OpenAI espère qu’il sera disponible plus tard pour une utilisation dans des applications tierces.

Nommé d’après l’artiste surréaliste Salvador Dalí et le personnage robot de Pixar Wall-E, le prédécesseur du modèle, DALL-E, est sorti l’année dernière. Ce logiciel est capable de créer des images dans différents styles artistiques lorsqu’il est guidé par des entrées de texte : il génère des images à partir de ce que vous lui décrivez. Vous demandez un cœur anatomiquement réaliste ou un bébé radis de dessin animé dans un tutu promenant un chien, et il fera de son mieux pour créer une image assortie.

ADVERTISEMENT

La nouvelle version, DALL-E 2, serait plus polyvalente et capable de générer des images à partir de sous-titres de plus haute résolution. Elle a également de nouvelles capacités. C’était un test limité mais fascinant de la capacité de l’IA à représenter visuellement des concepts, qu’il s’agisse du rendu banal d’un mannequin vêtu d’une chemise en flanelle, d’une girafe en tortue ou d’une illustration d’un radis promenant un chien.

À l’époque, OpenAI avait déclaré qu’il continuerait à développer le système tout en examinant les pièges potentiels, tels que les biais dans la génération d’images ou la production de fausses informations. Il tente de résoudre ces problèmes avec des garanties techniques et une nouvelle politique de contenu, tout en réduisant sa charge de calcul et en étendant davantage les capacités de base du modèle.

L’une des nouvelles fonctionnalités de DALL-E 2, l’inpainting, applique les capacités de conversion de texte en image de DALL-E à un niveau plus granulaire. Les utilisateurs peuvent partir d’une image existante, sélectionner une zone et demander au modèle de la modifier. Vous pouvez, par exemple, cacher un tableau sur le mur d’un salon et le remplacer par une autre photo, ou ajouter un vase de fleurs sur une table basse. Le modèle peut remplir (ou supprimer) des objets en prenant en compte des détails tels que la direction des ombres dans une pièce.

ADVERTISEMENT

Une autre fonctionnalité, les variations, est une sorte d’outil de recherche d’images qui n’existent pas. Les utilisateurs peuvent télécharger une image initiale, puis créer une série de variations similaires à celle-ci. Ils peuvent également combiner deux images, générant des photos contenant des éléments des deux. Les images générées sont de 1024 x 1024 pixels, un saut par rapport aux 256 x 256 pixels du modèle original.

DALL-E 2 est basé sur CLIP, un système de vision par ordinateur qu’OpenAI a également annoncé l’année dernière. DALL-E 1 a simplement pris notre approche GPT-3 du langage et l’a appliquée à la production d’une image : nous avons compressé les images en une série de mots et avons juste appris à prédire ce qui allait suivre », explique Prafulla Dhariwal, chercheur à OpenAI , faisant référence au modèle GPT utilisé par de nombreuses applications textuelles d’IA.

Mais faire correspondre les mots ne capturait pas nécessairement les qualités les plus importantes pour les humains, et le processus de prédiction limitait le réalisme des images. CLIP a été conçu pour regarder des images et résumer leur contenu comme le ferait un humain. OpenAI a répété ce processus pour créer “unCLIP”, une version inversée qui commence par la description et va à l’image. DALL-E 2 génère l’image à l’aide d’un processus appelé “diffusion”, que Dhariwal décrit comme commençant par un “sac de points”, puis complétant un motif de plus en plus détaillé.

Le logiciel pourrait aider les gens à éditer leurs photos, à créer des œuvres d’art ou à produire d’innombrables images de stock. DALL-E 2 est un projet de recherche que nous ne mettons pas actuellement à disposition dans notre API, a déclaré OpenAI mercredi. Dans le cadre de nos efforts pour développer et mettre en œuvre l’IA de manière responsable, nous explorons les limites et les capacités de DALL-E avec un groupe restreint d’utilisateurs.

DALL-E 2 peut être testé par des partenaires agréés, sous certaines conditions. Les utilisateurs n’ont pas le droit de télécharger ou de générer des images. pas de classe G et qui est susceptible de causer des dommages, y compris tout ce qui implique des symboles de haine, de la nudité, des gestes obscènes ou “des complots majeurs ou des événements liés à des événements géopolitiques majeurs en cours”. Ils doivent également divulguer le rôle de l’IA dans la génération d’images et ne peuvent pas publier d’images générées par d’autres via une application ou un site Web.

Cependant, OpenAI espère l’ajouter ultérieurement aux outils API du groupe, ce qui lui permettrait d’alimenter des applications tierces. Notre espoir est de poursuivre le processus par étapes, afin de pouvoir continuer à évaluer, en fonction des retours que nous recevons, comment diffuser cette technologie en toute sécurité, explique Dhariwal.

La source : OpenAi

Et vous ?

Que pensez-vous de cette nouvelle version de DALL-E ?

Voir également :

OpenAI permet désormais aux développeurs de personnaliser leur système de génération de texte GPT-3, de créer des modèles adaptés au contenu spécifique de leurs applications et services

L’API OpenAI est désormais disponible sans file d’attente, elle apporte des modèles de la série Instruct spécialisés pour des réponses plus véridiques.

Le codex AI d’OpenAI fait ses débuts en programmation et peut déjà coder dans une douzaine de langues. L’IA pourra-t-elle bientôt décharger les développeurs de certaines tâches, voire les remplacer ?

OpenAI conçoit un algorithme basé sur l’IA qui permet à un robot d’imiter des tâches effectuées par des humains, dans un environnement virtuel

Leave a Comment