DALL-E¶

Description¶

DALL-E est un modèle d’intelligence artificielle développé par OpenAI qui permet de générer des images à partir de descriptions textuelles.

Caractéristiques techniques¶

Type d’entrée/sortie : Texte vers image (text-to-image)
Modèle : Transformers à sa création, désormais modèle de diffusion
Statut : Non open source (fonctionnement connu mais code non public)
Date de lancement : 2021

Fonctionnement¶

Le modèle fonctionne en 5 étapes :

Description par l’utilisateur
Utilisation de CLIP (Contrastive Language-Image Pre-training) pour comprendre la demande
Génération d’image à partir de bruit
Vérification par CLIP de la correspondance avec la demande
Sortie de l’image finale

Tarification¶

Gratuit : 50 crédits à l’inscription + 15 crédits mensuels offerts
Payant : 115 crédits pour 15€

Avantages¶

Solution rapide pour la production d’images
Qualité satisfaisante pour un temps d’attente court
Réduction des coûts de production d’images

Inconvénients¶

Limité aux images 2D
Manque de réalisme dans certains cas
Qualité dépendante de la précision de la description

Ressources utiles¶