DALL-E

Description

DALL-E est un modèle d’intelligence artificielle développé par OpenAI qui permet de générer des images à partir de descriptions textuelles.

Caractéristiques techniques

  • Type d’entrée/sortie : Texte vers image (text-to-image)

  • Modèle : Transformers à sa création, désormais modèle de diffusion

  • Statut : Non open source (fonctionnement connu mais code non public)

  • Date de lancement : 2021

Fonctionnement

Le modèle fonctionne en 5 étapes :

  1. Description par l’utilisateur

  2. Utilisation de CLIP (Contrastive Language-Image Pre-training) pour comprendre la demande

  3. Génération d’image à partir de bruit

  4. Vérification par CLIP de la correspondance avec la demande

  5. Sortie de l’image finale

Tarification

  • Gratuit : 50 crédits à l’inscription + 15 crédits mensuels offerts

  • Payant : 115 crédits pour 15€

Avantages

  • Solution rapide pour la production d’images

  • Qualité satisfaisante pour un temps d’attente court

  • Réduction des coûts de production d’images

Inconvénients

  • Limité aux images 2D

  • Manque de réalisme dans certains cas

  • Qualité dépendante de la précision de la description

Ressources utiles