AudioLDM ¶

Nom de l’outil : AudioLDM
Catégorie : Audio (Text-to-Audio)
Développeur : University of Surrey (équipe de recherche)
Date de sortie : Février 2023

Objectif¶

Générer des sons réalistes (ambiances, bruitages, textures musicales) à partir de descriptions textuelles simples.

Fonctionnement résumé¶

Étape	Description
Entrée	Prompt texte (ex: “Pluie tropicale la nuit”)
Traitement	Encodage CLAP + Diffusion latente via LDM
Sortie	Fichier audio .wav (16kHz)

Fonctions principales¶

✅ Génération audio à partir de texte
✅ Support des ambiances complexes (nature, urbain, SF)
✅ Intégration HiFi-GAN pour qualité audio
✅ Démo Colab gratuite
✅ Architecture inspirée de Stable Diffusion
❌ Pas de génération musicale structurée

Exemples d’usage concrets¶

Domaine	Exemple
Cinéma	Bruitages pour scènes d’action
Jeux vidéo	Ambiances dynamiques selon l’environnement
Musique	Expérimentation de textures sonores
Accessibilité	Création d’audio pour contenus visuels

Détails techniques¶

Caractéristique	Valeur
Architecture	Latent Diffusion Model (LDM)
Framework	PyTorch
Input	Texte (max 200 caractères)
Output	Audio 16kHz (5-10s par défaut)
Licence	Recherche/académique

Pricing¶

Gratuit (code open-source) • GPU requis pour usage local

Releases clés¶

v1.0 : Version initiale (2023)
v2.0 : Amélioration qualité via CLAP

Alternatives connues¶

Ressources utiles¶

Exemple d’appel API¶

from audioldm_pipeline import AudioLDMPipeline

pipe = AudioLDMPipeline.from_pretrained("audioldm")
audio = pipe("Vagues océaniques calmes")

Input/Output¶

Input : “Feu de camp crépitant dans une forêt”
Output : 🔄 Écouter l’extrait (8s, 16kHz)

Avantages/Limites¶

✅ Avantages	❌ Inconvénients
Qualité réaliste	Durée limitée (10s max)
Customisation facile	GPU nécessaire pour la vitesse
Open-source	Dataset anglophone dominant

Confidentialité¶

Aucune donnée utilisateur stockée (en mode local)
Modèle entraîné sur datasets publics (AudioCaps/Freesound)

Statistiques¶

4.3/5 sur GitHub (1.2k stars)
Utilisé dans 200+ projets académiques

Dataset d’entraînement¶

AudioCaps
Freesound
UrbanSound8K