AudioLDM¶
Nom de l’outil : AudioLDM
Catégorie : Audio (Text-to-Audio)
Développeur : University of Surrey (équipe de recherche)
Date de sortie : Février 2023
Objectif¶
Générer des sons réalistes (ambiances, bruitages, textures musicales) à partir de descriptions textuelles simples.
Fonctionnement résumé¶
Étape |
Description |
|---|---|
Entrée |
Prompt texte (ex: “Pluie tropicale la nuit”) |
Traitement |
Encodage CLAP + Diffusion latente via LDM |
Sortie |
Fichier audio .wav (16kHz) |
Fonctions principales¶
✅ Génération audio à partir de texte
✅ Support des ambiances complexes (nature, urbain, SF)
✅ Intégration HiFi-GAN pour qualité audio
✅ Démo Colab gratuite
✅ Architecture inspirée de Stable Diffusion
❌ Pas de génération musicale structurée
Exemples d’usage concrets¶
Domaine |
Exemple |
|---|---|
Cinéma |
Bruitages pour scènes d’action |
Jeux vidéo |
Ambiances dynamiques selon l’environnement |
Musique |
Expérimentation de textures sonores |
Accessibilité |
Création d’audio pour contenus visuels |
Détails techniques¶
Caractéristique |
Valeur |
|---|---|
Architecture |
Latent Diffusion Model (LDM) |
Framework |
PyTorch |
Input |
Texte (max 200 caractères) |
Output |
Audio 16kHz (5-10s par défaut) |
Licence |
Recherche/académique |
Pricing¶
Gratuit (code open-source) • GPU requis pour usage local
Releases clés¶
Alternatives connues¶
Ressources utiles¶
Exemple d’appel API¶
from audioldm_pipeline import AudioLDMPipeline
pipe = AudioLDMPipeline.from_pretrained("audioldm")
audio = pipe("Vagues océaniques calmes")
Input/Output¶
Input : “Feu de camp crépitant dans une forêt”
Output : 🔄 Écouter l’extrait (8s, 16kHz)
Avantages/Limites¶
✅ Avantages |
❌ Inconvénients |
|---|---|
Qualité réaliste |
Durée limitée (10s max) |
Customisation facile |
GPU nécessaire pour la vitesse |
Open-source |
Dataset anglophone dominant |
Confidentialité¶
Aucune donnée utilisateur stockée (en mode local)
Modèle entraîné sur datasets publics (AudioCaps/Freesound)
Statistiques¶
4.3/5 sur GitHub (1.2k stars)
Utilisé dans 200+ projets académiques
Dataset d’entraînement¶
AudioCaps
Freesound
UrbanSound8K