AudioLDM

  • Nom de l’outil : AudioLDM

  • Catégorie : Audio (Text-to-Audio)

  • Développeur : University of Surrey (équipe de recherche)

  • Date de sortie : Février 2023

Objectif

Générer des sons réalistes (ambiances, bruitages, textures musicales) à partir de descriptions textuelles simples.

Fonctionnement résumé

Étape

Description

Entrée

Prompt texte (ex: “Pluie tropicale la nuit”)

Traitement

Encodage CLAP + Diffusion latente via LDM

Sortie

Fichier audio .wav (16kHz)

Fonctions principales

  • ✅ Génération audio à partir de texte

  • ✅ Support des ambiances complexes (nature, urbain, SF)

  • ✅ Intégration HiFi-GAN pour qualité audio

  • ✅ Démo Colab gratuite

  • ✅ Architecture inspirée de Stable Diffusion

  • ❌ Pas de génération musicale structurée

Exemples d’usage concrets

Domaine

Exemple

Cinéma

Bruitages pour scènes d’action

Jeux vidéo

Ambiances dynamiques selon l’environnement

Musique

Expérimentation de textures sonores

Accessibilité

Création d’audio pour contenus visuels

Détails techniques

Caractéristique

Valeur

Architecture

Latent Diffusion Model (LDM)

Framework

PyTorch

Input

Texte (max 200 caractères)

Output

Audio 16kHz (5-10s par défaut)

Licence

Recherche/académique

Pricing

  • Gratuit (code open-source) • GPU requis pour usage local

Releases clés

  • v1.0 : Version initiale (2023)

  • v2.0 : Amélioration qualité via CLAP

Alternatives connues

Ressources utiles

Exemple d’appel API

from audioldm_pipeline import AudioLDMPipeline

pipe = AudioLDMPipeline.from_pretrained("audioldm")
audio = pipe("Vagues océaniques calmes")

Input/Output

  • Input : “Feu de camp crépitant dans une forêt”

  • Output : 🔄 Écouter l’extrait (8s, 16kHz)

Avantages/Limites

✅ Avantages

❌ Inconvénients

Qualité réaliste

Durée limitée (10s max)

Customisation facile

GPU nécessaire pour la vitesse

Open-source

Dataset anglophone dominant

Confidentialité

  • Aucune donnée utilisateur stockée (en mode local)

  • Modèle entraîné sur datasets publics (AudioCaps/Freesound)

Statistiques

  • 4.3/5 sur GitHub (1.2k stars)

  • Utilisé dans 200+ projets académiques

Dataset d’entraînement

  • AudioCaps

  • Freesound

  • UrbanSound8K