Vidu¶
Fiche d’identité¶
Nom de l’outil : Vidu
Catégorie : Vidéo, Multimodal
Développeur : Shengshu Technology + Tsinghua University (Chine)
Date de sortie : Avril 2024 (démo publique)
Objectif¶
Créer des vidéos longues, réalistes et cohérentes à partir de texte, grâce à une architecture basée sur diffusion + LLM.
Fonctionnement¶
Étape |
Description |
|---|---|
Entrée |
Prompt texte décrivant la scène ou l’action souhaitée |
Traitement |
Modèle de diffusion guidé par un LLM multimodal → conversion en séquences visuelles cohérentes |
Sortie |
Vidéo réaliste jusqu’à 16 secondes, en 1080p |
Fonctions principales¶
Génération vidéo haute résolution (1080p)
Longues séquences (jusqu’à 16 secondes)
Compréhension des dynamiques physiques et spatiales
Modèle basé sur diffusion + langage
Génération à partir de texte uniquement
Démo publique disponible en ligne
Exemples d’usage¶
Domaine |
Exemple |
|---|---|
Education |
Génération de courtes vidéos explicatives (sciences, biologie, etc.) |
Marketing |
Création de vidéos promotionnelles à partir d’un simple brief |
Dev/Produit |
Simulation visuelle d’expériences utilisateur |
Accessibilité |
Contenus visuels à partir d’instructions verbales |
Détails techniques¶
Caractéristique |
Valeur |
|---|---|
Architecture |
Diffusion + LLM (modèle texte-guidé) |
Framework |
Non spécifié (probablement PyTorch) |
Input |
Texte (prompt) |
Output |
Vidéo (MP4 ou autre, 1080p max, 16 sec max) |
API |
Pas encore disponible publiquement |
Licence |
Propriétaire / recherche académique |
Tarifs¶
Plan |
Prix |
Limites/détails |
|---|---|---|
Démo publique |
Gratuit |
Accessible via site officiel (printemps 2024) |
Accès public |
Payant (tarif non public) |
- |
Accès public |
Gratuit à usage limité |
80 crédits disponibles par mois |
Versions clés¶
Alternatives connues¶
Sora (OpenAI)
Lumiere (Google)
Runway Gen-2
Pika
ModelScope
Ressources utiles¶
Exemple d’appel API (pas encore disponible – hypothétique)¶
curl -X POST https://api.vidu.ai/generate
-H "Authorization: Bearer YOUR_API_KEY"
-d '{"prompt":"Un panda mange du bambou dans une forêt tranquille", "duration":12}'
Exemple Input/Output¶
Prompt : “Un train traverse un pont suspendu au coucher du soleil, avec une rivière brillante en dessous.” Sortie : Vidéo réaliste d’environ 14 secondes, mouvements fluides, bon rendu des couleurs et de la lumière.
Avantages et Inconvénients¶
Avantages |
Inconvénients |
|---|---|
Longues vidéos (jusqu’à 16 s) |
Modèle propriétaire (non open source) |
Bonne qualité visuelle |
API non publique |
Compréhension de scènes complexes |
Texte uniquement (pas image/vidéo en entrée) |
80 crédits disponibles par mois |
- |
Sécurité et Confidentialité¶
Aucune mention officielle sur filigranes ou sécurité des contenus (à surveiller)
Compatibilité¶
Plateformes : Web (démo), version complète en développement
Plugins : Aucun plugin connu à ce jour
Statistiques utilisateurs¶
Modèle en phase de démonstration – fort engouement médiatique en Chine
Première IA vidéo chinoise capable de rivaliser avec Sora
Comparaison avec les alternatives¶
Critère |
Vidu |
Sora |
Lumiere (Google) |
|---|---|---|---|
Gratuit |
✅ (limité à 80 crédits) |
❌ |
❌ |
API dispo |
❌ |
✅ |
❌ |
Résolution max |
1080p |
1080p |
1024p |
Longueur vidéo |
16 sec |
60 sec |
5 sec |
Multimodal |
❌ (texte seul) |
✅ |
✅ |