Vidu

Fiche d’identité

  • Nom de l’outil : Vidu

  • Catégorie : Vidéo, Multimodal

  • Développeur : Shengshu Technology + Tsinghua University (Chine)

  • Date de sortie : Avril 2024 (démo publique)

Objectif

Créer des vidéos longues, réalistes et cohérentes à partir de texte, grâce à une architecture basée sur diffusion + LLM.

Fonctionnement

Étape

Description

Entrée

Prompt texte décrivant la scène ou l’action souhaitée

Traitement

Modèle de diffusion guidé par un LLM multimodal → conversion en séquences visuelles cohérentes

Sortie

Vidéo réaliste jusqu’à 16 secondes, en 1080p

Fonctions principales

  • Génération vidéo haute résolution (1080p)

  • Longues séquences (jusqu’à 16 secondes)

  • Compréhension des dynamiques physiques et spatiales

  • Modèle basé sur diffusion + langage

  • Génération à partir de texte uniquement

  • Démo publique disponible en ligne

Exemples d’usage

Domaine

Exemple

Education

Génération de courtes vidéos explicatives (sciences, biologie, etc.)

Marketing

Création de vidéos promotionnelles à partir d’un simple brief

Dev/Produit

Simulation visuelle d’expériences utilisateur

Accessibilité

Contenus visuels à partir d’instructions verbales

Détails techniques

Caractéristique

Valeur

Architecture

Diffusion + LLM (modèle texte-guidé)

Framework

Non spécifié (probablement PyTorch)

Input

Texte (prompt)

Output

Vidéo (MP4 ou autre, 1080p max, 16 sec max)

API

Pas encore disponible publiquement

Licence

Propriétaire / recherche académique

Tarifs

Plan

Prix

Limites/détails

Démo publique

Gratuit

Accessible via site officiel (printemps 2024)

Accès public

Payant (tarif non public)

-

Accès public

Gratuit à usage limité

80 crédits disponibles par mois

Versions clés

Alternatives connues

  • Sora (OpenAI)

  • Lumiere (Google)

  • Runway Gen-2

  • Pika

  • ModelScope

Ressources utiles

Exemple d’appel API (pas encore disponible – hypothétique)

curl -X POST https://api.vidu.ai/generate 
 -H "Authorization: Bearer YOUR_API_KEY" 
 -d '{"prompt":"Un panda mange du bambou dans une forêt tranquille", "duration":12}'

Exemple Input/Output

Prompt : “Un train traverse un pont suspendu au coucher du soleil, avec une rivière brillante en dessous.” Sortie : Vidéo réaliste d’environ 14 secondes, mouvements fluides, bon rendu des couleurs et de la lumière.

Avantages et Inconvénients

Avantages

Inconvénients

Longues vidéos (jusqu’à 16 s)

Modèle propriétaire (non open source)

Bonne qualité visuelle

API non publique

Compréhension de scènes complexes

Texte uniquement (pas image/vidéo en entrée)

80 crédits disponibles par mois

-

Sécurité et Confidentialité

  • Aucune mention officielle sur filigranes ou sécurité des contenus (à surveiller)

Compatibilité

  • Plateformes : Web (démo), version complète en développement

  • Plugins : Aucun plugin connu à ce jour

Statistiques utilisateurs

  • Modèle en phase de démonstration – fort engouement médiatique en Chine

  • Première IA vidéo chinoise capable de rivaliser avec Sora

Comparaison avec les alternatives

Critère

Vidu

Sora

Lumiere (Google)

Gratuit

✅ (limité à 80 crédits)

API dispo

Résolution max

1080p

1080p

1024p

Longueur vidéo

16 sec

60 sec

5 sec

Multimodal

❌ (texte seul)