Luma AI sort un modèle de génération vidéo d'une qualité comparable à Sora de OpenAI.
Il reste encore des limitations, notamment sur la représentation du mouvement, des objets qui changent entre les frames ou la difficulté à représenter du texte mais le résultat est déjà de très bonne qualité !
La course aux modèles de génération vidéo semble être lancée mais j'ai l'intuition qu'il y aura beaucoup moins de participants que pour le texte ou l'image car les coûts d'entraînement GPU de ces modèles vidéo sont exorbitants
Un modèle d'IA capable de réaliser des clips vidéos de têtes de personnes en incluant des mouvements avancés du visage comme des émotions.
En entrée, il lui suffit d'une image et d'un clip audio.
Impressionnant et en même temps ça fait peur pour les deepfakes
Un modèle open source de Text to Video.
Pour l'instant les vidéos générées sont soit courtes en 1024 (<3sec), soit plus longues en 512 (<10sec)
La cohérence de génération n'est pas parfaite non plus mais c'est un bon début!
L'avantage de ce genre de modèle Open Source c'est que la génération offrira beaucoup plus de contrôle qu'avec les modèles "API only" comme Sora.
Un modèle d'animation des lèvres.
Le nouveau modèle de OpenAI pour générer des vidéos.
Ça génère des vidéo de plus d'une minute quasiment sans artefact visible et avec un cohérence complètement maîtrisée entre les trames. C'est juste impressionnant.
Encore une fois OpenAI sort un modèle ayant plusieurs mois d'avance sur ses concurrents
Lumiere c'est le nouveau modèle de Google pour générer des vidéos.
ça prend des prompt en entrée mais aussi du multi-modal avec image + prompt
Un modèle pour enlever le flou des vidéos.
Google sort un nouveau modèle de génération de vidéo.
Le modèle est capable de conserver le style entre chaque image de la séquence pour créer de courtes vidéo.
VideoPoet fonctionne à partir d'un prompt seul ou même une image et d'un prompt.
Toutes les démo sont visibles ici https://sites.research.google/videopoet/
La vidéo se développe de plus en plus avec tout ce qu'on retrouve dans la génération d'image mais en vidéo:
- upscaling (19:9 => 4:3)
- inpainting
- generation
Un service pour créer des clips vidéo facilement.
Ils proposent notamment de traduire dans n'importe quelle langue en gardant la même voix + le mouvement des lèvres
Une IA qui génère des vidéos et c'est bluffant!
Ils sont capable d'appliquer un style provenant d'une photo sur une vidéo.
Exemple avec Indiana Jones