El generador de video de IA Movie Gen de Meta puede tomar imágenes de personas y convertirlas en videos, editar videos existentes y hasta crear música y efectos de sonido
Inevitablemente el viaje de la IA de Meta acabaría llevándola al floreciente mundo del video de IA. Ahora la compañía dirigida por Mark Zuckerberg tiene a Movie Gen, otro generador de video capaz de crear videos bastante realistas a partir de una breve consigna de texto. Meta afirma que es tan útil para Hollywood como para el Instagramer promedio. Movie Gen puede crear audio, lo que la convierte en el generador deep fake más capaz que hayamos visto.
En un posteo de blog Meta hizo alarde de algunos videos de ejemplo, que incluyen a un bebé hipopótamo feliz, nadando bajo el agua, flotando justo bajo la superficie y sin problemas aparentes para contener la respiración. Hay también videos de pingüinos en trajes victorianos con mangas muy cortas y faldas, y una mujer DJ junto a un chita y demasiado distraída por el ritmo como para preocuparse por el peligro en que está.
Todos se están subiendo al espacio de video generado por IA. Este año, VASA-1 de Microsoft y Sora de OpenAI prometieron videos “realistas” generados a partir de breves textos. A pesar de haberlo anunciado en febrero, Sora todavía no ha visto la luz. Movie Gen de Meta ofrece algunas características y funciones más que la competencia, como editar videos existentes a partir de una indicación en texto, crear video basándose en una imagen, y añadir sonido generado por IA al vídeo creado.
Crea, edita, añade sonido, musicaliza
El editor de video es novedoso. Trabaja sobre videos generados y sobre capturas del mundo real. Meta afirma que su modelo “preserva el contenido original” en tanto añade elementos al video, como telones de fondo o vestimenta para los personajes principales. Meta mostró que además se puede tomar imágenes de personas para introducirlas en películas generadas.
Meta ya tiene modelos de generación de música y sonido pero el gigante de las redes sociales mostró unos ejemplos del generador de audio 13B, que suma efectos de sonido y pistas de sonido a los videos. El texto podría ser simplemente “hojas secas y ramitas que se parten”, para añadir al vídeo generado de una víbora que repta por el suelo en un bosque. El generador de audio actualmente se limita a 45 sonidos, así que no cubre películas enteras. Al menos, por ahora.
En un documento de investigación sobre Movie Gen, Meta dijo que se compone de varios modelos de base. El modelo de video más grande de la compañía tiene un modelo de transformador de parámetro 30B con un largo máximo de contexto de 73.000 tokens de vídeo. El generador de audio es un modelo de parámetro 13B que puede hacer video a audio y texto a audio.
Movie Gen todavía no está a disposición del público. Hay otros generadores, pero son más limitados.