El gigante de las búsquedas no planea quedarse atrás en el mercado de la inteligencia artificial y ahora busca competir con otras plataformas como Stable Video Diffusion y RunwayML.
Los investigadores de Google presentaron recientemente VideoPoet, un nuevo modelo de lenguaje grande (LLM) para la generación de videos. Este modelo está diseñado para realizar una variedad de tareas que incluyen texto a video, imagen a video, estilización de video, pintura y pintura de vídeo y conversión de video a audio.
La introducción de VideoPoet aborda el desafío de crear grandes movimientos coherentes en videos, una limitación en las tecnologías actuales de generación de videos. Este nuevo modelo se diferencia por integrar múltiples capacidades de generación de video dentro de un único marco LLM, en contraste con el enfoque segmentado de los modelos existentes.
Utiliza varias modalidades y está entrenado con múltiples tokenizadores, como MAGVIT V2 para video e imagen, y SoundStream para audio. Esto permite a VideoPoet realizar diversas tareas, desde animar imágenes hasta editar y estilizar videos basados en entradas de texto.
¿Cómo se compara con otras herramientas?
En el panorama cambiante de la tecnología de video generada por IA, VideoPoet emerge como un avance significativo, distinguiéndose de modelos existentes como Imagen Video, RunwayML, Stable Video Diffusion, Pika y el más reciente ‘Animate Everyone’ de Alibaba Group. a través de sus capacidades mejoradas en fidelidad del texto e interés del movimiento. Este nuevo modelo eclipsa a sus homólogos al seguir con mayor precisión las indicaciones de texto y generar vídeos con movimientos más atractivos.
Los puntos clave de comparación incluyen: Capacidades Zero-Shot, VideoPoet, al igual que otros modelos contemporáneos, se destaca en la generación de contenido a partir de una entrada mínima, como un solo mensaje de texto o una imagen, sin necesidad de capacitación específica sobre ese contenido.
Sin embargo, a diferencia de otros modelos que pueden tener problemas con la coherencia de movimientos grandes, VideoPoet muestra un mayor grado de precisión al traducir indicaciones de texto a video, lo que mejora la experiencia del usuario. Mientras que otros modelos a menudo enfrentan desafíos al crear movimientos grandes y sin artefactos, VideoPoet demuestra una mejora notable al crear videos más dinámicos y fluidos.