MADRID, 6 (Portaltic/EP)
Imagen Video parte del trabajo realizado por Google en Imagen, el modelo basado en Inteligencia Artificial (IA) capaz de crear imágenes de gran realismo a partir de breves descripciones de texto que la compañía presentó en mayo.
El nuevo sistema se basa en una cascada de modelos de difusión de vídeo y tiene capacidad para "generar vídeos de alta definición con alta fidelidad de fotogramas, fuerte consistencia temporal y comprensión profunda del lenguaje", como detalla la compañía tecnológica en el texto de la investigación.
A partir de una descripción breve en texto, este sistema genera vídeos de alta definición de 1.280 x 768 píxeles a 24 fotogramas por segundo (fps) de unos 5,3 segundos de duración y con una densidad de 126 millones de píxeles, aproximadamente.
Para conseguir este resultado, los investigadores de Google han entrenado el sistema con una base de datos interna de 14 millones de parejas de vídeo y texto y 60 millones de parejas de imagen y texto. También han recurrido a la base de datos pública LAION y sus 400 millones de conjuntos de datos de imagen y texto. El procesamiento de los datos ha permitido redimensionar las imágenes y los vídeos y alinearlos con los textos.
Los investigadores destacan algunas de las características particulares que presenta su sistema frente a otras propuestas, como la capacidad de generar vídeos con distintos estilos artísticos; la comprensión de la estructura tridimensional, pese a fallar un poco en la consistencia durante la rotación de un objeto; y de generar texto animado en una diversidad de estilos.
Meta ha presentado recientemente 'Make-A-Video', su sistema de inteligencia artificial capaz de generar un vídeo corto de alta calidad a partir de una descripción en texto, que se basa en la tecnología de generación de imágenes 'Make-A-Scene'.