MADRID, 20 (Portaltic/EP)
El modelo fundacional de Meta la generación de contenido, EMU, se presentó a finales de septiembre, en el evento Connect, con una nueva herramienta que permite crear 'stickers' en las aplicaciones de mensajería para su posterior uso en ellas.
Meta ya adelantó entonces que esta tecnología impulsaría otras dos herramientas de edición de imágenes, que ha presentado ahora. Una de ellas se centra en el control de la edición de imágenes a partir de instrucciones de texto, mientras que la otra facilita la generación de vídeos a partir de una descripción de texto con modelos de difusión, como informa en su blog oficial.
La primera de estas dos herramientas es EMU edit, con la que Meta ha dado un salto en la edición de imágenes con la IA generativa, ya que no depende de afinar el resultado final con multitud de indicaciones en texto, sino que introduce "un enfoque novedoso" para optimizar este proceso y mejorar la precisión.
Desde Meta explican que esta herramienta "sigue con precisión las instrucciones, lo que garantiza que los píxeles de la imagen de entrada que no estén relacionados con las instrucciones permanezcan intactos", porque lo que hace es modificar solo los píxeles a los que afecta la edición, no al conjunto de la imagen.
El control en la edición se refuerza con "la incorporación de tareas de visión computacional como instrucciones para los modelos de generación de imágenes". Y para su entrenamiento, según la compañía, se ha utilizado "el conjunto de datos más grande de su tipo hasta la fecha", que abarca los 10 millones de muestras sintetizadas, cada una de ellas con una imagen de entrada, una descripción de la tarea a hacer y una imagen de salida con el resultado buscado.
La segunda herramienta es EMU video. En ella, Meta ha utilizado un proceso dividido en dos pasos y una arquitectura unificada para tareas de generación de vídeo que responde a entradas de distinto tipo, ya sea de solo texto, de solo imagen o de texto e imagen.
Este enfoque utiliza solo dos modelos de difusión para generar vídeos de de 512 x 512, de cuatro segundos de duración a 16 fotogramas por segundo.