Google presenta la nueva era de la IA generativa de imágenes y vídeo: Imagen 3 y Veo

Imagen 3 permite crear imágenes de mayor calidad y Veo genera vídeos de hasta un minuto con una resolución de 1080p.

17 de mayo, de 2024

Entre la vorágine de novedades que Google ha presentado en el marco de su famoso evento I/O 2024, podemos destacar dos nuevos modelos de IA destinados a revolucionar la generación de imágenes y vídeo: Imagen 3 y Veo, respectivamente.

Imagen 3 supone un gran salto cualitativo con respecto a sus modelos antecesores en cuanto a resolución, versatilidad y comprensión. Mientras que Veo se trata del modelo de generación de vídeo más potente creado por Google hasta la fecha, siendo capaz de crear piezas de hasta un minuto de duración manteniendo altos estándares de calidad.

Imagen 3: profesionalidad y sencillez

Su versión anterior, Imagen 2, fue presentada hace tan solo un mes en el evento Cloud Next 24. Esta elevó la calidad de las imágenes generadas y añadió la posibilidad de crear vídeos de 4 segundos a partir de prompts escritos. Aunque la resolución de estos últimos era bastante baja, de solo 360×640 píxeles.

Ahora, Google ha presentado Imagen 3 y la ha definido como su modelo de conversión de texto a imagen de mayor calidad. Este no solo ha mejorado la resolución de las obras que genera, sino que ha sido dotado de una mejor capacidad de comprensión y ha dado un gran salto cualitativo a la hora de incluir texto en las imágenes.

Imagen creada con la IA Imagen3 de Google bajo el prompt "Tres mujeres están juntas riendo, con una mujer ligeramente desenfocada en primer plano. El sol se pone detrás de las mujeres, creando un destello en la lente y un brillo cálido que resalta su cabello y crea un efecto bokeh en el fondo. El estilo de la fotografía es sincero y captura un momento genuino de conexión y felicidad entre amigas. La cálida luz de la hora dorada aporta una sensación nostálgica e íntima en la imagen". — Obra creada con la IA Imagen 3 de Google bajo el prompt (en inglés) “Tres mujeres están juntas riendo, con una mujer ligeramente desenfocada en primer plano. El sol se pone detrás de las mujeres, creando un destello en la lente y un brillo cálido que resalta su cabello y crea un efecto bokeh en el fondo. El estilo de la fotografía es sincero y captura un momento genuino de conexión y felicidad entre amigas. La cálida luz de la hora dorada aporta una sensación nostálgica e íntima en la imagen”.

Además, bajo el objetivo de que esta IA se adapte a distintos casos de uso y diferentes tareas (desde generar bocetos, hasta crear obras en alta resolución), Google la pondrá a disposición de los usuarios en múltiples versiones.

Por el momento, Imagen 3 solo está disponible para una serie de creadores privilegiados que han sido seleccionados para probar su vista previa dentro de ImageFX. Pero, Google ha publicado una lista de espera en la que ya es posible registrarse para acceder al modelo. Así mismo, se ha anunciado que próximamente Imagen 3 se integrará en VertexAI.

Una mayor capacidad de comprensión que potencia la versatilidad

Imagen 3 es capaz de entender indicaciones escritas con un lenguaje más natural y cotidiano, eliminando las barreras técnicas para que todo el mundo pueda realizar su petición y obtener grandes obras.

«Para ayudar a Imagen 3 a capturar matices como ángulos de cámara específicos o composiciones en mensajes largos y complejos, agregamos detalles más ricos al título de cada imagen en sus datos de entrenamiento. Con mejor información de la cual aprender, Imagen 3 genera con mayor precisión una amplia gama de temas y estilos», explica Google.

Imagen creada con la IA Imagen3 de Google bajo el prompt "Escena de plastilina. Un plano medio amplio de una mujer mayor. Lleva ropa fluida. Ella está parada en un exuberante jardín regando las plantas con una regadera naranja". — Obra creada con la IA Imagen 3 de Google bajo el prompt (en inglés) “Escena de plastilina. Un plano medio amplio de una mujer mayor. Lleva ropa fluida. Ella está parada en un exuberante jardín regando las plantas con una regadera naranja”.

Tal y como podemos apreciar en la imagen anterior, esta IA no solo consigue recrear escenas precisas en lo que a la descripción se refiere, sino que cumple a la perfección con las peticiones de estilo y técnica artística. La calidad se vuelca en la imagen a través de la resolución, la iluminación, los materiales y la composición. Imagen 3 es capaz de representar con precisión pequeños detalles y texturas complejas.

Imagen creada con la IA Imagen3 de Google bajo el prompt "Elefante amigurumi caminando en la sabana, una fotografía profesional, fondo borroso". — Obra creada con la IA Imagen 3 de Google bajo el prompt (en inglés) “Elefante amigurumi caminando en la sabana, una fotografía profesional, fondo borroso”.

Texto más y mejor integrado en las imágenes

La última versión de la IA generadora de imágenes de Google también ha perfeccionado la inclusión de texto en las imágenes. Además, su capacidad para crear letras o palabras con diferentes elementos ha aumentado, dando resultados de mayor calidad y legibilidad. Esto abre nuevas posibilidades creativas como la creación de cartelería, presentaciones, invitaciones de cumpleaños, etc.

Imágenes creadas con la IA Imagen3 de Google. La de la izquierda bajo el prompt (en inglés) "Palabra "light" hecha de varias plumas de colores, fondo negro". La de la derecha bajo el prompt (en inglés) "Una fotografía de la majestuosa entrada de una biblioteca con las palabras "Central Library" grabadas en la piedra". — Obras creadas con la IA Imagen3 de Google. La de la izquierda bajo el prompt (en inglés) “Palabra “light” hecha de varias plumas de colores, fondo negro”. La de la derecha bajo el prompt (en inglés) “Una fotografía de la majestuosa entrada de una biblioteca con las palabras “Central Library” grabadas en la piedra”.

El foco en la seguridad

Conscientes de que las imágenes generadas con IA pueden resultar perjudiciales si se les dan usos indebidos, desde Google han trabajado en mejorar sus sistemas de seguridad y responsabilidad. «Utilizamos filtrado y etiquetado de datos exhaustivos para minimizar el contenido dañino en los conjuntos de datos y reducimos la probabilidad de resultados dañinos. También realizamos evaluaciones sobre temas que incluyen equidad, prejuicios y seguridad del contenido».

Sumado a esto, también han desarrollado una herramienta de marca de agua llamada SynthID que han aplicado a Imagen 3. Esta incorpora una marca de agua digital en los píxeles de la imagen, permitiendo su identificación a la vez que es imperceptible al ojo humano.

Veo: vídeos cinematográficos de hasta un minuto

Tal y como ha explicado el gigante tecnológico, «Veo se basa en años de trabajo con modelos de generación de vídeo como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, combinando arquitectura, leyes de escala y otras técnicas novedosas para mejorar la calidad y la resolución de salida». Y todo este trabajo parece haber dado sus frutos, ya que esta IA es capaz de generar vídeos de una duración de hasta un minuto en alta calidad con una resolución de 1080p.

Además, sus capacidades de comprensión han sido entrenadas para poder entender con precisión el tono y los matices de las peticiones de los usuarios, de modo que el control creativo sea mayor. Veo comprende el lenguaje natural y también la semántica visual, lo que permite al usuario dar indicaciones referentes a todo tipo de efectos cinematográficos, desde lapsos de tiempo hasta tipos de enfoque, encuadre o tomas aéreas.

Google ha anunciado que, en las próximas semanas, algunas de las funcionalidades de Veo estarán disponibles en VideoFX para una serie de creadores seleccionados. VideoFX es una nueva herramienta experimental integrada en labs.google. Así mismo, ya han abierto una lista de espera para probar la herramienta.

La compañía también ha adelantado que su objetivo es ir implementando algunas de las capacidades de Veo en YouTube Shorts y otros productos.

Capacidades de edición

Una funcionalidad a destacar de Veo es su comando de edición. Gracias a este puedes pedirle que añada o edite elementos a un vídeo previamente creado. De este modo, la IA respetará la creación anterior, pero modificando las partes que el usuario haya indicado.

A la izquierda vemos una captura de un vídeo creado con Veo bajo el prompt "toma de drones a lo largo de la costa selvática de Hawái, día soleado". Y a la derecha, la captura del resultado de editar ese vídeo con el prompt "toma de drones a lo largo de la costa selvática de Hawái, día soleado. Kayaks en el agua". — Izquierda: captura de un vídeo creado con Veo bajo el prompt (en inglés) “toma de drones a lo largo de la costa selvática de Hawái, día soleado”. / Derecha: captura del resultado de editar ese vídeo con el prompt (en inglés) “toma de drones a lo largo de la costa selvática de Hawái, día soleado. Kayaks en el agua”.

Creación de vídeos a partir de imágenes

Esta IA también puede generar vídeos a partir de imágenes. Por lo que podrás cargar una imagen de tu dispositivo y animarla con Veo dándole las instrucciones escritas pertinentes. La IA respetará el estilo de la imagen y aplicará el movimiento en función de tus indicaciones.

Colaboración con cineastas para explorar las capacidades de Veo

Google ha colaborado con varios cineastas y creadores para poder descubrir cómo su IA podría ayudarles durante el proceso creativo, a la vez que esto le servía a la propia compañía para mejorar Veo. Uno de los artistas con los que ha trabajado ha sido el cineasta Donald Glover y su estudio creativo, Gilga.

Seguridad y responsabilidad

Veo ha pasado por los filtros y pruebas de seguridad pertinentes, de modo que se minimizasen los riesgos relativos a los derechos de autor, privacidad y prejuicios.

Al igual que Imagen 3, a Veo también se le ha aplicado la tecnología de SynthID para incluir marcas de agua digitales en los píxeles de sus fotogramas, permitiendo así identificar qué contenidos han sido creados o modificados con esta IA.

Foto: generada con Imagen 3 bajo el prompt (en inglés) “un par de botas de montaña muy gastadas, cubiertas de barro y descansando sobre un sendero rocoso. De una de las botas asoma la cabeza de una ardilla que mira perezosamente a la cámara, un pequeño rey de su zapato. Los cordones de ambas botas caen flojos al suelo. Hay un paisaje montañoso al fondo. Fotografía cinematográfica, fotografía DSLR de alta calidad”.