Entre la vorágine de novedades que Google ha presentado en el marco de su famoso evento I/O 2024, podemos destacar dos nuevos modelos de IA destinados a revolucionar la generación de imágenes y vídeo: Imagen 3 y Veo, respectivamente.
Imagen 3 supone un gran salto cualitativo con respecto a sus modelos antecesores en cuanto a resolución, versatilidad y comprensión. Mientras que Veo se trata del modelo de generación de vídeo más potente creado por Google hasta la fecha, siendo capaz de crear piezas de hasta un minuto de duración manteniendo altos estándares de calidad.
Su versión anterior, Imagen 2, fue presentada hace tan solo un mes en el evento Cloud Next 24. Esta elevó la calidad de las imágenes generadas y añadió la posibilidad de crear vídeos de 4 segundos a partir de prompts escritos. Aunque la resolución de estos últimos era bastante baja, de solo 360×640 píxeles.
Ahora, Google ha presentado Imagen 3 y la ha definido como su modelo de conversión de texto a imagen de mayor calidad. Este no solo ha mejorado la resolución de las obras que genera, sino que ha sido dotado de una mejor capacidad de comprensión y ha dado un gran salto cualitativo a la hora de incluir texto en las imágenes.
Además, bajo el objetivo de que esta IA se adapte a distintos casos de uso y diferentes tareas (desde generar bocetos, hasta crear obras en alta resolución), Google la pondrá a disposición de los usuarios en múltiples versiones.
Por el momento, Imagen 3 solo está disponible para una serie de creadores privilegiados que han sido seleccionados para probar su vista previa dentro de ImageFX. Pero, Google ha publicado una lista de espera en la que ya es posible registrarse para acceder al modelo. Así mismo, se ha anunciado que próximamente Imagen 3 se integrará en VertexAI.
Imagen 3 es capaz de entender indicaciones escritas con un lenguaje más natural y cotidiano, eliminando las barreras técnicas para que todo el mundo pueda realizar su petición y obtener grandes obras.
«Para ayudar a Imagen 3 a capturar matices como ángulos de cámara específicos o composiciones en mensajes largos y complejos, agregamos detalles más ricos al título de cada imagen en sus datos de entrenamiento. Con mejor información de la cual aprender, Imagen 3 genera con mayor precisión una amplia gama de temas y estilos», explica Google.
Tal y como podemos apreciar en la imagen anterior, esta IA no solo consigue recrear escenas precisas en lo que a la descripción se refiere, sino que cumple a la perfección con las peticiones de estilo y técnica artística. La calidad se vuelca en la imagen a través de la resolución, la iluminación, los materiales y la composición. Imagen 3 es capaz de representar con precisión pequeños detalles y texturas complejas.
La última versión de la IA generadora de imágenes de Google también ha perfeccionado la inclusión de texto en las imágenes. Además, su capacidad para crear letras o palabras con diferentes elementos ha aumentado, dando resultados de mayor calidad y legibilidad. Esto abre nuevas posibilidades creativas como la creación de cartelería, presentaciones, invitaciones de cumpleaños, etc.
Conscientes de que las imágenes generadas con IA pueden resultar perjudiciales si se les dan usos indebidos, desde Google han trabajado en mejorar sus sistemas de seguridad y responsabilidad. «Utilizamos filtrado y etiquetado de datos exhaustivos para minimizar el contenido dañino en los conjuntos de datos y reducimos la probabilidad de resultados dañinos. También realizamos evaluaciones sobre temas que incluyen equidad, prejuicios y seguridad del contenido».
Sumado a esto, también han desarrollado una herramienta de marca de agua llamada SynthID que han aplicado a Imagen 3. Esta incorpora una marca de agua digital en los píxeles de la imagen, permitiendo su identificación a la vez que es imperceptible al ojo humano.
Tal y como ha explicado el gigante tecnológico, «Veo se basa en años de trabajo con modelos de generación de vídeo como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, combinando arquitectura, leyes de escala y otras técnicas novedosas para mejorar la calidad y la resolución de salida». Y todo este trabajo parece haber dado sus frutos, ya que esta IA es capaz de generar vídeos de una duración de hasta un minuto en alta calidad con una resolución de 1080p.
Además, sus capacidades de comprensión han sido entrenadas para poder entender con precisión el tono y los matices de las peticiones de los usuarios, de modo que el control creativo sea mayor. Veo comprende el lenguaje natural y también la semántica visual, lo que permite al usuario dar indicaciones referentes a todo tipo de efectos cinematográficos, desde lapsos de tiempo hasta tipos de enfoque, encuadre o tomas aéreas.
Google ha anunciado que, en las próximas semanas, algunas de las funcionalidades de Veo estarán disponibles en VideoFX para una serie de creadores seleccionados. VideoFX es una nueva herramienta experimental integrada en labs.google. Así mismo, ya han abierto una lista de espera para probar la herramienta.
La compañía también ha adelantado que su objetivo es ir implementando algunas de las capacidades de Veo en YouTube Shorts y otros productos.
Una funcionalidad a destacar de Veo es su comando de edición. Gracias a este puedes pedirle que añada o edite elementos a un vídeo previamente creado. De este modo, la IA respetará la creación anterior, pero modificando las partes que el usuario haya indicado.
Esta IA también puede generar vídeos a partir de imágenes. Por lo que podrás cargar una imagen de tu dispositivo y animarla con Veo dándole las instrucciones escritas pertinentes. La IA respetará el estilo de la imagen y aplicará el movimiento en función de tus indicaciones.
Google ha colaborado con varios cineastas y creadores para poder descubrir cómo su IA podría ayudarles durante el proceso creativo, a la vez que esto le servía a la propia compañía para mejorar Veo. Uno de los artistas con los que ha trabajado ha sido el cineasta Donald Glover y su estudio creativo, Gilga.
Veo ha pasado por los filtros y pruebas de seguridad pertinentes, de modo que se minimizasen los riesgos relativos a los derechos de autor, privacidad y prejuicios.
Al igual que Imagen 3, a Veo también se le ha aplicado la tecnología de SynthID para incluir marcas de agua digitales en los píxeles de sus fotogramas, permitiendo así identificar qué contenidos han sido creados o modificados con esta IA.
Foto: generada con Imagen 3 bajo el prompt (en inglés) “un par de botas de montaña muy gastadas, cubiertas de barro y descansando sobre un sendero rocoso. De una de las botas asoma la cabeza de una ardilla que mira perezosamente a la cámara, un pequeño rey de su zapato. Los cordones de ambas botas caen flojos al suelo. Hay un paisaje montañoso al fondo. Fotografía cinematográfica, fotografía DSLR de alta calidad”.
Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *
Δ