Tecnología

Así es Mochi, la IA gratuita de Genmo que genera micro vídeos en segundos

La herramienta de código abierto, que se encuentra en fase beta, convierte texto en contenido visual de 30 fotogramas por segundo.

25 de octubre, de 2024

Genmo AI ha lanzado Mochi 1, un modelo de generación de vídeos de código abierto en fase beta, que convierte instrucciones textuales en contenido visual de 30 fotogramas por segundo (fps), permitiendo a los usuarios crear simulaciones de movimiento a resolución de 480p.

La herramienta es gratuita, está bajo licencia Apache 2.0, y se puede probar a través de Genmo Play. Mochi está diseñada para facilitar la creación de contenido visual dinámico en redes sociales, marketing y prototipado en proyectos con calidad profesional, aunque no de alta definición. La empresa también trabaja en una versión en HD que espera lanzar en los próximos meses.

Principales funcionalidades

Entre las características más destacadas de Mochi 1 está su capacidad para crear movimientos fluidos y representar con precisión escenas y acciones complejas, como movimientos corporales o fluidos, detalles que hasta ahora han representado un desafío en otros modelos de generación de vídeo. Su capacidad para adaptarse a indicaciones textuales en diversos niveles lo convierte en una herramienta versátil para la generación de contenido visual desde distintos sectores, como entretenimiento y simulación de escenarios, donde es necesario mantener la coherencia de movimiento y detalles.

Además, su diseño permite que la generación de vídeo responda a comandos específicos, logrando que el resultado sea lo más ajustado posible a la intención del usuario. Esto amplía sus aplicaciones en áreas como marketing digital, donde es posible utilizarlo para generar contenido automatizado en respuesta a preguntas o interacciones del usuario.

Limitaciones

Actualmente, la resolución máxima de 480p en los videos limita su uso para aplicaciones de alta calidad visual o en entornos profesionales que exigen resolución HD o 4K. Además, la duración de los vídeos es muy corta. Sin embargo, Genmo AI ha anunciado que trabaja en una versión de Mochi que permitirá generar videos en HD, lo cual podría atraer a más usuarios que necesiten una definición superior.

En situaciones de movimiento extremo o rápido, Mochi puede presentar ligeras distorsiones, especialmente en los bordes de objetos que se mueven rápidamente o en transiciones complejas, lo que puede afectar la precisión visual en casos específicos. Adicionalmente, Mochi ha sido optimizado principalmente para un estilo visual realista, limitando su efectividad en estilos más estilizados o en estéticas simplificadas, como las que se usan en animación o videojuegos.

Cómo usar Mochi 1

Para crear un vídeo, simplemente debes ingresar a genmo.ai/play y escribir una descripción -en inglés- del vídeo que quieres generar. Para ello, deberás loguearte a través de Google o crear una cuenta:

Luego, clicas en “Generate” y el sistema tardará unos segundos en crear y renderizar el vídeo, que logra una resolución bastante aceptable y un nivel de realismo más que aceptable.

Una vez generado el vídeo, puedes descargarlo en formato mp4 o guardarlo como fotograma.

Arquitectura

La arquitectura de Mochi 1 se basa en el modelo Asymmetric Diffusion Transformer (AsymmDiT), que combina el procesamiento de texto y tokens visuales en un mismo espacio, facilitando la creación de video a partir de indicaciones textuales. Esta arquitectura permite que Mochi realice una conversión precisa de texto a video mediante un sistema de 10 mil millones de parámetros, soportado por un proceso de compresión visual mediante Autoencoder Variacional (VAE).

El uso de VAE permite a Mochi comprimir la información visual en un espacio latente 128 veces menor que el original, haciendo posible la generación de video en tiempos razonables sin pérdida significativa de detalles visuales. Esta compresión es fundamental para mejorar la eficiencia en la carga de procesamiento y reducir el tiempo de generación de contenido, algo que facilita su aplicación en una variedad de dispositivos y entornos sin requerir una infraestructura de cómputo de alto nivel.

Foto: Genmo