Nvidia ayuda a resolver los mayores desafíos de la generación de imágenes de IA.

Los altos requisitos de potencia y computación son un problema fundamental en la IA, especialmente en tareas como la creación de medios. En los teléfonos móviles, al ejecutar estas tareas localmente, solo unos pocos dispositivos costosos con procesadores potentes pueden ejecutar el conjunto de funciones. Incluso cuando se implementa a escala en la nube, es un proceso costoso.

Es posible que Nvidia haya abordado este desafío discretamente en asociación con el MIT y la Universidad de Tsinghua. El equipo ha creado una herramienta híbrida de generación de imágenes de IA llamada HART (Hybrid Auto Transformer) combina esencialmente dos de las técnicas de generación de imágenes de IA más utilizadas. El resultado es una herramienta muy rápida con requisitos computacionales significativamente menores.

Para darles una idea de lo rápida que es, le pedí que creara una imagen de un loro tocando un bajo. Devolvió la siguiente imagen en aproximadamente un segundo. Apenas pude seguir el ritmo de la barra de progreso. Cuando utilicé la misma entrada con un formulario Imagen 3 de Google En Gemini, tardó entre 9 y 10 segundos con una conexión a Internet de 200 Mbps.

Un gran salto en la generación de imágenes mediante inteligencia artificial

Cuando las imágenes de IA comenzaron a ganar terreno, la tecnología de difusión fue la fuerza impulsora detrás de todo, impulsando productos como el generador de imágenes Dall-E de OpenAI, Imagen de Google y Stable Diffusion. Este método produce imágenes detalladas y de alta resolución. Sin embargo, generar imágenes de IA requiere múltiples pasos, lo que lo hace lento y computacionalmente costoso.

El segundo enfoque que ha ganado popularidad recientemente son los modelos autorregresivos, que funcionan de manera similar a los chatbots y generan imágenes utilizando tecnología de predicción de píxeles. Este método es más rápido, pero también es más propenso a errores en la generación de imágenes de IA.

Un equipo del MIT ha combinado ambos métodos en un único paquete llamado HART. Esta técnica se basa en un modelo autorregresivo para predecir los elementos de imagen comprimidos como tokens discretos, mientras que un pequeño modelo de difusión se encarga del resto para compensar la pérdida de calidad. Este enfoque reduce el número de pasos utilizados de más de veinte a sólo ocho.

Los expertos detrás de HART afirman que esta tecnología “genera imágenes que igualan o superan la calidad de los modelos de difusión de última generación, pero lo hace aproximadamente nueve veces más rápido”. HART combina un modelo autorregresivo con un rango de 700 millones de parámetros y un modelo de difusión pequeño que puede manejar 37 millones de parámetros.

Resolver la crisis de los costes informáticos

Curiosamente, esta herramienta HART híbrida fue capaz de generar imágenes tan buenas como los modelos de última generación con una capacidad de 2 mil millones de parámetros. Lo más importante es que HART logró esta hazaña con una generación de imágenes nueve veces más rápida y reduciendo al mismo tiempo los recursos informáticos en un 31%.

Según el equipo, el enfoque de bajo consumo de recursos permite que HART funcione de forma nativa en teléfonos y computadoras portátiles, lo que constituye un gran éxito. Hasta ahora, productos populares en el mercado como ChatGPT y Gemini requieren una conexión a Internet para generar imágenes, ya que el procesamiento se realiza en servidores en la nube.

En el video de prueba, el equipo demostró que funciona de forma nativa en una computadora portátil MSI con un procesador de la serie Intel Core y una tarjeta gráfica Nvidia GeForce RTX. Esta es una combinación que puedes encontrar en la mayoría de portátiles gaming del mercado, sin necesidad de gastar una fortuna.

HART es capaz de producir imágenes con una relación de aspecto de 1:1 con una resolución de 1024 x 1024 píxeles. El nivel de detalle en estas imágenes es impresionante, así como la variedad estilística y la precisión de la escena. Durante las pruebas, el equipo observó que la herramienta de IA híbrida era de tres a seis veces más rápida y ofrecía una productividad más de siete veces mayor.

Las posibilidades futuras son apasionantes, especialmente al combinar las capacidades de imagen de HART con modelos de lenguaje. “En el futuro, uno podría interactuar con un modelo generativo unificado de visión y lenguaje, quizás pidiéndole que muestre los pasos intermedios necesarios para ensamblar un mueble”, dice el equipo del MIT.

Ya están explorando esta idea e incluso planean probar el enfoque de HART para la generación de audio y video. Puedes probarlo en Panel de control web Instituto Tecnológico de Massachusetts.

Algunas desventajas

Antes de profundizar en el debate sobre la calidad, cabe señalar que HART todavía es un proyecto de investigación en sus primeras etapas. Técnicamente, el equipo destaca algunos obstáculos, como el aumento de la sobrecarga durante los procesos de inferencia y entrenamiento. Se espera que este programa experimente importantes avances en el futuro próximo.

Estos desafíos se pueden solucionar o pasar por alto, ya que son menores en el esquema general de las cosas. Además, dados los enormes beneficios que ofrece HART en términos de eficiencia computacional, velocidad y latencia, estos desafíos pueden persistir sin generar problemas de rendimiento significativos.

Durante mi breve experiencia con HART utilizando indicaciones de texto, me sorprendió lo rápido que se generaban las imágenes. Nunca me he encontrado con un escenario en el que el software gratuito tardara más de dos segundos en crear una imagen. Incluso con indicaciones que abarcaban tres párrafos (casi 200 palabras), HART pudo generar imágenes que coincidían perfectamente con la descripción.

Aparte de la precisión de la descripción, había muchos detalles en las imágenes. Sin embargo, HART sufre los inconvenientes del típico software de generación de imágenes de IA. Tiene dificultad para generar figuras y dibujos básicos como comer, alinear personajes y capturar la perspectiva.

El realismo en el contexto humano es un área en el que he notado fallas claras. En algunas ocasiones el programa malinterpretó cosas básicas, como confundir un anillo con un collar. Pero en general, estos errores fueron pocos y esperados. Muchas herramientas de IA aún no pueden hacer esto correctamente, a pesar de que ya existen desde hace algún tiempo.

En general, estoy muy entusiasmado por el tremendo potencial de HART. Será interesante ver si el MIT y Nvidia crean un producto a partir de ello, o simplemente adoptan el enfoque híbrido de generación de imágenes de IA en un producto existente. De cualquier manera, es un vistazo a un futuro muy prometedor.