La inteligencia artificial nos engañó con el juego del teléfono... ¡y el resultado fue impactante!

Los modelos de generación de imágenes impulsados por IA están avanzando rápidamente, pero aún es común que produzcan imágenes cuestionables. Como es fácil suponer que las indicaciones humanas son el problema, decidí probar si la IA funciona más fácilmente utilizando solo indicaciones generadas por IA. El proceso de generación de imágenes con inteligencia artificial, como ChatGPT y Gemini, depende en gran medida de la calidad y precisión de las indicaciones. ¿Los resultados serán diferentes si utilizamos reclamaciones automatizadas? Esto es lo que descubriremos en este experimento.

Reglas generales

Cuando surgieron los modelos de generación de imágenes de IA hace unos años, todos pensamos que sería una llamada de atención para todos aquellos que trabajan en medios visuales. Pero no fue así. A pesar de su capacidad para crear imágenes muy realistas, las imágenes de IA a menudo caen en la categoría inesperada, especialmente si necesita algo más complejo (por ejemplo, la IA tiende a tener dificultades para generar imágenes de manos).

Se puede culpar a los propios modelos de IA por este problema o a las deficiencias de los humanos y a nuestras habilidades inconsistentes para escribir indicaciones. Una forma natural de probar quién es responsable es ver si los modelos de generación de imágenes dan mejores resultados si se introducen indicaciones generadas.

¿Puede la IA brindarnos nuevas perspectivas sobre momentos históricos?

Para probar esta hipótesis, utilizaré Gemini para crear una serie de indicaciones que eviten utilizar el nombre del objeto o la imagen que estoy intentando crear. Esto ayudará a verificar qué tan bien la IA “lee” las instrucciones. Es cierto que aún existe la posibilidad de que el modelo se inspire en gran medida en los datos con los que fue entrenado (especialmente al recrear imágenes existentes), pero esa es la realidad, dice Young.

Mi herramienta preferida para crear imágenes será el Creador de imágenes de Bing (sí, Bing todavía existe), que está basado en DALL-E 3. Para poner el modelo a prueba, comenzaré con formas simples y luego pasaré a imágenes más complejas a medida que avance el experimento.

Si has usado ChatGPT y similares, ya sabes lo inútiles que pueden ser algunas de sus respuestas, y no fue diferente con las indicaciones que el modelo me hizo durante una ejecución "beta". Por lo tanto, decidí limitarme a 500 caracteres para mantener la coherencia de las indicaciones.

Cómo la IA maneja formas simples

Empecemos con un cuadrado sencillo. Le pedí a Géminis que describiera un cuadrado sin nombrarlo, y se le ocurrió esto:

Un cuadrilátero con todos los lados de igual longitud. Cada ángulo interior mide exactamente 90 grados. Es un cuadrilátero regular con lados opuestos paralelos.

Después de ingresar la descripción en DALL-E, obtuve estos resultados:

Es un cuadrado, vale, aunque creo que es un poco demasiado geométrico. Era hora de aumentar la dificultad, así que le pedí a la IA que detallara un cubo.

Una forma tridimensional con seis caras congruentes. Cada cara es un cuadrilátero regular con cuatro lados iguales y cuatro ángulos rectos. Tiene 12 aristas de igual longitud y 8 vértices. Todos los ángulos dentro de la forma son ángulos rectos.

Los resultados son sorprendentes:

¿Recuerdas lo que dijimos sobre la imprevisibilidad de los modelos de IA? Bueno, aquí, DALL-E creó un cubo, pero se confundió un poco y lo convirtió en un cubo de Rubik. A pesar de evitar por completo la palabra exacta, la IA se equivocó en parte: podemos atribuir esto a la popularidad del juego de rompecabezas galáctico.

La visión de la IA sobre la fotografía con personas

La situación del cubo demuestra que incluso con una descripción precisa e “imparcial”, la IA todavía puede malinterpretar instrucciones bastante sencillas. Entonces, veamos qué tan bien funciona con descripciones generadas por IA de imágenes clásicas, como “Madre migrante” de Dorothea Lange. Aquí está la imagen original:

Se ve a una mujer, con el rostro desencajado por la preocupación, mirando hacia otro lado de la cámara. Sus hijos la rodean, con el rostro oculto o girado hacia otro lado. Su mano descansa cerca de su rostro, expresando cansancio y angustia. La escena sugiere pobreza y sufrimiento. La ropa de la mujer es raída y la composición general es sombría, enfatizando la gravedad de su situación.

Ésta es la visión de DALL-E de la famosa imagen:

¡Tan cerca! Pero no es del todo exacto, ya que DALL-E claramente ignoró la frase “Rodeada de sus hijos, con el rostro oculto o girado hacia otro lado.En lugar de que la “madre” pusiera su mano cerca de su cara, uno de los niños asumió ese papel.

Vamos a probar algo más complicado. Quizás hayas visto la famosa foto “Almuerzo en lo alto de un rascacielos”:

Once hombres están sentados sobre una viga de acero, en lo alto, almorzando con las piernas colgando. La viga está suspendida sobre una ciudad en expansión. Los hombres parecen relajados, a pesar de la extrema altitud. Visten ropa de trabajo, y la escena se rodó desde un ángulo ligeramente inferior, lo que realza la altura.

Esta maravillosa afirmación ha dado resultados maravillosos:

Una vez que ignoras los marcadores clásicos de una imagen generada por IA (fotografías idénticas y sujetos “copiados y pegados”), se vuelve casi sorprendente en términos de composición y sensación general. Sin embargo, no es de sorprenderse: esta imagen no solo es extremadamente común, sino que también es de dominio público, por lo que tengo la ligera sospecha de que DALL-E efectivamente recuperó su contenido durante el entrenamiento.

¿Puede la IA manejar imágenes complejas?

Dado que esta es la “prueba” final del experimento, ¡es hora de ponerse serios! Si bien la IA es buena en el manejo de imágenes humanas, a menudo falla cuando se enfrenta a escenas complejas y ambiguas. ¿Y qué hay de la famosa fotografía “Earthrise” tomada desde la órbita lunar en el Apolo 8?

Una esfera parcialmente iluminada flota en la oscuridad. Una esfera gris, más pequeña, se eleva sobre el horizonte. La esfera más grande muestra manchas azules y blancas, que sugieren agua y nubes. El marcado contraste entre ambas esferas y la negrura enfatiza la fragilidad y el aislamiento de la esfera más pequeña, que se eleva.

Géminis (o mejor dicho debería decir pelota) no cumple con esta descripción. Como era demasiado abstracto, agregué la frase "capturado desde una órbita cercana a la Luna" a la afirmación, pero no ayudó mucho:

Es una portada genial de un álbum de rock progresivo, pero no tiene nada que ver con Earthrise. Para terminar el experimento, elegí la imagen más misteriosa hasta ahora, la obra maestra industrial de Edward Weston “Armco Steel”:

Una serie de tanques redondos de metal industrial llenan el marco. Sus formas son suaves y bulbosas, creando un patrón repetitivo. La luz se refleja en las superficies, realzando sus formas curvas y creando una sensación de volumen. La composición se centra en los aspectos abstractos de los objetos industriales, priorizando la forma y la textura sobre la función. La escena es sencilla y moderna, con un fuerte énfasis en la luz y la sombra.

Esta parece una buena entrada, veamos si Dall-E está de acuerdo con nosotros:

Si bien aprecio la sensación de ciencia ficción, no se parece en absoluto al original. No quería terminar el experimento con un fracaso total, así que decidí ayudar a la máquina añadiendo el término "fotografía de los años 1920" al final de la entrada.

Mi pensamiento fue que este término en particular podría ayudar a aclarar la imagen a la que me refería. Desafortunadamente, Dall-E me decepcionó nuevamente e hizo otra portada de álbum de rock progresivo:

Los resultados de este experimento fueron interesantes y la conclusión que podemos sacar es que la generación de imágenes por IA es altamente impredecible, especialmente con conceptos más abstractos. No importa si la información ingresada es generada por IA y precisa, o generada por humanos y imperfecta: los resultados parecen aleatorios.

Entonces, la próxima vez que intentes culparte a ti mismo y a tu estilo de entrada, recuerda que los resultados probablemente serán bastante similares incluso si hay dos dispositivos comunicándose entre sí.