Compruébelo usted mismo: las nuevas capacidades de generación de imágenes de ChatGPT son sorprendentes

OpenAI ha lanzado una actualización masiva de las capacidades de generación de imágenes de ChatGPT, una actualización alucinante que redefine la realidad. Este desarrollo representa un salto cualitativo en el campo de la generación de imágenes mediante inteligencia artificial.

No perderé tu tiempo con números, tamaños de modelos o cuántas horas de GPU usa el nuevo modelo. Simplemente le mostraré lo que puede hacer esta actualización y cómo se compara con el modelo DALL-E anterior.

7. manos y dedos

Primer plano de una persona tocando un acorde de mi menor en una guitarra, con los dedos presionando las cuerdas con poca profundidad de campo.

La tecnología de generación de imágenes mediante inteligencia artificial nos sorprendió cuando se hizo popular. Luego... miramos con atención. La característica distintiva de la imagen de IA es la extraña anatomía de la mano y los dedos. Entonces, ¿qué mejor manera de probar modelos que pedirles que fotografíen una cuerda de guitarra?

Para guardar lo mejor para el final, pregunté primero al modelo DALL-E original y luego al nuevo generador de imágenes integrado en el modelo ChatGPT 4o.

La imagen de arriba es lo que produjo DALL-E. A pesar de los defectos del DALL-E, aquí manejó los dedos y la anatomía general decentemente. Pero la cuerda en sí... no lo es. La posición de la mano es demasiado alta en el diapasón para tocar mi menor. Si haces zoom un poco, notarás que la guitarra tiene más de siete cuerdas. El espaciamiento entre las cuerdas también es irregular.

Con esto en mente, pasemos a ChatGPT 4o.

Podría haberte dicho que estaba bromeando y que se trataba de una foto antigua de cuando tocaba la guitarra. ChatGPT 4o es así de bueno. Seis cuerdas, espaciadas uniformemente, y el acorde es en realidad mi menor. Estoy impresionado.

6. figuras históricas

Albert Einstein comiendo helado en Central Park, vistiendo una camisa informal y tirantes.

Después de experimentar con la generación de imágenes de diferentes cosas, ahora decidimos intentar generar imágenes de personajes históricos, y como no se ofenderían, sería divertido verlas en un entorno moderno. Comencemos probando DALL-E 2 y ChatGPT 4 para generar una imagen de Einstein.

El resultado de DALL-E 2 fue decepcionante, ya que me había advertido de antemano que no podía utilizar una imagen del propio Einstein, y que utilizaría una imagen de alguien que "se parecía mucho a él". Las imágenes de DALL-E 2 tienen un estilo caricaturesco y realista, lo que queda claramente patente aquí. El edificio San Remo al fondo sugiere que esta foto fue tomada en Central Park, pero ese es el único logro aquí.

Ahora pasemos a ChatGPT 4o.

Aplicando un filtro blanco y negro a esta foto, puedo convencerte de que es una auténtica foto vintage. La crema en el cono parece perfectamente cremosa, Einstein aparece en su característico estilo tranquilo y el edificio de San Remo todavía está presente en el fondo. Todo parece perfecto. ChatGPT 4o hizo un gran trabajo en esta imagen.

5. Personajes de ficción

Una figura parecida a Lord Sith toma un taxi en George Square, Glasgow, con una lluvia ligera y semáforos de fondo.

Hasta ahora, hemos visto que ChatGPT es experto en dibujar figuras históricas. Dado que los rostros y las personas siguen siendo las mejores maneras de probar las capacidades de la IA, probemos Plus.

Usé la palabra “similar” para lograr que el chatbot cooperara conmigo sin enfrentar un reclamo de derechos de autor. El resultado DALL-E fue bueno. El personaje realmente te recuerda a un Lord Sith, y el resto de los elementos son bastante precisos.

No tiene nada de caricaturesco, pero no parece real. ¿Quieres realismo? Vea lo que ChatGPT 4o produjo con el mismo mensaje:

Me encanta la atmósfera: la iluminación, la niebla y la sombría presencia del Lord Sith. Todo está ahí. El único problema es que el Señor Oscuro está parado en la calle, llamando a un taxi mientras mira… hacia la acera. Además, el cartel del taxi dice “TAXL”.

Pasemos de la ficción futura a la ficción histórica. Algo como esto:

Un personaje que se parece a Geralt de Rivia está comprando alimentos en un supermercado moderno, empujando un carrito de compras y frunciendo el ceño al ver los productos enlatados.

No está nada mal. La imagen todavía tiene ese aire caricaturesco artificial y el texto en las cajas de cereales es, como era de esperar, completamente incomprensible.

ChatGPT 4o inicialmente rechazó el reclamo debido a derechos de autor, pero tuvo éxito una vez que reemplacé "similar a" con "similar a". Mirar:

Estoy sin palabras. Como la mayoría de la gente, la interpretación de Geralt que hace ChatGPT es básicamente la de Henry Cavill, no la del videojuego, pero lo logró. El ceño fruncido es perfecto y la escena parece normal.

Esto podría pasar como una escena de un comercial extraño. Y sí, he leído libros. The Witcher Antes de que se convirtiera en una serie.

4. animación

Una caricatura de un capitán pirata que viste un abrigo rojo largo y un brazo biónico, riendo en la cubierta de un barco volador. Fondo transparente.

La generación de imágenes de OpenAI no se trata solo de realismo. Si bien DALL-E siempre tiende a agregar un toque de suavizado independientemente de la entrada, decidí llevar ambos modelos al modo de caricatura completa. El objetivo era mejorar la calidad de los dibujos animados mediante el uso de técnicas avanzadas de inteligencia artificial.

De hecho, DALL·E hizo un buen trabajo aquí: incluso entendió la solicitud de un fondo transparente. un poco. Lo que obtenemos es el clásico patrón de tablero de ajedrez gris y blanco que usualmente significa transparencia… excepto que aquí, está mezclado con la imagen. Entonces no es transparente en absoluto.

También es irónico que la mano biológica generada por IA del hacker tenga cuatro dedos, mientras que la mano electrónica tenga cinco. ¿Tal vez cubrió el brazo equivocado con cromo?

ChatGPT 4o parece más claro e intencional. El estilo de coloración varía (si es mejor o no es una cuestión personal), pero claramente parece como si un artista lo hubiera pintado de esa manera. Los gráficos de ChatGPT son de alta calidad y detallados.

El fondo también es ya transparente. Puedes ponerlo en una camiseta, imprimirlo o incluso convertirlo en un sticker de WhatsApp al instante.

3. Espejos y reflejos

Lavabo de baño moderno con cepillo de dientes y maquinilla de afeitar sobre la encimera, ambos visibles en el espejo y en la realidad: la iluminación es suave y uniforme. La precisión de los reflejos en las imágenes generadas por IA es un desafío constante.

Los espejos reflejan imágenes y los reflejos necesitan una lógica espacial para parecer naturales. Hice una entrada que sabía que DALL-E encontraría por casualidad. Generar imágenes realistas con reflejos precisos es uno de los mayores desafíos que enfrenta la inteligencia artificial.

Como se esperaba. Hay algo que intenta ser un reflejo del grifo en el espejo, pero es demasiado largo. El cepillo de dientes flota dentro del lavabo y no proyecta ningún reflejo. DALL-E ha puesto mucho esfuerzo en este ejemplo.

El modelo más nuevo hace un trabajo mucho mejor al hacer que la imagen parezca real, como una fotografía real. El reflejo del grifo está un poco sesgado pero aceptable. Luego está el cepillo de dientes, que tiene un reflejo pero no existe en el mundo físico, como un vampiro al revés.

Aquí no hay un ganador claro. Los resultados de la IA fueron inconsistentes, así que le di otra oportunidad a ambos con algo más ambicioso:

Una mujer está de pie frente a un espejo de cuerpo entero en un dormitorio iluminado por el sol, su ropa y su postura se reflejan perfectamente, con un reflejo claro de la ventana detrás de ella.

…Ni siquiera quiero honrar este ejemplo con un análisis. Gente, si quieren hacer que DALL-E quede mal, simplemente agreguen la palabra “espejo” a su entrada. Sigamos adelante.

Como era de esperar, ChatGPT 4o parece más realista (aunque ¿quizás un poco surrealista esta vez?). La pose y la vestimenta de la mujer se reflejan, pero sólo parcialmente, como un efecto de Photoshop XNUMXD. Los ángulos de reflexión también son incorrectos. La inteligencia artificial aún no puede manejar la lógica espacial. Comprender el espacio XNUMXD y los reflejos parece ser un gran desafío para la IA.

2. Coches y calles

Un Ford GT del año 2006 y un Peugeot 206 pasan un semáforo en rojo en Wall Street, Nueva York, al mediodía.

Soy un entusiasta de los coches. Cuando salió el primer software de generación de imágenes con IA, una de las primeras cosas que intenté fue crear imágenes de automóviles. Los resultados no fueron buenos en ese momento, pero con el nuevo modelo que salió, tuve que intentarlo de nuevo.

Aquí está DALL-E nuevamente mostrando su estética caricaturesca cada vez más perturbadora. El Peugeot está en la acera, los semáforos que solicité dan a edificios y los números de matrícula son todos incomprensibles.

Los resultados de ChatGPT 4o son mucho mejores. Los coches están representados correctamente: incluso los tapacubos de Peugeot son muy precisos y se corresponden con la época. Este tipo de detalle no es casual. Y se pone aún mejor:

Realmente podría usar esta imagen como fondo de pantalla de mi teléfono. Iluminación, composición, reflejos… todo parece perfecto. Salvo por el extraño vacío en la calle, esto podría pasar como una foto real.

1. Textos y mensajes

Una carta escrita a mano en papel antiguo, en letra cursiva, colocada junto a una pluma estilográfica y un tintero.

Por último, nos centramos en el punto débil de cada generador de imágenes. La mayoría de los generadores de imágenes de IA tienen dificultades para producir texto correcto. A estas alturas ya has visto suficiente jerga de DALL-E en los ejemplos anteriores para saber a qué me refiero. Generar texto a partir de imágenes es un gran desafío para los desarrolladores de estas tecnologías.

Para hacerlo más interesante y coherente, agregué que la carta debería contener el texto de la carta del Rey Terenas a Arthas de Warcraft III.

DALL-E hizo lo que mejor sabe hacer con el texto: lo convirtió en un texto confuso e incomprensible. Logró escribir algunas palabras correctamente y la atmósfera general se ve bien: la pluma estilográfica y el tintero se ven bien. Pero la precisión de la generación de texto aún es limitada.

ChatGPT 4o lo domina: cada palabra, en cursiva clara. ideal. En comparación con DALL-E, este es un gran avance. ¡Bien hecho, OpenAI! Este desarrollo muestra hasta qué punto han avanzado las tecnologías de IA en la generación de texto.

Las tecnologías de generación de imágenes con inteligencia artificial han avanzado mucho y se nota. ChatGPT 4o parece ser el primer modelo que realmente entiende lo que significa iluminación, textura y contexto. Esto representa un gran avance en el campo de la generación de imágenes mediante IA.

En este punto, la única pregunta real que queda es: ¿Qué tan fuertes son las protecciones de ChatGPT? Pasé fácilmente por alto sus restricciones de derechos de autor. ¿Cuánto tiempo pasará antes de que alguien logre descifrar ChatGPT y comience a crear cualquier contenido que quiera usando este modelo increíblemente capaz? Esta capacidad plantea preguntas sobre el uso responsable de las tecnologías de IA.

ChatGPT