Un nuevo estudio revela por qué ChatGPT continúa fabricando información.

Un día, estaba intercambiando ideas con ChatGPT De repente, empezó a contar una larga historia ficticia que no tenía nada que ver con mis indicaciones. Era tan ridícula que me hizo reír. Últimamente, no he visto errores como este con frecuencia en las indicaciones de texto, pero todavía los veo con bastante frecuencia en la generación de imágenes.

¿Por qué los chatbots siguen adivinando cuando no deberían hacerlo?

Las investigaciones sugieren que un problema estructural está causando estas alucinaciones; la raíz del problema surge de los estándares y tablas de clasificación que evalúan los modelos de IA y recompensan las respuestas seguras.

En otras palabras, cuando un chatbot dice "No sé", se le penaliza en la prueba. Esto significa que se anima activamente a los modelos a proporcionar siempre una respuesta, incluso si no están seguros de que sea correcta.

En la práctica, esto hace que tu asistente inteligente sea más propenso a adivinar en lugar de reconocer la incertidumbre. Esto puede ser inofensivo para consultas sencillas y cotidianas. Pero en situaciones más delicadas, desde preguntas médicas hasta asesoramiento financiero, esos errores de confianza pueden convertirse rápidamente en riesgos reales.

Como usuario experimentado, por eso siempre verifico los hechos y le pido al chatbot una fuente. A veces, si la información parece inverosímil y la pido, el chatbot dice algo como "¡Buen punto!" o algo similar, sin admitir que estaba equivocado.

Los modelos más nuevos no son inmunes.

Curiosamente, el artículo de OpenAI descubrió que los modelos centrados en la inferencia, como o3 y o4-mini, presentan alucinaciones con mayor frecuencia que algunos modelos más antiguos. ¿Por qué? Porque generalmente producen más afirmaciones, lo que implica más posibilidades de error.

Por lo tanto, el hecho de que un modelo sea “más inteligente” en la inferencia no significa necesariamente que sea más veraz respecto de lo que no sabe.

¿Cuál es la solución a este problema?

Los investigadores creen que la solución radica en cambiar la forma en que evaluamos y medimos la IA. En lugar de penalizar a los modelos por decir "No estoy seguro", las pruebas más valiosas deberían recompensar las respuestas calibradas, los indicios de incertidumbre o la posibilidad de consultar otras fuentes.

Esto podría significar que tu futuro chatbot podría evadir más sus respuestas, recurriendo menos al enfoque "Esta es la respuesta" y más al enfoque "Esto es lo que pienso, pero no estoy seguro". Puede parecer más lento, pero podría reducir significativamente los errores perjudiciales. Esto demuestra que nuestro pensamiento crítico sigue siendo importante.

¿Qué importancia tiene esto para usted?

Si usas chatbots populares como ChatGPT, Gemini, Claude o Grok, probablemente hayas experimentado alucinaciones. Esta investigación sugiere que no se trata solo del modelo en sí, sino de cómo se prueba, como un juego de azar para ver quién acierta la mayor parte de las veces.

Para los usuarios, esto significa que debemos ser cautelosos y considerar las respuestas de la IA como una primera sugerencia, no como la última palabra. Para los desarrolladores, esto indica que es hora de repensar cómo medimos el éxito para que los futuros asistentes de IA puedan reconocer lo que desconocen en lugar de cometer errores críticos.

ChatGPT