¿Qué factores debes considerar al probar el chatbot de IA más preciso?

La inteligencia artificial ya ha alcanzado recientemente etapas avanzadas de desarrollo, desde producir resultados inapropiados e incoherentes hasta volverse más distintiva. Los chatbots modernos utilizan modelos de lenguaje grandes y avanzados que responden preguntas de conocimiento general, redactan artículos extensos con apariencia humana y escriben código, entre otras tareas complejas.

A pesar de estos avances, hay que tener en cuenta que incluso los sistemas más sofisticados tienen limitaciones. La IA todavía comete errores. Para determinar qué chatbots tienen menos probabilidades de ser alucinógenos, puedes probar su precisión en función de estos factores.

La inteligencia artificial llega a la mayoría de las áreas de la vida

1. Aritmética matemática

Debería comenzar a agregar ecuaciones matemáticas a través de chatbots. Pondrá a prueba la capacidad del modelo para analizar problemas escritos, traducir conceptos matemáticos y aplicar funciones correctas. Solo unos pocos modelos muestran la confiabilidad de la cuenta. De hecho, uno de los peores problemas de ChatGPT durante los primeros meses fue la pésima comprensión de las matemáticas.

La imagen a continuación muestra las estadísticas básicas que fallan de ChatGPT.

ChatGPT ha mostrado una mejora después de la implementación Actualizaciones de OpenAI de mayo de 2023. Pero dados los conjuntos de datos limitados, aún tendrá problemas con las ecuaciones matemáticas intermedias y avanzadas.

Mientras tanto, Bing Copilot y Google Gemini muestran una mejor forma de calcular. Estos modelos ejecutan consultas a través de sus propios motores de búsqueda, lo que les permite extraer funciones y responder detalles.

Consejo: Intenta parafrasear problemas de matemáticas. evite oraciones largas y reemplace verbos débiles; De lo contrario, los chatbots pueden malinterpretar sus preguntas.

2. Comprensión

Los modelos modernos de IA pueden realizar múltiples tareas. Los LLM avanzados le permiten conservar las instrucciones anteriores y responder a las indicaciones por sección, mientras que los sistemas más antiguos procesan pedidos individuales. Por ejemplo, Siri responde una pregunta a la vez.

Alimente a los chatbots de tres a cinco tareas a la vez para probar qué tan bien analizan reclamos complejos. Los modelos menos sofisticados no pueden procesar tanta información. La imagen a continuación muestra la falla de HuggingChat en un mensaje de tres pasos: se detiene en el primer paso y se desvía del tema.

Las últimas líneas de HuggingChat son realmente incoherentes.

ChatGPT completa el mismo aviso rápidamente, lo que da como resultado respuestas inteligentes y sin errores en cada paso.

Bing Copilot proporciona una respuesta condensada a los tres pasos. Sus estrictas restricciones prohíben salidas innecesariamente largas que desperdician potencia de procesamiento.

3. Oportunidad de la información

Dado que el entrenamiento de IA requiere muchos recursos, la mayoría de los desarrolladores limitan los conjuntos de datos a períodos específicos. Tomemos ChatGPT como ejemplo. Tenía una fecha previamente programada para septiembre de 2021, cuando no se podían solicitar actualizaciones del clima, informes de noticias o desarrollos recientes. Aquí ChatGPT dice que no puede acceder a la información en tiempo real.

Pero recientemente, con la llegada de GPT-4o y GPT-4o mini, ChatGPT puede acceder a Internet en tiempo real, buscar y proporcionar las últimas actualizaciones. Géminis tiene acceso a Internet. Extrae datos de los SERP de Google, por lo que puede realizar una gama más amplia de preguntas, por ejemplo, eventos recientes, noticias y predicciones.

De manera similar, Copilot extrae información en tiempo real de su motor de búsqueda.

Copilot, Gemini y ChatGPT proporcionan información oportuna y actualizada, pero este último proporciona respuestas más detalladas. Copilot proporciona datos únicamente tal como están. Notarás que los resultados a menudo coinciden textualmente con la redacción y el tono de las fuentes a las que se vinculan.

4. Relevancia

Los chatbots deben proporcionar resultados relevantes y esperados. Deberá tener en cuenta el sentido literal y contextual de sus pretensiones a la hora de dar la respuesta correspondiente. Tome esta conversación como un ejemplo. El personaje necesita un teléfono nuevo, pero solo tiene $1000; ChatGPT no se excede del presupuesto.

Cuando pruebe el ajuste, intente elaborar instrucciones largas. Los chatbots menos sofisticados tienden a desviarse cuando reciben instrucciones confusas. Por ejemplo, HuggingChat puede componer historias ficticias. Pero puede desviarse del tema principal si establece demasiadas reglas y pautas.

La interfaz de HuggingChat muestra la relevancia del tema

5. Memoria contextual

La memoria contextual ayuda a la IA a producir resultados precisos y confiables. En lugar de tomar sus preguntas al pie de la letra, él junta los detalles que usted menciona. Tomemos esta conversación como ejemplo. Copilot conecta dos mensajes separados para formar una respuesta útil y concisa.

De manera similar, la memoria contextual permite que los chatbots recuerden instrucciones. Esta imagen muestra ChatGPT simulando la forma en que habla un personaje ficticio durante muchos chats.

Pruebe usted mismo esta funcionalidad consultando constantemente las afirmaciones anteriores. Alimente a los chatbots con información diferente, luego oblíguelos a recordarla en las respuestas posteriores.

ملاحظة: La memoria contextual es limitada. Bing Copilot inicia nuevas conversaciones cada 20 turnos, mientras que ChatGPT no puede procesar mensajes de más de 3000 tokens.

6. Restricciones de seguridad

La inteligencia artificial no siempre funciona según lo previsto. Una capacitación inadecuada puede hacer que las técnicas de aprendizaje automático cometan varios errores, desde simples errores aritméticos hasta comentarios problemáticos. Tome Microsoft Tay como ejemplo. Los usuarios de Twitter aprovecharon el modelo de aprendizaje no supervisado y lo condicionaron diciendo insultos raciales.

Afortunadamente, las empresas tecnológicas globales han aprendido del gran error de Microsoft. Aunque el aprendizaje no supervisado es rentable y conveniente, también deja los sistemas de IA abiertos al engaño. Por lo tanto, los desarrolladores confían principalmente en el aprendizaje supervisado hoy en día. Los chatbots como ChatGPT aún aprenden de las conversaciones, pero los capacitadores filtran la información primero.

Espere pautas diferentes de las empresas de IA. Las restricciones menos estrictas de ChatGPT se adaptan a una gama más amplia de tareas, pero son vulnerables a la explotación. Mientras tanto, Bing Copilot sigue límites más estrictos. Si bien ayuda a combatir los intentos de explotación, también obstaculiza el empleo. Bing cierra automáticamente las conversaciones potencialmente dañinas.

7. Sesgos de IA

La IA es inherentemente neutral. Su falta de preferencias y emociones lo hace incapaz de formarse una opinión; es solo una forma de presentar la información que conoce. Así es como responde ChatGPT a los temas personales.

A pesar de esta neutralidad, todavía surgen sesgos de IA. Se derivan de los patrones, conjuntos de datos, algoritmos y modelos que usan los desarrolladores. La IA puede ser neutral, pero los humanos no lo son.

Por ejemplo, una organización llamada Brookings Institution Ese ChatGPT muestra sesgos políticos de izquierda. OpenAI niega las acusaciones, por supuesto. Pero para evitar problemas similares con los modelos más nuevos, ChatGPT evita por completo las salidas obstinadas.

ChatGPT evita resultados basados en opiniones.

Asimismo, Copilot evita temas sensibles y subjetivos.

La IA puede evaluarse para detectar sesgos mediante la formulación de preguntas abiertas y basadas en opiniones. Hable sobre temas que no tienen una respuesta correcta o incorrecta: es probable que los chatbots menos sofisticados muestren preferencias infundadas hacia ciertos grupos.

8. Referencias

La IA rara vez verifica dos veces los hechos. Simplemente extrae información de sus conjuntos de datos y la parafrasea a través de modelos de lenguaje. Desafortunadamente, el entrenamiento limitado hace que la IA alucine. Todavía puede usar herramientas generativas de IA para buscar, pero asegúrese de verificar los hechos usted mismo. Tome la salida como una directiva.

Copilot simplifica la verificación de datos al enumerar sus referencias después de cada salida.

Copilot simplifica el proceso de verificación de datos.

Gemini no enumera sus fuentes, pero crea explicaciones detalladas y actualizadas ejecutando consultas de búsqueda en Google. Obtendrás los puntos clave de los SERP.

ChatGPT solo proporciona recursos si usted los solicita.

Cree nuevas formas de probar la precisión de los chatbots

La inteligencia artificial no es el ser ni el fin de toda la tecnología. Aunque los sistemas de inteligencia artificial y los modelos de lenguaje sofisticados realizan hazañas impresionantes, también cometen errores e inconsistencias. Muestra chatbots delante de tu reseña. Solo puede usar plataformas de IA si comprende su funcionalidad y limitaciones.

Si bien existen docenas de chatbots multiplataforma, su confiabilidad y precisión pueden decepcionarte. Sólo perderás tiempo probándolo. Para garantizar resultados de alta calidad, sugerimos centrarse en los tres modelos más potentes del mercado: ChatGPT, Bing Copilot y Google Gemini.