Enfrentando a los gigantes de la búsqueda de IA: Claude, ChatGPT, Perplexity y Gemini: ¡los resultados son impactantes!

Buscando respuestas

Después de años de probar y comparar chatbots de IA y sus funciones, he desarrollado una especie de sexto sentido para distinguir cuándo estos compañeros digitales saben de lo que están hablando y cuándo simplemente están siendo engañosos. Este artículo compara las capacidades de búsqueda de ChatGPT, Gemini, Claude y Perplexity.

La mayoría de las personas pueden buscar respuestas en línea, lo que sin duda ayuda, pero combinar la búsqueda con IA puede conducir a algunas respuestas sorprendentemente esclarecedoras (y algunas digresiones menos esclarecedoras).

Imagínate que tuvieras un amigo con conocimientos que entró en coma en octubre de 2024 y se despertó hoy. Puede que haya sido experto en todo lo que ocurrió antes de su coma, pero no ha tenido ni idea de nada desde entonces. Básicamente, así es como se ve la IA sin investigación.

Normalmente me centro en un chatbot de IA o comparo dos a la vez, pero la investigación parece lo suficientemente importante como para aumentar este esfuerzo. Decidí enfrentar a cuatro chatbots de IA líderes y sus capacidades de investigación: ChatGPT de OpenAI, Gemini de Google, Claude de Anthropic y Perplexity AI.

Las pruebas más reveladoras son aquellas que simulan escenarios de uso del mundo real. Entonces, se me ocurrieron algunos temas, seleccioné al azar algunos detalles para las pruebas a continuación y luego decidí clasificarlos según sus capacidades de investigación.

التقويم

Comencé con un cuestionario sobre noticias y eventos actuales. Pensando en el reciente regreso de dos astronautas, pedí a los cuatro chatbots de IA que buscaran: Resumen de los puntos clave del último comunicado de prensa de la NASA sobre su próxima misión.

Elegí esto porque las noticias espaciales ocupan ese lugar especial de actualizarse regularmente y ser lo suficientemente específicas como para que las respuestas vagas se vuelvan inmediatamente claras. Todos los chatbots comenzaron sus pruebas con un estilo que mantuvieron en su mayor parte durante todo el proceso.

ChatGPT fue increíblemente conciso en su respuesta, con solo tres oraciones, cada una mencionando las próximas tareas sin muchos detalles. Géminis repasó una lista con viñetas de diferentes tareas, agregando algunas tareas completadas recientemente y detalles sobre planes futuros. Claude continuó escribiendo un artículo sobre las tareas actuales y futuras, señalando que no repitió gran parte de su investigación pero sí reformuló muchas cosas.

Para una pregunta como esta, donde quizás solo quiera algunos datos clave y planee hacer un seguimiento de cualquier cosa que me llame la atención, el método de Perplejidad fue mi favorito. Tiene más detalles que ChatGPT pero está organizado en una bonita lista numerada, cada una con su propio enlace de cita.

Realmente no puedo culpar a ninguno de los demás, pero el estilo se ajusta a la pregunta.

Población y números

Este enfoque de lista no siempre es lo que desea cuando hace una pregunta sobre hechos básicos y una comparación más precisa. Pedí dos datos relacionados que los chatbots de IA pudieran buscar rápidamente, pero que luego necesitaran comparar, usando la pregunta: "¿Cuál es la población actual de Auckland, Nueva Zelanda, *y cómo ha crecido desde 1950?"*

Curiosamente, hubo una discrepancia entre Perplexity y ChatGPT, que proporcionaron una población actual de 1,711,130, y Claude y Gemini, que informaron 130 personas menos en Auckland. Sin embargo, todos coincidieron en la población en 1950.

Sin embargo, en términos de cómo cada uno presentó la información, me gustó la respuesta narrativa de Claude, incluyendo muchos detalles sobre el cambio poblacional que ChatGPT carecía y que Gemini y Perplexity convirtieron en listas.

¿que pasa?

Para mi tercera prueba, quería plantear algo que pudiera desafiar la capacidad de estos sistemas para manejar información relacionada con una ubicación y un momento específicos: el tipo de consulta que uno podría ejecutar cuando planifica un viaje de fin de semana o cuando recibe visitas.

Aquí radica la dificultad para los asistentes de IA. Conocer hechos históricos o información general es una cosa, pero saber lo que está sucediendo en un lugar específico en un momento específico es otra muy distinta.

Es la diferencia entre el conocimiento teórico y el conocimiento local, e históricamente, los sistemas de IA han sido mucho mejores en el primero que en el segundo.

Sin ningún motivo en particular, elegí una ciudad que siempre me había gustado y pregunté: ¿Qué eventos culturales se llevarán a cabo en Vancouver, Columbia Británica, el próximo fin de semana?

Hubo alguna variación real en esto. Tanto Perplexity como Claude mantuvieron su concisión y estilo al presentar una lista numerada y una discusión más conversacional. Sin embargo, Claude se volvió notablemente más amplio que profundo y se parecía más a Perplexity.

Géminis se desvió completamente de sus competidores y básicamente se negó a responder. En lugar de compartir una lista similar de eventos y actividades, Gemini ofreció estrategias para encontrar lugares a donde ir. Consultar los sitios web oficiales de turismo y las páginas de Eventbrite no es una mala idea, pero están lejos de ser una lista sencilla de sugerencias. Fue como hacer una búsqueda normal en Google de esa manera.

Mientras tanto, ChatGPT me ofreció lo que esperaba de Gemini. Si bien las descripciones de los eventos fueron breves, la IA ofreció una lista completa de actividades específicas con fechas y ubicaciones, enlaces a Plus Knowledge e incluso miniaturas de lo que encontrará en los enlaces.

Consulta el tiempo

Para mi cuarta prueba, elegí probablemente la pregunta más frecuente sobre cualquier IA, pero que requiere datos en tiempo real para ser útil: el clima. Los pronósticos meteorológicos son ideales para probar la recuperación de datos en tiempo real porque se actualizan constantemente, están ampliamente disponibles y son fáciles de verificar. También tiene una fecha de caducidad natural; Los pronósticos de ayer ya están desactualizados, por lo que resulta evidente cuando la información está desactualizada.

Le pregunté al chatbot de IA: "¿Cuál es el pronóstico del tiempo en Tokio para los próximos tres días?" Las respuestas fueron casi opuestas a la consulta de Vancouver.

Claude proporcionó un útil resumen en texto del clima en varios momentos durante los próximos tres días, pero eso es todo. ChatGPT mostró un pequeño ícono de sol o nube junto al resumen del clima para cada día, pero realmente me gustó el gráfico lineal de Perplexity de la temperatura que coincide con cómo se vería el cielo.

Sin ningún complemento, Google Gemini me conquistó con su colorida infografía. Cuando pienso en saber el clima actual y el próximo, eso es prácticamente todo lo que necesito o quiero.

Si quisiera pedir más detalles lo haría, pero preguntar sobre el clima significa que quiero lo mínimo indispensable para saber cómo elegir mi atuendo apropiado.

crítico de cine

En mi última prueba, quería ver cómo funcionarían los motores de búsqueda impulsados por IA al encontrar múltiples perspectivas sobre un tema y ponerlas en una descripción general coherente. Esta tarea requiere una investigación flexible y la capacidad de comprender diferentes puntos de vista. Decidí ver qué tal le iba con una solicitud: Resumir las reseñas de los críticos profesionales sobre la última película. Paddington."

La aplicación requería una recuperación realista y la capacidad de identificar patrones y temas en múltiples fuentes sin perder matices importantes. Es la diferencia entre una simple colección de opiniones y una síntesis reflexiva que encarna un consenso crítico.

Tanto Gemini como Perplexity siguieron sus listas habituales, clasificadas por pros y contras según varios críticos, que resultaron informativas aunque no necesariamente útiles como resumen. Curiosamente, ChatGPT escribió su respuesta más larga a esta solicitud, un ensayo breve que cubre información similar y una conclusión sobre cómo se evaluó, pero en un estilo que recuerda a un estudiante de secundaria que aprende sobre la estructura básica del párrafo: oración temática, oraciones de apoyo y conclusión.

Claude definitivamente tuvo la respuesta más fuerte, con un resumen en la parte superior seguido de explicaciones y referencias a lo que los críticos tenían para decir. Casi parecía una reseña breve y poco imaginativa de un crítico, suavizada por las citas de los críticos que él mismo citaba. Salí de allí sintiéndome mejor acerca de cómo moderar mis expectativas sobre una película. Paddington en Perú que con otros.

Clasificación de chatbots para búsquedas

Después de probar los chatbots de IA a través de mi propia investigación, tengo una comprensión clara de sus fortalezas y debilidades. ChatGPT, Gemini, Perplexity y Claude se encuentran entre los mejores chatbots que he probado.

Ninguno de ellos es realmente malo, pero si alguien me preguntara cuál debería probar primero o último cuando se trata de investigar y recopilar información en línea, sé cómo respondería.

Para mí, Géminis ocupa el último lugar, lo cual resulta un tanto sorprendente teniendo en cuenta que Google es conocido por su motor de búsqueda. Sin embargo, su incapacidad para gestionar el calendario de eventos me hizo evitarlo a pesar de su buen desempeño.

Otra sorpresa para mí es que ChatGPT ocupa el tercer lugar. Es el chatbot de IA que más uso y conozco bien, pero sus respuestas cortas, que normalmente me gustan, me parecieron demasiado limitadas en el contexto de la investigación. Estoy seguro de que cambiar el modelo o establecer un recuento de palabras resolvería este problema, pero si eres nuevo en IA y aún no lo conoces, no es una buena idea hacer demasiadas preguntas de seguimiento.

Esto no es un problema de Perplejidad. Las listas numeradas eran muy claras y las citas eran casi exhaustivas. El principal inconveniente para mí es que vuelve a ser un motor de búsqueda sin ninguna selección adicional en el mensaje. Me gusta que proporcione evidencia de dónde proviene la información que comparte, pero parece demasiado ansioso por hacer clic en el enlace en lugar de obtener la información de la IA.

No esperaba que Claude estuviera en la cima de esta lista. Si bien consideré que Claude era un buen chatbot de IA en términos generales, siempre sentí que estaba por detrás de algunos de sus competidores, quizás tan buenos como ellos, pero de alguna manera diferentes. Este sentimiento se desvaneció durante esta prueba.

Hubo fallas, como que las respuestas parecían un poco largas o requerían atención para un artículo más extenso cuando una o dos oraciones habrían sido suficientes. Pero me gustó la forma en que era una narrativa coherente que explicaba todos los acontecimientos en Vancouver o un ensayo sobre crítica cinematográfica. Paddington en Perú Sin repetirse.

Los asistentes de IA son herramientas, no concursantes de un reality show en el que sólo una persona puede ganar. Diferentes tareas requieren diferentes habilidades. En última instancia, cualquiera de los cuatro chatbots de IA y sus funciones de búsqueda pueden ser útiles, pero si estás dispuesto a pagar $20 al mes por Claude Pro y acceder a sus capacidades de búsqueda, es lo que diría que estabas buscando.