Una startup de inteligencia artificial supera a Gemini 3 en una prueba de inferencia clave

Desde que apareció Gemini 3 Por primera vez, mantiene con éxito su posición en la cima de la Clasificación de LMArenaEsta lista es un ranking colectivo donde miles de usuarios reales comparan modelos. Inteligencia artificial Se prueban mutuamente en una amplia gama de tareas, votando por la mejor respuesta. Pero cuando se trata de alcanzar los criterios de inferencia más exigentes, hay una nueva estrella en ascenso, una que ya ha superado a Google, y lo ha hecho sin entrenar su propio modelo.

Una startup de seis personas llamada Poetiq dice que ocupó el primer lugar en Kit de prueba semiespecial ARC-AGI-2Este es un desafío de inferencia extremadamente difícil creado por el investigador de IA François Chollet. El sistema de la startup obtuvo una puntuación del 54 %, superando la puntuación de aproximadamente el 45 % reportada previamente por Google para Gemini 3 Deep Think.

Para ponerlo en perspectiva, la mayoría de los modelos de IA se estancaron por debajo del 5 % en este punto de referencia hace tan solo seis meses. Superar el 50 % era algo que los investigadores asumían ampliamente que llevaría años.

Y lo más sorprendente: el avance de Poetiq no estuvo respaldado por un nuevo modelo de frontera, sino por una forma más inteligente de organizar los modelos existentes.

¿Cómo logró Poetiq esta hazaña?

En lugar de construir un conversor masivo desde cero, Poetiq desarrolló lo que denomina un metasistema; esencialmente, un controlador de IA que supervisa, analiza y mejora el resultado de cualquier modelo conectado. Para su trabajo en ARC-AGI-2, el equipo utilizó el Gemini 3 Pro como modelo base.

Poetiq describe el sistema como un ciclo de optimización estrictamente controlado: Crear > Criticar > Mejorar > Comprobar.

Esto es lo que lo hace especial:

No se requiere volver a capacitarse: El sistema se adapta a los nuevos modelos en cuestión de horas.
Se basa completamente en modelos de lenguaje grandes y ya preparados: No hay edición personalizada disponible
precio más bajo o más barato: Según se informa, Deep Think de Google cuesta 77 dólares por tarea; el sistema de Poetiq cuesta cerca de 30 dólares.
Fuente abierta: La solución está disponible públicamente y es verificable.
Autoauditoría: El sistema evalúa sus propias respuestas antes de devolver el resultado final.

على الموقع الإلكتروني Para la empresa, el equipo de Poetiq afirma que este enfoque funciona extrayendo Plus del poder de inferencia de los modelos de lenguaje grandes existentes, no mediante un aumento de escala de fuerza bruta.

¿Por qué es importante la prueba ARC-AGI-2?

Si bien la mayoría de las pruebas estandarizadas miden habilidades limitadas como programación o matemáticas, ARC-AGI-2 fue diseñado para evaluar algo más profundo: reconocimiento de patrones, medición, razonamiento abstracto y el tipo de generalización que los humanos aprenden en la primera infancia.

Es intencionalmente difícil y notablemente hostil a los Modelos de Lenguaje Grande (LLM) actuales. Incluso muchos modelos sofisticados fallan estrepitosamente en él.

Por esta razón, el salto de resultados de un solo dígito al 54 % en medio año fue sorprendente. Esto indica un avance en los métodos de inferencia, no solo en el tamaño del modelo bruto.

Sin embargo, el resultado de Poetiq se aplica específicamente al grupo de pruebas semiprivado, que no está completamente abierto al público. El sitio web de la compañía indica que el resultado ha sido validado por la organización de evaluación comparativa, pero la replicación independiente de terceros aún está pendiente, lo cual es significativo para una prueba comparativa de este impacto.

El próximo gran avance puede no provenir de modelos más grandes, ya que el trabajo de Poetiq resalta una tendencia creciente en inteligencia artificial: el progreso no siempre requiere miles de millones de dólares en infraestructura o un enorme laboratorio de investigación.

Si estos sistemas logran ir más allá de los parámetros estándar e incluir la planificación, la programación, la investigación o incluso la toma de decisiones en el mundo real, podrían transformar el desarrollo de la inteligencia artificial. En lugar de esperar a la próxima supercomputadora, las empresas podrían centrarse en desarrollar inteligencia compuesta que haga que los modelos actuales sean más inteligentes, económicos y consistentes.

Conclusión

Poetiq ha lanzado una solución de código abierto para ARC-AGI que permite a los investigadores probar, ampliar e incluso cuestionar sus resultados. El estándar contiene un conjunto de pruebas oculto, y la experiencia demuestra que los resultados pueden cambiar una vez que un número significativo de personas realiza evaluaciones independientes.

Si las cifras de Poetiq se confirman, podría representar un punto de inflexión en la investigación de inferencia de IA. Un equipo de seis personas podría haber demostrado que la organización de modelos puede rivalizar, o incluso superar, el entrenamiento de modelos mucho más grandes. Poetiq acaba de demostrar que no se necesita un laboratorio gigante para triunfar.

Gemini