DeepSeek se está preparando para la próxima revolución de la IA con modelos de automejora.

Hace apenas unos meses, la gran apuesta de Wall Street por la IA generativa se enfrentó a un momento decisivo cuando surgió búsqueda profunda En la escena. A pesar de su naturaleza altamente controlada, DeepSeek de código abierto ha demostrado que un modelo de IA inferencial innovador no requiere necesariamente miles de millones de dólares y puede lograrse con recursos modestos. Esto representa un cambio importante en nuestra comprensión del desarrollo de modelos de IA avanzados.

Fue rápidamente adoptado comercialmente por empresas gigantes como Huawei, Oppo y Vivo, mientras que empresas como Microsoft, Alibaba y Tencent rápidamente le dieron un lugar en sus plataformas. Ahora, el próximo objetivo de la bulliciosa empresa china son los modelos de IA que se automejoran y que utilizan un enfoque de "juicio-recompensa" en bucle para mejorarse a sí mismos. Esta tendencia refleja la búsqueda constante de las empresas por desarrollar sistemas de IA más eficientes y efectivos.

En un artículo preimpreso (vía informe de BloombergInvestigadores de DeepSeek y la Universidad Tsinghua de China describen un nuevo enfoque que podría hacer que los modelos de IA sean más inteligentes y eficientes, mejorando así su capacidad de autosuperación. La técnica subyacente se conoce como “control crítico basado en principios propios” (SPCT, por sus siglas en inglés), y este enfoque se conoce técnicamente como “modelado generativo de recompensa” (GRM, por sus siglas en inglés). Este enfoque representa un avance significativo en el campo del aprendizaje de refuerzo para la inteligencia artificial.

Página de inicio de la aplicación de inteligencia artificial móvil de DeepSeek.

En términos simples, es un poco como crear un ciclo de retroalimentación en tiempo real. Un modelo de IA se mejora principalmente al ampliar el tamaño del modelo durante el entrenamiento. Esto requiere mucho trabajo humano y recursos informáticos. DeepSeek propone un sistema donde un “árbitro” principal elabora su propio conjunto de críticas y principios para el modelo de IA mientras prepara una respuesta a las consultas del usuario. Este enfoque pretende reducir la dependencia de recursos humanos intensivos en el proceso de formación.

Este conjunto de críticas y principios se compara luego con las reglas establecidas en el corazón del modelo de IA y el resultado deseado. Si hay un alto grado de coincidencia, se genera una señal de recompensa, que dirige efectivamente a la IA a desempeñarse mejor en la siguiente ronda. Este proceso continuo de evaluación y recompensa mejora la capacidad del modelo para aprender y adaptarse.

Los expertos que están detrás del proyecto señalan que Trabajo de investigación Hacia la próxima generación de modelos de IA de automejora llamados DeepSeek-GRM. Los puntos de referencia incluidos en el documento indican que estos modelos funcionan mejor que Gemini de Google, Llama de Meta y GPT-4o de OpenAI. DeepSeek dice que estos modelos de IA de próxima generación se lanzarán mediante código abierto. Este compromiso con la apertura puede acelerar el ritmo de la innovación en IA.

IA que se mejora a sí misma: ¿es posible?

Interactuando con la aplicación Therabot AI.

La idea de una inteligencia artificial capaz de mejorarse a sí misma ha suscitado debates ambiciosos y controvertidos. El ex CEO de Google, Eric Schmidt, ha declarado que quizá necesitemos un “interruptor de apagado” para dichos sistemas. Y fue transferido Fortune Schmidt dijo: “Cuando un sistema puede mejorarse a sí mismo, deberíamos considerar seriamente desenergizarlo”. Los sistemas de IA con capacidad de automejora se encuentran entre los avances más importantes en el campo de la IA.

El concepto de una IA que se mejora a sí misma de forma iterativa no es del todo nuevo. La idea de una máquina superinteligente, capaz de fabricar mejores máquinas, Regreso De hecho, al matemático I. J. Good en 1965. En 2007, el experto en inteligencia artificial Eliezer Yudkowsky planteó la hipótesis sobre IA de semillas, una inteligencia artificial “diseñada para la autocomprensión, la automodificación y la autosuperación iterativa”.

En 2024, la empresa japonesa Sakana AI presentó detalles de Concepto “AI World” trata sobre un sistema capaz de navegar por toda una línea de producción de artículos de investigación desde el principio hasta el final. Y en una hoja En un artículo de investigación publicado en marzo de este año, los expertos de Meta dieron a conocer modelos de lenguaje autorrecompensantes donde la propia IA actúa como juez para otorgar recompensas durante el entrenamiento. Este paso hacia sistemas de IA de autoaprendizaje representa un cambio de paradigma en el desarrollo de la inteligencia artificial.

Las pruebas internas de Meta de su modelo de IA Llama 2, utilizando tecnología innovadora de auto-recompensa, han demostrado que supera a competidores como Claude 2 de Anthropic, Gemini Pro de Google y los modelos GPT-4 de OpenAI. Antrópico, respaldado por Amazon Detalles proporcionados Lo que ella llamó manipulación de recompensa, un proceso impredecible “donde el modelo modifica directamente su propio mecanismo de recompensa”.

Google no se queda atrás en esta idea. En un estudio publicado en la revista Nature A principios de este mes, los expertos de Google DeepMind demostraron un algoritmo de IA llamado Dreamer que puede automejorarse, utilizando Minecraft como ejemplo de ejercicio.

Obras Expertos de IBM Según su propio enfoque, denominado entrenamiento de cierre inferencial, un modelo de IA utiliza sus propias respuestas y las evalúa comparándolas con datos de entrenamiento para mejorar. Sin embargo, no toda la hipótesis es del todo positiva.

Las investigaciones sugieren que cuando los modelos de IA intentan entrenarse con datos sintéticos autogenerados, experimentan fallas conocidas coloquialmente como "fallas del modelo". Será interesante ver cómo DeepSeek implementa la idea y si puede hacerlo de una manera más económica que sus competidores occidentales.

Los comentarios están cerrados.