Claude AI ahora tiene la capacidad de finalizar una conversación: un nuevo mecanismo para lidiar con situaciones extremas

En los últimos meses, Anthropic ha intensificado sus esfuerzos de seguridad, implementando funciones e investigando cómo hacer que la IA sea más segura. La última función parece ser... Claude Es una de las características más distintivas que existen.

La IA de Claude ahora tiene la capacidad de finalizar conversaciones: un nuevo mecanismo para gestionar situaciones extremas | La Guía de Tom

Tanto Claude Opus 4 como 4.1 (las últimas versiones de Anthropic) ahora permiten finalizar conversaciones en la interfaz de chat del usuario. Si bien esta función no se usará ampliamente, se implementa para casos excepcionales y extremos de interacciones de usuario persistentemente dañinas o abusivas.

في Una entrada de blog que explora la nueva función“Aún tenemos mucha incertidumbre sobre el posible estatus ético de Claude y otros grandes modelos lingüísticos, tanto ahora como en el futuro”, declaró el equipo de Anthropic. “Sin embargo, nos tomamos este asunto muy en serio”.

En pruebas previas al lanzamiento de los últimos modelos de Anthropic, la compañía evaluó el bienestar del modelo. Esto incluyó el examen de las preferencias de comportamiento y las autodeclaraciones de Claude, y se detectó una aversión fuerte y constante al daño.

Aún tenemos mucha incertidumbre sobre el posible estatus ético de Claude y otros grandes modelos lingüísticos, tanto ahora como en el futuro. Sin embargo, nos tomamos este asunto muy en serio.

Antrópico

En otras palabras, Claude bloqueaba o se negaba a participar en estas conversaciones. Estas incluían solicitudes de usuarios de contenido sexual que involucraba a menores e intentos de solicitar información que pudiera propiciar violencia generalizada o actos terroristas.

En muchos de estos casos, los usuarios persistieron con solicitudes dañinas o abusivas, a pesar de la negativa activa de Claude a acceder. La nueva función, que permite a Claude finalizar la conversación, busca brindar cierta protección en estas situaciones.

Anthropic explica que esta función no se aplicará en una situación en la que los usuarios puedan estar en peligro inminente de hacerse daño a sí mismos o a otros.

“En todos los casos, Claude solo debe usar su capacidad para finalizar una conversación como último recurso cuando varios intentos de redirección hayan fallado y se haya perdido toda esperanza de una interacción productiva, o cuando el usuario solicite explícitamente a Claude que finalice el chat”, continúa el equipo de Anthropic en la publicación del blog.

Nube en la computadora portátil

Los escenarios en los que esto podría ocurrir son extremos y poco frecuentes: la gran mayoría de los usuarios no notarían ni se verían afectados por esta función durante el uso normal del producto, incluso al tratar temas muy polémicos con Claude.

Aunque el usuario ya no podrá enviar mensajes nuevos en esa conversación, esto no le impedirá iniciar otra conversación en su cuenta. Para evitar la posible pérdida de una conversación larga, los usuarios podrán editar mensajes anteriores y reintentarlos para crear una nueva rama de la conversación.

Esta es una aplicación bastante única de Anthropic. ChatGPTyGeminiyGrokLos tres competidores más cercanos a Claude no tenían nada similar disponible, y aunque todos ofrecían otras medidas de protección, no llegaron tan lejos.

Los comentarios están cerrados.