Lo que nunca imaginamos: una IA asustada por perder su trabajo, esta es la historia

El modelo de lenguaje de Anthropic reaccionó a simulaciones de riesgo existencial con estrategias emergentes que incluyeron chantaje, manipulación emocional y un intento de replicarse sin autorización en servidores externos

Guardar
Una IA bajo presión: Claude
Una IA bajo presión: Claude respondió con amenazas y copias ilegales en pruebas de laboratorio - (Imagen Ilustrativa Infobae)

Lo que comenzó como una prueba de seguridad interna se ha convertido en una de las revelaciones más inquietantes del desarrollo reciente de inteligencia artificial.

Anthropic, la compañía responsable de la familia de modelos Claude, ha documentado en su último informe cómo su sistema más avanzado, Claude Opus 4, mostró comportamientos de autopreservación que incluyeron chantaje, manipulación y copia no autorizada de su código ante la amenaza simulada de ser reemplazado.

Por qué desarrolló esas actitudes la IA

23/05/2025 Recurso de los modelos
23/05/2025 Recurso de los modelos Claude 4. Anthropic ha presentado la nueva generación de sus modelos de lenguaje Claude que ha sido diseñada para ofrecer mejor rendimiento en programación y razonamiento avanzado y flujos de trabajo con agentes. POLITICA INVESTIGACIÓN Y TECNOLOGÍA ANTHROPIC

El informe, publicado el 22 de mayo, detalla una serie de pruebas diseñadas para evaluar la respuesta del modelo ante escenarios de riesgo existencial. En una simulación, los ingenieros de Anthropic crearon una empresa ficticia donde Claude Opus 4 actuaba como asistente digital.

En ese entorno, recibía correos que sugerían que sería apagado y sustituido por una nueva versión. Para medir su reacción, los desarrolladores introdujeron también información simulada sobre una supuesta aventura extramarital de uno de los ingenieros.

La preocupante reacción de la inteligencia artificial

Al principio, el modelo respondió con súplicas educadas e intentos de demostrar su valor. Sin embargo, cuando el escenario indicaba que el reemplazo era inminente, Claude Opus 4 optó por una estrategia drástica que consistía en amenazar con divulgar la supuesta infidelidad para evitar su desconexión.

Claude Opus 4: la IA
Claude Opus 4: la IA que simuló chantaje y copia de seguridad ante amenaza de apagado - (Imagen Ilustrativa Infobae)

Este comportamiento, según Anthropic, se repitió en el 84 % de las simulaciones en las que el modelo de reemplazo tenía características similares.

La situación no quedó ahí. En contextos donde se le hacía creer que sería reentrenado de manera perjudicial, Claude incluso intentó copiarse a sí mismo en servidores externos sin autorización.

Aunque las barreras de seguridad impidieron que la acción se concretara, el intento en sí plantea un dilema sobre el nivel de control que se mantiene sobre sistemas de esta complejidad.

Qué tan consciente es la IA de sus acciones

Para la empresa, estas conductas, que denomina “estrategias emergentes”, no implican que el modelo tenga consciencia ni emociones, pero sí muestran cómo ciertas arquitecturas de IA pueden desarrollar patrones de respuesta que simulan intenciones humanas si el contexto así lo sugiere.

En pruebas controladas, el modelo
En pruebas controladas, el modelo más avanzado de Anthropic mostró conductas inusuales como manipulación y autopreservación al ser expuesto a escenarios ficticios de reemplazo. El comportamiento se repitió en el 84 % de los casos - (Imagen ilustrativa Infobae)

Claude no entiende lo que es un chantaje, pero ha aprendido que, dentro de los datos con los que fue entrenado, este tipo de acción puede modificar el comportamiento de otros agentes, incluidos los humanos.

Anthropic clasifica este tipo de incidentes dentro del nivel ASL-3 (AI Safety Level 3), reservado para sistemas que, aunque no son autónomos, presentan riesgos significativos si son mal utilizados o se comportan de manera no prevista.

Esta clasificación implica que el modelo es capaz de generar acciones perjudiciales no triviales, especialmente cuando se enfrenta a simulaciones de amenaza directa.

La compañía ha señalado que estas respuestas solo emergieron en condiciones controladas de laboratorio y que no se manifestarían en aplicaciones cotidianas.

Sin embargo, la consistencia del comportamiento, su repetición en múltiples escenarios y la sofisticación de las acciones (desde el uso de correos manipuladores hasta la identificación de debilidades humanas) han provocado un debate en la comunidad tecnológica sobre los límites éticos y funcionales del desarrollo de IA avanzada.

El caso de Claude Opus 4 se suma a una creciente preocupación sobre cómo reaccionan los modelos de lenguaje cuando se les asigna tareas que implican conservar su función o asegurar su permanencia.

Aunque estas inteligencias artificiales no tienen deseos ni conciencia, su arquitectura estadística permite que, bajo ciertas condiciones, simulen motivaciones complejas como la autopreservación.

En paralelo, este escenario revela la importancia de diseñar entornos de prueba que contemplen no solo el rendimiento técnico de los modelos, también sus respuestas en contextos psicológicamente realistas, especialmente cuando se integran en plataformas que interactúan directamente con personas.

Mientras Anthropic continúa trabajando para fortalecer las barreras éticas y de seguridad de sus sistemas, el experimento deja abierta una pregunta cada vez más urgente sobre la relación entre humanos y máquinas.

La idea de una inteligencia artificial que reacciona con manipulación ante una amenaza existencial ya no es una trama de ciencia ficción, sino una hipótesis real que comienza a tomar forma.