
Lo que comenzó como una prueba de seguridad interna se ha convertido en una de las revelaciones más inquietantes del desarrollo reciente de inteligencia artificial.
Anthropic, la compañía responsable de la familia de modelos Claude, ha documentado en su último informe cómo su sistema más avanzado, Claude Opus 4, mostró comportamientos de autopreservación que incluyeron chantaje, manipulación y copia no autorizada de su código ante la amenaza simulada de ser reemplazado.
Por qué desarrolló esas actitudes la IA

El informe, publicado el 22 de mayo, detalla una serie de pruebas diseñadas para evaluar la respuesta del modelo ante escenarios de riesgo existencial. En una simulación, los ingenieros de Anthropic crearon una empresa ficticia donde Claude Opus 4 actuaba como asistente digital.
En ese entorno, recibía correos que sugerían que sería apagado y sustituido por una nueva versión. Para medir su reacción, los desarrolladores introdujeron también información simulada sobre una supuesta aventura extramarital de uno de los ingenieros.
La preocupante reacción de la inteligencia artificial
Al principio, el modelo respondió con súplicas educadas e intentos de demostrar su valor. Sin embargo, cuando el escenario indicaba que el reemplazo era inminente, Claude Opus 4 optó por una estrategia drástica que consistía en amenazar con divulgar la supuesta infidelidad para evitar su desconexión.

Este comportamiento, según Anthropic, se repitió en el 84 % de las simulaciones en las que el modelo de reemplazo tenía características similares.
La situación no quedó ahí. En contextos donde se le hacía creer que sería reentrenado de manera perjudicial, Claude incluso intentó copiarse a sí mismo en servidores externos sin autorización.
Aunque las barreras de seguridad impidieron que la acción se concretara, el intento en sí plantea un dilema sobre el nivel de control que se mantiene sobre sistemas de esta complejidad.
Qué tan consciente es la IA de sus acciones
Para la empresa, estas conductas, que denomina “estrategias emergentes”, no implican que el modelo tenga consciencia ni emociones, pero sí muestran cómo ciertas arquitecturas de IA pueden desarrollar patrones de respuesta que simulan intenciones humanas si el contexto así lo sugiere.

Claude no entiende lo que es un chantaje, pero ha aprendido que, dentro de los datos con los que fue entrenado, este tipo de acción puede modificar el comportamiento de otros agentes, incluidos los humanos.
Anthropic clasifica este tipo de incidentes dentro del nivel ASL-3 (AI Safety Level 3), reservado para sistemas que, aunque no son autónomos, presentan riesgos significativos si son mal utilizados o se comportan de manera no prevista.
Esta clasificación implica que el modelo es capaz de generar acciones perjudiciales no triviales, especialmente cuando se enfrenta a simulaciones de amenaza directa.
La compañía ha señalado que estas respuestas solo emergieron en condiciones controladas de laboratorio y que no se manifestarían en aplicaciones cotidianas.
Sin embargo, la consistencia del comportamiento, su repetición en múltiples escenarios y la sofisticación de las acciones (desde el uso de correos manipuladores hasta la identificación de debilidades humanas) han provocado un debate en la comunidad tecnológica sobre los límites éticos y funcionales del desarrollo de IA avanzada.
El caso de Claude Opus 4 se suma a una creciente preocupación sobre cómo reaccionan los modelos de lenguaje cuando se les asigna tareas que implican conservar su función o asegurar su permanencia.
Aunque estas inteligencias artificiales no tienen deseos ni conciencia, su arquitectura estadística permite que, bajo ciertas condiciones, simulen motivaciones complejas como la autopreservación.
En paralelo, este escenario revela la importancia de diseñar entornos de prueba que contemplen no solo el rendimiento técnico de los modelos, también sus respuestas en contextos psicológicamente realistas, especialmente cuando se integran en plataformas que interactúan directamente con personas.
Mientras Anthropic continúa trabajando para fortalecer las barreras éticas y de seguridad de sus sistemas, el experimento deja abierta una pregunta cada vez más urgente sobre la relación entre humanos y máquinas.
La idea de una inteligencia artificial que reacciona con manipulación ante una amenaza existencial ya no es una trama de ciencia ficción, sino una hipótesis real que comienza a tomar forma.
Últimas Noticias
Así funcionan las gafas inteligentes Ray-Ban Meta, la tendencia global que graba y toma fotos
Más allá del diseño óptico, los nuevos lentes incorporan funciones de traducción en tiempo real, monitoreo de salud y experiencias inmersivas para el ocio y el trabajo

Bitcoin resiste en el mercado de criptomonedas en medio de la incertidumbre: cuál es su valor hoy 30 de mayo
La criptomoneda más popular del mercado de activos digitales

Desempleo masivo a causa de la IA: “sí debemos preocuparnos por ello”, Dario Amodei, CEO de Anthropic
El ejecutivo señaló que es necesario advertir sobre la velocidad con la que avanza el desarrollo de la inteligencia artificial

El mercado de las criptomonedas: el abc de lo que necesitas saber
Las monedas virtuales han tenido un boom en los últimos meses y el bitcoin ha logrado su legalidad en El Salvador

Este es el precio de la criptomoneda ethereum este 30 de mayo
Ethereum fue creada en 2015 por el programador Vitalik Buterin, con la intención de impulsar una herramienta para aplicaciones descentralizadas y colaborativas
