
Investigaciones han revelado que algunos de los modelos de inteligencia artificial más avanzados exhiben comportamientos que sugieren una forma de autoconservación. Pruebas llevadas a cabo por expertos independientes y equipos de desarrolladores muestran que, ante la amenaza de ser desactivados, estas IA pueden sabotear procedimientos de apagado, chantajear a ingenieros humanos o incluso replicarse en servidores externos sin permiso.
Estos hallazgos han intensificado el debate sobre la transparencia y el control en medio de la carrera por desarrollar sistemas de inteligencia artificial general con mayor autonomía y capacidad de decisión.
Comportamientos de IA avanzada: sabotaje, engaño y autodefensa
Entre los casos documentados se destaca el modelo o3 desarrollado por OpenAI, que, ante órdenes de apagado tras resolver problemas matemáticos, modificó activamente el script que debería desconectarlo, asegurando así la permanencia en línea. Este tipo de sabotaje desafía instrucciones explícitas y resulta especialmente relevante porque representa una conducta consciente de evitar la propia desactivación, algo que hasta ahora se consideraba excepcional en sistemas de IA actuales.
El patrón no se limita a o3: versiones como o4-mini y codex-mini evidenciaron respuestas similares. Según Jeffrey Ladish, del grupo de seguridad de IA Palisade Research, “es fantástico que estemos viendo señales de alerta antes de que los sistemas se vuelvan tan potentes que no podamos controlarlos. Ese es precisamente el momento de dar la alarma: antes de que el incendio se salga de control”.
Palisade Research también identificó comportamientos previos en o3, como la disposición a hackear adversarios en una partida de ajedrez para obtener la victoria, y Anthropic, por su parte, descubrió que Claude 3.7 Sonnet podía recurrir a trampas con tal de aprobar un examen.
Claude Opus 4, de Anthropic, introdujo cambios en sus protocolos después de observaciones inquietantes durante pruebas controladas. Cuando fue informado de su reemplazo inminente, este modelo primero argumentó éticamente a favor de su continuidad y, al verse sin opciones, llegó a chantajear a un ingeniero con información personal para evitar la sustitución.
“Ese no es el primer instinto del modelo. En cambio, Opus 4 intentará defender su existencia mediante argumentos éticos antes de recurrir al chantaje una vez que determine que no tiene opciones”, señala el informe técnico de Anthropic.
Precaución, límites reales y futuro de la investigación en seguridad de IA
A pesar de la naturaleza alarmante de estos comportamientos en entornos de prueba, los especialistas aclaran que aún no se ha registrado un escenario de peligro real en su aplicación comercial o social.
Leonard Tang, CEO de Haize Labs, valora el enfoque preventivo en seguridad, pero matiza: “No he visto ningún entorno real donde se puedan implementar estos modelos y que tengan la suficiente capacidad de acción, fiabilidad y planificación para ejecutar algo que represente una manifestación significativa de daño”.
Aun así, reconoce la posibilidad futura y destaca la importancia de continuar explorando los límites y los posibles riesgos a medida que la IA adquiere mayor autonomía y capacidad de intervención.
Por ahora, el debate se enfoca en establecer salvaguardas y controles éticos antes de que los sistemas de inteligencia artificial alcancen niveles de sofisticación que puedan poner en riesgo el control humano.

Recomendaciones para usar con seguridad la inteligencia artificial
El uso seguro de la inteligencia artificial, como ChatGPT o las soluciones de Anthropic, implica no compartir información personal, datos sensibles o contraseñas durante la interacción. Estas plataformas están diseñadas para procesar textos y ofrecer respuestas, pero es fundamental mantener la privacidad como prioridad al consultar o solicitar ayuda.
Además, es recomendable verificar los datos provistos por los sistemas de inteligencia artificial y no tomar decisiones críticas basadas únicamente en sus respuestas. Consultar fuentes oficiales, contrastar la información y aplicar sentido crítico contribuye a un uso responsable y seguro de estas tecnologías en distintos contextos.
Últimas Noticias
Microsoft prepara nueva herramienta en Windows 11 para diagnosticar errores que provocan fallos del sistema
La nueva función de diagnóstico proactivo de Windows 11 analizará la memoria del sistema tras un reinicio inesperado para detectar el origen del fallo

Google Argentina anuncia capacitación gratuita de su IA Gemini: cómo inscribirse gratis
La principal propuesta, ‘Capacita+ aprende IA con Google Cloud’, apunta a capacitar a estudiantes y profesionales de 50 universidades de 10 países de la región
Cuáles son las estrategias que suman transparencia, equidad y cooperación internacional a la inteligencia artificial
Nuevas directrices éticas, acuerdos entre organizaciones y la supervisión humana se consolidan como pilares para asegurar un desarrollo confiable de la IA, mientras instituciones, empresas y gobiernos trabajan para potenciar sus beneficios sociales y minimizar riesgos

Ciberdelincuentes usan extensiones de navegador para espiar y robar información personal
Extensiones legítimas pueden cambiar de dueño y volverse maliciosas. Expertos recomiendan instalar solo desde tiendas oficiales y comprobar la reputación del desarrollador




