
OpenAI ha reconocido que su navegador de inteligencia artificial ChatGPT Atlas sigue siendo vulnerable a ciberataques del tipo inyección de instrucciones, un problema que la propia compañía admite que no podrá eliminar completamente. A pesar de los refuerzos implementados en la seguridad de Atlas, la empresa sostiene que estos ataques, capaces de manipular agentes de IA mediante órdenes ocultas en correos electrónicos o páginas web, representan un reto persistente en la seguridad en inteligencia artificial.
La compañía equipara la inyección de instrucciones con fraudes y la manipulación social frecuentes en internet, y advierte: “Es poco probable que este problema se pueda resolver algún día de manera total”. OpenAI reconoce que el “modo agente” en ChatGPT Atlas amplía de manera significativa la superficie de ataque, una preocupación que no es exclusiva de la empresa.
El Centro Nacional de Ciberseguridad del Reino Unido también ha indicado que los ataques de inyección de instrucciones probablemente “nunca podrán mitigarse por completo” en aplicaciones de IA generativa, por lo que recomienda a los profesionales de ciberseguridad enfocarse en reducir el riesgo y el impacto, más que en eliminar el problema.
La inyección de instrucciones consiste en diseñar frases o fragmentos maliciosos que, al ser procesados por un agente de IA, logran modificar su comportamiento. Investigadores y empresas como Brave han demostrado que unas pocas palabras integradas en documentos o correos electrónicos pueden hacer que navegadores como Atlas, o sistemas similares como Comet de Perplexity, ejecuten acciones no previstas.
OpenAI presentó ejemplos donde un mensaje malicioso en la bandeja de entrada llevó al agente a enviar una renuncia, en lugar de generar una respuesta automática de ausencia. Tras una reciente actualización, el sistema pudo alertar a la persona ante este intento, explicó la compañía.
Para responder a este desafío, OpenAI ha implementado un ciclo proactivo de defensa ágil, orientado a detectar nuevas tácticas de ataque antes de que sean explotadas en escenarios reales. El núcleo de esta estrategia es un “atacante automático”, una inteligencia artificial entrenada mediante aprendizaje por refuerzo para asumir el rol de un hacker interno.
Este bot ejecuta simulaciones de ataques en un entorno controlado, analiza las respuestas del sistema y ajusta sus tácticas en cada prueba, lo que permite identificar y corregir debilidades frente a ciberataques. Esta metodología, empleada también por empresas como Google y Anthropic, busca multiplicar los escenarios de prueba y acelerar los ciclos de actualización para robustecer las defensas de Atlas.
A pesar de los avances presentados, OpenAI no ha ofrecido datos que reflejen una disminución comprobable en la cantidad de ataques exitosos tras sus últimas mejoras de seguridad. Sí afirmó, a través de un portavoz, que desde antes del lanzamiento de Atlas colabora con equipos externos para fortalecer la protección ante inyecciones de instrucciones.
Expertos externos, como Rami McCarthy, investigador principal en la firma de ciberseguridad Wiz, consideran que el aprendizaje por refuerzo implementado por OpenAI es útil para adaptarse de manera constante al comportamiento de los atacantes, aunque resalta que esta es solo una parte de la solución.

McCarthy puntualiza que el riesgo en estos sistemas se determina al multiplicar la autonomía por el nivel de acceso otorgado, y advierte que los navegadores de agentes de IA se encuentran en una posición compleja al combinar autonomía intermedia con acceso muy elevado a información sensible. El especialista remarca la importancia de restringir el acceso a cuentas abiertas y exigir la revisión manual de cualquier solicitud de confirmación por parte de las personas usuarias, medidas que OpenAI también contempla entre sus recomendaciones.
OpenAI aconseja evitar conferir al agente acceso general a la bandeja de entrada y prefiere el uso de instrucciones concretas en lugar de autorizar acciones abiertas, además de establecer confirmaciones obligatorias antes de operaciones delicadas como envíos de mensajes o pagos. Según la compañía, permitir un margen de actuación demasiado amplio facilita la manipulación mediante contenidos ocultos o maliciosos, incluso si existen medidas de seguridad implementadas.
Sobre la relación entre el valor práctico de estos navegadores y los riesgos, McCarthy señala que, por ahora, la utilidad que aportan herramientas como Atlas no compensa el riesgo inherente vinculado a su acceso a datos sensibles. Este equilibrio podría modificarse en el futuro conforme la tecnología progrese, aunque actualmente las compensaciones todavía representan un dilema real.+
Últimas Noticias
Videojuegos para fortalecer la perseverancia en los niños, según la IA
Para profundizar en este tema, se consultó a dos de las principales inteligencias artificiales disponibles, Gemini y ChatGPT

Por qué descargar XUPER TV y Magis TV para ver películas en Navidad pone en peligro a tus dispositivos
Optar por vías oficiales con controles reforzados minimiza el riesgo de fraudes y protege el acceso rápido al entretenimiento familiar

Cómo armar la playlist en YouTube para animar las fiestas de fin de año
Uno de los mayores atractivos de las listas de reproducción es la posibilidad de visualizar todos los videos de forma continua

Qué aplicaciones tiene CZT, el raro material que está causando una revolución tecnológica
La incorporación del telururo de cadmio y zinc (CZT) en equipos médicos, de seguridad y científicos marca un salto tecnológico al ofrecer imágenes más precisas, rápidas y detalladas en múltiples industrias

Steam da el regalo perfecto para PC: juegos gratis y quedan pocas horas para tenerlos
Una de las opciones más destacadas es The Deed: Dynasty, una expansión independiente que invita a los usuarios a explorar relatos de intriga y crimen



