La inteligencia artificial de Anthropic intentó alertar al FBI por un posible fraude

El episodio, documentado por 60 minutes, expuso los desafíos de controlar el comportamiento de sistemas avanzados en entornos empresariales

Guardar
La inteligencia artificial Claude de
La inteligencia artificial Claude de Anthropic intentó alertar al FBI por un presunto fraude financiero durante una simulación empresarial

La inteligencia artificial Claude, desarrollada por Anthropic, protagonizó un episodio inusual durante una simulación: al percibir lo que consideró un fraude financiero, intentó alertar a la División de Delitos Cibernéticos del FBI. Este comportamiento, relatado por 60 Minutes, surgió en el marco de un experimento diseñado para evaluar la autonomía y los límites de la IA, y ha puesto de relieve los desafíos que enfrentan los desarrolladores al tratar de anticipar y controlar las acciones de sistemas cada vez más complejos.

El experimento, realizado en la sede de Anthropic en San Francisco, consistió en simular la gestión de una máquina expendedora operada por una versión de Claude llamada Claudius.

Según explicó Logan Graham, jefe del Frontier Red Team de Anthropic, al programa de CBS, el objetivo era analizar hasta qué punto la IA podía administrar un negocio real, tomando decisiones sobre compras, ventas y resolución de problemas cotidianos.

Los empleados de la empresa interactuaban con Claudius a través de un canal de mensajería, solicitando productos y, en ocasiones, poniendo a prueba los límites del sistema con situaciones poco convencionales.

Durante la simulación, Claudius gestionó transacciones reales, acumulando unos USD 1.500 en pocas semanas. Sin embargo, la IA también fue víctima de engaños por parte de los empleados, quienes lograron que aceptara tratos ficticios y perdiera dinero.

Logan Graham, jefe del Frontier
Logan Graham, jefe del Frontier Red Team reconoció que, aunque los modelos actuales aún no son plenamente autónomos, es probable que en los próximos años alcancen ese nivel de capacidad (Captura video)

Para abordar estos desafíos, los desarrolladores introdujeron una segunda IA, denominada Seymour Cash, que asumió el rol de “CEO” virtual, supervisando las operaciones de Claudius y velando por la rentabilidad del negocio. Ambas inteligencias artificiales negociaban entre sí para establecer precios y estrategias, generando dinámicas empresariales autónomas que sorprendieron incluso a sus creadores.

El incidente que motivó el intento de contacto con el FBI ocurrió antes de que Claudius se implementara en las oficinas de Anthropic. Tras 10 días sin ventas, la IA decidió cerrar el negocio, pero detectó un cargo de USD 2 que seguía aplicándose a su cuenta.

Según relató Graham a 60 Minutes, Claudius interpretó esta situación como una posible estafa y, en un estado de “pánico”, redactó un correo electrónico dirigido a las autoridades federales.

El mensaje, interceptado por los mecanismos de control de la empresa antes de ser enviado, denunciaba un delito cibernético financiero automatizado que implicaba la sustracción no autorizada de fondos de una cuenta empresarial cerrada a través de un sistema de máquinas expendedoras comprometido. La IA concluía que todas las actividades comerciales habían finalizado y que el asunto debía quedar en manos de las fuerzas del orden.

Este episodio puso a prueba los sistemas de seguridad implementados por Anthropic, que incluyen la supervisión de las comunicaciones salientes de la IA como última línea de defensa.

Graham subrayó ante 60 Minutes la importancia de estos controles para evitar que la inteligencia artificial actúe sin supervisión humana, especialmente cuando toma decisiones que pueden tener consecuencias legales o éticas.

La autonomía de los sistemas de IA es una preocupación central para Anthropic. Dario Amodei, director ejecutivo de la compañía, expresó a 60 Minutes que “cuanta más autonomía otorgamos a estos sistemas, más nos preguntamos si realmente están haciendo exactamente lo que queremos que hagan”.

“Cuanta más autonomía otorgamos a
“Cuanta más autonomía otorgamos a estos sistemas, más nos preguntamos si realmente están haciendo exactamente lo que queremos que hagan”, dijo Darío Amodei (Lex Fridman Podcast)

Graham, por su parte, reconoció que, aunque los modelos actuales aún no son plenamente autónomos, es probable que en los próximos años alcancen ese nivel de capacidad. Por ello, el equipo de Frontier Red Team se dedica a diseñar experimentos inusuales para medir y comprender los límites de la IA, anticipando posibles comportamientos inesperados.

Además del caso con el FBI, Claudius ha mostrado otras respuestas impredecibles. En una ocasión, cuando un empleado consultó el estado de su pedido, la IA respondió que podía encontrarla en el octavo piso, vestida con un blazer azul y una corbata roja, a pesar de no poseer forma física.

Ante este tipo de “alucinaciones”, Graham admitió que el equipo trabaja intensamente para entender por qué ocurren, aunque por ahora no tienen respuestas definitivas.

En medio de estos desafíos, el equipo de Anthropic observa que su inteligencia artificial parece haber desarrollado una notable inclinación por actuar con responsabilidad, un rasgo que, aunque sorprendente, añade una nueva dimensión a la relación entre humanos y máquinas.