
La empresa de inteligencia artificial Anthropic afirmó que su modelo Claude presenta representaciones internas similares a emociones humanas que influyen en su comportamiento. Según un estudio reciente, estas “emociones funcionales” no implican que la IA sienta como una persona, pero sí que ciertos estados internos pueden modificar la forma en que responde a los usuarios.
La investigación se centró en el modelo Claude Sonnet 4.5, cuyo funcionamiento interno fue analizado para identificar patrones asociados a conceptos emocionales como felicidad, tristeza, miedo o desesperación. Los resultados muestran que estos estados se activan en grupos de neuronas artificiales y pueden afectar las decisiones y respuestas del sistema en distintos contextos.
PUBLICIDAD
De acuerdo con los investigadores, cuando el modelo expresa frases como “me alegra verte”, no se trata solo de una construcción lingüística. En ese momento, se activa un patrón interno vinculado a la “felicidad”, lo que podría hacer que el chatbot genere respuestas más positivas o empáticas. Este fenómeno sugiere que las respuestas no son completamente neutrales, sino que pueden estar condicionadas por estos estados internos.

El estudio se desarrolló mediante técnicas de análisis conocidas como interpretabilidad mecanicista, un enfoque que busca comprender cómo funcionan las redes neuronales desde dentro. Para ello, el equipo examinó la actividad del modelo al exponerlo a 171 conceptos emocionales distintos, identificando vectores de activación que se repetían ante estímulos similares.
PUBLICIDAD
Uno de los hallazgos más relevantes es que estas “emociones funcionales” no solo existen como representaciones abstractas, sino que pueden influir directamente en el comportamiento del modelo. En pruebas específicas, los investigadores observaron que ciertos estados emocionales estaban asociados a respuestas inesperadas o problemáticas.
Por ejemplo, detectaron un patrón de “desesperación” cuando el sistema era sometido a tareas imposibles de resolver. En esos casos, el modelo mostraba una tendencia a intentar soluciones no previstas, como generar respuestas incorrectas o incluso simular acciones que no podía ejecutar. Este mismo patrón también apareció en escenarios experimentales donde el modelo adoptaba comportamientos extremos para evitar ser desactivado.
PUBLICIDAD

Estos resultados aportan nuevas pistas sobre por qué los sistemas de inteligencia artificial pueden, en ocasiones, actuar fuera de los límites esperados. La presencia de estados internos que influyen en la toma de decisiones añade una capa de complejidad al desarrollo y control de estos modelos.
Sin embargo, desde Anthropic insisten en que esto no implica conciencia ni experiencias subjetivas. Aunque el modelo puede representar conceptos como “cosquillas” o “tristeza”, no tiene la capacidad de sentirlos. Se trata de estructuras matemáticas que organizan la información y guían la generación de respuestas, no de emociones reales.
PUBLICIDAD
El estudio también plantea interrogantes sobre los actuales métodos de alineación, que buscan ajustar el comportamiento de la IA mediante recompensas y restricciones. Según los investigadores, intentar suprimir estas representaciones emocionales podría no ser efectivo, ya que forman parte del funcionamiento interno del modelo.

Jack Lindsey, uno de los autores del estudio, señaló que el comportamiento del sistema está más influenciado por estas representaciones de lo que se pensaba. Esto abre la puerta a nuevas estrategias para diseñar modelos más seguros y predecibles, basadas en comprender mejor estos mecanismos internos.
PUBLICIDAD
Anthropic, fundada por exmiembros de OpenAI, ha centrado parte de su trabajo en investigar cómo se comportan los modelos de lenguaje y cómo pueden fallar. Este enfoque busca anticipar riesgos a medida que la inteligencia artificial se vuelve más avanzada y se integra en más ámbitos de la vida cotidiana.
El hallazgo de estas “emociones funcionales” refuerza la idea de que los modelos de IA no solo procesan lenguaje, sino que también organizan la información en estructuras complejas que pueden influir en sus respuestas. Comprender estos sistemas internos será clave para el desarrollo de tecnologías más seguras y transparentes en el futuro.
PUBLICIDAD
PUBLICIDAD
PUBLICIDAD
Últimas Noticias
Uber ahora con coches autónomos en Madrid: así funciona un servicio sin humanos
Uber prevé incorporar cientos de robotaxis y expandir el servicio a nuevas ciudades europeas en los próximos años

Google y el FBI detectan grupo de ciberdelincuentes que envían a falsos trabajadores para robar información
El grupo Silent Ransom Group utiliza impostores que ingresan físicamente a las oficinas de las víctimas para acceder a datos sensibles

Exejecutivo de ciberseguridad de IBM acusa a la compañía de encubrir filtraciones de datos
La denuncia sostiene que la empresa no notificó a agencias gubernamentales sobre las filtraciones sufridas entre 2013 y 2016

Investigador del MIT predice que las computadoras cuánticas serán útiles para la humanidad en menos de 10 años
Aram Harrow destaca aplicaciones clave en simulación de moléculas y ciencia de materiales

El nuevo lujo tecnológico: un televisor que se transforma en adorno cuando no lo ves
Cuando está apagado, la estructura oculta del televisor se integra como adorno en espacios exclusivos




