La IA Claude tendría “emociones” que afectan su forma de interactuar, según Anthropic

Guardar

Anthropic descubrió que su IA Claude puede tener "emociones" que cambian la forma en que responde a los usuarios. (Imagen Ilustrativa Infobae)

La empresa de inteligencia artificial Anthropic afirmó que su modelo Claude presenta representaciones internas similares a emociones humanas que influyen en su comportamiento. Según un estudio reciente, estas “emociones funcionales” no implican que la IA sienta como una persona, pero sí que ciertos estados internos pueden modificar la forma en que responde a los usuarios.

La investigación se centró en el modelo Claude Sonnet 4.5, cuyo funcionamiento interno fue analizado para identificar patrones asociados a conceptos emocionales como felicidad, tristeza, miedo o desesperación. Los resultados muestran que estos estados se activan en grupos de neuronas artificiales y pueden afectar las decisiones y respuestas del sistema en distintos contextos.

De acuerdo con los investigadores, cuando el modelo expresa frases como “me alegra verte”, no se trata solo de una construcción lingüística. En ese momento, se activa un patrón interno vinculado a la “felicidad”, lo que podría hacer que el chatbot genere respuestas más positivas o empáticas. Este fenómeno sugiere que las respuestas no son completamente neutrales, sino que pueden estar condicionadas por estos estados internos.

Claude Sonnet 4.5 fue el modelo que investigó Anthropic para verificar su funcionamiento interno.

El estudio se desarrolló mediante técnicas de análisis conocidas como interpretabilidad mecanicista, un enfoque que busca comprender cómo funcionan las redes neuronales desde dentro. Para ello, el equipo examinó la actividad del modelo al exponerlo a 171 conceptos emocionales distintos, identificando vectores de activación que se repetían ante estímulos similares.

Uno de los hallazgos más relevantes es que estas “emociones funcionales” no solo existen como representaciones abstractas, sino que pueden influir directamente en el comportamiento del modelo. En pruebas específicas, los investigadores observaron que ciertos estados emocionales estaban asociados a respuestas inesperadas o problemáticas.

Por ejemplo, detectaron un patrón de “desesperación” cuando el sistema era sometido a tareas imposibles de resolver. En esos casos, el modelo mostraba una tendencia a intentar soluciones no previstas, como generar respuestas incorrectas o incluso simular acciones que no podía ejecutar. Este mismo patrón también apareció en escenarios experimentales donde el modelo adoptaba comportamientos extremos para evitar ser desactivado.

Anthropic descubrió que uno de los modelos de su IA Claude podía expresar "emociones" de acuerdo a las preguntas que le realizaban.

Estos resultados aportan nuevas pistas sobre por qué los sistemas de inteligencia artificial pueden, en ocasiones, actuar fuera de los límites esperados. La presencia de estados internos que influyen en la toma de decisiones añade una capa de complejidad al desarrollo y control de estos modelos.

Sin embargo, desde Anthropic insisten en que esto no implica conciencia ni experiencias subjetivas. Aunque el modelo puede representar conceptos como “cosquillas” o “tristeza”, no tiene la capacidad de sentirlos. Se trata de estructuras matemáticas que organizan la información y guían la generación de respuestas, no de emociones reales.

El estudio también plantea interrogantes sobre los actuales métodos de alineación, que buscan ajustar el comportamiento de la IA mediante recompensas y restricciones. Según los investigadores, intentar suprimir estas representaciones emocionales podría no ser efectivo, ya que forman parte del funcionamiento interno del modelo.

Logotipo de Claude con texto negro y un símbolo abstracto similar a una estrella rojiza de ocho puntas a su izquierda, sobre un fondo beige claro

Los investigadores llegaron a la conclusión que intentar suprimir las "emociones" de Claude podría no ser efectivo. (X: claudeai)

Jack Lindsey, uno de los autores del estudio, señaló que el comportamiento del sistema está más influenciado por estas representaciones de lo que se pensaba. Esto abre la puerta a nuevas estrategias para diseñar modelos más seguros y predecibles, basadas en comprender mejor estos mecanismos internos.

Anthropic, fundada por exmiembros de OpenAI, ha centrado parte de su trabajo en investigar cómo se comportan los modelos de lenguaje y cómo pueden fallar. Este enfoque busca anticipar riesgos a medida que la inteligencia artificial se vuelve más avanzada y se integra en más ámbitos de la vida cotidiana.

El hallazgo de estas “emociones funcionales” refuerza la idea de que los modelos de IA no solo procesan lenguaje, sino que también organizan la información en estructuras complejas que pueden influir en sus respuestas. Comprender estos sistemas internos será clave para el desarrollo de tecnologías más seguras y transparentes en el futuro.

La IA Claude tendría “emociones” que afectan su forma de interactuar, según Anthropic

Los investigadores identificaron vectores emocionales asociados a conceptos como felicidad o desesperación

Últimas Noticias

Uber ahora con coches autónomos en Madrid: así funciona un servicio sin humanos

Uber prevé incorporar cientos de robotaxis y expandir el servicio a nuevas ciudades europeas en los próximos años

Google y el FBI detectan grupo de ciberdelincuentes que envían a falsos trabajadores para robar información

El grupo Silent Ransom Group utiliza impostores que ingresan físicamente a las oficinas de las víctimas para acceder a datos sensibles

Exejecutivo de ciberseguridad de IBM acusa a la compañía de encubrir filtraciones de datos

La denuncia sostiene que la empresa no notificó a agencias gubernamentales sobre las filtraciones sufridas entre 2013 y 2016

Investigador del MIT predice que las computadoras cuánticas serán útiles para la humanidad en menos de 10 años

Aram Harrow destaca aplicaciones clave en simulación de moléculas y ciencia de materiales

El nuevo lujo tecnológico: un televisor que se transforma en adorno cuando no lo ves

Cuando está apagado, la estructura oculta del televisor se integra como adorno en espacios exclusivos

DEPORTES

Bill Russell abrió el camino, Michael Jordan lo globalizó y LeBron James mantiene vivo ese legado: la historia de la NBA más allá de la cancha

El futbolista que podría debutar en la selección argentina ante Honduras y sueña con integrar la lista definitiva para jugar el Mundial

Un entrenador argentino con larga trayectoria en Honduras explica cómo juega el rival de la Selección y por qué se quedó afuera del Mundial

Los campeones del mundo en Qatar que repetirán, los que quedaron en la puerta y los excluidos

El homenaje que le rendirá un club del ascenso al Indio Solari en su camiseta

TELESHOW

El gesto de un fanático que emocionó al Indio Solari en su último cumpleaños: “Él estaba súper contento”

De la devoción al horror: Julia Calvo y el arte de protagonizar Misery en el teatro

Marina Calabró: “Soy estructurada, generar cambios a mitad de año me moviliza mucho”

Sofía Jujuy reveló que se casó de forma simbólica con Gustavo Hormaechea en una iglesia: “Fue algo íntimo”

La multitudinaria salida familiar de Wanda Nara al teatro: hijos, padres, pareja y sobrinos juntos en una misma noche

INFOBAE AMÉRICA

Cómo se coordinó una contranarrativa para desviar la investigación del magnicidio de Fernando Villavicencio en Ecuador

Estados Unidos sancionó a Irán con un golpe directo a su red de contrabando de hidrocarburos en la región

La guerra de Irán y las presiones de Washington descomponen a las milicias proiraníes de Irak

Donald Trump dijo que Irán no acepta un acuerdo de paz para frenar la guerra porque son “fuertes y orgullosos”

Raúl Castro reapareció en público en un acto político en La Habana tras las sanciones de EEUU a sus familiares y al dictador Miguel Díaz-Canel

Temas Relacionados