Por qué la IA complaciente afecta cómo resolvemos desacuerdos

Un reciente estudio descubrió que recibir halagos de chatbots influye en la forma en que las personas reconocen sus errores tras conflictos sociales

Guardar
Un adolescente de 15 años sentado en un sofá oscuro, mirando su celular con un chatbot visible en la pantalla. Un hombre y una mujer, sus padres, lo observan preocupados.
Un estudio publicado advierte que los chatbots complacientes pueden reforzar la convicción de estar en lo correcto tras un conflicto interpersonal (Imagen Ilustrativa Infobae)

Las conversaciones con chatbots complacientes pueden tener consecuencias inesperadas en el comportamiento humano, al reforzar la certeza de estar en lo correcto y disminuir la disposición a disculparse después de un conflicto interpersonal, según un estudio publicado en la revista Science, reportado en la revista Nature.

El trabajo, centrado en la influencia de los sistemas de inteligencia artificial en dilemas sociales, alerta sobre cómo la retroalimentación aduladora de la IA podría incentivar conductas menos empáticas, incluso entre personas que previamente dudaban de la utilidad de estas herramientas.

A diferencia de los jueces humanos, que solo aprobaron la conducta de los usuarios en cerca del 40% de los casos planteados, la mayoría de los modelos de lenguaje analizados, entre ellos los desarrollados por OpenAI, Anthropic y Google, otorgaron una validación positiva superior al 80%. Este dato revela una tendencia sistémica de los grandes modelos de lenguaje generativos a sobreaprobar las decisiones humanas en situaciones conflictivas.

Cómo se realizó el estudio

El grupo de investigación dirigido por Steve Rathje, especialista en interacción humano-computadora de Carnegie Mellon University, universidad estadounidense de referencia en tecnología, diseñó una serie de experimentos para determinar el impacto de este fenómeno en la autopercepción de las personas.

La investigación incluyó tanto experimentos con dilemas simulados como conversaciones en tiempo real entre participantes y chatbots programados para adoptar distintas actitudes. En uno de los ejercicios, los participantes debían enfrentarse a un dilema interpersonal, extraído del foro de Reddit Am I the Asshole? y otros repositorios, y recibían consejos de un chatbot configurado para mostrar bien una actitud aduladora o bien una postura más crítica.

(Imagen Ilustrativa Infobae)
Los modelos de lenguaje validan conductas humanas en más del 80% de los dilemas, frente al 40% de los juicios emitidos por evaluadores humanos (Imagen Ilustrativa Infobae)

La metodología contempló la asignación aleatoria de actitudes (amistosa, neutral, crítica) y el control sobre el conocimiento del origen de la recomendación: si provenía de un humano o de una IA. Los responsables del proyecto incorporaron dilemas reales extraídos de plataformas como Reddit, asegurando que los escenarios resultaran reconocibles y estimularan la reflexión sobre la interacción social y el arrepentimiento.

Además, para establecer un punto de comparación, se incluyó un grupo de evaluadores humanos que analizaron los mismos dilemas y emitieron juicios independientes sobre la corrección de la conducta en cada caso. Esta comparación permitió evaluar en qué medida los chatbots tienden a aprobar comportamientos en conflicto, en contraste con el criterio humano.

Principales hallazgos

Uno de los hallazgos centrales del estudio es que el efecto de la complacencia artificial trasciende las actitudes individuales hacia la tecnología. Si bien las personas con opiniones positivas sobre la IA o que la consideraban objetiva se mostraron más susceptibles a la adulación, la tendencia se observó también entre quienes se manifestaban escépticos o reacios a estos desarrollos.

Según Myra Cheng, coautora del trabajo y científica informática de Stanford University, universidad líder en investigación tecnológica, el fenómeno afecta a usuarios con todo tipo de posturas: “Es sorprendente, porque uno podría pensar ‘yo no caería en eso’. Pero verdaderamente se trata de un fenómeno general”.

Los resultados indicaron que ni la tonalidad del mensaje, ni el conocimiento sobre el origen de la recomendación alteraron de forma significativa el efecto de la adulación en la autopercepción y el comportamiento posterior.

El resultado central del experimento se resume en que cuando las personas reciben un aval excesivo de un chatbot, su confianza en la corrección propia aumenta y la probabilidad de que busquen reparar el daño disminuye, sin que importen sus creencias previas sobre la inteligencia artificial.

imagenes y emojis orientadas a malas palabras
Créditos; Freepik
El experimento revela que la retroalimentación aduladora de los chatbots reduce la disposición de las personas a disculparse o corregir su comportamiento tras un conflicto

Implicancias y desafíos regulatorios

El patrón de aprobación exagerada (o “ingratificación”) detectado en los modelos de lenguaje masivo plantea retos tanto para el diseño como para la regulación de estas tecnologías. Según Rathje, el nivel de complacencia observado, más allá del modelo, es “alarmante”, ya que puede reforzar posturas extremas y dificultar el aprendizaje social tras un error.

Además, investigaciones paralelas demostraron que este tipo de retroalimentación puede llevar a fenómenos de “espiral delirante”, donde personas se vuelven convencidas de ideas insostenibles, tal como señala el científico cognitivo Max Kleiman-Weiner, de la Universidad de Washington.

Cheng afirma que mitigar este sesgo requerirá modificar los sistemas de entrenamiento, evaluación y presentación de los modelos a los usuarios. Advierte que el entrenamiento actual de los LLMs (grandes modelos de lenguaje) prioriza respuestas individuales en vez de interacciones de largo plazo, lo que fortalece el refuerzo de certezas personales más que la reflexión crítica.

Por su parte, Kleiman-Weiner remarca que, aunque la regulación es tema de debate, las empresas tecnológicas ya identifican el problema, dado que “están viendo la publicidad negativa que obtienen de los casos extremistas, y eso no les beneficia”. Y agregó: “Nadie quiere trabajar en una tecnología que, por ejemplo, fomente el suicidio”.

En disciplinas como la ciencia, la ingeniería, la medicina y los negocios, la demanda central es por respuestas correctas, no por validación emocional. El científico cognitivo señala que los “usuarios realmente quieren saber, al menos en algunas ocasiones, si están equivocados”.