Verdad o mentira: la inteligencia artificial está alucinando más que antes a pesar de los avances que ha tenido

Estos sistemas siguen generando respuestas sin comprender la verdad, especialmente en casos más delicados

Guardar
Las alucinaciones en la IA
Las alucinaciones en la IA aumentan en los modelos más recientes según OpenAI y DeepSeek. (Imagen Ilustrativa Infobae)

La inteligencia artificial enfrenta un dilema inesperado: mientras sus modelos se vuelven más potentes y versátiles, también se están volviendo más proclives a cometer alucinaciones.

Lejos de ser un problema resuelto, estos errores se están intensificando en los modelos más recientes, incluyendo aquellos desarrollados por empresas como OpenAI y DeepSeek. Aunque estas plataformas prometen mayor razonamiento, comprensión y contexto, sus sistemas tienden a inventar hechos con más frecuencia que antes.

Cómo la IA actual está alucinando

El episodio más reciente se produjo con Cursor, una herramienta de programación respaldada por inteligencia artificial. Según reportó The New York Times, un bot de soporte técnico automatizado, basado en IA, informó a los usuarios que ya no podían utilizar el software en más de una computadora.

La falsa actualización de políticas provocó malestar en foros, cancelaciones de cuentas y múltiples reclamos. Pero, como aclaró públicamente Michael Truell, CEO de la empresa, esa restricción jamás existió. “Por desgracia, esta es una respuesta incorrecta de un bot de soporte de IA de primera línea”, escribió en Reddit.

Un bot de soporte técnico
Un bot de soporte técnico basado en IA provocó confusión y cancelaciones con información falsa sobre software. (Imagen Ilustrativa Infobae)

No se trató de un incidente aislado. De hecho, estas fallas se han vuelto comunes desde el despliegue masivo de ChatGPT en 2022. Más de dos años después, los modelos más modernos no solo no han resuelto el problema, sino que lo han agravado.

Como afirma Amr Awadallah, ex ejecutivo de Google y fundador de la empresa Vectara: “Por más que nos esforcemos, siempre van a alucinar. Eso no va a desaparecer”.

Por qué las alucinaciones no desaparecen

La raíz del problema está en la propia arquitectura de los modelos de lenguaje. Estos sistemas no comprenden la verdad ni verifican hechos: predicen cuál es la respuesta más probable basándose en patrones estadísticos aprendidos de grandes cantidades de texto. Si los datos son insuficientes o contradictorios, el modelo puede generar respuestas plausibles pero completamente falsas.

OpenAI ha reconocido esta limitación de forma explícita. En pruebas internas con el benchmark PersonQA, que mide la precisión al responder preguntas sobre personajes públicos, su modelo o3 alucinó el 33% de las veces, más del doble que su predecesor, o1. El nuevo o4-mini tuvo una tasa de error aún mayor: 48%. En otra prueba, SimpleQA, centrada en preguntas generales, los índices de alucinación se dispararon hasta el 79%.

OpenAI informó que su modelo
OpenAI informó que su modelo o4-mini alucina en un 48%, superando a versiones anteriores como el o3 y o1. (Imagen Ilustrativa Infobae)

La ironía es evidente: los modelos más recientes, diseñados para razonar paso a paso mediante lo que se conoce como cadena de pensamiento, parecen tropezar más en ese mismo proceso.

A medida que “piensan” en etapas, cualquier error en un paso inicial se propaga y amplifica en la respuesta final. Y aunque los modelos modernos intentan hacer transparente ese razonamiento intermedio, los investigadores han demostrado que muchas veces los pasos no tienen relación con la conclusión.

Cuáles son las consecuencias de estas alucinaciones

Las consecuencias de estas alucinaciones pueden ser más que meras curiosidades. Existen casos documentados, como el del abogado estadounidense que presentó ante un juez documentos generados por ChatGPT. Eran redactados de forma impecable, pero se basaban en jurisprudencia inexistente. El modelo había inventado los casos legales.

El riesgo se vuelve crítico cuando se aplican modelos de IA a tareas sensibles, como la consulta de información médica, el análisis de documentos legales o el procesamiento de datos empresariales. “Si no resolvés esto, se elimina el valor de usar IA: automatizar tareas”, advirtió Pratik Verma, CEO de Okahu, a New York Times.

Modelos de IA han inventado
Modelos de IA han inventado datos en consultas médicas, legales y análisis empresariales críticos. (Imagen Ilustrativa Infobae)

Incluso buscadores, que integran modelos de lenguaje en sus motores, han incurrido en errores ridículos. Desde recomendar maratones en Filadelfia como si se encontraran en la costa oeste hasta citar fuentes inexistentes sobre el número de hogares en Illinois, los fallos son frecuentes.

Y algunos no son geográficamente ajenos: ChatGPT afirmó que Uruguay tiene 5,2 millones de habitantes, inventó un festival de cine en Maldonado y un ministerio que nunca existió.

Qué están haciendo las empresas para buscar una solución

La respuesta de las grandes tecnológicas ha sido ambivalente. Por un lado, reconocen el problema y aseguran estar trabajando activamente para reducir las tasas de alucinación. Por otro, continúan lanzando modelos más complejos, a menudo sin explicar del todo por qué alucinan más.

OpenAI ha admitido que “seguiremos investigando las alucinaciones en todos los modelos para mejorar la precisión y la fiabilidad”, declaró su vocera Gaby Raila. Pero hasta ahora, no hay un método definitivo para detectar y corregir estas fallas en tiempo real.

Empresas como OpenAI y Vectara
Empresas como OpenAI y Vectara reconocen y miden alucinaciones, pero sin soluciones definitivas. (REUTERS/Dado Ruvic/Illustration/File Photo)

Otras empresas, como Vectara, han desarrollado pruebas externas para medir las alucinaciones. Piden a los modelos que resuman artículos de noticias fácilmente verificables y miden cuánta información falsa introducen.

Aunque algunas mejoras se han observado, de hasta el 1 o 2% en ciertos casos, los modelos de razonamiento siguen mostrando picos de error. El DeepSeek R1 alucinó el 14,3% del tiempo, mientras que el o3 de OpenAI llegó al 6,8%.