
La inteligencia artificial enfrenta un dilema inesperado: mientras sus modelos se vuelven más potentes y versátiles, también se están volviendo más proclives a cometer alucinaciones.
Lejos de ser un problema resuelto, estos errores se están intensificando en los modelos más recientes, incluyendo aquellos desarrollados por empresas como OpenAI y DeepSeek. Aunque estas plataformas prometen mayor razonamiento, comprensión y contexto, sus sistemas tienden a inventar hechos con más frecuencia que antes.
Cómo la IA actual está alucinando
El episodio más reciente se produjo con Cursor, una herramienta de programación respaldada por inteligencia artificial. Según reportó The New York Times, un bot de soporte técnico automatizado, basado en IA, informó a los usuarios que ya no podían utilizar el software en más de una computadora.
La falsa actualización de políticas provocó malestar en foros, cancelaciones de cuentas y múltiples reclamos. Pero, como aclaró públicamente Michael Truell, CEO de la empresa, esa restricción jamás existió. “Por desgracia, esta es una respuesta incorrecta de un bot de soporte de IA de primera línea”, escribió en Reddit.

No se trató de un incidente aislado. De hecho, estas fallas se han vuelto comunes desde el despliegue masivo de ChatGPT en 2022. Más de dos años después, los modelos más modernos no solo no han resuelto el problema, sino que lo han agravado.
Como afirma Amr Awadallah, ex ejecutivo de Google y fundador de la empresa Vectara: “Por más que nos esforcemos, siempre van a alucinar. Eso no va a desaparecer”.
Por qué las alucinaciones no desaparecen
La raíz del problema está en la propia arquitectura de los modelos de lenguaje. Estos sistemas no comprenden la verdad ni verifican hechos: predicen cuál es la respuesta más probable basándose en patrones estadísticos aprendidos de grandes cantidades de texto. Si los datos son insuficientes o contradictorios, el modelo puede generar respuestas plausibles pero completamente falsas.
OpenAI ha reconocido esta limitación de forma explícita. En pruebas internas con el benchmark PersonQA, que mide la precisión al responder preguntas sobre personajes públicos, su modelo o3 alucinó el 33% de las veces, más del doble que su predecesor, o1. El nuevo o4-mini tuvo una tasa de error aún mayor: 48%. En otra prueba, SimpleQA, centrada en preguntas generales, los índices de alucinación se dispararon hasta el 79%.

La ironía es evidente: los modelos más recientes, diseñados para razonar paso a paso mediante lo que se conoce como cadena de pensamiento, parecen tropezar más en ese mismo proceso.
A medida que “piensan” en etapas, cualquier error en un paso inicial se propaga y amplifica en la respuesta final. Y aunque los modelos modernos intentan hacer transparente ese razonamiento intermedio, los investigadores han demostrado que muchas veces los pasos no tienen relación con la conclusión.
Cuáles son las consecuencias de estas alucinaciones
Las consecuencias de estas alucinaciones pueden ser más que meras curiosidades. Existen casos documentados, como el del abogado estadounidense que presentó ante un juez documentos generados por ChatGPT. Eran redactados de forma impecable, pero se basaban en jurisprudencia inexistente. El modelo había inventado los casos legales.
El riesgo se vuelve crítico cuando se aplican modelos de IA a tareas sensibles, como la consulta de información médica, el análisis de documentos legales o el procesamiento de datos empresariales. “Si no resolvés esto, se elimina el valor de usar IA: automatizar tareas”, advirtió Pratik Verma, CEO de Okahu, a New York Times.

Incluso buscadores, que integran modelos de lenguaje en sus motores, han incurrido en errores ridículos. Desde recomendar maratones en Filadelfia como si se encontraran en la costa oeste hasta citar fuentes inexistentes sobre el número de hogares en Illinois, los fallos son frecuentes.
Y algunos no son geográficamente ajenos: ChatGPT afirmó que Uruguay tiene 5,2 millones de habitantes, inventó un festival de cine en Maldonado y un ministerio que nunca existió.
Qué están haciendo las empresas para buscar una solución
La respuesta de las grandes tecnológicas ha sido ambivalente. Por un lado, reconocen el problema y aseguran estar trabajando activamente para reducir las tasas de alucinación. Por otro, continúan lanzando modelos más complejos, a menudo sin explicar del todo por qué alucinan más.
OpenAI ha admitido que “seguiremos investigando las alucinaciones en todos los modelos para mejorar la precisión y la fiabilidad”, declaró su vocera Gaby Raila. Pero hasta ahora, no hay un método definitivo para detectar y corregir estas fallas en tiempo real.

Otras empresas, como Vectara, han desarrollado pruebas externas para medir las alucinaciones. Piden a los modelos que resuman artículos de noticias fácilmente verificables y miden cuánta información falsa introducen.
Aunque algunas mejoras se han observado, de hasta el 1 o 2% en ciertos casos, los modelos de razonamiento siguen mostrando picos de error. El DeepSeek R1 alucinó el 14,3% del tiempo, mientras que el o3 de OpenAI llegó al 6,8%.
Últimas Noticias
Apagar el WiFi del celular al salir de casa: por qué es importante hacerlo
Existe la posibilidad de que el teléfono móvil se vincule automáticamente a redes abiertas, comprometiendo la seguridad de tu información

Sam Altman, CEO de OpenAI, predice que la IA hará un descubrimiento científico clave en los próximos dos años
El CEO de OpenAI cree que los modelos actuales ya pueden responder preguntas técnicas con precisión sorprendente
Guía para elegir si comprar un vehículo manual o uno automático
Factores como la inversión inicial, los gastos de reparación y la eficiencia en combustible influyen en la selección del tipo de caja, según fabricantes de autos como BMW

Starlink ofrece descuentos en Argentina: plan itinerante y Starlink Mini bajaron de precio
El servicio itinerante de 50 GB ahora tiene un costo de ARS 44.100 mensuales durante los primeros seis meses, frente a los ARS 63.000 habituales

Segunda temporada de FACEOFF: Inside the NHL ya está disponible en colaboración con EA SPORTS y Prime Video
El videojuego de hockey llega con un evento HUT de duración limitada donde los jugadores podrán obtener artículos exclusivos, desafíos especiales y recompensas
