
La inteligencia artificial enfrenta un dilema inesperado: mientras sus modelos se vuelven más potentes y versátiles, también se están volviendo más proclives a cometer alucinaciones.
Lejos de ser un problema resuelto, estos errores se están intensificando en los modelos más recientes, incluyendo aquellos desarrollados por empresas como OpenAI y DeepSeek. Aunque estas plataformas prometen mayor razonamiento, comprensión y contexto, sus sistemas tienden a inventar hechos con más frecuencia que antes.
Cómo la IA actual está alucinando
El episodio más reciente se produjo con Cursor, una herramienta de programación respaldada por inteligencia artificial. Según reportó The New York Times, un bot de soporte técnico automatizado, basado en IA, informó a los usuarios que ya no podían utilizar el software en más de una computadora.
La falsa actualización de políticas provocó malestar en foros, cancelaciones de cuentas y múltiples reclamos. Pero, como aclaró públicamente Michael Truell, CEO de la empresa, esa restricción jamás existió. “Por desgracia, esta es una respuesta incorrecta de un bot de soporte de IA de primera línea”, escribió en Reddit.

No se trató de un incidente aislado. De hecho, estas fallas se han vuelto comunes desde el despliegue masivo de ChatGPT en 2022. Más de dos años después, los modelos más modernos no solo no han resuelto el problema, sino que lo han agravado.
Como afirma Amr Awadallah, ex ejecutivo de Google y fundador de la empresa Vectara: “Por más que nos esforcemos, siempre van a alucinar. Eso no va a desaparecer”.
Por qué las alucinaciones no desaparecen
La raíz del problema está en la propia arquitectura de los modelos de lenguaje. Estos sistemas no comprenden la verdad ni verifican hechos: predicen cuál es la respuesta más probable basándose en patrones estadísticos aprendidos de grandes cantidades de texto. Si los datos son insuficientes o contradictorios, el modelo puede generar respuestas plausibles pero completamente falsas.
OpenAI ha reconocido esta limitación de forma explícita. En pruebas internas con el benchmark PersonQA, que mide la precisión al responder preguntas sobre personajes públicos, su modelo o3 alucinó el 33% de las veces, más del doble que su predecesor, o1. El nuevo o4-mini tuvo una tasa de error aún mayor: 48%. En otra prueba, SimpleQA, centrada en preguntas generales, los índices de alucinación se dispararon hasta el 79%.

La ironía es evidente: los modelos más recientes, diseñados para razonar paso a paso mediante lo que se conoce como cadena de pensamiento, parecen tropezar más en ese mismo proceso.
A medida que “piensan” en etapas, cualquier error en un paso inicial se propaga y amplifica en la respuesta final. Y aunque los modelos modernos intentan hacer transparente ese razonamiento intermedio, los investigadores han demostrado que muchas veces los pasos no tienen relación con la conclusión.
Cuáles son las consecuencias de estas alucinaciones
Las consecuencias de estas alucinaciones pueden ser más que meras curiosidades. Existen casos documentados, como el del abogado estadounidense que presentó ante un juez documentos generados por ChatGPT. Eran redactados de forma impecable, pero se basaban en jurisprudencia inexistente. El modelo había inventado los casos legales.
El riesgo se vuelve crítico cuando se aplican modelos de IA a tareas sensibles, como la consulta de información médica, el análisis de documentos legales o el procesamiento de datos empresariales. “Si no resolvés esto, se elimina el valor de usar IA: automatizar tareas”, advirtió Pratik Verma, CEO de Okahu, a New York Times.

Incluso buscadores, que integran modelos de lenguaje en sus motores, han incurrido en errores ridículos. Desde recomendar maratones en Filadelfia como si se encontraran en la costa oeste hasta citar fuentes inexistentes sobre el número de hogares en Illinois, los fallos son frecuentes.
Y algunos no son geográficamente ajenos: ChatGPT afirmó que Uruguay tiene 5,2 millones de habitantes, inventó un festival de cine en Maldonado y un ministerio que nunca existió.
Qué están haciendo las empresas para buscar una solución
La respuesta de las grandes tecnológicas ha sido ambivalente. Por un lado, reconocen el problema y aseguran estar trabajando activamente para reducir las tasas de alucinación. Por otro, continúan lanzando modelos más complejos, a menudo sin explicar del todo por qué alucinan más.
OpenAI ha admitido que “seguiremos investigando las alucinaciones en todos los modelos para mejorar la precisión y la fiabilidad”, declaró su vocera Gaby Raila. Pero hasta ahora, no hay un método definitivo para detectar y corregir estas fallas en tiempo real.

Otras empresas, como Vectara, han desarrollado pruebas externas para medir las alucinaciones. Piden a los modelos que resuman artículos de noticias fácilmente verificables y miden cuánta información falsa introducen.
Aunque algunas mejoras se han observado, de hasta el 1 o 2% en ciertos casos, los modelos de razonamiento siguen mostrando picos de error. El DeepSeek R1 alucinó el 14,3% del tiempo, mientras que el o3 de OpenAI llegó al 6,8%.
Últimas Noticias
Qué es tubi y cómo pueden usarlo quienes no quieren pagar por varias suscripciones
Su modelo con anuncios breves y licencias formales la convierte en una de las alternativas más confiables del streaming gratuito

Qué significa que una persona soltera tenga muchas plantas en su casa, según la inteligencia artificial
Este hábito es común en jóvenes y puede reflejar varios detalles de su personalidad, sobre cómo gestionan sus emociones y organizan su vida

Descubre por cuántos minutos debes mantener apagado tu celular al día para evitar ciberataques
Esta práctica disminuye las opciones de caer en filtraciones de datos por aplicaciones que se ejecutan en segundo plano

Programa mensajes de WhatsApp desde un iPhone en minutos con este truco
Con solo configurar un atajo en la aplicación nativa, puedes programar textos diarios sin tocar el celular ni abrir la app de mensajería

The Beatles debuta con una canción hecha con inteligencia artificial y fue exaltada a nivel mundial
La tecnología ‘revivió’ a John Lennon y George Harrison para crear una composición que trae de vuelta el rock de la década de los 60s, que hizo popular a la banda británica
