
La precisión de los chatbots impulsados por inteligencia artificial ha sido un tema objeto de amplio debate en todo el mundo, debido a que estos modelos también pueden generar “alucinaciones” o respuestas erróneas. Afortunadamente, Cleanlab, una startup creada por exinvestigadores del MIT, desarrolló solución para este problema.
Se trata de la herramienta denominada como Trustworthy Language Model (TLM), la cual busca ofrecer una “capa de confianza” a través de un sistema de puntuación que evalúa la fiabilidad de las respuestas proporcionadas por estos modelos de lenguaje generativo (LLM).
Este desarrollo también busca impulsar la expansión de estos sistemas en distintos sectores, en un momento en el que según un estudio reciente de Gartner, que reveló que pese a que el 55% de las organizaciones experimentan con IA generativa, solamente un 10% la ha implementado efectivamente en sus procesos productivos.
Cómo opera Trustworthy Language Model

TLM opera mediante la asignación de una “puntuación de confiabilidad” a cada respuesta generada por el modelo, lo que permite identificar y filtrar las respuestas no fiables. Además, se implementó un sistema que genera múltiples respuestas internamente, seleccionando aquella con la puntuación de confianza más alta para ser presentada al usuario.
Esta metodología no solo reduce las instancias de respuestas incorrectas, sino que también ha demostrado superar en precisión a modelos preexistentes, incluyendo a GPT-4 de OpenAI.
Asimismo, ofrece una integración sencilla con los sistemas existentes, funcionando como un reemplazo directo o como un complemento que añade una capa de confiabilidad sobrepuesta a los resultados generados, tanto por LLMs como por datos producidos por humanos.
Es por ello que el objetivo de TLM es convertirse en una solución al problema de las “alucinaciones” de los chatbots, que se estima ocurren en al menos el 3% de los casos, un verdadero problema para profesionales que buscan el mayor grado de exactitud.
Cómo las “alucinaciones” pueden generar serios problemas

Ejemplos de errores costosos incluyen al chatbot de Air Canada, que generó políticas de reembolso inexistentes, y a un bufete de abogados sancionado por la inclusión de citas fabricadas en un documento legal, provocados por la utilización de estos modelos de lenguaje.
Otra evidencia de este problema la vivió un abogado que, al recurrir a ChatGPT para preparar documentos legales, descubrió referencias y citas judiciales incorrectas en su contenido. Además, se ha reportado que ChatGPT puede cometer errores en tareas simples, como calcular cuántas veces aparece una letra en una palabra específica.

Esta problemática resalta la importancia de establecer mecanismos de verificación de la información generada por IA como TLM, especialmente cuando el que el uso de grandes modelos de lenguaje (LLM) como GPT-3.5, GPT-4, y modelos personalizados de empresas, se expanden en el ámbito empresarial.
Mientras que la disponibilidad de TLM a través de una interfaz de programación de aplicaciones (API) y en versiones tanto gratuitas como de pago con características adicionales, amplía aún más su accesibilidad y utilidad práctica.
Por qué la inteligencia artificial comete “alucinaciones”

En este contexto, el término “alucinación” es una metáfora de las situaciones en las que la IA crea salidas que son desvinculadas de la realidad o incorrectas, y ocurren cuando los modelos, especialmente aquellos basados en aprendizaje profundo, interpretan incorrectamente los datos de entrada o los patrones en los datos sobre los que han sido entrenados.
Esto puede suceder por varias razones, como sesgos en los conjuntos de datos de entrenamiento, sobreajuste (cuando un modelo aprende los datos de entrenamiento tan bien que falla al generalizar a datos nuevos), o por la interpretación errónea de patrones complejos o ambiguos en los datos.

También pueden ser el resultado de la extrapolación inapropiada. Cuando un modelo de IA se enfrenta a situaciones o datos que son muy diferentes de aquellos en los que fue entrenado, puede generar respuestas basadas en patrones aprendidos que no aplican correctamente a la nueva situación.
Además, el lenguaje humano es complejo y ambiguo, lo que puede llevar al chatbot a malinterpretar el contexto o el sentido de las preguntas o declaraciones, especialmente en idiomas con múltiples significados o con una gran riqueza de expresiones idiomáticas.
Últimas Noticias
Black Friday 2025 en Amazon: cuándo es, qué rebajas hay y qué productos están en descuento
La compañía confirmó que el Black Friday se realizará hasta el día 1 de diciembre, seguido por las promociones de Cyber Monday
Un hombre juntó 1.000 baterías de laptop durante 8 años y ahora tiene electricidad gratis en casa
La experiencia de este aficionado a la tecnología revela el potencial del reciclaje electrónico para alcanzar independencia energética en el hogar

Experimento con paneles solares rompe el récord de transmisión de electricidad desde el espacio a la Tierra
El experimento utilizó un sistema óptico avanzado para enviar potencia inalámbrica a una base de la NASA. Un hito en la innovación energética global

Estados temporales de WhatsApp: cómo usar esta nueva función de la app
Puedes mostrar mensajes actualizados sobre disponibilidad o actividad, con opciones de duración automática y mayor visibilidad en los chats

Fortnite lanza nuevas skins de Stranger Things de Netflix y presenta una copa inspirada en la serie
Dustin, Lucas, Mike y Will ahora lucen un aspecto más adulto, tal y como se refleja en este título de Netflix. El premio de la copa es la renovada skin de Vecna



