
Cada pocos meses, un nuevo modelo de lenguaje de gran tamaño (LLM) se proclama campeón de la IA, con puntuaciones de referencia que baten récords. Pero estas célebres métricas de rendimiento de los LLM -como las pruebas de razonamiento a nivel de posgrado y matemáticas abstractas- rara vez reflejan las necesidades empresariales reales o representan fronteras de la IA realmente novedosas. Para las empresas en el mercado de los modelos de IA empresarial, basar la decisión de qué modelos utilizar únicamente en estas tablas de clasificación puede conducir a costosos errores, desde presupuestos malgastados hasta capacidades desalineadas y errores potencialmente perjudiciales y específicos del dominio que las puntuaciones de referencia rara vez captan.
Los puntos de referencia públicos pueden ser útiles para los usuarios individuales al proporcionar indicadores direccionales de las capacidades de la IA. Y hay que admitir que algunos puntos de referencia de finalización de código e ingeniería de software, como SWE-Bench o Codeforces, son valiosos para las empresas dentro de una estrecha gama de aplicaciones empresariales basadas en LLM y relacionadas con la codificación. Pero los puntos de referencia más comunes y las tablas de clasificación públicas a menudo distraen tanto a las empresas como a los desarrolladores de modelos, empujando la innovación hacia mejoras marginales en áreas poco útiles para las empresas o no relacionadas con áreas de innovación revolucionaria en IA.
Por lo tanto, el reto para los ejecutivos consiste en diseñar marcos de evaluación específicos para las empresas que pongan a prueba los modelos potenciales en los entornos en los que se implantarán realmente. Para ello, las empresas tendrán que adoptar estrategias de evaluación a medida que se ejecuten a escala utilizando datos pertinentes y realistas.
Desajuste entre los criterios de referencia y las necesidades de las empresas
Los llamativos puntos de referencia que los desarrolladores de modelos pregonan en sus comunicados suelen estar alejados de la realidad de las aplicaciones empresariales. Consideremos algunos de los más populares: el razonamiento a nivel de posgrado (GPQA Diamond) y las pruebas matemáticas a nivel de bachillerato, como MATH-500 y AIME2024. Cada uno de ellos se citó en los comunicados de GPT o1, Sonnet 3.7 o R1 de DeepSeek. Pero ninguno de estos indicadores es útil para evaluar aplicaciones empresariales comunes como las herramientas de gestión del conocimiento, los asistentes de diseño o los chatbots orientados al cliente.
En lugar de asumir que el “mejor” modelo de una tabla de clasificación es la opción obvia, las empresas deben utilizar métricas adaptadas a sus necesidades específicas para trabajar hacia atrás e identificar el modelo adecuado. Empiece probando modelos en su contexto y con datos reales: consultas de clientes reales, documentos específicos de un dominio o cualquier entrada que su sistema vaya a encontrar en producción. Cuando los datos reales son escasos o sensibles, las empresas pueden elaborar casos de prueba sintéticos que capturen los mismos retos.
Sin pruebas en el mundo real, las empresas pueden acabar utilizando modelos inadecuados que, por ejemplo, requieran demasiada memoria para los dispositivos periféricos, tengan una latencia demasiado alta para las interacciones en tiempo real o no sean compatibles con la implementación local que a veces exigen las normas de gestión de datos.
Salesforce ha intentado salvar esta distancia entre los puntos de referencia comunes y sus requisitos empresariales reales desarrollando su propio punto de referencia interno para sus necesidades relacionadas con CRM. La empresa creó sus propios criterios de evaluación específicamente para tareas como la prospección, el fomento de clientes potenciales y la generación de resúmenes de casos de servicio, el trabajo real que los equipos de marketing y ventas necesitan que realice la IA.

Más allá de las métricas estilizadas
Los puntos de referencia populares no sólo son insuficientes para tomar decisiones empresariales informadas, sino que también pueden ser engañosos. A menudo, la cobertura mediática de los LLM, incluidos los tres principales anuncios de lanzamientos recientes, utiliza puntos de referencia para comparar modelos basándose en su rendimiento medio. Los puntos de referencia específicos se resumen en un único punto, número o barra.
El problema es que los modelos generativos de IA son sistemas estocásticos, muy sensibles a los datos de entrada, lo que significa que ligeras variaciones de una instrucción pueden hacer que se comporten de forma impredecible. Un reciente trabajo de investigación de Anthropic argumenta acertadamente que, como resultado, los puntos aislados en una tabla de comparación de rendimiento son insuficientes debido a los grandes rangos de error de las métricas de evaluación. Un estudio reciente de Microsoft descubrió que el uso de una evaluación basada en agrupaciones estadísticamente más precisa en los mismos puntos de referencia puede cambiar significativamente el orden de clasificación de los modelos -y las narrativas públicas sobre ellos- en una tabla de clasificación.
Por eso, los responsables de las empresas deben garantizar mediciones fiables del rendimiento de los modelos en una gama razonable de variaciones, realizadas a escala, aunque requieran cientos de pruebas. Esta minuciosidad se vuelve aún más crítica cuando se combinan múltiples sistemas a través de la IA y las cadenas de suministro de datos, lo que aumenta potencialmente la variabilidad. En sectores como la aviación o la sanidad, el margen de error es pequeño y va mucho más allá de lo que suelen garantizar las pruebas de referencia de IA actuales, de modo que confiar únicamente en las métricas de las tablas de clasificación puede ocultar un riesgo operativo sustancial en las implantaciones en el mundo real.
Las empresas también deben probar los modelos en escenarios adversos para garantizar la seguridad y solidez de un modelo -como la resistencia de un chatbot a la manipulación por parte de agentes malintencionados que intentan saltarse las barreras de seguridad- que no pueden medirse con los parámetros convencionales. Los LLM son especialmente vulnerables a ser engañados por sofisticadas técnicas de incitación. Dependiendo del caso de uso, la implementación de fuertes salvaguardas contra estas vulnerabilidades podría determinar su elección tecnológica y su estrategia de despliegue. La resistencia de un modelo frente a un posible malhechor podría ser un parámetro más importante que las capacidades matemáticas o de razonamiento del modelo. En nuestra opinión, conseguir que la IA sea «a prueba de tontos» es una barrera emocionante e impactante que los investigadores de IA deben superar y que puede requerir técnicas novedosas de desarrollo y prueba de modelos.
Llevar la evaluación a la práctica: Cuatro claves para un enfoque escalable
Empezar con los marcos de evaluación existentes. Las empresas deben empezar por aprovechar los puntos fuertes de las herramientas automatizadas existentes (junto con el juicio humano y objetivos de medición prácticos pero repetibles). Los conjuntos de herramientas de evaluación de IA especializados, como DeepEval, LangSmith, TruLens, Mastra o ARTKIT, pueden agilizar y simplificar las pruebas, permitiendo una comparación coherente entre modelos y a lo largo del tiempo.
Llevar expertos humanos al campo de pruebas. Una evaluación eficaz de la IA requiere que las pruebas automatizadas se complementen con el juicio humano siempre que sea posible. La evaluación automatizada puede incluir una comparación de las respuestas LLM con las respuestas reales o el uso de métricas indirectas, como las puntuaciones ROUGE o BLEU automatizadas, para medir la calidad del resumen de texto.

Sin embargo, para evaluaciones más matizadas, en las que las máquinas siguen teniendo dificultades, la evaluación humana sigue siendo vital. Para ello, los expertos en la materia o los usuarios finales pueden realizar una revisión “a ciegas” de una muestra de resultados del modelo. Estas acciones también pueden detectar posibles sesgos en las respuestas, por ejemplo, si los LLM dan respuestas sesgadas por sexo o raza sobre los candidatos a un puesto de trabajo. Este nivel humano de revisión requiere mucho trabajo, pero puede proporcionar información crítica adicional, como si una respuesta es realmente útil y está bien presentada.
El valor de este enfoque híbrido puede apreciarse en un reciente estudio de caso en el que una empresa evaluó un chatbot de soporte de RRHH utilizando pruebas tanto humanas como automatizadas. El proceso iterativo de evaluación interna de la empresa con participación humana demostró que una fuente significativa de errores de respuesta de LLM se debía a actualizaciones defectuosas de los datos de la empresa. El descubrimiento pone de relieve cómo la evaluación humana puede descubrir problemas sistémicos más allá del propio modelo.
Centrarse en las compensaciones, no en dimensiones aisladas de la evaluación. Al evaluar los modelos, las empresas deben mirar más allá de la precisión y tener en cuenta todo el espectro de requisitos empresariales: velocidad, rentabilidad, viabilidad operativa, flexibilidad, facilidad de mantenimiento y cumplimiento de la normativa. Un modelo con un rendimiento ligeramente superior en cuanto a precisión puede ser prohibitivamente caro o demasiado lento para aplicaciones en tiempo real. Un buen ejemplo de ello es el rendimiento del GPT o1 de Open AI (líder en muchas pruebas de referencia en el momento de su lanzamiento) cuando se aplicó al premio ARC-AGI. Para sorpresa de muchos, el modelo o1 obtuvo malos resultados, en gran parte debido al “límite de eficiencia” de ARC-AGI en cuanto a la potencia de cálculo utilizada para resolver las tareas del benchmark. A menudo, el modelo o1 tardaba demasiado, utilizando más tiempo de cálculo para intentar obtener una respuesta más precisa. La mayoría de las pruebas comparativas más populares no tienen un límite de tiempo, a pesar de que el tiempo sería un factor de importancia crítica para muchos casos de uso empresarial.
Las compensaciones cobran aún más importancia en el creciente mundo de las aplicaciones (multi)agenéticas, donde las tareas más sencillas pueden ser gestionadas por modelos más baratos y rápidos (supervisados por un agente de orquestación), mientras que los pasos más complejos (como resolver la serie desglosada de problemas de un cliente) podrían necesitar una versión más potente con razonamiento para tener éxito.
HuggingGPT, de Microsoft Research, por ejemplo, orquesta modelos especializados para distintas tareas bajo un modelo de lenguaje central. Estar preparado para cambiar de modelo en función de las distintas tareas exige crear herramientas flexibles que no estén vinculadas a un único modelo o proveedor. Esta flexibilidad integrada permite a las empresas pivotar y cambiar fácilmente los modelos en función de los resultados de la evaluación. Aunque esto pueda parecer mucho trabajo de desarrollo adicional, hay una serie de herramientas disponibles, como LangChain, LlamaIndex y Pydantic AI, que pueden simplificar el proceso.
Convierta las pruebas de modelos en una cultura de evaluación y supervisión continuas. A medida que evoluciona la tecnología, la evaluación continua garantiza que las soluciones de IA sigan siendo óptimas y se mantengan alineadas con los objetivos empresariales. De forma muy parecida a cómo los equipos de ingeniería de software aplican la integración continua y las pruebas de regresión para detectar errores y evitar la degradación del rendimiento en el código tradicional, los sistemas de IA requieren una evaluación periódica con respecto a puntos de referencia específicos de la empresa. De forma similar a la práctica de farmacovigilancia entre los usuarios de nuevos medicamentos, los comentarios de los usuarios de LLM y las partes interesadas afectadas también deben recopilarse y analizarse continuamente para garantizar que la IA «se comporta como se espera» y no se desvía de sus objetivos de rendimiento previstos.
Este tipo de marco de evaluación a medida fomenta una cultura de experimentación y toma de decisiones basada en datos. También refuerza el nuevo y crítico mantra: La IA puede utilizarse para la ejecución, pero los humanos tienen el control y deben gobernar la IA.
Conclusión
Para los líderes empresariales, el camino hacia el éxito de la IA no consiste en perseguir a los últimos campeones de referencia, sino en desarrollar marcos de evaluación para sus objetivos empresariales específicos. Piense en este enfoque como “una tabla de clasificación para cada usuario”, como sugiere un documento de Stanford. El verdadero valor de la implantación de la IA proviene de tres acciones clave: definir métricas que midan directamente el éxito en su contexto empresarial; aplicar pruebas estadísticamente sólidas en situaciones realistas utilizando sus datos reales y en su contexto real; y fomentar una cultura de supervisión, evaluación y experimentación continuas que recurra tanto a herramientas automatizadas como a la experiencia humana para evaluar las compensaciones entre modelos.
Siguiendo este planteamiento, los ejecutivos podrán identificar soluciones optimizadas para sus necesidades específicas sin pagar sobreprecios por “modelos de primera”. Es de esperar que este enfoque ayude al sector del desarrollo de modelos a dejar de perseguir mejoras marginales en las mismas métricas -víctima de la ley de Goodhart con capacidades de utilidad limitada para las empresas- y, en su lugar, les permita explorar nuevas vías de innovación y el próximo gran avance de la IA.
(c) 2025, Fortune
Últimas Noticias
Cómo las redes sociales están transformando el liderazgo de las empresas más importantes del mundo
Los líderes de hoy no esperan a que los presenten. Están dando un paso al frente, hablando directamente a consumidores, clientes, inversores y audiencias que van mucho más allá de sus respectivas organizaciones

El Gobierno noruego se ve obligado a replantear la “ilógica” prohibición ética de que su fondo soberano de 1,8 billones de dólares invierta en defensa
Cambios en el entorno geopolítico europeo obligan a las autoridades a revisar la prohibición de inversión en defensa. El fondo, con sede en Oslo, mantiene una larga lista de unas 250 empresas que excluye de sus inversiones

Los taxis autónomos avanzan a toda velocidad en Estados Unidos, ¿por qué Europa sigue esperando?
El despliegue masivo de vehículos sin conductor crece en ciudades como Phoenix gracias a inversión y normativas flexibles, dejando atrás al mercado europeo

Guía para invertir en criptomonedas sin perder la cordura
Conocer el propósito de cada moneda, su respaldo técnico y distribución puede marcar la diferencia en el largo plazo

La cantante Chappell Roan realizó un duro comentario sobre sus amigos con hijos, y los padres están furiosos
“Todos mis amigos que tienen hijos se encuentran en el infierno”, dijo la joven de 27 años cuando le preguntaron si solía reunirse con ellos
