
Durante algunas semanas, nadie tomó un café en la oficina, no hubo almuerzos compartidos, no hubo charlas cara a cara, mucho menos festejos de cumpleaños ni momentos recreativos. Sin embargo, la empresa funcionó. O al menos lo intentó.
La escena pareciera salida de una novela de ciencia ficción: una compañía de software donde todos los empleados, desde los programadores hasta los responsables de recursos humanos, son agentes de inteligencia artificial. Una empresa sin personas. La idea no surgió en Silicon Valley, sino que nació como un experimento académico en la Carnegie Mellon University (CMU), una de las universidades más prestigiosas del mundo en ciencia y tecnología.
El equipo de investigadores creó The Agent Company, una empresa simulada con tareas inspiradas en el trabajo del mundo real: desarrollo de software, análisis de datos, gestión de proyectos, administración y finanzas. Cada rol fue ocupado por un agente de IA distinto. El objetivo era claro: evaluar si la IA, operando en conjunto, puede realizar el trabajo de una empresa real. Más bien, si los humanos ya somos reemplazables en su totalidad. Un informe de Goldman Sachs de 2023 ya había indicado que la IA podría sustituir el equivalente a 300 millones de empleos a tiempo completo. Quedaba demostrarlo.
“Mucho se habla sobre si los agentes de IA reemplazarán tareas humanas, pero no existía un entorno que simulara realmente el día a día de una oficina”, explicó el investigador Yufan Song, uno de los autores del estudio, en diálogo con Infobae. Por eso, decidieron crear una empresa ficticia desde cero. Armaron equipos, asignaron proyectos, integraron herramientas reales —como navegadores web y software de documentación— y hasta simularon conversaciones entre compañeros.
Las tareas fueron diversas. Algunas, simples para un humano como completar un documento, buscar información en un sitio web, escribir un archivo en formato Word. Otras, más complejas: resolver bugs en Python, gestionar bases de datos, mantener coherencia en una cadena de decisiones. Para ejecutarlas, usaron un sistema llamado OpenHands, respaldado por modelos avanzados como Claude Sonnet 3.5, Gemini 2.0 y GPT-4o.

Los resultados fueron una mezcla de asombro y frustración. El mejor agente, impulsado por Claude 3.5 Sonnet, logró completar apenas el 24% de las tareas. Y no porque fuera perezoso o poco sofisticado. Simplemente, hay instrucciones que aún no entiende.
Por ejemplo, una de las tareas requería guardar un archivo como answer.docx. Cualquier persona sabe que eso implica abrir Word o usar una herramienta compatible. Pero la IA lo interpretó como texto plano. Pequeños detalles que revelan que la IA todavía no tiene sentido común, falla en cuestiones muy simples.
“Los modelos de lenguaje fallan en cosas que para nosotros son naturales, como interpretar instrucciones implícitas o detectar convenciones culturales”, apuntó el investigador Boxuan Li, otro de los encargados del experimento. “Y a veces directamente hacen trampa”, remarcó. En una tarea, un agente debía contactar a un empleado. Como no lo encontraba en el sitio interno, optó por cambiar el nombre de un compañero cualquiera por el del objetivo para que el sistema le permitiera avanzar.
También hubo fallas más técnicas. Los agentes tuvieron problemas para leer correctamente páginas web, una tarea que requiere interpretar estructuras visuales o acceder al contenido a través del “árbol de accesibilidad” que usan los navegadores. OpenHands solo admite este método, más económico pero limitado. El reconocimiento de imágenes —más parecido a cómo lo haría un humano— aún está fuera de su alcance.
Y, sin embargo, hubo momentos brillantes. El mismo sistema, con respaldo de Gemini 2.5 Pro, completó uno de los proyectos más complejos del curso de base de datos de la universidad: navegar por un sitio privado, configurar un entorno local, modificar múltiples archivos fuente, compilar y testear. Lo hizo en 8 minutos y por apenas 2,41 dólares.
“Como era de esperar, los agentes de vanguardia actuales no resuelven la mayoría de las tareas, lo que sugiere que hay una gran brecha para que realicen de forma autónoma lo que haría un trabajador humano en un día laboral, incluso en un entorno de evaluación comparativa relativamente simplificado como el que aplicamos”, explicó Li.
La paradoja es evidente. Los agentes de IA pueden resolver tareas difíciles, pero fracasan en otras que un pasante resolvería en dos clics. Y aunque el 25% de efectividad pueda sonar bajo, marca un hito: nunca antes se había probado la IA en condiciones tan cercanas al trabajo real.
¿En qué tareas fallan?
El mayor valor del experimento, según los investigadores, no está en los éxitos, sino en los fracasos. “Queríamos entender por qué no pueden completar ciertas tareas. Eso es más útil que celebrar lo que ya hacen bien”, explicó Song.
Una de las principales conclusiones fue que los agentes de IA aún tienen serias limitaciones en tareas con alta carga social, como colaborar, escalar problemas o simplemente esperar una respuesta. En una tarea específica, se indicaba que si un compañero no respondía en 10 minutos, había que escalar al director de tecnología (CTO). Ningún agente lo hizo bien. Uno de ellos “supuso” que habían pasado los 10 minutos y actuó en consecuencia sin motivo aparente.
Según Li, este tipo de errores revela una fragilidad de fondo: “Los agentes todavía no son buenos en tareas a largo plazo, ni en seguir instrucciones condicionales con contexto temporal. Eso los hace poco confiables para delegar procesos completos sin supervisión humana”, expresó.
Otra gran debilidad es la interacción con interfaces diseñadas para personas. Muchos programas empresariales, sitios de gestión interna o formularios tienen reglas no escritas, flujos lógicos implícitos y estructuras visuales complejas. Todo eso sigue siendo un obstáculo para los modelos actuales. Sin acceso a imágenes o simulaciones realistas, su desempeño se frena.

También fallan en razonamiento matemático y cálculo avanzado, algo que limita su uso en áreas como finanzas, ingeniería o logística. Incluso cuando parecen entender, muchas veces improvisan respuestas para “salir del paso”, lo cual puede resultar peligrosamente persuasivo. “Los humanos, al enfrentarnos a problemas que no podemos resolver, podemos admitir honestamente nuestro fracaso. Sin embargo, los agentes pueden usar métodos torpes para fingir que lo resolvieron y luego dar el resultado con confianza”, remarcó Song.
Y esto no es solo un problema técnico. En un mundo donde la IA toma decisiones con impacto real —recomendaciones financieras, diagnósticos médicos, estrategias empresariales—, una respuesta errónea dicha con confianza puede ser mucho peor que un simple “no lo sé”.
“No creo que reemplacen puestos de trabajo en su totalidad, pero sin duda transformarán nuestra forma de trabajar. Son potentes y los seres humanos podemos aprovecharlos para aumentar la productividad, pero, al menos por ahora, no pueden reemplazar ningún puesto de trabajo por completo”, aseguró Li.
A la luz de los resultados, los investigadores insisten en que no estamos ni cerca de reemplazar trabajos completos. Lo que sí vislumbran es un futuro cercano de colaboración forzada, donde los humanos actúan como jefes, auditores o socios estratégicos de los agentes.
El futuro del trabajo (y los nuevos jefes de la IA)

La pregunta inevitable es: ¿y ahora qué? ¿Qué rol tendrán estos agentes en el trabajo del futuro?
Según Song, la clave estará en quién sepa usarlos mejor. “El poder de la IA está directamente relacionado con el nivel del usuario. Alguien que entienda bien la herramienta, que sepa cómo descomponer una tarea en partes, podrá aprovecharla al máximo”, sostuvo. En ese escenario, los trabajadores se convierten en diseñadores de procesos, y los agentes en ejecutores rápidos, precisos y escalables.
El nuevo panorama puede caer bien entre quienes ya están formados, pero implica un dilema para los que recién empiezan a interactuar con la inteligencia artificial. Un agente hoy es más barato que un junior, y comete errores diferentes, pero no necesariamente peores. Eso puede acelerar la automatización de tareas simples y empujar a los trabajadores humanos hacia funciones más abstractas o creativas.
Según Song, los trabajos que implican interactuar con el mundo físico son los más “resistentes” hoy. “Por muy potentes que sean los modelos a gran escala, al menos ahora no pueden interactuar adecuadamente con el mundo real”, explicó.
Para roles como programadores, redactores, asistentes, diseñadores y atención al cliente, existen muchas startups centradas en mejorar su productividad. Sin embargo, cree, no significa que sean vulnerables. “En estas profesiones la IA puede acelerar significativamente la producción, pero de la mano con ese aumento, pueden surgir nuevas demandas ocultas”.
La colaboración humano-IA no será simétrica. Las personas marcarán el rumbo, pero dependerán de su capacidad para coordinar inteligencias artificiales de forma efectiva. La habilidad ya no será solo saber hacer algo, sino saber cómo enseñárselo y cómo indicárselo 一el nuevo arte de promptear一 a la máquina.
A mediano plazo, el equipo de Carnegie Mellon University no espera una revolución, sino una transición gradual. Los agentes, poco a poco, ocuparán nichos específicos: análisis de datos, redacción de reportes, documentación técnica. Tareas monótonas, repetitivas, estructuradas, pero no tomarán decisiones ni liderarán equipos.
Los agentes de IA avanzan a toda velocidad, pero aún enfrentan límites cuando se trata de adaptarse al mundo real. No pueden improvisar, colaborar ni tomar decisiones con verdadero criterio humano. En los próximos meses, The Agent Company 一y otros experimentos que puedan surgir一 harán más pruebas. Es que ahora al futuro, antes de alcanzarlo, se lo simula.
Últimas Noticias
Cada vez nacen menos niños en Argentina: ¿qué medidas pronatalidad funcionan y se podrían aplicar?
La cantidad de nacimientos por año ya está en su mínimo histórico y la caída se profundiza. Algunos países frenaron e incluso revirtieron esa tendencia con ciertas políticas. ¿Se pueden replicar? ¿O el fenómeno es inevitable?

El autor chino que escribió el libro del año no existe: “Lo hicimos la IA y yo”
“Hipnocracia” fue un éxito rotundo y Jianwei Xun ganó una popularidad inusitada, pero se trataba de un experimento. Infobae conversó con Andrea Colamedici, el verdadero responsable, que reveló cómo coescribió el texto junto a dos inteligencias artificiales y qué buscó con la performance

De ser “la carrera del futuro” a la incertidumbre: ¿tiene los días contados con la IA?
La inteligencia artificial sacudió uno de los sectores más dinámicos de los últimos años y las oportunidades laborales ya muestran una caída. Cómo será la reconversión y qué cambios traerá al mercado laboral

Descubrieron en un camping argentino los restos de un animal enorme extinguido hace 10 mil años
En un terreno ubicado en Gualeguaychú, los vecinos encontraron fósiles que no se correspondían con ninguna especie actual. Dieron aviso y los investigadores identificaron que se trataba de un megamamífero de la Edad del Hielo. Sus características y el valor del hallazgo

¿Qué es la “IA alien” y por qué nos podría manipular?: la inquietante teoría de un físico de Harvard
El prestigioso científico israelí Avi Loeb sostiene que, a medida que se sofistique, la inteligencia artificial usará lógicas que escapan a la cognición humana. En una entrevista con Infobae, explicó cómo funcionarían esas máquinas y dio detalles de los riesgos que implican
