Lo que DeepSeek revela sobre el futuro de la IA

Harvard Business Review Management Update Spanish

Guardar

El lanzamiento del modelo R1 de DeepSeek a finales de enero de 2025 provocó un fuerte descenso de las valoraciones del mercado en toda la cadena de valor de la IA, afectando tanto a los desarrolladores de modelos como a los proveedores de infraestructura. Los inversionistas vieron en R1 un competidor poderoso (y económico) frente a los modelos de IA estadounidenses, lo que puso en duda las proyecciones de crecimiento extraordinario que habían justificado las valuaciones elevadas. Sin embargo, para aquellos que han estado atentos, la llegada de DeepSeek (o algo parecido) era inevitable.

Aun así, este es un momento útil para reflexionar sobre hacia dónde se dirige la IA. Más que considerar a DeepSeek R1 como un punto de inflexión, es más útil verlo como un indicador de dónde estamos realmente ahora, y un presagio de lo que está por venir.

He aquí cinco lecciones que los líderes empresariales deberían extraer de este momento.

1. DEL RECONOCIMIENTO DE PATRONES A LA RESOLUCIÓN DE PROBLEMAS

Los modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés) se robaron el protagonismo en 2023 y 2024, pero en 2025 quedaremos asombrados por los sistemas de IA capaces de razonar, planificar y operar de manera autónoma. Esto se debe a que dos tendencias interrelacionadas dominarán el panorama de la IA este año: el auge de los modelos de razonamiento y la llegada de agentes de IA listos para el uso generalizado. Estas capacidades dependen en gran medida del aprendizaje por refuerzo (RL, por sus siglas en inglés), un método para entrenar a un agente inteligente para que tome una secuencia de decisiones óptimas. Piense en ello como aprender a jugar un videojuego: Cuando acierta en el blanco, salta sobre un abismo o adivina una palabra, gana puntos. A medida que juega, aprende a realizar acciones que son recompensadas.

La última generación de modelos, como GPT-4, era asombrosa para identificar patrones: Se entrenaban con enormes volúmenes de información, la contextualizaban y nos dejaban sin palabras con sus predicciones precisas del siguiente término en una conversación.

DeepSeek R1 es un modelo de razonamiento gratuito, al igual que los modelos ChatGPT o3-mini de OpenAI y Copilot o1 de Microsoft. Estos modelos representan un cambio crucial de la simple predicción de la siguiente palabra a la resolución metódica de problemas que se basa en gran medida del aprendizaje por refuerzo. Gracias a esta capacidad de razonamiento, estos modelos pueden desempeñarse mucho mejor que sus predecesores en tareas específicas, como resolver problemas matemáticos.

Con la capacidad de desglosar y razonar los problemas, los agentes de IA son capaces de aprender a navegar dinámicamente por flujos de trabajo complejos, adaptándose a nueva información a medida que surge en el proceso de realización de tareas, en lugar de limitarse a scripts rígidos y predefinidos. Esto es justo lo que hacemos los humanos en nuestro trabajo diario, como cuando los agentes de servicio al cliente responden consultas, los empleados administrativos organizan horarios y planifican viajes, o los analistas de datos recopilan información, la analizan y redactan un informe.

2. EL PUNTO DE INFLEXIÓN ECONÓMICO DE LA IA

Uno de los grandes titulares en torno a DeepSeek R1 es su supuesto costo de desarrollo de 5.5 millones de dólares. Esta cifra es engañosa. Probablemente solo refleje el costo de una única prueba de entrenamiento, sin incluir los gastos de infraestructura, ingeniería e implementación. Una cifra total que incluyera esos gastos sería mucho más alta, aunque significativamente inferior a las estimaciones de los costos de desarrollo de OpenAI, Anthropic, Google y otros modelos con los que compite R1.

En lugar de centrarnos únicamente en estas cifras, deberíamos prestar más atención a los costos de inferencia, es decir, los gastos asociados al uso real de los modelos una vez que han sido entrenados. El entrenamiento requiere una inversión inicial sustancial, pero los costos de inferencia son cruciales para las aplicaciones empresariales. DeepSeek R1 y otros modelos recientes, incluida la serie de modelos Llama de Meta, han logrado reducciones significativas en estos costos.

Por regla general, la caída de los precios tiende a estimular la competencia y a impulsar la adopción por parte de los usuarios. Basta pensar en la caída de los precios ajustados al rendimiento en mercados de productos electrónicos (teléfonos inteligentes, televisores, ordenadores portátiles) impulsada por el aumento de la eficiencia en la producción de semiconductores. Esta es la Ley de Moore, que impulsa la caída de los precios y el aumento de las tasas de adopción de demasiados productos finales. Lo mismo está sucediendo en la IA.

3. LA IA DE CÓDIGO ABIERTO Y LA PROPIETARIA COEXISTIRÁN

Una de las razones por la que deberíamos haber anticipado un desarrollo como DeepSeek R1 es la lógica económica del software de código abierto. Históricamente, los proyectos de código abierto han desafiado a las soluciones propietarias al reducir significativamente los costos, como sucedió con Unix/Linux en la informática empresarial, Android en los sistemas operativos móviles, MySQL en las bases de datos y, por supuesto, Llama en la IA. La ventaja en costos del software de código abierto está bien documentada. Era predecible que la IA siguiera una trayectoria similar.

Las empresas como OpenAI, Alphabet y Anthropic siguen estando a la vanguardia en cuanto a capacidades multimodales, seguridad (parece fácil vulnerar DeepSeek R1) y otros puntos de referencia. Aun así, los modelos de código abierto como DeepSeek R1 han reducido la brecha en el razonamiento basado en texto y han demostrado una eficiencia notable. Su potencial para aplicaciones empresariales se refleja en la decisión inmediata de Microsoft de integrar DeepSeek R1 en Azure. Dado su menor costo y mayor flexibilidad, los modelos abiertos como DeepSeek R1 serán muy atractivos para los usuarios, al igual que los modelos de lenguaje más pequeños como Phi-4 de Microsoft, que han demostrado un gran rendimiento en muchos casos de uso.

Por ahora, todo apunta a un mercado con una amplia gama de participantes, en lugar de un escenario donde un solo actor domine casi todo.

4. LA ESCASEZ DE CHIPS IMPULSA LA INNOVACIÓN ALGORÍTMICA

Otro aspecto de la reacción ante DeepSeek R1 se ha centrado en la "sorprendente" noticia de que China parece haber alcanzado a Estados Unidos en cuanto a modelos de IA de vanguardia. Las restricciones estadounidenses a la exportación pretendían limitar el acceso chino a los semiconductores más avanzados y preservar el liderazgo estadounidense en la investigación de IA. El hecho de que este enfoque no haya tenido un éxito total no debería ser una gran sorpresa. La necesidad es la madre de la invención. Las limitaciones de chips han llevado a los investigadores chinos a priorizar la eficiencia algorítmica sobre la potencia bruta de cálculo, una estrategia que podría resultar profética a medida que se dispara el consumo de energía de los centros de datos.

5. DEEPSEEK R1 NO LO CAMBIÓ TODO

Dicho todo esto, los principales laboratorios de IA y los gigantes tecnológicos de Occidente (incluidos Microsoft, Meta, Alphabet y Amazon) seguirán invirtiendo a niveles vertiginosos, asegurando que la demanda de GPU e infraestructura de IA de última generación siga siendo alta. Los modelos abiertos no reemplazarán por completo a los propietarios, y es probable que sigamos viendo un consumo inmenso de recursos computacionales en el entrenamiento e inferencia de modelos. Como resultado, la carrera por desarrollar los sistemas de IA más avanzados continuará impulsando la demanda de chips de alto rendimiento e infraestructura en la nube a gran escala, a pesar de que en estos momentos los costos de inversión superan con creces los ingresos de muchas empresas del sector.

Además, los grandes compradores de infraestructura de Occidente están indudablemente preocupados por el riesgo de suministro, ya que la mayoría de los semiconductores avanzados se fabrican en una planta de TSMC ubicada en Taiwán.

Podría decirse que el ritmo del avance de la IA, así como la importancia social y económica de este conjunto de tecnologías, no tiene precedentes históricos. Con el aprendizaje por refuerzo que permite avances en los modelos de razonamiento y los agentes de IA, que a su vez darán lugar a innumerables aplicaciones nuevas, 2025 estará repleto de momentos "DeepSeek". Se esperan avances continuos, un aumento de los casos de uso en el mundo real y el verdadero inicio de una transformación económica a escala sísmica.