El mundo de la inteligencia artificial (IA) está viviendo una revolución sin precedentes. Mientras empresas como OpenAI, Google y Microsoft han invertido millones de dólares en el desarrollo de modelos avanzados, la irrupción de actores como DeepSeek y el reciente modelo s1 de investigadores de Stanford y Washington ha puesto en entredicho la estrategia de estas grandes tecnológicas. ¿Es posible entrenar modelos de IA avanzados a un coste significativamente menor? La respuesta parece ser un rotundo sí, y esto está cambiando las reglas del juego.
DeepSeek: Un modelo disruptivo con costes moderados
DeepSeek, una compañía china, ha logrado captar la atención de la comunidad de IA con su modelo R1, que presume de un coste de entrenamiento moderado en comparación con los estándares de la industria. Según los responsables de DeepSeek, su infraestructura de entrenamiento incluye 2.048 chips H800 de NVIDIA, y el proceso de entrenamiento, que maneja 671.000 millones de parámetros, ha costado aproximadamente 5,6 millones de dólares. Sin embargo, un informe de SemiAnalysis sugiere que estas cifras podrían no reflejar la realidad completa.
El informe indica que DeepSeek ha utilizado alrededor de 50.000 GPU de NVIDIA, incluyendo al menos 10.000 GPU H100 y 10.000 GPU H800, además de otras GPU recortadas H20. Esta infraestructura masiva, aunque costosa, sigue siendo más eficiente en términos de coste por parámetro que los modelos de OpenAI o Google. Este enfoque ha permitido a DeepSeek ofrecer un modelo competitivo a una fracción del coste de sus rivales, lo que ha generado un intenso debate sobre la sostenibilidad de los modelos de negocio actuales en la industria de la IA.
El modelo s1: Un hito en la democratización de la IA
El 31 de enero de 2024, un grupo de investigadores de la Universidad de Stanford y la Universidad de Washington publicó un artículo en arXiv en el que detallaban cómo habían logrado entrenar un modelo de IA con capacidades de razonamiento comparables a las de OpenAI y DeepSeek por apenas 50 dólares. Este modelo, bautizado como s1, ha sido desarrollado utilizando el modelo gratuito Qwen2.5-32B de Alibaba y ha aplicado técnicas de «destilación» del conocimiento inspiradas en el modelo Gemini 2.0 Flash Thinking Experimental de Google.
El proceso de entrenamiento del modelo s1 fue sorprendentemente breve: menos de 30 minutos utilizando 16 chips NVIDIA H100 en la nube. Los investigadores crearon un conjunto de datos de solo 1.000 preguntas cuidadosamente seleccionadas, junto con sus respuestas y procesos de razonamiento. Una de las innovaciones clave fue la implementación de una técnica que hace que el modelo «espere» y continúe razonando antes de proporcionar una respuesta definitiva, lo que mejora significativamente su precisión.
El modelo s1 no solo es una prueba de concepto, sino que también está disponible en GitHub junto con los datos y el código utilizados para su entrenamiento. Esta transparencia permite que otros investigadores y desarrolladores puedan replicar y construir sobre sus hallazgos, lo que podría acelerar aún más la democratización de la IA avanzada.
Alibaba y Qwen2.5-Max: La respuesta china a DeepSeek
Mientras DeepSeek y el modelo s1 están cambiando las reglas del juego, Alibaba, el gigante chino del comercio electrónico, ha lanzado Qwen2.5-Max, un gran modelo de lenguaje (LLM) que, según la empresa, supera a DeepSeek V3 en pruebas de conocimiento general, programación y resolución de problemas. Qwen2.5-Max fue preentrenado con más de 20 billones de tokens y optimizado mediante técnicas de Ajuste Fino Supervisado (SFT) y Aprendizaje de Refuerzo a Partir de Retroalimentación Humana (RLHF).
Una de las características más destacadas de Qwen2.5-Max es su arquitectura de «mezcla de expertos» (MoE), que permite al modelo activar diferentes componentes para responder a peticiones complejas con mayor eficiencia. Este enfoque no solo reduce la demanda computacional, sino que también permite una mayor adaptabilidad a distintos tipos de datos y tareas.
Alibaba ha comparado el rendimiento de Qwen2.5-Max con modelos como DeepSeek V3, Llama-3.1-405B, GPT-4o y Claude-3.5-Sonnet, demostrando que supera a todos ellos en pruebas de conocimiento general, codificación y preferencias humanas. Además, Qwen2.5-Max es un modelo de código abierto, lo que permite a los desarrolladores acceder a su API a través de Alibaba Cloud y probar sus capacidades de manera gratuita mediante Qwen Chat.
La competencia en la industria de la IA: ¿Una guerra de precios?
La irrupción de modelos como DeepSeek R1, s1 y Qwen2.5-Max ha generado una intensa competencia en la industria de la IA. Mientras DeepSeek ha logrado reducir los costes de entrenamiento y acceso a sus modelos, Alibaba ha respondido con un modelo que no solo compite en términos de rendimiento, sino que también ofrece una arquitectura más eficiente.
Esta competencia ha llevado a los inversores a cuestionar los elevados planes de gasto de las principales empresas de IA. La presión ha sido tal que empresas como ByteDance han lanzado actualizaciones de sus modelos, como Doubao-1.5-pro, con capacidades mejoradas de razonamiento. Además, Alibaba ha anunciado recortes de hasta el 97% en el precio de múltiples modelos de IA, lo que ha intensificado aún más la competencia.
Liang Wenfeng, fundador de DeepSeek, ha subrayado que la misión de su empresa no es generar una guerra de precios, sino desarrollar un sistema de inteligencia artificial general. Sin embargo, la realidad es que la industria se está moviendo hacia un modelo más accesible y eficiente, lo que podría tener implicaciones significativas para el futuro de la innovación en este campo.
Conclusión: El futuro de la IA es más accesible
El desarrollo de modelos como DeepSeek R1, s1 y Qwen2.5-Max demuestra que es posible crear IA avanzada a un coste significativamente menor que el de los gigantes tecnológicos tradicionales. Esto no solo cuestiona los modelos de negocio actuales, sino que también abre nuevas oportunidades para la democratización de la IA.
A medida que la competencia en la industria se intensifica, es probable que veamos más innovaciones en términos de eficiencia y accesibilidad. Sin embargo, también plantea interrogantes sobre la sostenibilidad de los modelos de negocio actuales y el futuro de la innovación en este campo. Lo que está claro es que el coste del entrenamiento de la IA ya no es una barrera infranqueable, y esto podría cambiar el panorama de la industria para siempre.