DeepSeek-V3: El Nuevo Gigante de la Inteligencia Artificial Abierta que Supera a Llama y Qwen

La startup china DeepSeek, conocida por desafiar a los gigantes de la inteligencia artificial (IA) con sus innovadoras tecnologías de código abierto, acaba de lanzar su nuevo modelo ultragrande: DeepSeek-V3. Este avance promete redefinir el panorama de la IA de código abierto, superando a modelos como Llama 3.1-405B de Meta y Qwen 2.5-72B en diversas pruebas de rendimiento.


Características Clave de DeepSeek-V3

Un Modelo Ultra-Potente con 671B Parámetros

El modelo DeepSeek-V3 está disponible en la plataforma Hugging Face bajo un acuerdo de licencia de la empresa. Con 671 mil millones de parámetros, DeepSeek-V3 utiliza una innovadora arquitectura de combinación de expertos para activar solo los parámetros necesarios según la tarea que se realice. Esto mejora la precisión y eficiencia del modelo, permitiendo una operación más rápida y fluida.


Innovaciones Tecnológicas que Marcan la Diferencia

Arquitectura de Atención Latente Multicabezal (MLA)

Al igual que su predecesor, DeepSeek-V2, el modelo DeepSeek-V3 mantiene la misma arquitectura básica centrada en la atención latente multicabezal (MLA) y el sistema DeepSeekMoE. Esto permite un rendimiento óptimo con redes neuronales especializadas que activan solo 37 mil millones de parámetros de los 671 mil millones disponibles para cada token.

Estrategias Avanzadas para Mejorar el Rendimiento

DeepSeek ha incorporado dos innovaciones clave para optimizar aún más el rendimiento:

  • Equilibrio de carga sin pérdidas: Esta estrategia ajusta dinámicamente la carga de los «expertos», maximizando la eficiencia sin sacrificar el rendimiento.
  • Predicción de múltiples tokens (MTP): Esta técnica permite que el modelo prevea varios tokens futuros de manera simultánea, acelerando el proceso y mejorando la eficiencia de entrenamiento. Gracias a MTP, DeepSeek-V3 es capaz de generar 60 tokens por segundo, tres veces más rápido que sus competidores.

Entrenamiento y Optimización

Entrenamiento Eficiente y Económico

El entrenamiento de DeepSeek-V3 se llevó a cabo utilizando 14,8 billones de tokens diversos y de alta calidad. Además, la longitud del contexto del modelo se extendió en dos etapas: primero a 32K y luego a 128K, lo que mejora la capacidad de razonamiento y contextualización del modelo.

En cuanto a optimización de hardware y algoritmos, DeepSeek empleó técnicas avanzadas como el entrenamiento de precisión mixta FP8 y el algoritmo DualPipe para paralelismo de tuberías, lo que permitió reducir significativamente los costos. El proceso completo de entrenamiento de DeepSeek-V3 requirió 2788K horas de GPU H800, con un costo estimado de $5,57 millones, mucho más bajo que los costos típicos de otros modelos de gran escala.


Rendimiento en Comparativas: Superando a la Competencia

Supera a Llama y Qwen

DeepSeek-V3 ha demostrado ser el modelo de código abierto más potente disponible actualmente, con un rendimiento superior al de Llama 3.1-405B y Qwen 2.5-72B. En las pruebas comparativas, DeepSeek-V3 incluso ha superado al modelo de código cerrado GPT-4o en la mayoría de las métricas, destacándose especialmente en pruebas centradas en chino y matemáticas. En la prueba Math-500, DeepSeek-V3 obtuvo una impresionante puntuación de 90,2, mientras que Qwen logró 80.


Desafío de Claude 3.5 Sonnet de Anthropic

Aunque DeepSeek-V3 se ha impuesto sobre la mayoría de los modelos, Claude 3.5 Sonnet de Anthropic ha superado a DeepSeek en varias pruebas, como MMLU-Pro y Aider-Edit. Sin embargo, DeepSeek sigue liderando en otros puntos de referencia, destacando su versatilidad y potencia.


El Futuro de la Inteligencia Artificial Abierta

Con el lanzamiento de DeepSeek-V3, la brecha entre los modelos de IA de código abierto y cerrado se estrecha significativamente. Esta evolución tiene el potencial de transformar la industria, ofreciendo a las empresas una alternativa robusta frente a los modelos de IA cerrados de grandes actores como OpenAI y Anthropic. La disponibilidad del código en GitHub bajo una licencia MIT también permite a desarrolladores y empresas adaptar el modelo a sus necesidades específicas.


Accesibilidad y Costos

DeepSeek ofrece su modelo a través de su plataforma DeepSeek Chat, que funciona de manera similar a ChatGPT. Además, las empresas pueden acceder a la API comercial del modelo, manteniendo los mismos precios que su versión anterior hasta el 8 de febrero. Posteriormente, el costo será de $0,27 por millón de tokens de entrada y $1,10 por millón de tokens de salida.


DeepSeek-V3 marca un hito importante en el desarrollo de la inteligencia artificial de código abierto, demostrando que es posible lograr un rendimiento comparable al de los modelos de código cerrado con un enfoque más económico y accesible. Este avance ofrece nuevas oportunidades para empresas y desarrolladores, brindando un modelo de IA potente, eficiente y accesible para todos.