DeepSeek: La tecnología disruptiva que revoluciona el panorama de la IA

GRUPO AIPU WATON

Introducción

Ansiedad constante entre grandes modelos en competencia, proveedores de nube que compiten por participación de mercado y fabricantes de chips que trabajan duro: el efecto DeepSeek persiste.

Con el fin del Festival de Primavera, el entusiasmo en torno a DeepSeek se mantiene fuerte. La reciente festividad puso de relieve una importante competencia en la industria tecnológica, con muchos debatiendo y analizando este "catfish". Silicon Valley experimenta una crisis sin precedentes: los defensores del código abierto vuelven a expresar sus opiniones, e incluso OpenAI está reevaluando si su estrategia de código cerrado fue la mejor opción. El nuevo paradigma de menores costes computacionales ha desencadenado una reacción en cadena entre gigantes de los chips como Nvidia, lo que ha provocado pérdidas récord en el valor de mercado en un solo día en la historia del mercado bursátil estadounidense, mientras que las agencias gubernamentales investigan la conformidad de los chips utilizados por DeepSeek. En medio de críticas mixtas sobre DeepSeek en el extranjero, a nivel nacional, está experimentando un crecimiento extraordinario. Tras el lanzamiento del modelo R1, la aplicación asociada ha experimentado un aumento de tráfico, lo que indica que el crecimiento en los sectores de aplicaciones impulsará el ecosistema general de la IA. El aspecto positivo es que DeepSeek ampliará las posibilidades de aplicación, lo que sugiere que confiar en ChatGPT no será tan costoso en el futuro. Este cambio se ha reflejado en las actividades recientes de OpenAI, incluyendo la provisión de un modelo de razonamiento llamado o3-mini a usuarios gratuitos en respuesta a DeepSeek R1, así como las actualizaciones posteriores que hicieron pública la cadena de pensamiento de o3-mini. Muchos usuarios extranjeros expresaron su gratitud a DeepSeek por estos avances, aunque esta cadena de pensamiento sirve como resumen.

Con optimismo, es evidente que DeepSeek está unificando a los actores nacionales. Con su enfoque en la reducción de costos de entrenamiento, varios fabricantes de chips, proveedores de nube intermedia y numerosas startups se están uniendo activamente al ecosistema, mejorando la rentabilidad del modelo DeepSeek. Según los artículos de DeepSeek, el entrenamiento completo del modelo V3 requiere solo 2.788 millones de horas de GPU H800, y el proceso de entrenamiento es altamente estable. La arquitectura MoE (Mezcla de Expertos) es crucial para reducir los costos de preentrenamiento en un factor de diez, en comparación con Llama 3, con 405 mil millones de parámetros. Actualmente, V3 es el primer modelo reconocido públicamente que demuestra una escasez tan alta de MoE. Además, la MLA (Atención Multicapa) funciona sinérgicamente, especialmente en aspectos de razonamiento. "Cuanto más disperso sea el MoE, mayor será el tamaño del lote necesario durante el razonamiento para aprovechar al máximo la potencia computacional, siendo el tamaño del KVCache el factor limitante clave; el MLA reduce significativamente el tamaño del KVCache", señaló un investigador de Chuanjing Technology en un análisis para AI Technology Review. En general, el éxito de DeepSeek reside en la combinación de varias tecnologías, no solo en una. Expertos del sector elogian las capacidades de ingeniería del equipo de DeepSeek, destacando su excelencia en el entrenamiento paralelo y la optimización de operadores, logrando resultados innovadores al refinar cada detalle. El enfoque de código abierto de DeepSeek impulsa aún más el desarrollo general de modelos grandes, y se prevé que si modelos similares se expanden a imágenes, vídeos y más, esto estimulará significativamente la demanda en toda la industria.

Oportunidades para servicios de razonamiento de terceros

Los datos indican que, desde su lanzamiento, DeepSeek ha acumulado 22,15 millones de usuarios activos diarios (DAU) en tan solo 21 días, alcanzando el 41,6 % de la base de usuarios de ChatGPT y superando los 16,95 millones de usuarios activos diarios de Doubao, convirtiéndose así en la aplicación de mayor crecimiento a nivel mundial, encabezando la App Store de Apple en 157 países/regiones. Sin embargo, mientras los usuarios acudían masivamente, los ciberpiratas han estado atacando incesantemente la aplicación DeepSeek, sobrecargando significativamente sus servidores. Los analistas del sector creen que esto se debe en parte a que DeepSeek implementa tarjetas para el entrenamiento, pero carece de la potencia computacional suficiente para el razonamiento. Un experto del sector informó a AI Technology Review: «Los frecuentes problemas con los servidores se pueden resolver fácilmente cobrando comisiones o financiando la compra de más máquinas; en última instancia, depende de las decisiones de DeepSeek». Esto supone un dilema entre centrarse en la tecnología y la productización. DeepSeek se ha basado en gran medida en la cuantización cuántica para su autosuficiencia, tras haber recibido escasa financiación externa, lo que ha resultado en una presión de flujo de caja relativamente baja y un entorno tecnológico más puro. Actualmente, ante los problemas mencionados, algunos usuarios instan a DeepSeek en redes sociales a elevar los umbrales de uso o a introducir funciones de pago para mejorar la comodidad del usuario. Además, los desarrolladores han comenzado a utilizar la API oficial o API de terceros para la optimización. Sin embargo, la plataforma abierta de DeepSeek anunció recientemente: «Los recursos actuales del servidor son escasos y se han suspendido las recargas del servicio API».

 

Sin duda, esto abre más oportunidades para proveedores externos en el sector de infraestructura de IA. Recientemente, numerosos gigantes de la nube, tanto nacionales como internacionales, han lanzado las API de modelos de DeepSeek; los gigantes internacionales Microsoft y Amazon fueron de los primeros en unirse a finales de enero. El líder nacional, Huawei Cloud, dio el primer paso, lanzando los servicios de razonamiento DeepSeek R1 y V3 en colaboración con Flow, con sede en Silicon, el 1 de febrero. Informes de AI Technology Review indican que los servicios de Flow, con sede en Silicon, han experimentado una afluencia de usuarios, lo que ha colapsado la plataforma. Las tres grandes tecnológicas, BAT (Baidu, Alibaba, Tencent) y ByteDance, también lanzaron ofertas de bajo coste por tiempo limitado a partir del 3 de febrero, que recuerdan la guerra de precios entre proveedores de la nube del año pasado, desatada por el lanzamiento del modelo V2 de DeepSeek, donde DeepSeek empezó a ser apodado el "carnicero de precios". Las acciones frenéticas de los proveedores de la nube reflejan los fuertes vínculos previos entre Microsoft Azure y OpenAI, donde en 2019 Microsoft realizó una inversión sustancial de mil millones de dólares en OpenAI y obtuvo beneficios tras el lanzamiento de ChatGPT en 2023. Sin embargo, esta estrecha relación comenzó a deteriorarse después de que Meta liberara el código de Llama, lo que permitió a otros proveedores fuera del ecosistema de Microsoft Azure competir con sus grandes modelos. En este caso, DeepSeek no solo ha superado a ChatGPT en cuanto a popularidad del producto, sino que también ha introducido modelos de código abierto tras el lanzamiento de o1, similar al entusiasmo generado por el resurgimiento de GPT-3 por parte de Llama.

 

En realidad, los proveedores de la nube también se están posicionando como puertas de enlace de tráfico para aplicaciones de IA, lo que significa que profundizar los lazos con los desarrolladores se traduce en ventajas preventivas. Los informes indican que Baidu Smart Cloud tenía más de 15.000 clientes que utilizaban el modelo DeepSeek a través de la plataforma Qianfan el día del lanzamiento del modelo. Además, varias empresas más pequeñas están ofreciendo soluciones, incluyendo Silicon-based Flow, Luchen Technology, Chuanjing Technology y varios proveedores de infraestructura de IA que han lanzado soporte para los modelos DeepSeek. AI Technology Review ha descubierto que las oportunidades actuales de optimización para implementaciones localizadas de DeepSeek existen principalmente en dos áreas: una es optimizar las características de escasez del modelo MoE utilizando un enfoque de razonamiento mixto para implementar el modelo MoE de 671 mil millones de parámetros localmente mientras se utiliza la inferencia híbrida de GPU/CPU. Además, la optimización de MLA es vital. Sin embargo, los dos modelos de DeepSeek aún enfrentan algunos desafíos en la optimización de la implementación. "Debido al tamaño del modelo y a los numerosos parámetros, la optimización es realmente compleja, especialmente en implementaciones locales, donde lograr un equilibrio óptimo entre rendimiento y coste será un reto", afirmó un investigador de Chuanjing Technology. El mayor obstáculo reside en superar los límites de capacidad de memoria. "Adoptamos un enfoque de colaboración heterogénea para aprovechar al máximo las CPU y otros recursos computacionales, colocando solo las partes no compartidas de la matriz dispersa de MoE en la CPU/DRAM para su procesamiento mediante operadores de CPU de alto rendimiento, mientras que las partes densas permanecen en la GPU", explicó. Los informes indican que KTransformers, el framework de código abierto de Chuanjing, inyecta principalmente diversas estrategias y operadores en la implementación original de Transformers a través de una plantilla, lo que mejora significativamente la velocidad de inferencia mediante métodos como CUDAGraph. DeepSeek ha generado oportunidades para estas startups, ya que los beneficios de crecimiento son cada vez más evidentes; muchas empresas han informado de un notable crecimiento de clientes tras el lanzamiento de la API de DeepSeek, recibiendo consultas de antiguos clientes que buscan optimizaciones. Expertos del sector han señalado: «Anteriormente, los grupos de clientes relativamente consolidados solían estar limitados a los servicios estandarizados de empresas más grandes, fuertemente condicionados por sus ventajas de coste derivadas de la escala. Sin embargo, tras completar la implementación de DeepSeek-R1/V3 antes del Festival de Primavera, recibimos repentinamente solicitudes de cooperación de varios clientes reconocidos, e incluso clientes que antes no estaban en activo se pusieron en contacto para presentar nuestros servicios DeepSeek». Actualmente, parece que DeepSeek está haciendo que el rendimiento de la inferencia de modelos sea cada vez más crucial, y con la adopción más generalizada de modelos de gran tamaño, esto seguirá influyendo significativamente en el desarrollo de la industria de la infraestructura de IA. Si un modelo a nivel de DeepSeek pudiera implementarse localmente a bajo coste, contribuiría enormemente a los esfuerzos de transformación digital de gobiernos y empresas. Sin embargo, persisten los desafíos, ya que algunos clientes pueden tener altas expectativas respecto a las capacidades de los modelos de gran tamaño, lo que hace más evidente que equilibrar el rendimiento y el coste es vital en la implementación práctica. 

Para evaluar si DeepSeek es mejor que ChatGPT, es fundamental comprender sus principales diferencias, fortalezas y casos de uso. A continuación, una comparación completa:

Característica/Aspecto Búsqueda profunda ChatGPT
Propiedad Desarrollado por una empresa china Desarrollado por OpenAI
Modelo fuente Código abierto Propiedad
Costo De uso gratuito; opciones de acceso a API más económicas Precios de suscripción o pago por uso
Personalización Altamente personalizable, lo que permite a los usuarios modificarlo y desarrollarlo. Personalización limitada disponible
Desempeño en tareas específicas Se destaca en ciertas áreas como análisis de datos y recuperación de información. Versátil con un fuerte desempeño en escritura creativa y tareas conversacionales.
Soporte de idiomas Fuerte enfoque en el idioma y la cultura china Amplio soporte lingüístico pero centrado en EE. UU.
Costo de capacitación Costos de capacitación más bajos, optimizados para la eficiencia Costos de capacitación más elevados, que requieren recursos computacionales sustanciales
Variación de la respuesta Puede ofrecer diferentes respuestas, posiblemente influenciadas por el contexto geopolítico. Respuestas consistentes basadas en datos de entrenamiento
Público objetivo Dirigido a desarrolladores e investigadores que desean flexibilidad. Dirigido a usuarios generales que buscan capacidades de conversación.
Casos de uso Más eficiente para la generación de código y tareas rápidas Ideal para generar texto, responder consultas y entablar diálogos.

Una perspectiva crítica sobre la disrupción de Nvidia

Actualmente, además de Huawei, varios fabricantes nacionales de chips como Moore Threads, Muxi, Biran Technology y Tianxu Zhixin también se están adaptando a los dos modelos de DeepSeek. Un fabricante de chips declaró a AI Technology Review: «La estructura de DeepSeek demuestra innovación, pero sigue siendo un LLM. Nuestra adaptación a DeepSeek se centra principalmente en aplicaciones de razonamiento, lo que hace que la implementación técnica sea bastante sencilla y rápida». Sin embargo, el enfoque MoE requiere mayores exigencias en términos de almacenamiento y distribución, además de garantizar la compatibilidad durante la implementación con chips nacionales, lo que presenta numerosos desafíos de ingeniería que deben resolverse durante la adaptación. «Actualmente, la potencia computacional nacional no alcanza a la de Nvidia en usabilidad y estabilidad, lo que requiere la participación de la fábrica original para la configuración del entorno de software, la resolución de problemas y la optimización fundamental del rendimiento», afirmó un profesional del sector basándose en su experiencia práctica. Simultáneamente, "Debido a la gran escala de parámetros de DeepSeek R1, la potencia computacional nacional requiere más nodos para la paralelización. Además, las especificaciones de hardware nacionales aún están algo retrasadas; por ejemplo, el Huawei 910B actualmente no admite la inferencia FP8 introducida por DeepSeek". Uno de los aspectos más destacados del modelo DeepSeek V3 es la introducción de un marco de entrenamiento de precisión mixta FP8, que se ha validado eficazmente en un modelo extremadamente grande, lo que supone un logro significativo. Anteriormente, importantes empresas como Microsoft y Nvidia sugirieron trabajos similares, pero persisten dudas en la industria sobre su viabilidad. Se entiende que, en comparación con INT8, la principal ventaja de FP8 es que la cuantificación posterior al entrenamiento puede lograr una precisión prácticamente sin pérdidas, a la vez que mejora significativamente la velocidad de inferencia. En comparación con FP16, FP8 puede alcanzar una aceleración hasta dos veces superior a la del H20 de Nvidia y más de 1,5 veces superior a la del H100. Cabe destacar que, a medida que cobran fuerza los debates sobre la tendencia de la potencia computacional y los modelos nacionales, la especulación sobre si Nvidia podría verse afectada y si se podría superar la ventaja competitiva de CUDA se vuelve cada vez más frecuente. Un hecho innegable es que DeepSeek ha provocado una caída sustancial en el valor de mercado de Nvidia, pero este cambio plantea dudas sobre la integridad de la potencia computacional de alta gama de Nvidia. Se están cuestionando las narrativas previamente aceptadas sobre la acumulación computacional impulsada por el capital, pero sigue siendo difícil que Nvidia sea reemplazada por completo en escenarios de entrenamiento. El análisis del uso intensivo de CUDA por parte de DeepSeek muestra que la flexibilidad, como el uso de SM para la comunicación o la manipulación directa de tarjetas de red, no es viable para las GPU convencionales. La industria enfatiza que la ventaja competitiva de Nvidia abarca todo el ecosistema CUDA, y no solo CUDA en sí, y las instrucciones PTX (ejecución de subprocesos en paralelo) que emplea DeepSeek siguen formando parte del ecosistema CUDA. A corto plazo, la potencia computacional de Nvidia es ineludible, especialmente en el entrenamiento. Sin embargo, implementar tarjetas nacionales para razonamiento será relativamente más sencillo, por lo que probablemente el progreso será más rápido. La adaptación de las tarjetas nacionales se centra principalmente en la inferencia; nadie ha logrado entrenar aún a escala un modelo del rendimiento de DeepSeek en tarjetas nacionales, comentó un analista del sector a AI Technology Review. En general, desde el punto de vista de la inferencia, las circunstancias son alentadoras para los chips nacionales de modelos grandes. Las oportunidades para los fabricantes nacionales de chips en el ámbito de la inferencia son más evidentes debido a los requisitos excesivamente altos del entrenamiento, que dificultan su entrada. Los analistas sostienen que basta con aprovechar las tarjetas de inferencia nacionales; si es necesario, es factible adquirir una máquina adicional, mientras que los modelos de entrenamiento plantean desafíos únicos: gestionar un mayor número de máquinas puede resultar engorroso y unas tasas de error más altas pueden afectar negativamente los resultados del entrenamiento. El entrenamiento también tiene requisitos específicos de escala de clúster, mientras que las exigencias de los clústeres para la inferencia no son tan estrictas, lo que facilita los requisitos de la GPU. Actualmente, el rendimiento de la tarjeta H20 de Nvidia no supera al de Huawei o Cambrian; su punto fuerte reside en la agrupación en clústeres. Basándose en el impacto general en el mercado de la potencia computacional, el fundador de Luchen Technology, You Yang, señaló en una entrevista con AI Technology Review: «DeepSeek podría dificultar temporalmente el establecimiento y el alquiler de clústeres computacionales de entrenamiento ultragrandes. A largo plazo, al reducir significativamente los costos asociados con el entrenamiento, el razonamiento y las aplicaciones de modelos grandes, es probable que la demanda del mercado aumente. Por lo tanto, las iteraciones posteriores de IA basadas en esto impulsarán continuamente una demanda sostenida en el mercado de la potencia computacional». Además, «la mayor demanda de DeepSeek de servicios de razonamiento y ajuste fino es más compatible con el panorama computacional nacional, donde las capacidades locales son relativamente débiles, lo que ayuda a mitigar el desperdicio de recursos inactivos tras el establecimiento del clúster; esto crea oportunidades viables para los fabricantes en los diferentes niveles del ecosistema computacional nacional». Luchen Technology ha colaborado con Huawei Cloud para lanzar las API de razonamiento de la serie DeepSeek R1 y los servicios de imágenes en la nube basados ​​en la potencia computacional nacional. You Yang expresó optimismo sobre el futuro: "DeepSeek infunde confianza en las soluciones producidas nacionalmente, fomentando un mayor entusiasmo e inversión en capacidades computacionales nacionales en el futuro".

微信图片_20240614024031.jpg1

Conclusión

La superioridad de DeepSeek respecto a ChatGPT depende de las necesidades y objetivos específicos del usuario. Para tareas que requieren flexibilidad, bajo coste y personalización, DeepSeek puede ser superior. Para escritura creativa, consultas generales e interfaces conversacionales intuitivas, ChatGPT podría ser la mejor opción. Cada herramienta tiene una finalidad diferente, por lo que la elección dependerá en gran medida del contexto en el que se utilice.

Encuentre una solución de cable ELV

Cables de control

Para cables BMS, BUS, industriales y de instrumentación.

Sistema de cableado estructurado

Red y datos, cable de fibra óptica, cable de conexión, módulos, placa frontal

Reseña de Exposiciones y Eventos 2024

Energía del Medio Oriente en Dubái, del 16 al 18 de abril de 2024

16-18 de abril de 2024 Securika en Moscú

9 de mayo de 2024 EVENTO DE LANZAMIENTO DE NUEVOS PRODUCTOS Y TECNOLOGÍAS en Shanghái

22-25 de octubre de 2024 SECURITY CHINA en Beijing

19 y 20 de noviembre de 2024 MUNDO CONECTADO KSA


Hora de publicación: 10 de febrero de 2025