Deepseek: el disruptivo que revoluciona el paisaje de IA

Aipu Waton Group

Introducción

La ansiedad continua entre los modelos grandes en competencia, los proveedores de la nube que compiten por la participación en el mercado y los fabricantes de chips trabajadores: el efecto profundo persiste.

A medida que el festival de primavera llega a su fin, la emoción que rodea a Deepseek sigue siendo fuerte. Las recientes vacaciones destacaron un sentido significativo de competencia dentro de la industria tecnológica, y muchos discutieron y analizaron este "bagre". Silicon Valley está experimentando un sentido de crisis sin precedentes: los defensores del código abierto están expresando sus opiniones nuevamente, e incluso OpenAi está reevaluando si su estrategia de código cerrado fue la mejor opción. El nuevo paradigma de los costos computacionales más bajos ha desencadenado una reacción en cadena entre los gigantes de los chips como Nvidia, lo que lleva a las pérdidas de valor de mercado de un solo día en la historia del mercado de valores de EE. UU., Mientras que las agencias gubernamentales están investigando el cumplimiento de los chips utilizados por Deepseek. En medio de revisiones mixtas de Deepseek en el extranjero, a nivel nacional, está experimentando un crecimiento extraordinario. Después del lanzamiento del modelo R1, la aplicación asociada ha visto un aumento en el tráfico, lo que indica que el crecimiento en los sectores de aplicación impulsará el ecosistema general de IA hacia adelante. El aspecto positivo es que Deepseek ampliará las posibilidades de aplicación, lo que sugiere que confiar en ChatGPT no será tan costoso en el futuro. Este cambio se ha reflejado en las actividades recientes de OpenAI, incluida la provisión de un modelo de razonamiento llamado O3-Mini a usuarios libres en respuesta a Deepseek R1, así como actualizaciones posteriores que hicieron que la cadena de pensamiento de O3-Mini sea pública. Muchos usuarios en el extranjero expresaron su gratitud a Deepseek por estos desarrollos, aunque esta cadena de pensamiento sirve como un resumen.

Optimista, es evidente que Deepseek está unificando a los jugadores nacionales. Con su enfoque en reducir los costos de capacitación, varios fabricantes de chips aguas arriba, proveedores de nubes intermedios y numerosas nuevas empresas están uniendo activamente el ecosistema, mejorando la eficiencia de los rentabilidades para usar el modelo Deepseek. Según los documentos de Deepseek, la capacitación completa del modelo V3 requiere solo 2.788 millones de horas de GPU H800, y el proceso de capacitación es altamente estable. La arquitectura MOE (mezcla de expertos) es crucial para reducir los costos de pre-entrenamiento en un factor de diez en comparación con LLAMA 3 con 405 mil millones de parámetros. Actualmente, V3 es el primer modelo reconocido públicamente que demuestra tal escasez en MOE. Además, el MLA (atención de múltiples capas) funciona sinérgicamente, particularmente en aspectos de razonamiento. "Cuanto más escaso sea el MOE, mayor es el tamaño del lote necesario durante el razonamiento para utilizar completamente la potencia computacional, siendo el tamaño del kvcache el factor limitante clave; el MLA reduce significativamente el tamaño de kvcache", señaló un investigador de la tecnología Chuanjing en un análisis para la revisión de la tecnología AI. En general, el éxito de Deepseek radica en la combinación de varias tecnologías, no solo una. Los expertos de la industria elogian las capacidades de ingeniería del equipo Deepseek, señalando su excelencia en la capacitación y la optimización del operador paralelo, logrando resultados innovadores refinando cada detalle. El enfoque de código abierto de Deepseek alimenta aún más el desarrollo general de modelos grandes, y se anticipa que si modelos similares se expanden en imágenes, videos y más, esto estimulará significativamente la demanda en toda la industria.

Oportunidades para servicios de razonamiento de terceros

Los datos indican que desde su lanzamiento, Deepseek ha acumulado 22.15 millones de usuarios activos diarios (DAU) en solo 21 días, logrando el 41.6% de la base de usuarios de ChatGPT y superando a 16.95 millones de usuarios activos diarios de DoBao, convirtiéndose en la aplicación de más rápido crecimiento en todo el mundo, encomendando la tienda Apple App Store en 157 países/regiones. Sin embargo, mientras los usuarios acudieron en masa, los piratas cibernéticos han estado atacando implacablemente la aplicación Deepseek, causando una tensión significativa en sus servidores. Los analistas de la industria creen que esto se debe en parte a las tarjetas de despliegue de Speeek para capacitación, al tiempo que carece de suficiente poder computacional para el razonamiento. Una información privilegiada de la industria informó a la revisión de tecnología de inteligencia artificial: "Los problemas del servidor frecuentes se pueden resolver fácilmente cobrando tarifas o financiamiento para comprar más máquinas; en última instancia, depende de las decisiones de Deepseek". Esto presenta una compensación en el enfoque en la tecnología versus la productización. Deepseek se ha basado en gran medida en la cuantización cuántica para el autosustenimiento, ya que ha recibido poca financiación externa, lo que resulta en una presión de flujo de efectivo relativamente baja y un entorno tecnológico más puro. Actualmente, a la luz de los problemas antes mencionados, algunos usuarios instan a Deepseek en las redes sociales a elevar los umbrales de uso o introducir características pagas para mejorar la comodidad del usuario. Además, los desarrolladores han comenzado a utilizar la API oficial o las API de terceros para la optimización. Sin embargo, la plataforma abierta de Deepseek anunció recientemente: "Los recursos actuales del servidor son escasos, y se han suspendido las recargas de servicios de API".

 

Sin duda, esto abre más oportunidades para proveedores externos en el sector de infraestructura de IA. Recientemente, numerosos gigantes nacionales e internacionales de la nube han lanzado las API modelo de Deepseek: los gigantes de los ruidosas Microsoft y Amazon fueron de los primeros en unirse a fines de enero. El líder nacional, Huawei Cloud, hizo el primer movimiento, lanzando los servicios de razonamiento Deepseek R1 y V3 en colaboración con el flujo basado en Silicon el 1 de febrero. Los informes de AI Technology Review indican que los servicios de Flow con sede en Silicon han visto una afluencia de usuarios, "bloqueando" efectivamente la plataforma. Las tres grandes compañías tecnológicas, BAT (Baidu, Alibaba, Tencent) y Bytedance, también emitieron ofertas de bajo costo y por tiempo limitado a partir del 3 de febrero, que recuerdan a las guerras de precios del proveedor de nubes del año pasado encendidas por el lanzamiento del modelo V2 de Deepseek, donde Deepseek comenzó a ser llamado el "Butcher de precios". Las acciones frenéticas de los proveedores de la nube se hacen eco de los fuertes lazos anteriores entre Microsoft Azure y OpenAI, donde en 2019, Microsoft realizó una inversión sustancial de $ 1 mil millones en OpenAI y obtuvo beneficios después del lanzamiento de ChatGPT en 2023. Sin embargo, esta relación cercana comenzó a frayes después de que Meta Open-Oreured Llama, permitiendo a otros proveedores fuera del Microsoft Azure Ecosystem a competir a sus grandes modelos. En este caso, Deepseek no solo ha superado a ChatGPT en términos de calor del producto, sino que también ha introducido modelos de código abierto después de la liberación de O1, similar a la emoción que rodea el renacimiento de LLAMA de GPT-3.

 

En realidad, los proveedores de la nube también se están posicionando como puertas de enlace de tráfico para aplicaciones de IA, lo que significa que la profundización de los lazos con los desarrolladores se traduce en ventajas preventivas. Los informes indican que Baidu Smart Cloud tenía más de 15,000 clientes utilizando el modelo Deepseek a través de la plataforma Qianfan en el día de lanzamiento del modelo. Además, varias empresas más pequeñas ofrecen soluciones, que incluyen flujo basado en silicio, tecnología Luchen, tecnología Chuanjing y varios proveedores de IA Infra que han lanzado soporte para modelos DeepSeek. AI Technology Review ha aprendido que las oportunidades de optimización actuales para implementaciones localizadas de Deepseek existen principalmente en dos áreas: una optimiza las características de escasez del modelo MOE utilizando un enfoque de razonamiento mixto para implementar el modelo MOE de 671 mil millones de parámetros localmente mientras utiliza infferencia híbrida de GPU/CPU. Además, la optimización de MLA es vital. Sin embargo, los dos modelos de Deepseek todavía enfrentan algunos desafíos en la optimización de la implementación. "Debido al tamaño del modelo y a numerosos parámetros, la optimización es realmente compleja, particularmente para las implementaciones locales donde lograr un equilibrio óptimo entre el rendimiento y el costo será un desafío", declaró un investigador de Chuanjing Technology. El obstáculo más significativo radica en superar los límites de capacidad de memoria. "Adoptamos un enfoque de colaboración heterogéneo para utilizar completamente las CPU y otros recursos computacionales, colocando solo las partes no compartidas de la matriz MOE dispersa en CPU/DRAM para procesar utilizando operadores de CPU de alto rendimiento, mientras que las porciones densas permanecen en la GPU", explicó más allá. Los informes indican que el marco de código abierto de Chuanjing Ktransformers inyecta principalmente varias estrategias y operadores en la implementación de transformadores originales a través de una plantilla, mejorando significativamente la velocidad de inferencia utilizando métodos como el cudagraph. Deepseek ha creado oportunidades para estas nuevas empresas, ya que los beneficios de crecimiento se están volviendo evidentes; Muchas empresas han informado un notable crecimiento del cliente después de lanzar la API Deepseek, recibiendo consultas de clientes anteriores que buscan optimizaciones. Los expertos de la industria han señalado: "En el pasado, los grupos de clientes algo establecidos a menudo se encerraron en los servicios estandarizados de las compañías más grandes, estrechamente obligados por sus ventajas de costos debido a la escala. Sin embargo, después de completar el despliegue de Deepseek-R1/V3, de repente recibimos solicitudes de cooperación de varios clientes conocidos e incluso clientes anteriormente iniciados por el contacto para introducir nuestros servicios profundos". " Actualmente, parece que Deepseek está haciendo que el rendimiento de la inferencia del modelo sea cada vez más crítico, y con la adopción más amplia de modelos grandes, esto continuará influyendo significativamente en el desarrollo en la industria de infra AI. Si un modelo de nivel profundo se pudiera implementar localmente a un bajo costo, ayudaría mucho a los esfuerzos de transformación digital del gobierno y la empresa. Sin embargo, los desafíos persisten, ya que algunos clientes pueden tener altas expectativas con respecto a las grandes capacidades del modelo, lo que hace que sea más evidente que equilibrar el rendimiento y el costo se vuelve vital en la implementación práctica. 

Para evaluar si Deepseek es mejor que ChatGPT, es esencial comprender sus diferencias clave, fortalezas y casos de uso. Aquí hay una comparación completa:

Característica/aspecto Veterano Chatgpt
Propiedad Desarrollado por una empresa china Desarrollado por OpenAi
Modelo de fuente De código abierto Propiedad
Costo Gratis para usar; Opciones de acceso a la API más barato Suscripción o precios de pago por uso
Personalización Altamente personalizable, lo que permite a los usuarios ajustarlo y construirlo Personalización limitada disponible
Rendimiento en tareas específicas Sobresale en ciertas áreas como análisis de datos y recuperación de información Versátil con un fuerte rendimiento en la escritura creativa y las tareas de conversación
Soporte lingüístico Fuerte enfoque en el idioma y la cultura china Soporte lingüístico amplio pero centrado en los Estados Unidos
Costo de capacitación Menores costos de capacitación, optimizados para la eficiencia Mayores costos de capacitación, que requieren recursos computacionales sustanciales
Variación de respuesta Puede ofrecer diferentes respuestas, posiblemente influenciadas por el contexto geopolítico Respuestas consistentes basadas en datos de capacitación
Público objetivo Dirigido a desarrolladores e investigadores que desean flexibilidad Dirigido a usuarios generales que buscan capacidades de conversación
Casos de uso Más eficiente para la generación de códigos y tareas rápidas Ideal para generar texto, responder consultas y participar en el diálogo

Una perspectiva crítica sobre "interrumpir nvidia"

En la actualidad, aparte de Huawei, varios fabricantes de chips nacionales como Moore Threads, Muxi, Biran Technology y Tianxu Zhixin también se están adaptando a los dos modelos de Deepseek. Un fabricante de chips dijo a AI Technology Review: "La estructura de Deepseek demuestra la innovación, pero sigue siendo una LLM. Nuestra adaptación a Deepseek se centra principalmente en las aplicaciones de razonamiento, lo que hace que la implementación técnica sea bastante directa y rápida". Sin embargo, el enfoque MOE requiere mayores demandas en términos de almacenamiento y distribución, junto con garantizar la compatibilidad al implementar con chips domésticos, presentando numerosos desafíos de ingeniería que necesitan resolución durante la adaptación. "Actualmente, el poder computacional doméstico no coincide con los nvidia en la usabilidad y la estabilidad, lo que requiere la participación original de la fábrica para la configuración del entorno de software, la solución de problemas y la optimización fundamental del rendimiento", dijo un profesional de la industria basado en la experiencia práctica. Simultáneamente, "Debido a la gran escala de parámetros de Deepseek R1, el poder computacional doméstico requiere más nodos para la paralelización. Además, las especificaciones de hardware nacionales aún están algo detrás; por ejemplo, el Huawei 910b actualmente no puede soportar la inferencia FP8 introducida por Deepseek". Uno de los aspectos más destacados del modelo Deepseek V3 es la introducción de un marco de entrenamiento de precisión mixto FP8, que se ha validado de manera efectiva en un modelo extremadamente grande, marcando un logro significativo. Anteriormente, los principales actores como Microsoft y Nvidia sugirieron un trabajo relacionado, pero dudas permanecen dentro de la industria con respecto a la viabilidad. Se entiende que, en comparación con INT8, la principal ventaja de FP8 es que la cuantización posterior al entrenamiento puede lograr una precisión casi sin pérdidas mientras mejora significativamente la velocidad de inferencia. Al comparar con FP16, FP8 puede realizar hasta dos veces la aceleración en el H20 de NVIDIA y más de 1,5 veces la aceleración en el H100. En particular, a medida que las discusiones que rodean la tendencia del poder computacional doméstico más los modelos domésticos ganan impulso, la especulación sobre si NVIDIA podría ser interrumpido y si el foso CUDA podría ser evitado, se está volviendo cada vez más frecuente. Un hecho innegable es que Deepseek ha causado una caída sustancial en el valor de mercado de Nvidia, pero este cambio plantea preguntas sobre la integridad de energía computacional de alta gama de NVIDIA. Las narraciones previamente aceptadas con respecto a la acumulación computacional impulsada por el capital están siendo desafiadas, sin embargo, sigue siendo difícil para Nvidia ser reemplazado por completo en los escenarios de entrenamiento. El análisis del uso profundo de CUDA de Deepseek muestra que la flexibilidad, como usar SM para la comunicación o manipular directamente las tarjetas de red, no es factible para que las GPU regulares se acomoden. Los puntos de vista de la industria enfatizan que el foso de Nvidia abarca todo el ecosistema CUDA en lugar de solo CUDA en sí, y las instrucciones PTX (ejecución del hilo paralelo) que los Deepseek emplean todavía son parte del ecosistema CUDA. "A corto plazo, el poder computacional de Nvidia no se puede pasar por alto; esto es especialmente claro en la capacitación; sin embargo, la implementación de tarjetas nacionales para el razonamiento será relativamente más fácil, por lo que el progreso probablemente será más rápido. La adaptación de las tarjetas nacionales se centra principalmente en la inferencia; nadie ha logrado capacitar un desempeño de Deepseek en las cartas nacionales a escala", un analista de la industria analizó la revisión de tecnología AI. En general, desde el punto de vista de la inferencia, las circunstancias son alentadoras para los chips modelos grandes nacionales. Las oportunidades para los fabricantes de chips nacionales dentro del ámbito de la inferencia son más evidentes debido a los requisitos excesivamente altos de la capacitación, lo que obstaculiza la entrada. Los analistas sostienen que simplemente aprovechar las tarjetas de inferencia doméstica es suficiente; Si es necesario, la adquisición de una máquina adicional es factible, mientras que los modelos de capacitación plantean desafíos únicos: manejar un mayor número de máquinas puede volverse pesada, y las tasas de error más altas pueden afectar negativamente los resultados de la capacitación. La capacitación también tiene requisitos específicos de la escala de clúster, mientras que las demandas en los grupos de inferencia no son tan estrictos, aliviando así los requisitos de la GPU. Actualmente, el rendimiento de la tarjeta H20 única de NVIDIA no supera el de Huawei o Cambrian; Su fuerza radica en la agrupación. Basado en el impacto general en el mercado de energía computacional, el fundador de Luchen Technology, You Yang, señaló en una entrevista con AI Technology Review, "Deepseek puede socavar temporalmente el establecimiento y el alquiler de los grupos computacionales de capacitación ultra larga. En la larga ejecución, al reducir significativamente los costos asociados con la capacitación de modelos grandes, razonamiento y las aplicaciones, la demanda de mercado es probable que sean la demanda de mercado basada en el mercado de la ausentación de los años subsecuentes de la ause de la ause de esto, basado en la que se basan en la demanda de mercado, los subsecuencias de la vía posterior de la vía basada en el mercado de la ausentación de la ausentación de la virtud de la aih basadas en la ausentación de la aih basadas en la ausentación de la virtud de la aih basadas en la ausentación de la ai-basada en la ausentación de la ai-basada en el mercado. demanda sostenida en el mercado de energía computacional ". Además, "la mayor demanda de Deepseek de razonamiento y servicios de ajuste fino es más compatible con el panorama computacional doméstico, donde las capacidades locales son relativamente débiles, ayudando a mitigar los desechos del establecimiento de los recursos inactivos posteriores al clúster; esto crea oportunidades viables para los fabricantes en diferentes niveles del ecosistema de computación nacional". Luchen Technology ha colaborado con Huawei Cloud para lanzar las API de razonamiento de la serie DeepSeek R1 y los servicios de imágenes en la nube basados ​​en el poder computacional doméstico. You Yang expresó optimismo sobre el futuro: "Deepseek infunde confianza en las soluciones producidas en el país, alentando un mayor entusiasmo e inversión en capacidades computacionales nacionales en el futuro".

微信图片 _20240614024031.jpg1

Conclusión

Si Deepseek es "mejor" que ChatGPT depende de las necesidades y objetivos específicos del usuario. Para las tareas que necesitan flexibilidad, bajo costo y personalización, Deepseek puede ser superior. Para la escritura creativa, la consulta general e interfaces conversacionales fáciles de usar, ChatGPT puede tomar la iniciativa. Cada herramienta tiene diferentes propósitos, por lo que la elección dependerá en gran medida del contexto en el que se usen.

Encuentra la solución de cable de Elv

Cables de control

Para BMS, bus, industrial, cable de instrumentación.

Sistema de cableado estructurado

Red y datos, cable de fibra óptica, cable de parche, módulos, placa frontal

Revisión de 2024 exposiciones y eventos

De 18 de abril al 18, 2024 Middle-East-Energy en Dubai

De 16 de abril al 18, 2024 Securika en Moscú

9 de mayo, 2024 Evento de lanzamiento de New Products & Technologies en Shanghai

Oct.22 ° 25, 2024 Seguridad China en Beijing

19 de noviembre.


Tiempo de publicación: febrero-10-2025