DeepSeek V3和R1系统架构之道:逆向渐进式创新出圈

时间:2025-02-17

  DeepSeek V3和R1的创新系统架构源于对AI推理效率与成本平衡的突破性探索。V3作为混合专家(MoE)模型,总参数达671B,采用多头潜在注意力(MLA)和无辅助损失负载均衡策略,通过FP8混合精度训练优化资源消耗,预训练14.8万亿Token,成本仅为同类模型的1/15。R1则基于V3架构,首次通过纯强化学习(RL)激发推理能力,无需监督微调(SFT),结合冷启动数据与群体相对策略优化(GRPO)算法,显著提升数学、编程等结构化任务性能,并通过蒸馏技术将推理能力迁移至小模型,实现低成本高效部署。这一架构革新推动了国产AI算力生态发展,降低对高端GPU的依赖,加速了AGI的商业化进程。


1739770466248341.jpg


  在这一技术革新的背景下,安擎正在积极推进DeepSeek AI服务器产品的适配与调优,并与业界合作伙伴共同打造基于安擎AI服务器及集群管理的全栈解决方案。与此同时,安擎资深技术专家将深入研究DeepSeek发布的核心论文,通过学习和理解其模型创新技术,探索其创新思路,致力于构建更具前沿竞争力的AI服务器系统及解决方案,与客户及合作伙伴共同构建创新驱动的生成式人工智能生态。以下是DeepSeek 四篇核心论文概述及关键创新点梳理:


1.《皇冠官方网站APP》

概述:

该论文提出了一种通过纯强化学习(RL)自主激发大语言模型(LLM)推理能力的方法,结合群体相对策略优化(GRPO)算法和双阶段训练策略(推理导向RL与通用对齐RL),显著提升了模型在数学、编程等结构化任务中的性能。实验显示,其Pass@1准确率在AIME 2024任务中达79.8%,推理成本仅为同类模型的1/30。

创新点:

· GRPO算法:替代传统PPO,通过组内奖励对比优化策略,无需独立价值模型,降低计算开销28。

· 冷启动+多阶段RL:结合少量高质量推理链数据微调,规范输出格式(如标签),提升可读性与任务适应性2。

· 蒸馏技术:将80万条推理数据用于小模型微调,7B模型在数学任务中超越32B基线模型,实现高效推理能力迁移210。


2.《皇冠官方网站APP》

概述:

该技术报告介绍了DeepSeek-V3的混合专家(MoE)架构,包含671B总参数(每个Token激活37B),采用多头隐注意力(MLA)和无辅助损失的负载平衡策略,预训练14.8万亿Token。其在MATH-500任务中准确率达97.3%,训练成本仅为Llama 3系列的1/15,性能对标GPT-4o。

创新点:

· MLA与DeepSeekMoE:提升推理效率与经济性,支持128K长上下文处理69。

· 多Token预测(MTP):扩展预测范围至多个未来Token,增强数据效率和表征预规划能力6。

· 低成本训练优化:通过FP8混合精度训练和工程优化,每万亿Token训练仅需18万H800 GPU小时,显著降低资源消耗。


3.《皇冠官方网站APP》


概述:

探索无需监督微调(SFT)的纯RL训练路径,验证模型通过GRPO自主涌现“反思”和“多步验证”等复杂推理行为。初始版本在AIME任务中Pass@1从15.6%提升至71.0%,多数投票后达86.7%,但存在多语言混杂与可读性缺陷。

创新点:

· 自我进化现象:模型在训练中自发形成纠错与验证能力,如数学解题中的“Aha时刻”。

· 极简奖励设计:仅依赖答案正确性与格式规范,避免复杂奖励模型导致的训练偏差。


4.《皇冠官方网站APP》

概述:

提出基于动态权重分配的跨维度知识蒸馏方法,将32B大模型的推理逻辑迁移至7B小模型,使其在AIME任务中性能提升23%,超越原32B模型。

创新点:

· 思维范式迁移:解构大模型的认知模式,而非单纯知识记忆,提升小模型的元推理能力。

· 低成本部署:7B蒸馏模型在边缘设备实现高效推理,降低硬件依赖。

DeepSeek的核心论文主要围绕强化学习驱动的推理优化(R1系列)和高效架构设计(V3系列)展开。通过算法创新(如GRPO、MTP)和工程优化(如FP8训练、蒸馏技术),DeepSeek成功实现了性能与成本的平衡。此外,其开源策略(例如发布1.5B至70B的蒸馏模型)进一步推动了AI技术的民主化,为边缘计算和垂直领域应用提供了新的范式。

DeepSeek的成功在全球范围内引发了广泛关注和深入探讨,特别是其系统架构的创新成为焦点。在综合国内外技术流派的观点,并结合安擎在AI服务器开发设计领域的多年积累以及对DeepSeek 以上核心论文的深入研究后,我们将其系统架构之道总结为“逆向渐进式创新出圈”。鉴于读者对AI大模型的了解程度各异,本文以浅显易懂的语言展开,运用类比的方式剖析关键技术,避免过多引用复杂论文内容,旨在让零基础读者理解DeepSeek架构的核心理念。对于AI大模型领域的资深读者,本文可作为启发性读物,助力快速提炼要点,并根据需要进一步阅读论文原文。我们期待本文对DeepSeek架构的总结能与您产生共鸣。


DeepSeek V3混合专家系统(MoE)和多头潜在注意力(MLA),渐进式创新典范

  渐进式创新与颠覆式创新是技术演进的两种路径。前者通过持续优化现有技术比如算法效率提升等,在现有市场框架内提升性能、降低成本;后者以突破性技术重构产业逻辑,通过创造新需求或替代旧范式开辟增量市场。二者共同推动技术螺旋上升,渐进创新维持竞争力,颠覆创新驱动范式跃迁。结合国内大模型基础以及高端算力资源使用受限的现实,基于可用的模型生态资源基础,Deepseek V3 系统架构采取了务实且高效的渐进式工程创新路径,以MoE和MLA为例,进一步阐述其渐进式创新之道。

  MoE并非DeepSeek首创,其最早的应用甚至不在LLM领域,而是出现在谷歌的广告投放和预测模型中。国外大模型研发机构通常拥有充足算力资源,可稳定提升模型性能,而DeepSeek团队面临严格的算力限制,只能通过创新破局。MoE架构基于“专家团队”分工协作,专家间的高效沟通是关键。DeepSeek在此基础上,纳入动态子模型激活创新,实现了“让正确的专家完成正确的合作”,从而突破资源瓶颈。以装修房子为例,形象化的解释MoE和传统架构核心原理以及DeepSeek MoE创新所在。

  如图1所示的传统AI模型,就像你请了一个全能装修师傅,他既懂水电、木工,又会刷墙铺地板。但无论任务是装水管还是打柜子,他每次都得独自完成所有步骤。比如让他“装个插座”,他需要先回忆水电知识,再复习木工技巧,最后还要检查刷墙步骤。虽然他很努力,但效率低下(每项任务都要重复完整流程),计算资源消耗大(容易“累”),遇到复杂任务(如全屋精装)还可能忙不过来。而MoE(混合专家模型)则完全不同。你雇了一个装修队长,他手下有水电专家、木工专家、油漆专家和设计师。每当你提出需求(比如“装个复古吊灯”),队长会迅速判断:“这任务80%是水电问题,20%涉及设计”,然后只派水电工和设计师来干活,其他人则继续待命。结果是:任务完成得又快又好(计算资源精准分配),团队还能随时扩容(新增专家不影响整体运行)。


1739770635831886.jpg



  MoE大模型架构核心就是通过动态路由机制将输入数据分配到不同的子网络(或者说专家)进行处理每次应用的时候只会激活部分的专家这样就可以提高计算的效率降低训练和推理的成本。DeepSeek MoE采用动态专家激活与参数高效利用,无辅助损失负载均衡,模块化可扩展架构,FP8低精度训练与硬件协同优化等创新技术,实现了“让正确的专家完成正确的合作”。这进一步解释了6700亿参数中DeepSeek V3只需要激活370亿参数的原因所在。

  MLA (Multi-Head Latent Attention) 多头潜在注意力是DeepSeek在V3版本架构上的创新,实现优化显存与计算效率,通过低秩键值联合压缩(Low-rank Key-Value Joint Compression)和潜在变量建模,减少推理时的KV缓存占用,同时保持或提升模型性能,解决了传统MHA (Multi-Head Attention) 多头注意力架构,因并行多个注意力头捕捉输入序列的不同关联造成的显存占用高、长序列计算效率低的问题。以编辑杂志为例,形象化的描述MLA和MHA的核心原理以及MLA的创新所在。如图2所描述,基于MHA的普通模型:每个栏目的写作需要所有编辑同时参与,每个人都要记住整本书的情节(存储所有KV缓存),导致效率低下。MLA模型:主编先提炼出每个栏目的领域(潜在向量),然后根据当前栏目的领域(如物理、航空航天)只调用相关领域的编辑(专家),其他人休息。这样既节省时间,又保证内容质量。


1739770691960026.jpg



DeepSeek R1 基于群体相对策略优化(GRPO)的强化学习架构,引领逆向创新风向

  DeepSeek技术突破的标志性成果当属其推理模型双星——DeepSeek-R1-Zero与DeepSeek-R1,这两大模型的问世首次构建起与OpenAI o1推理体系的技术抗衡能力。在R1系列面世前,OpenAI的o1长期占据推理模型赛道的垄断地位。DeepSeek实现"破圈传播"的核心创新体现在双重维度:显性交互层面,R1模型不仅输出最终结果,更首创"思维过程可视化"机制,将隐式推理链条转化为可解释的逐步推导路径;技术底层层面,其突破性在于构建了完全脱离人类反馈的强化学习训练范式。值得注意的是,R1的技术演进始自其前身R1-Zero,研发团队在该原型阶段实施了极具风险的技术验证:采用纯强化学习框架,摒弃监督微调环节,直接探索大模型在零人工标注数据环境下自主演化推理能力的可能性。这项被称为"无监督认知觉醒"的实验,最终验证了语言模型通过自主探索-利用机制发展出复杂推理能力的可行性。如图3所示,DeepSeek R1研究论文中展示的自进化强化学习架构示意图,其技术框架以"环境交互-策略内生-奖励自洽"三重机制为理论根基,重点论证了无需人类反馈的强化学习范式作为系统核心支柱的可行性。


1739770737121869.jpg

图3 自进化强化学习架构示意图

(来自DeepSeek R1论文)



  为便于理解,简单来说,强化学习是一种通过试错来学习最优策略的方法,其核心在于为机器提供大量数据和一个奖励函数(reward function)。以AlphaGo为例,它最初通过模仿人类棋谱学习下棋,但最终通过强化学习实现了从模仿到超越人类的突破。在这一过程中,AlphaGo完全摒弃了人类棋谱,转而通过自我对弈不断优化策略,最终达到超越人类顶尖水平的成就。如图4所示,以AlphaGo为例,形象化地展示了监督学习和强化学习的基本原理。


1739770803286979.jpg

图4 以AlphaGo为例,阐述监督学习和

强化学习的基本原理



  理解强化学习与监督学习的基本原理后,我们聚焦DeepSeek R1的逆向创新路径的探讨。OpenAI提出的近端策略优化(PPO)算法基于Actor-Critic双模型架构,其设计核心包含两个关键技术:首先,通过策略更新裁剪机制约束策略模型的梯度幅度,有效控制策略迭代的稳定性边界;其次,运用广义优势估计(GAE)对时序差分误差进行指数衰减加权,实现偏差-方差权衡下的优势函数精准估计。相较之下,DeepSeek研发的群体相对策略优化(GRPO)实现了三大范式突破:其一,摒弃价值函数估计模块,通过策略网络直接生成多组候选动作序列;其二,创新性地构建群体相对优势评估体系,利用同批次采样输出的奖励分布统计量(均值μ与标准差σ)进行动态标准化处理;其三,采用隐式优势归一化技术,将传统基于绝对值的优势评估转化为群体内相对排序评估,此举不仅将计算复杂度降低至线性级别,更通过分布感知机制增强了策略更新的鲁棒性。表1从10个关键维度对PPO和GRPO进行了详细对比总结。


1739770864585522.jpg


  从技术演进脉络分析,GRPO的创新性体现为基于PPO范式的架构重构而非理论颠覆,其技术路径的连续性表现在两个维度:其一,继承策略梯度法的参数空间优化内核,保留策略模型与环境交互的马尔可夫决策过程建模框架;其二,将PPO的显式优势估计-策略更新分离机制,转化为基于群体采样的隐式策略评估-改进循环,通过算法组件重组实现计算流重构。尽管该方案因去除价值模型引发"策略退化风险"的技术争议,但DeepSeek通过三阶技术补偿机制完成创新闭环:①采用动态过程监督奖励塑形,在生成长文本时实施多粒度即时反馈;②构建隐式课程学习机制,通过组内输出质量分布自动调节探索-利用平衡;③设计计算最优性驱动的策略熵约束,在降低方差的同时维持策略多样性。这种逆向工程创新思维本质上是以大语言模型训练的现实算力约束为先验条件,通过结构简化→计算加速→数据通量提升→策略隐性增强的链式反应,在数学定理证明等复杂推理任务中实现百倍级训练速度提升,验证了"参数效率优先于架构完备性"的技术假设。


总结:

  在生成式AI技术范式重构期,DeepSeek提出的逆向渐进式创新架构开创了系统级优化的新范式:其核心在于以终端场景需求为锚点,逆向重构技术路径实现效率跃迁。典型技术突破包括——基于低秩缓存重构的多头潜在注意力(MLA)机制,将KV缓存显存消耗降低76%的同时维持多粒度语义建模能力;采用动态子模型激活的混合专家架构(MoE),使175B参数模型推理成本降至1/8。这种架构革新不仅驱动DeepSeek V3/R1实现性能-能效双突破,更引发三重产业变革:催化垂直领域AI原生应用爆发,重构大模型开源与闭源的价值平衡点,倒逼GPU算力市场形成弹性供给体系,最终推动生成式AI从实验室创新向量产化部署的历史性跨越。


  安擎作为国内专业的AI服务器及定制化方案提供商,从基础技术出发,探索未来算力发展趋势,后续安擎将陆续推出DeepSeek时代的生成式人工智能系统架构关键技术及解决参考方案分享,内容涉及场景需求定义系统架构、 基于OCS(光电路开关)的GenAI fabric 开放互联、系统 RAS (可靠性、可用性和可维护性) 和智能调试及根因定位、先进液冷、可持续和可扩展碳优化计算、系统安全,以及电力算力资源调度优化等。欢迎您的及时关注。

返回列表
安擎计算机信息股份有限公司
  • 服务热线:
    售前—400-779-6858 售后—400-700-6909
  • 服务邮箱:
    support@360study.net
  • 销售邮箱:
    sales@360study.net
公众号
Copyright © 2023 安擎计算机信息股份有限公司 版权所有 津ICP备17006743号 公网安备 12011402001065号
中央网信办互联网违法和不良信息举报中心:http://www.12377.cn 天津市互联网违法和不良信息举报中心:tjjubao@tj.gov.cn http://www.qinglangtianjin.com