Performance Performance PK，华为 + DeepSeek> nvidia？

- 编辑：必赢唯一官方网站 - 2025-05-21 09:37

Performance Performance PK，华为 + DeepSeek> nvidia？

Huxiu注意：“世界的伟大模型是国王。”这句话的价值仍在上升。随着春季音乐节期间的DeepSeek V3/R1的流行，基于超大规模（专家的混合）建筑的大型模型正在从培训和开发转变为推理应用程序。为了部署MOE的理解，效率始终是疾病的点。这可以提高将扩展到最高级别的效率，以真正在大型模型中真正取得商业成功。但是，由于模型容量和计算要求很高，传统的扩展解决方案通常依赖于许多GPU中心数据中心（例如H20）。您知道，NVIDIA不仅昂贵，而且不断受地缘政治摩擦的影响，这继续降低其性能以遵守监管需求。最近，华为完全打开了Moe的超大规模规模尺度建模技术，即这不仅实现了国内生产的进一步崩溃，而且超过了基于NVIDIA HOPPER体系结构部署部署的性能。他们是怎么这样做的？数学适合物理，最终提高了计算效率，“数学适合物理”。它通过数学理论，工具，算法和建模来包括硬件和技术限制，并增强芯片和系统功能的性能。华为曾在2025年的新年演讲中被提及：“华为及其伴侣的十多个实验室组成了一个“霍奇普奇”团队。诸如预防热量，高速，高迪斯和大型芯片之类的工程领域。他在超大规模的MOE模型的华为技术团队也围绕数学转换的想法展开，同时保持不变数学问题的基本特征，通过数学不足来提高效率的方法，通过数学不足，LOHIKA对话，LOHIKA对话，包括在较硬件夹中的功能优化速率，包括优化技术的功能，包括优化的功能，包括优化的技术，将其用于临时技术，从而启动了最优化的效果，从而启动了始终效果，从而启动了始终效果。优化技术，将串行计算转变为四趋验证并发换向的最终掩蔽技术，并使用添加代替乘法升至MLA光学实现，并且将诞生一系列具有硬件感知亲和力的创新操作员，以及基本技术详细信息，并将通过一系列技术报告中的一系列技术报道来披露。 S的秘密Asteng Asteng Asteng部署的Uper-large规模MOE模型目前不仅通过技术报告与超级大规模MOE模型共享Asteng技术部署，而且这些基本技术的相关代码也将在上个月开放。在共享行业的NG技术思想的同时，我们还通过开放资源共同与生态环境建立了长期，不断的开放和合作，因此Ascend的技术能力可以通过这些开源来源。它反映了华为稳定的决心开发一个开放的生态系统，这使所有专家都愿意尝试利用Ascend的能力来获得对长期投资的信心，并允许所有积极参与建立信心的人，他们有信心继续努力并共同努力并在中国攀登生态学。超大Moe Big Model推断的挑战具有6710亿个参数。它采用了专家建筑师e在杂种中。 DeepSeek V3在不同的ListShan中表现良好，它代表了开发一些尺寸的大型模型的新趋势，特别是基于软件和硬件的建筑模型，可以使硬件平台功能的性能最大化，并在各种活动中表现出色，包括自然语言理解，代码和数学推理。当涉及到超级大型Moe模型时，让我们称之为由DeepSeek V3代表的大型模型。尽管表现出色，但许多开放源的模型权重和许多工具项目，包括DeePep，想要使用大型型号的企业，这些企业非常适合部署超大Moe模型的完整版本，仍然面临许多挑战：首先，硬件部署的大小更高。现在，当我们与即将使用的模型的人进行互动时，我们始终使用大型模型的推理。由于其自身的尺寸，它不再与预期相媲美美国尺寸的型号，可以在单张卡甚至单台机器卡的一台计算机上运行。硬件簇逐渐成为“血液完整版” MOE模型的标准。其次，模型的大尺寸提出了高效率要求。大量专家为使用硬件内存的效率带来了巨大的挑战。每个专家的重量约为44MB，并且具有58个MOE层和14,906名Super -Large MoE模型的专家。对于AI的一般硬件，需要合理分布的并行性和通信方法设计才能有效地在硬件集群中运行如此众多的专家。同样，超大型Moe模型中的许多现代建筑也带来了许多实际困难。例如，这种多头机制是注意机制（MLA - 多个头痛）。尽管原始注意机制的钥匙值对可以通过PR压缩到较小的隐式矢量空间o投射矩阵，这一创新性还带来了新的操作员优化挑战。例如，它带来了中间变量扩展，并显着增加了向量计算的比例，这为加速计算硬件带来了新的要求。华为解决了上述实际扩展中遇到的问题的解决方案，从模型方面和运营商（基于硬件和网络预期方法）开始，团队建议了许多方法来优化连贯性并开发了一套完整的在集群方面的大型熟练解决方案。 Ascend服务器可在各种调整和型号上使用，并且团队处置了两个标准模型：•CloudMatrix 384 Hypernode•Atlas 800i A2推理服务器。为了分解迫使预填充阶段的第一个令牌延迟和强迫解码阶段的延迟的解码，采用了PD分离方法。在情节的一边，团队基于VLLM框架，适合攀岩服务器，根据类似的DP和EP政策进行调整。在KV调度和交付方面，使用预填充技术调度调度以及Lingquo和分层传输用于减少间接费用雕塑，在请求请求，调度技术，链条链系统和前后处理过程中，进行G-优化的性能是为了实现整个系统的最佳性能。就模型而言，采用了A8W8C16卷方法，其中A8W8采用了bf16数据的INT8和C16数据类型。在特定扩展方面，由于定位和调整两个模型（尤其是网络调整）的巨大差异，具体的扩展计划也不同。对于CloudMatrix 384 Hypernode，此特殊的网络方法具有较高的通信带宽。根据DeepSeek的角色，DECODE是一种严肃的交流瓶颈。为了支持微批量技术，沟通可以涵盖LL其他计算操作。 Cloudmatrix的独特网络384大大减少了沟通时间，并可以有效释放Asced芯片的计算强度。因此，对于超节点，我们在并行扩展中使用大型EP：16张纸牌预填充用途，而解码使用144张卡。其中，部分解码使用128张卡来通过大规模EPS部署路由专家，通过DP部署共享专家的16张卡，MLA部分使用DP来部署它们。根据理论分析，超节点可以得到很高的理论吞吐量。在实际情况下，由于各种因素的影响，包括解码延迟的障碍，每个部分失败的小时部分，时间避免和调整开销的时间表会导致进一步的延迟，以及MMLA组件的序列负载减少和专业平衡MOE的序列均能使MOE平衡均能使平衡MLA负载更多；最后，华为团队与几个因素相结合，以确保E Decododode延迟订单卡的吞吐量达到1920代币/s。对于Atlas 800i A2服务器，由于每个节点都包含8个上升芯片，因此我们需要使用多节点互连进行部署。考虑到吞吐量模型和灵活的部署，我们选择了2节点16卡作为预填充示例和4节点32张卡作为解码的实例。为了在部署时尽可能灵活，在此处选择较少的卡，使整个系统采用一个小型：8（Decode）/16（预填充）常规策略，并将1股专家部署到每个卡上。在解码阶段，MLA组件采用了与DP并行的方法，并且通信过程采用了对Allgather/Realucescatter的解决方案。这种扩展方法可能具有较少的卡计数，它仍然可以达到较大的吞吐量。值得一提解决方案。基于顶部爆发解决方案，我们在100ms下达到了723〜808takens/s的延迟订单吞吐量。推理框架侧优化技术1。API服务器扩展技术团队建议API服务器扩展技术。通过支持API服务器以净化扩展方法，它可以有效地提高框架请求处理功能，减少用户请求延迟并改善系统吞吐量（QPS）。结合优化网络解决方案的优化，并在前面和发布方面具有完整的和完全的异步，可以实现最佳的TTFT，这可以改善出色的负载策略的存在，从而大大提高了MOE专家的性能和动态监控的性能。通过FusionsPEC推理的实际应用（想象中的接近技术），概念推理技术更多地集中在小型低批次（批次）方案上。它如何应用于高通量Cenarios和最大化性能回报已成为一个技术问题，需要轻松克服。在模型的解码阶段，猜测 - 哈卡推理的高计算密度自然对应于Asteng的高计算带宽比。 To fully use the benefits of Astron's high power of computing and achieve high throughput in low -coexcution situations, the MTP team suggested to the Astron: ● Diving Process: In the process of understanding, the imaginary model is placed behind the topic of the topic, and the output of the topic is directly used, and the control parameters of the parameters of controls are directly used, and the control parameters of the parameters of controls, Control of the subjects is re - 使用，并且对控制参数的控制参数被重新错，从而大大减少了情节时间，并适应了由PD隔开的扩展场景。 ●逐步准备轻量级：在Investme领域NT，操作优化和优化器被实现以实现灯步准备，该准备适合多核，并并行全ASNNON框架以减少端到端的延迟。模型端1的性能优化技术。模型侧通信优化●FlashComm：与基本张量并行性通信（TP）通信的Allreduce存在诸如通信时间数量和通信数据量之类的问题。 Alleduce之后的剩余连接和归一化计算具有计算，并且多卡并行性的能力尚未完全使用。为此，团队建议了一个FlashComm网络通信解决方案：在预填充阶段，Allreduce通信在DeepSeek V3网络的MLA层被相同的社区逻辑集取代，并且在实现了communi operatoratek类别的位置，因此已经实现了低位和低位数据通信，因此H有效地减少了通信数据和通信延迟的量，并补充复杂的通信数据，并以通信延迟和通信延迟的条件为条件。 FlashComm技术应用于DeepSeek V3模型预填充阶段，可将25％的流量和提高识别率降低10％。 ●基于FlashComm，为了进一步优化通信操作员的延迟，该团队建议对层中转换的优化解决方案：用于与预填充阶段的MLA层进行优化的解决方案。 BabyTensor并行（TP）和数据并行的数据是柔性的（柔性张力（消除了节点内卡之间积累的需求，并使用网络中的数据维度和音量属性的全尺寸，以实现大量的通信降低通信。een节点，因此可以显着优化延迟的通信。应用于DeepSeek V3/R1的预填充阶段，该阶段将节点内流量降低了71％，并提高了10％以上的识别。 Moe，需要使用Allgather来组装代币在每张卡上的特性，以使专家的激活被拍摄和计算。在该过程中，门控函数首先使用计算，然后进行通信，并使用DP部署共享的专家，从而确保了GATE的计算和通信，共享专家的计算和功能整合功能的Allgather功能之间没有希望。该团队使用阿斯顿的多流机制一次处理这三个部分，从而最大程度地提高了识别模型的性能。与DeepSeek V3模型一起，该技术可以在大情况下的解码性能提高15％。 ●沟通和沟通：上升芯片还提供了一种交流和交流的机制。当通信带宽的使用速率相对较低时，可以将交流运算符一起发送以覆盖通信运营商的启动开销，同时提高通信带宽的使用率。当DeepSeek V3模型进行Allgather和其他通信时，它可以在面对Allgather通信的情况下移动规范操作员和量化操作员，从而减少通信数据的量，从而提高通信效率。但是，由于音量运算符的向前移动，分别需要通信后的激活和大小的量，这增加了从上方开始的通信操作员。由于量表量数据很小，并且带宽占低点，因此团队采用了与激活通信成本和CO的规模相吻合的通信和通信机制Mmunication量表，涵盖量表量的通信成本，而不增加激活量的通信开销。 ●结合通信和重量预取：上升芯片提供了一种缓存机制。进行计算时，操作员优先查找从缓存中查找数据。如果命中率，它将直接从缓存读取数据，否则它将从HBM读取数据，并且缓存带宽将是HBM带宽的很多倍。与通信运算符过程一致，HBM带宽率较低。在通信运营商过程中，随后的操作员要求的权重可以提前从缓存中逐步分阶段，从而减少了随后的操作员计算过程中处理重量的重量。同时，上升芯片支持预拿起带宽的能力助理，因此预摘要对沟通过程中的沟通性能几乎没有影响。对于DeepSeek MoDEL，在MOE模块结束时还原性MLA中矩阵和KV缓存的重量可以提高MLA组件的计算性能几乎10％。 Ang makabagong operator ng Ascendant 1. MLA Operator Optimization Opitan Operator ng Operator: Kumpara sa mga tradisyunal na operator ng atensyon (tulad ng mga operator ng MHA at GQA na may makabuluhang bandwidth bottlenecks), ang MLA ay nagdadala ng mga bagong hamon sa pag -optimize ng操作员Dahil SA Pagpapalawak NG MGA中间变量在Ang Halaga ng Pagkallula ay makabuluhang上升。查看Ascend处理器体系结构的功能，团队对MLA风景中的FA操作员进行了重建和硬件亲和力性能优化算法。 •AMLA（Ascend MLA）算法是模拟性的，并且通过更新二进制编码而不是输入向量核心来实现繁殖计算的添加等效转换，从而大大降低了RepeA中间变量的TED处理。 •仔细计划L1缓存，以尽可能减少内部和外部的重复数据传输。 •在工程实施方面，通过优化计算过程，通过使用诸如K-buffer流量分布等技术实现了立方体计算和矢量计算的相同掩盖，从而提高了L2高速缓存命中率，从而提高了整体操作员的整体性能。上述优化解决方案可提高操作员的性能近1次，非MTP方案中的计算强度使用率达到55％，并且在使用AMTP模块的方案中，计算强度的使用速率高达60％。 MLA预订操作员：对于复杂的MLA预订操作员，在预填充阶段和解码阶段分别采用了各种优化技术：•在预填充阶段，通过诸如双流相关的技术来实现掩盖流，以及FA操作员支持的记忆，操作员。 •在解码阶段，团队采用了体重的吸收，并将序言操作员深入到Mlaprolosics操作员，并对Ascend的硬件体系结构进行了全面的深入优化。特定的优化措施包括：使用重量预取减少管道空化；基于最小化带宽处理和最大化的基于DILI的技术；将pagre的pagre绕到教学中，并等待计算解耦；与局部计算融合一起删除了上面的全核同步；使用上述定制指令集以实现ICACHE压缩，避免阻碍风险等的风险。 2. MOE操作员优化调度/组合融合操作员：在EP扩展模式下，MOE专家在每个卡上分布在较大的通信域中，并且每个令牌都需要在相应的卡上分配以进行计算。实施的原始方法使用初始开始重新列Ange所有令牌根据专家分类，然后与Alltoall和AlltoAllv通信运营商交换令牌。在通信域相对较大的情况下，此实施过程存在诸如Madalas通信时间和上面的严重卡同步等问题，从而阻止了整个网络的端到端延迟的改善。因此，团队提出了两种融合计算的技术，Moedispatch和Moedistibutibutecombine：I -Disassemble计算和输送到计算单位晶粒代币，并通过流动流通过交流和计算并平行地实现；同时，使用语义内存通信技术将数据直接发送到不同卡上的共享内存，从而减少了本地复制和等待数据的开销；该团队还通过本地过滤机制减少了数据传输小时的数量和牌间同步开销，并复制机制。 SMTURBO-CPP Operator: In response to the problem of low transmission efficiency of small dataVolumes in the large communication domain scenario of Moe Layer, the team proposed SMTURBO-Concurrent Push and Pull (SMTURBO-CPP) Technology: Optimize the Communication Operator Alltoall (V) at the memory semantic level, make full use of hardware concurrency capabilities, use read and write mixing, aggregation flow, batch detection and other提高访问线程记忆和吞吐量的效率的技术，并大大减少运输通信操作员的延迟和结合情况。细粒层次流量算法：基于Atlas A2系列产品，HCCL支持精细的层次流量算法，可以提高实施集体通信运营商（例如Allgather，还原，还原）的效率，并且所有这些都成为一个集群。该算法使用A2网络属性来实现和在节点之间以改善带宽的使用。 2025年4月，基于硅的流以及华为云与华为云相结合，在DeepSeek-R1上正式推出，基于CloudMatrix 384 Hypernode Aspernode Ascend Cloud Service和高性能推进框架siliconllm，具有大规模的熟练最佳技能。该服务确保单卡解码吞吐量超过1920代币/s，同时确保单个用户的20 TPS级别，这与H100扩展的性能相当。同时，在验证主流测试设置验证和大型在线测试之后，部署以提升计算能力的DeepSeek-R1模型的准确性与官方的Deptseek一致。回到Sohu看看更多