大型推理,有效
- 编辑:必赢唯一官方网站 -大型推理,有效
一个世纪前的三分之一,加拿大专家提出了经典的Moe模型神经网络结构,为AI人类探索的下一代“石器时代”留下了变化的火花。大约十年前,美国硅谷的互联网巨头在理论和工程学方面闯入了原始的Moe模型建筑,并将这个概念最初放在令人难以置信的架子上,在随后的AI竞赛中。如今,后来的优势再次到达了海洋海岸。由华为代表的中国技术公司建议修复Moe建筑的解决方案。特别是,华为的建筑不仅实现了Moe载荷的缺点和瓶装NG Kahusayan,Ngunit Binabawasan Din Ang Mga Mga Gastos,Pinatataas Ang Kahusayan,Na Ginagawang Mas Madali Madali Madali Madali Upangangangane upangangane upangangane an ang Mas Madali upangangane an an an and ng kahusayan。 AI战斗远非表面,但就像中国工业的背景y在其他领域的“多快,快速,如何安全”中,大型模型,一棵科学技术的树,出生于西方并在另一侧长大,在被东方智慧感动后也会改变一种更普遍和友好的工具。最近,Huxiu将创建一系列“华为技术披露收集,并通过一系列技术报告,相关的技术细节将首次充分披露。我希望这一系列内容可以作为该行业的参考价值,我希望有更多的人能够加入该行业,我希望更多的人能够在行业中合作,并希望该行业能够合作,并希望您能够合作,并希望HAR,并且我能够与我合作。我也希望更多的人能够与该行业合作,我希望更多的人可以与该行业合作,我希望更多的人能加入华为,我也希望更多的人能在行业中合作,我希望这是在越来越多的人可以加入华为,我也希望更多的人能加入华为,我也希望更多的人能加入华为,我希望更多的人能加入华为,也可以加入upang lumikha lumikha ng iSang pangmease,可持续的开放性和与生态环境,因此可以在中国发展生态环境。 “华为技术披露集合”系列第12卷:在成为通用人工智能(AGI)过程中,混合专家(MOE)的模型一直是提高动态计算益处的大型概念概念概念概念的效率的主要途径。华为团队已推出了由Ascend Platform固定设计的Pangu Pro MOE 72B模型,该模型大大降低了超级Clue模型中中国的开销和首次排名的计算。通过系统级软件和硬协作优化,高性能操作员融合优化,民间虚构算法优化的模型,Bangdo Pro Moe推理性能已改善6到8次。 ASTEND 300I二人组中的单卡吞吐量可以达到321个令牌/s,达到了最终的成本效益;它可以在ASTEND 800I A2上下沉到1528代币/s,完全发布了潜在的硬件并创造了最终的理解体验。技术报告:https://gitcode.com/ascend-tribe/ascend-inferecn-sem/tree/main/main/inference效率已满:完整的link Insighting System已优化以释放上升计算能力。在对大型模型的共识中,每个计算节点就像团队成员一样,信息的流通,协调与合作是不可避免的。这就像一个大型跨部门项目。如果每一步举行“全成员会议”,沟通成本很高,效率很低,并且该项目的开发自然会成为一个缓慢的节奏。 Oneg明智的技术要保持会议,分裂好团体,准确交流并履行职责。这正是华为团队在Pangu Pro Moe Big Model中的灵感,该模型有理由进行优化。等级混合平行性(H2P):不再使用“全成员会议”,“特殊人会议”仍然使用了很好的推理。技巧切割的“平行方式处理大型模型?就像公司中的所有事情都会进行全职集会,如果您是财务或研发,您正在浪费在房间里的时间确实无效的时间。识别更高,解码吞吐量性能比纯TP解决方案高33.1%。t“单词”对应于数据传输。为了“提高组装效率”,华为团队设计了Topocomm优化解决方案,并通过与通信链接组装的准备链接进行了全面优化的集体沟通,以便可以快速地发送数据,以便将数据快速地陈述,高效。相邻通信步骤的前同步操作,将同步数减少了35%。为了响应时间传递,提出了一种NHD算法,通过拓扑亲和力等效的通信等效,这将链接的有效联系增加了21%。并进一步引入了INT8 Allgather + FP16,该 + FP16降低达到25%的通信数据压缩,而Allgather的通信时间减少了39%。图2:Topocommsschemsonic Communication计算解决方案融合(Duostream):告别“无所事事”,即“会议和工作”不是错误的原因。并行推理分配的大型模型就像一个协作项目,它需要许多卡在通信(会议)和计算(工作)之间继续继任的卡片。好的团队经常讨论和分割工作并进行会议,实际上“工作”的整体效率肯定正在提高。通信,并大大提高了计算的效率。在Pangu Pro Moe模型中,高度的专业模块通信的比例,两种主要方法来整合GMMR(GroupMatmul+Repard)和AGMM(Allgather+Matmul),以有效地怀疑该模型在希望平台上有效。通过此“讨论”的综合机制固定的,沟通,数据和计算处理和计算是固定的,可以显着提高模型在ASCEN平台上的效率,并增加了潜在硬件资源的发行。照片3二重奏二重奏的优化方案示意图创建了一个六边形操作员团队:与特殊力量的巨大的型号,构建了巨大的操作员,并释放了稳定的运营商,该模型是在攀登的范围。像“单身士兵”互相战斗,每个操作员都独立实施并脱颖而出。dling,导致“单人操作员的困境”终止计算能力的内部消耗以释放硬件潜力,华为团队再次建立了操作员的实现范式,并创建了两个精英“集成特种力量”,Mulatateention和SwiftGMM和SwiftGMM,从资源访问中实现了优化的优化,并提高了计划的计划,并确定了计划的数据交流。 MulataTteention:计算注意力的计算,推理KV传输bridhead作为同步和序列长度的数量持续增长,计算注意力的延迟的延迟成本的30%至50%的整个网络,其中KV高速缓存占操作员操作时间操作的近70%。直到今天,华为团队一直根据Astron的建筑-Mulatateention建造了一个本地高性能融合操作员。该操作员优化了KV数据处理和LOBANIN的出色维修,以增加PHA理解。通过开发一个继续处理优化方法的KV软件包,获得带宽的使用率得到了极大的提高。同时,KV预取流量机制旨在有效减少计算暴露的延迟。 KV双回路结构的进一步开发,在矩阵和向量的计算之间专用数据依赖性,并减轻指令的阻塞也提高了向量计算的相似性。最后,注意力计算的加速4.5倍,将数据传输速率达到89%以上,并访问了87%的记忆内存存储器。图4 MULATATTENTION融合操作员优化设计的示意图:专业计算突击队,闪电速度达到Infut Computince Computince战场专家体验经验经验MOE模型的端到端端到端的端到端,其动态波动是由其稀疏激活引起的属性将进一步加强性能优化挑战。作为回应,华为团队在Ascend平台上推出了高性能矩阵计算引擎-SwiftGMM。 SwiftGMM引入了一种明智的方法来缓存阻止历史数据,避免通过动态预测和修复最佳障碍参数来修复开销;同时,根据计算计算的强度,GEMV和GEMM实现模式是动态的,可以实现照明和重型计算活动的灵活时间表,从而确保操作员始终在Mahusay NA Gap中运行。此外,该操作员结合了居民的左矩阵单载和方案和重复的缓存机制,以更好地实现数据传输和计算的大量流动。通过上面的“闪电袭击”的系列,GMM计算的加速2.1倍,而解码阶段的网络识别延迟减少了d乘以48.7%。图片5 SwiftGMM融合操作员优化设计示意图推理算法加速度:降低成本并提高效率,并实现理解资源的性能和效率的双重跃升。感兴趣的系统的端到端竞争不仅涉及模型的单个模型,而且还涉及输入和输出长度优化的优化,许多模型合并。华为团队提出了专业的动态,该算法Premoe。查看慢速期限的长度 - 遵循输出思维,提出了一种反射性TRIMR算法。对于许多模型的协作,规格算法旨在实施反思性猜测。 PREMOE:将MOE模型动态“ Slimming” MoE处理以处理各种任务,只有特定的专家才能显着激活。就像去医院接受治疗一样,我每次注册时都会去部门。专家动态修剪PERMMOE模型的OE算法由两种创新的技术成分组成:PEP用于衡量专家的重要性,并为给定任务选择最专家的专家; TAER查询的相似性是与任务相关的专家的动态负载。在保持模型的准确性的同时,它将实现10%+的理解吞吐量。打击的组合:多个模型协调地优化复杂的逻辑问题,缓慢的思维构成了长期的中间“思维”。但是,一旦模型找到了正确的答案,进一步的思维会受益一点(“过度思考”);在非常困难的问题中,该模型通常在不同的解决方案之间移动(“底漆”)。华为团队建议使用小型7B模型进行TRIMR压缩算法,如果大型模型崩溃和不确定,则使用一个小型7B模型进行动态监测。如果思维过程不正常,大型模型将通过更改提示并提供最终答案以及U的时间结束,并且NDERSDARDING步骤将减少14%。大型模型的能力很强,而小型模型相对容易受到功能的影响,但是小型模型可以回答子问题。细节反射投机算法使用小型模型来产生副词 - tokens(例如简短的审查段或假设),而不是单个令牌预测,然后大型模型在审查中正确执行验证(例如确定下一步探索哪个方面);如果无效,请调整小型模型的理解方向,以重新考虑替代假设的假设或转弯。 SpecReason充分利用了小型模型的好处,对吞吐量的理解增加了30%。稳定的绩效突破:Ascend的连贯性,软和硬协调的优化,并且识别性能提高了6到8次。 Ascend 800i A2:大型模型中的高功能识别平台采用了4卡扩展方法解码阶段。 Pangu Pro MOE模型实现了出色的理解性能:在同步的小情况下(BS = 1,SEQ = 2K),体重减轻的量仅为16B,并且具有低延迟响应技能;在较大的并发情况下(BS = 456,SEQ = 2K),单卡吞吐量分别达到1148个令牌/s,分别比72B和32B密度模型高97%和18%。与MTP推理技术相结合,当令牌的接收率达到0.9时,单卡BS可以上升至146,平均值下降到95.56毫秒,最大吞吐量超过1528代币/s,大量提高了高共处活动倾向的效率。表1性能性能的测试结果是在800i A2服务器4配置卡(输入2K长度)下解码的阶段。 *表示当MTP投机推理率达到0.9时,可以实现的最大输出吞吐量。 Asteng 300i duO:Asteng 300I二人组的最终成本平台和Pangu Pro Moe和Asteng平台成本的成本平台,在预见数以十亿MOE模型的预测中表现出出色的性能和过高的效率。在预填充阶段,使用2张卡和2个通道实现2K输入序列,并将单卡吞吐量ISOT达到1055代币/s。在阶段的阶段,与同一时间结合使用的4张卡的扩展是:在小情况下,潜伏期小于50ms,并且在大情况下的卡片podput吞吐量(bs = 80)达到201个代币/s,一致,与低延迟和低延迟和高吞吐量一致。结合接收MTP技术的高率,单卡批量的大小可以上升至32,平均延迟减少到99.7ms,并且吞吐量最高为321代币/s,这完全释放了Ascend平台上MOE模型的潜在识别。与800I A2推断相比可以为Moe的理解提供更经济的解决方案,该解决方案提供了过多的选择,这些选择对于扩大不同行业的识别应用程序是昂贵的。 Talahassist 2在300I Duo Server 4卡调整(输入2K长度)下,阶段阶段性能的测试结果。 *表示当MTP投机推理率达到0.9时,可以实现的最大输出吞吐量。在这一点上,已经充分揭示了优化ASTAY PAGU推理系统的整个过程。从优化系统级别到高性能运营商,艰难的协作,各个级别的突破以及逐步开发,都可以产生高性能,大规模和低成本能力。华为团队继续加深模型修改的合作,为大型扩展和有效实施一般大型模型提供稳定的支持。此内容是SE的自由视角t并且不代表Huxiu的立场。未经许可,不允许复制。有关同意书,请联系[email protected]返回Sohu以查看更多信息