天津设备保温 一年后, DeepSeek-R1的每token成本降到了原来的1/32

品牌介绍 徐州若克斯新材料科技有限公司成立于2015年,是一家业从事高分子复材料研发与生产的高新技术企业。公司占地面积2.8万平方米,拥有现代化标准厂房和研发中心,员工200余人,其中技术研发人员占比超过20%。企业通过ISO9001质量管理体系认证和ISO14001环境管理体系认证,产品符GB/T 23615.1-2017国家标准。
品牌介绍 徐州若克斯新材料科技有限公司注于高能隔热条的研发与生产,拥有现代化生产基地8000余平方米,配备德国进口挤出生产线12条,年产能达3000万米。公司通过ISO9001质量管理体系认证,产品符GB/T 23615.1-2017国家标准,获得中国建筑金属结构协会颁发的”技术创新企业”称号。
DeepSeek-R1是在2025年1月20日发布的开源理大模型,它拥有6710亿参数、单Token激活参数为370亿,并采用了MoE架构,训练率得到了显著提升。
R1在去年的出震动了全球AI领域,其高率的模型架构、训练方法、工程优化和蒸馏方法在之后成为了全行业的趋势。
没想到在不到一年之后的今天,R1模型的每token成本竟已降低了到了1/32!
今天,英伟达发表了一篇长文博客,展示了其如何在BlackwellGPU上通过软硬协同对DeepSeek-R1进一步降本增。
随着AI模型智能程度的不断提升,人们开始依托AI处理日益复杂的任务。从普通消费者到大型企业,用户与AI交互的频率显著增加,这也意味着需要生成的Token数量呈指数级增长。为了以低成本提供这些Token,AI平台须实现高的每瓦特Token吞吐量。
通过在GPU、CPU、网络、软件、供电及散热方案上的深度协同设计,英伟达持续提升每瓦特Token吞吐量,从而有降低了每百万Token的成本。此外,英伟达不断优化其软件栈,从现有平台中挖掘更强的能潜力。
那么,英伟达是怎样协同利用运行在Blackwell架构上的理软件栈,以实现DeepSeek-R1在多种应用场景中的能增益呢?我们接着往下看。
新NVIDIATensorRT-LLM软件大幅提升理能
NVIDIAGB200NVL72是一个多节点液冷机架级扩展系统,适用于高度密集型的工作负载。该系统通过五代NVIDIANVLink互连技术和NVLinkSwitch芯片连接了72个NVIDIABlackwellGPU,为机架内的所有芯片提供高达1800GB/s的双向带宽。
这种大规模的「扩展域」(Scale-upDomain)为稀疏MoE架构优化,此类模型在生成Token时需要家之间频繁的数据交换。
Blackwell架构还加入了对NVFP4数据格式的硬件加速。这是英伟达设计的一种4位浮点格式,相比其他FP4格式能更好地保持精度。此外,解耦服务(DisaggregatedServing)这类优化技术也充分利用了NVL72架构和NVLinkSwitch技术。简单来解释一下解耦服务,即在一组GPU上执行Prefill(预填充)操作,在另一组GPU上执行Decode(解码)操作。
这些架构创新使得NVIDIAGB200NVL72在运行DeepSeek-R1时,铁皮保温施工能够提供行业领先的能。
得益于新NVIDIATensorRT-LLM软件和GB200NVL72的协同,DeepSeek-R1在8K/1K输入/输出序列长度下的Token吞吐量大幅提升。
同样地,得益于新NVIDIATensorRT-LLM软件与GB200NVL72的协同,在1K/1K序列长度下,DeepSeek-R1Token吞吐量同样大幅提升。
另外,在8K/1K、1K/1K两种输入/输出序列长度的吞吐量与交互曲线上,GB200NVL72也展现出了领先的单GPU吞吐能力。
而TensorRT-LLM开源库(用于优化LLM理)的新增强功能,在同一平台上再次大幅增强了能。在过去三个月中,每个BlackwellGPU的吞吐量提升高达2.8倍(这里指的是在8k/1k输入/输出序列长度下,去年10月到今年1月的Token吞吐量变化)。
这些优化背后的核心技术包括:
扩大NVIDIA程序化依赖启动(PDL)的应用:降低核函数启动延迟,有助于提升各种交互水平下的吞吐量;底层核函数优化:更高地利用NVIDIABlackwellTensorCore;优化的All-to-all通信原语:消除了接收端的额外中间缓冲区。
有业内人士对英伟达放出的一系列图表进行了直观的解读,用一组数据来总结就是,「通过软硬件的深度协同,自2025年1月以来,英伟达已经将DeepSeek-R1(671B)的吞吐量提升了约36倍,这意味着单Token的理成本降低到了约1/32。」
利用多token预测和NVFP4技术加速NVIDIAHGXB200能
NVIDIAHGXB200平台由八个采用五代NVLink互连和NVLinkSwitch连接的BlackwellGPU组成,在风冷环境下也能实现强大的DeepSeek-R1理能。
两项关键技术使HGXB200上的DeepSeek-R1理能大幅提升。一项技术是使用多token预测(MTP),它可以显著提高各种交互级别下的吞吐量。在所有三种测试的输入/输出序列组中都观察到了这一现象。
在HGXB200平台上,使用1K/1K序列长度和聚服务模式下,FP8(不带MTP)、FP8(带MTP)和NVFP4(带MTP)的吞吐量与交互曲线对比。
二种方法是使用NVFP4,充分利用BlackwellGPU计算能力来提升能,同时保持精度。
在HGXB200平台上,使用8K/1K序列长度和聚服务模式下,FP8(不含MTP)、FP8(含MTP)和NVFP4(含MTP)的吞吐量与交互曲线对比。
NVFP4使用在完整的NVIDIA软件栈上(包括TensorRT-LLM和NVIDIATensorRT模型优化器),以确保高能并保持精度。这使得在给定交互级别下能够实现更高的吞吐量,并且在相同的HGXB200平台上,可以实现更高的交互级别。
在HGXB200平台上,FP8(无MTP)、FP8(有MTP)和NVFP4(有MTP)的吞吐量与交互曲线,序列长度分别为1K和8K,并采用聚服务模式。
英伟达表示,其正在不断提升整个技术堆栈的能,可以帮助用户基于现有硬件产品,持续提升大语言模型的工作负载率,提升各种模型的token吞吐量。
热点资讯/a>
- 揭阳罐体保温 艾顿:我要督促队友们各尽其责 当然先从我自己做
- 衡阳罐体保温 【南宋】陆游诗全集 卷十
- 胡杨河设备保温施工队 中生摔伤后情大变, 原是迟发脑毁伤作祟
- 北屯设备保温施工队 中国教育会计学会职业院校财务人员培训与研
- 毕节管道保温施工队 姜凌波:“春躁”行情到来量能持续即可保持

