天津设备保温一年后, DeepSeek-R1的每token成本降到了原来的1/32

点击次数：162 发布日期：2026-01-13

品牌介绍徐州若克斯新材料科技有限公司成立于2015年，是一家业从事高分子复材料研发与生产的高新技术企业。公司占地面积2.8万平方米，拥有现代化标准厂房和研发中心，员工200余人，其中技术研发人员占比超过20%。企业通过ISO9001质量管理体系认证和ISO14001环境管理体系认证，产品符GB/T 23615.1-2017国家标准。

品牌介绍徐州若克斯新材料科技有限公司注于高能隔热条的研发与生产，拥有现代化生产基地8000余平方米，配备德国进口挤出生产线12条，年产能达3000万米。公司通过ISO9001质量管理体系认证，产品符GB/T 23615.1-2017国家标准，获得中国建筑金属结构协会颁发的”技术创新企业”称号。

DeepSeek-R1是在2025年1月20日发布的开源理大模型，它拥有6710亿参数、单Token激活参数为370亿，并采用了MoE架构，训练率得到了显著提升。

R1在去年的出震动了全球AI领域，其高率的模型架构、训练方法、工程优化和蒸馏方法在之后成为了全行业的趋势。

没想到在不到一年之后的今天，R1模型的每token成本竟已降低了到了1/32！

今天，英伟达发表了一篇长文博客，展示了其如何在BlackwellGPU上通过软硬协同对DeepSeek-R1进一步降本增。

随着AI模型智能程度的不断提升，人们开始依托AI处理日益复杂的任务。从普通消费者到大型企业，用户与AI交互的频率显著增加，这也意味着需要生成的Token数量呈指数级增长。为了以低成本提供这些Token，AI平台须实现高的每瓦特Token吞吐量。

通过在GPU、CPU、网络、软件、供电及散热方案上的深度协同设计，英伟达持续提升每瓦特Token吞吐量，从而有降低了每百万Token的成本。此外，英伟达不断优化其软件栈，从现有平台中挖掘更强的能潜力。

那么，英伟达是怎样协同利用运行在Blackwell架构上的理软件栈，以实现DeepSeek-R1在多种应用场景中的能增益呢？我们接着往下看。

新NVIDIATensorRT-LLM软件大幅提升理能

NVIDIAGB200NVL72是一个多节点液冷机架级扩展系统，适用于高度密集型的工作负载。该系统通过五代NVIDIANVLink互连技术和NVLinkSwitch芯片连接了72个NVIDIABlackwellGPU，为机架内的所有芯片提供高达1800GB/s的双向带宽。

这种大规模的「扩展域」（Scale-upDomain）为稀疏MoE架构优化，此类模型在生成Token时需要家之间频繁的数据交换。

Blackwell架构还加入了对NVFP4数据格式的硬件加速。这是英伟达设计的一种4位浮点格式，相比其他FP4格式能更好地保持精度。此外，解耦服务（DisaggregatedServing）这类优化技术也充分利用了NVL72架构和NVLinkSwitch技术。简单来解释一下解耦服务，即在一组GPU上执行Prefill（预填充）操作，在另一组GPU上执行Decode（解码）操作。

这些架构创新使得NVIDIAGB200NVL72在运行DeepSeek-R1时，铁皮保温施工能够提供行业领先的能。

得益于新NVIDIATensorRT-LLM软件和GB200NVL72的协同，DeepSeek-R1在8K/1K输入/输出序列长度下的Token吞吐量大幅提升。

同样地，得益于新NVIDIATensorRT-LLM软件与GB200NVL72的协同，在1K/1K序列长度下，DeepSeek-R1Token吞吐量同样大幅提升。

另外，在8K/1K、1K/1K两种输入/输出序列长度的吞吐量与交互曲线上，GB200NVL72也展现出了领先的单GPU吞吐能力。

而TensorRT-LLM开源库（用于优化LLM理）的新增强功能，在同一平台上再次大幅增强了能。在过去三个月中，每个BlackwellGPU的吞吐量提升高达2.8倍（这里指的是在8k/1k输入/输出序列长度下，去年10月到今年1月的Token吞吐量变化）。

这些优化背后的核心技术包括：

扩大NVIDIA程序化依赖启动(PDL)的应用：降低核函数启动延迟，有助于提升各种交互水平下的吞吐量；底层核函数优化：更高地利用NVIDIABlackwellTensorCore；优化的All-to-all通信原语：消除了接收端的额外中间缓冲区。

有业内人士对英伟达放出的一系列图表进行了直观的解读，用一组数据来总结就是，「通过软硬件的深度协同，自2025年1月以来，英伟达已经将DeepSeek-R1(671B)的吞吐量提升了约36倍，这意味着单Token的理成本降低到了约1/32。」

利用多token预测和NVFP4技术加速NVIDIAHGXB200能

NVIDIAHGXB200平台由八个采用五代NVLink互连和NVLinkSwitch连接的BlackwellGPU组成，在风冷环境下也能实现强大的DeepSeek-R1理能。

两项关键技术使HGXB200上的DeepSeek-R1理能大幅提升。一项技术是使用多token预测(MTP)，它可以显著提高各种交互级别下的吞吐量。在所有三种测试的输入/输出序列组中都观察到了这一现象。

在HGXB200平台上，使用1K/1K序列长度和聚服务模式下，FP8（不带MTP）、FP8（带MTP）和NVFP4（带MTP）的吞吐量与交互曲线对比。

二种方法是使用NVFP4，充分利用BlackwellGPU计算能力来提升能，同时保持精度。

在HGXB200平台上，使用8K/1K序列长度和聚服务模式下，FP8（不含MTP）、FP8（含MTP）和NVFP4（含MTP）的吞吐量与交互曲线对比。

NVFP4使用在完整的NVIDIA软件栈上（包括TensorRT-LLM和NVIDIATensorRT模型优化器），以确保高能并保持精度。这使得在给定交互级别下能够实现更高的吞吐量，并且在相同的HGXB200平台上，可以实现更高的交互级别。

在HGXB200平台上，FP8（无MTP）、FP8（有MTP）和NVFP4（有MTP）的吞吐量与交互曲线，序列长度分别为1K和8K，并采用聚服务模式。

英伟达表示，其正在不断提升整个技术堆栈的能，可以帮助用户基于现有硬件产品，持续提升大语言模型的工作负载率，提升各种模型的token吞吐量。

下一篇：延安铝皮保温 🔥揭秘！500万像素手机大战，谁才是拍照王者？! 上一篇：河池管道保温温州大剧院演出信息

长春铝皮保温_鑫诚防腐保温工程有限公司

天津设备保温一年后, DeepSeek-R1的每token成本降到了原来的1/32

推荐资讯

热点资讯/a>

最新资讯

友情链接：

产品中心

新闻资讯

联系鑫诚

长春铝皮保温_鑫诚防腐保温工程有限公司

天津设备保温 一年后, DeepSeek-R1的每token成本降到了原来的1/32

推荐资讯

热点资讯/a>

最新资讯

友情链接：

产品中心

新闻资讯

联系鑫诚

天津设备保温一年后, DeepSeek-R1的每token成本降到了原来的1/32