英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100
创始人
2025-02-26 23:03:03
0

最近,英伟达开源了首个在Blackwell架构上优化的DeepSeek-R1,实现了推理速度提升25倍,和每token成本降低20倍的惊人成果。同时,DeepSeek连续开源多个英伟达GPU优化项目,共同探索模型性能极限。

当FP4的魔法与Blackwell的强大算力相遇,会碰撞出怎样的火花?

答案是:推理性能暴涨25倍,成本狂降20倍!

随着DeepSeek-R1本地化部署的爆火,英伟达也亲自下场,开源了首个基于Blackwell架构的优化方案——DeepSeek-R1-FP4。

在新模型的加持下,B200实现了高达21,088 token每秒的的推理吞吐量,相比于H100的844 token每秒,提升了25倍。

与此同时,每token的成本也实现了20倍的降低。

通过在Blackwell架构上应用TensorRT DeepSeek优化,英伟达让具有FP4生产级精度的模型,在MMLU通用智能基准测试中达到了FP8模型性能的99.8%。

DeepSeek-R1首次基于Blackwell GPU优化

目前,英伟达基于FP4优化的DeepSeek-R1检查点现已在Hugging Face上开源。

模型地址:https://huggingface.co/nvidia/DeepSeek-R1-FP4

后训练量化

模型将Transformer模块内的线性算子的权重和激活量化到了FP4,适用于TensorRT-LLM推理。

这种优化将每个参数从8位减少到4位,从而让磁盘空间和GPU显存的需求减少了约1.6倍。

使用TensorRT-LLM部署

要使用TensorRT-LLM LLM API部署量化后的FP4权重文件,并为给定的提示生成文本响应,请参照以下示例代码:

硬件要求:需要支持TensorRT-LLM的英伟达GPU(如B200),并且需要8个GPU来实现tensor_parallel_size=8的张量并行。

性能优化:代码利用FP4量化、TensorRT引擎和并行计算,旨在实现高效、低成本的推理,适合生产环境或高吞吐量应用。

对于此次优化的成果,网友表示惊叹。

「FP4魔法让AI未来依然敏锐!」网友Isha评论道。

网友algorusty则声称,有了这次的优化后,美国供应商能够以每百万token 0.25美元的价格提供R1。

「还会有利润。」

网友Phil则将这次的优化与DeepSeek本周的开源5连发结合了起来。

「这展示了硬件和开源模型结合的可能性。」他表示。

DeepSeek全面开源

如今DeepSeek持续5天的「开源周」已经进行到了第3天。

周一,他们开源了FlashMLA。这是DeepSeek专为英伟达Hopper GPU打造的高效MLA解码内核,特别针对变长序列进行了优化,目前已正式投产使用。

周二开源了DeepEP,这是一个专为混合专家系统(MoE)和专家并行(EP)设计的通信库。

周三开源的是DeepGEMM。这是一个支持稠密和MoE模型的FP8 GEMM(通用矩阵乘法)计算库,可为V3/R1的训练和推理提供强大支持。

总的来说,不管是英伟达开源的DeepSeek-R1-FP4,还是DeepSeek开源的三个仓库,都是通过对英伟达GPU和集群的优化,来推动AI模型的高效计算和部署。

本文来源:新智元,原文标题:《英伟达下场,首次优化DeepSeek-R1!B200性能狂飙25倍,碾压H100》

风险提示及免责条款

市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

相关内容

热门资讯

山西一辆载12人的中巴车因强降... (来源:今晚报)转自:今晚报 【#山西一辆载12人的中巴...
2025暑期档大盘票房连续10... 据猫眼专业版数据,今日大盘单日票房破亿,截至当前2025暑期档大盘单日票房已连续10天破亿,暑期档累...
观察快评:樊振东的真诚是对饭圈... (来源:猛犸新闻) 【观察快评:#樊振东的真诚是对饭圈文...
2025年中国内地电影暑期档票... 中新社北京7月27日电 (记者 高凯)据灯塔专业版数据,截至北京时间7月27日11时23分,中国内地...
向世界发出泉水邀约,2025济... 中国青年报客户端讯(中青报·中青网记者 邢婷 实习生 王姝然)7月25日晚,2025济南国际泉水节启...
青岛“汽车医生”研发“微创修复... 青岛日报社/观海新闻7月27日讯 7月26日是“青岛工匠日”,这是各行各业技术工匠们的节日。在青岛城...
超两万企业客户及开发者接入可灵... 7月27日,在2025世界人工智能大会(WAIC)上,可灵AI产品及运营负责人李杨披露,自今年4月可...
货拉拉多拉首款新车“多拉大面”...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   Hehson科技...
火,终究包不住 烁渊 凭死记硬背的一段顺口溜,与一个“不演而演”的小品,何占豪“混”进浙江文工团。同学们都说,...
WAIC前线|商汤科技发布悟能...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:网易科技报道...