禁令解除72小时:141GB H20 跑满血实测,DeepSeek 性能超预期
创始人
2025-07-24 12:23:08

2025年 7月 15日,英伟达 CEO黄仁勋宣布了一个震动AI 圈的消息:美国政府即日起解除H20芯片对华销售禁令,而就在禁令解除后,云工场科技发布详细测试数据--- 8卡 141GB显存的H20服务器,能流畅运行 671B参数的满血版非量化DeepSeek-R1模型,推理吞吐量突破预期。

硬核实测:141GB H20跑满血版非量化DeepSeek性能全面解析

测试环境配置

一.测试数据

二.关键性能测试结果

  测试显示:

  1.首token响应快:在测试的多个并发量下,首个 Token的响应时间(TTFT)都保持在3秒以内(实测0.1s - 2.8s),用户体验非常流畅,感觉不到任何延迟。

  2.高并发吞吐大: H20显卡展现出优秀的并发处理能力。在模拟100个用户同时提问(并发请求=100)的中高负载场景下:

  ·处理短问题(输入/输出各256 tokens),系统总吞吐量高达约 1124 tokens/s。

  ·处理典型问题(输入/输出各1K tokens),总吞吐量稳定在约 1100 tokens/s。

  ·处理复杂问题/长对话(输入/输出各 2K tokens),总吞吐量仍能保持约 1020 tokens/s。

  分场景性能趋势:

  1.低并发场景(<10用户):

  ·响应极快: TTFT 始终低于0.9秒,用户几乎感觉不到等待。

  ·吞吐未饱和:系统能力远未被充分利用,吞吐量相对较低(32-208 tokens/s),性能表现轻松自如。

  2.中高并发场景(50-100用户):

  ·响应依然迅速: TTFT保持在1.9秒 (1K上下文)到 2.8秒 (2K上下文),交互体验依然流畅。

  ·吞吐大幅跃升:系统资源得到高效利用,总吞吐量急剧上升至634 - 1124 tokens/s。

  ·长上下文优势显现:在相同并发下,处理更长(1K/2K)的上下文通常能获得比短上下文(256)更高的吞吐量(尤其在并发50时最明显),充分体现了 vLLM对长文本的优化效果。

  3.极限场景(100用户+ 长上下文2K):

  ·响应可控: TTFT为 2.8秒,交互体验依然流畅。

  ·吞吐维持高位:即使在此压力下,系统总吞吐量仍达 1020 tokens/s。

三.测试总结

  云工场科技构建了全面的异构计算资源池,涵盖 NVIDIA全系高性能GPU(包括141GB显存 H20、L20、RTX 4090等最新型号)、AMD w7900以及国产算力三巨头(华为昇腾910B 系列、百度昆仑芯 P800、燧原S60)等等,可本地部署到就近机房,提供DeepSeek、文心一言、华为盘古、LLaMA等开源大模型本地部署。

  通过严格的横向性能基准测试,云工场科技验证了不同架构GPU在 LLM推理、计算机视觉等场景的能效比差异,并为客户提供"算力租赁+ 算力智能调度+ 平台化交付"的完整AI服务体系,目前已在教育/工业/通信/交通等多领域成功落地,支撑其大模型部署、推理及场景化落地的全流程需求。

相关内容

热门资讯

骐骥远志启新程 科技赋能赢未来... (来源:今飞控股集团)(今飞集团新春VCR)表彰开幕骐骥远志启新程 科技赋能赢未来。2026年2月1...
非遗老手艺重回春节C位马上平安... 来源:@央视财经微博 【#非遗老手艺重回春节C位##马上...
比尔·盖茨到访中国,最新回应爱...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   据财联社报道,盖...
大东方:财务报表相关数据披露不... 2月11日,无锡商业大厦大东方股份有限公司(大东方,600327.SH)发布关于公司及相关责任人收到...
远翔新材3029.83万限售股... 远翔新材2月11日发布公告称,公司部分限售股即将解禁上市,本次解除限售股份的数量为3029.83万股...