2月28日,事件描述
2025年2月25日,DeepSeek开源了DeepEP代码库。DeepEP是首个用于混合专家(MoE)模型训练和推理的开源专家并行(EP)通信库。专家并行是分布式训练的一种方式,将MoE中的不同专家分配到不同的计算设备上。专家并行利用MoE的稀疏激活特性,使模型规模能够随设备数量线性扩展,而不会相应地增加计算成本。
长江证券发表评论:
专家并行的难点在于专家之间的通信效率,DeepEP代码库重点解决了这一问题。通过优化的通信方案,DeepEP显著降低了专家之间数据交换的开销,提升了模型并行处理能力和训练推理效率。在MoE架构中,两个关键操作是分发(dispatch)和合并(combine)。1)分发:根据门控网络的决策,将输入token路由到相应的专家;2)合并:收集各专家处理后的结果,并根据权重进行合并这两个操作需要设备间的全对全(all-to-all)通信模式,即每个设备需要向其他所有设备发送和接收数据。DeepEP大幅优化了这一过程,减少了通信瓶颈。
DeepEP代码库通过多种途径提升了GPU之间的信息传递效率,优化了不同GPU之间的分工协作:
1)不同的GPU节点内和节点间均支持NVLink和RDMA。DeepEP可以充分利用InfiniBand和NVLink带宽,优化显存利用率,无需使用昂贵的张量并行即可训练DeepSeek-V3。
2)发布用于训练和推理预填充的高吞吐量内核以及用于推理解码的低延迟内核。高吞吐量内核适用于训练中的数据批量处理阶段,能够显著提升训练速度;低延迟内核针对推理解码阶段,低延迟的计算能够让生成结果更快。
3)高效的MOE全员沟通。通过高效且优化的All-to-All通信机制,支持节点内部和节点之间的通信,加快信息传递效率。
4)灵活的GPU资源控制,实现计算-通信重叠。在训练过程中,GPU可以在等待通信完成的同时,继续处理其他计算任务,不占用流处理器资源,从而避免浪费时间。
新一轮技术供给革命,国内AI产业迎来价值重估。DeepSeek带来AI平权,有望大幅度提升应用端落地速度,并扩容AI算力需求。