DeepSeek发布梁文锋署名新论文:提出mHC新架构 提升大模型训练稳定性
创始人
2026-01-01 17:44:28

格隆汇1月1日|DeepSeek发布新论文,提出了一种名为流形约束超连接(mHC)的新架构,旨在解决超连接网络(HC)技术因破坏恒等映射特性而导致的训练不稳定和可扩展性受限等问题。该架构通过将HC的残差连接空间映射至特定流形以恢复恒等映射特性,同时结合严格的基础设施优化以确保效率,实现了显著的性能改进和优越的可扩展性。DeepSeek预计,mHC作为HC的一种灵活实用拓展,将有助于更深入地理解拓扑架构设计,并为基座模型的演进指明有前景的方向。该论文由Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao共同担任第一作者,梁文锋也在作者名单之中。

相关内容

热门资讯

商务部:2026年重点做好提振... 转自:证券日报    本报记者 刘萌    据商务部消息,全国商务工作会议1月10日至11日在京召开...
兵团大数据招商一年引来超百亿元... 本报乌鲁木齐讯(全媒体记者 张美玲) “兵团招商人员通过大数据电子招商平台,为我们精准匹配了五师...
“个人医保云”试点申报启动将提... 转自:证券日报    新华社北京1月11日电(记者 彭韵佳)国家医保局1月11日发布文件,开展“个人...
“个人医保云”试点申报启动 新华社北京1月11日电(记者 彭韵佳) 国家医保局1月11日发布文件,开展“个人医保云”建设试点...
专业引领、街区共治,社区规划师... 近年来,上海全力推进旧区改造和社区更新,推进过程中往往面临多元利益诉求交织的复杂局面,如何广泛协商,...