R1模型发布一周年 DeepSeek新模型“MODEL1”曝光
创始人
2026-01-21 12:14:11

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:财联社)

《科创板日报》1月21日讯(编辑 宋子乔) 2025年1月,DeepSeek-R1上线,此时正值R1模型发布一周年之际,DeepSeek新模型“MODEL1”曝光。

北京时间1月21日,DeepSeek官方GitHub仓库更新了一系列FlashMLA代码,借助AI对全部总代码文件数:114个(包括.py, .md, .txt, .sh, .cpp, .cu, .h文件)进行分析,发现了一个此前未公开的模型架构标识“MODEL1”,共被提及31次。

FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具,专门加速大模型“推理生成”这一环节。该算法的实现基础MLA(多层注意力机制),是DeepSeek模型(如V2、V3)实现低成本、高性能的关键技术之一,用于在模型架构层面减少内存占用,最大化地利用GPU硬件。

MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一,另一个是DeepSeek-V3.2。据推测,MODEL1很可能是一个高效推理模型,相比V3.2,内存占用更低,适合边缘设备或成本敏感场景。它也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务。它也可能是一个长序列专家,针对16K+序列优化,适合文档理解、代码分析等长上下文任务

另外,MODEL1的硬件实现跨越多个GPU架构。在英伟达H100/H200(SM90架构)上有两个版本:model1_persistent_h64.cu用于64头配置,model1_persistent_h128.cu用于128头配置。在最新的B200(SM100架构)上有专门的Head64内核实现,而SM100的Head128实现仅支持MODEL1,不支持V3.2,有人猜测DeepSeek为适配英伟达新一代GPU,专门优化了MODEL1的架构

DeepSeek已发布的主要模型是两条技术路线的代表:追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”。

科技媒体The Information月初爆料称,DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4,将具备更强的写代码能力

此前,DeepSeek研究团队陆续发布了两篇技术论文,分别介绍了名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”。这一举动不禁引起用户猜测,DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。

相关内容

热门资讯

2025年我国新建国家标准物质... 来源:市说新语近日,市场监管总局发布数据,2025年我国新建国家标准物质1139项,同比增长61.8...
卖女性玩具的大人糖都开进广州天... 来源:源Sight作者 | 周艺“不愧是大城市,这都能开在商场里”。小红书上,女性情趣品牌 “大人糖...
聂辉华:数字时代的基层治理 来源:经济学家圈大家好!今天我演讲的主题是“数字时代的基层治理”。我想从一个我们可能都经历过的小事开...
证通电子(002197.SZ)... 格隆汇1月23日丨证通电子(维权)(002197.SZ)公布,预计2025年归属于上市公司股东的净利...
AWS率先上调GPU价格,国产...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:雷峰网)20...