R1模型发布一周年 DeepSeek新模型“MODEL1”曝光_资讯

R1模型发布一周年 DeepSeek新模型“MODEL1”曝光

创始人

2026-01-21 12:14:11

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

（来源：财联社）

《科创板日报》1月21日讯（编辑宋子乔） 2025年1月，DeepSeek-R1上线，此时正值R1模型发布一周年之际，DeepSeek新模型“MODEL1”曝光。

北京时间1月21日，DeepSeek官方GitHub仓库更新了一系列FlashMLA代码，借助AI对全部总代码文件数:114个（包括.py, .md, .txt, .sh, .cpp, .cu, .h文件）进行分析，发现了一个此前未公开的模型架构标识“MODEL1”，共被提及31次。

FlashMLA是DeepSeek独创的、针对英伟达Hopper架构GPU深度优化的软件工具，专门加速大模型“推理生成”这一环节。该算法的实现基础MLA（多层注意力机制），是DeepSeek模型（如V2、V3）实现低成本、高性能的关键技术之一，用于在模型架构层面减少内存占用，最大化地利用GPU硬件。

MODEL1是DeepSeek FlashMLA中支持的两个主要模型架构之一，另一个是DeepSeek-V3.2。据推测，MODEL1很可能是一个高效推理模型，相比V3.2，内存占用更低，适合边缘设备或成本敏感场景。它也可能是一个长序列专家，针对16K+序列优化，适合文档理解、代码分析等长上下文任务。它也可能是一个长序列专家，针对16K+序列优化，适合文档理解、代码分析等长上下文任务。

另外，MODEL1的硬件实现跨越多个GPU架构。在英伟达H100/H200（SM90架构）上有两个版本：model1_persistent_h64.cu用于64头配置，model1_persistent_h128.cu用于128头配置。在最新的B200（SM100架构）上有专门的Head64内核实现，而SM100的Head128实现仅支持MODEL1，不支持V3.2，有人猜测DeepSeek为适配英伟达新一代GPU，专门优化了MODEL1的架构。

DeepSeek已发布的主要模型是两条技术路线的代表：追求极致综合性能的V系列“全能助手”和专注于复杂推理的R系列“解题专家”。

科技媒体The Information月初爆料称，DeepSeek将在今年2月中旬农历新年期间推出新一代旗舰AI模型——DeepSeek V4，将具备更强的写代码能力。

此前，DeepSeek研究团队陆续发布了两篇技术论文，分别介绍了名为“优化残差连接（mHC）”的新训练方法，以及一种受生物学启发的“AI记忆模块（Engram）”。这一举动不禁引起用户猜测，DeepSeek正在开发中的新模型有可能会整合这些最新的研究成果。

上一篇：【消费级3D打印】行业市场规模：2024年全球消费级3D打印行业市场规模约42亿美元消费级3D打印设备市场占比约67%

下一篇：风雪寒潮中，社区暖心守护

R1模型发布一周年 DeepSeek新模型“MODEL1”曝光

相关内容

热门资讯