你以为这是DeepSeek的一次小更新,实际上它又超神了。。。
创始人
2025-05-30 00:50:31
0

还没等来 DeepSeek-R2,DeepSeek-R1 昨天晚上先悄悄更新了一波。

和上次 V3-0324 版本一样,这回 DeepSeek 又又又往 Hugging Face 上默默扔了一个 DeepSeek-R1-0528,Model Card 和官方的更新公告都没出。

而在大伙儿还没反应过来的时候,R1 新版本已经是大模型热搜榜的第一了。

大家热烈讨论 R1 新版本的同时,也不忘 cue 一下 R2 和 V4 的大版本更新。

由于每次 DeepSeek 都喜欢赶在中国传统节日前后出点新东西,国外网友已经开始从国庆和端午的放假时间,来推测发布日期了。。。

难道这也是计划的一部分吗?(手动狗头)

值得一提的是,今天也是 NVIDIA Q1 财报发布的日子。遥想上次 R1 技术报告给大模型训练算力带来的拷打,还好这次只是 DeepSeek 小更,并没有公布算力信息,不然真的有点难绷。

话说回 R1 这次更新,DeepSeek 官方表示,R1-0528 的推理性能大幅提升、前端开发能力更强、工具使用能力更智能。

从官方案例来看,R1-0528 在物理世界的推理能力确实比 Claude-4-Sonnet 要优秀。小球在破坏砖块墙后,砖块的不规则倒塌更符合物理规律。

而等世超亲手测完了这次更新,只想说:虽然 R1-0528 编程推理能力有提升,但达不到惊艳。至于它的长文本生成能力,我愿称 DeepSeek 为大模型里掌管中文的神。

精彩的东西咱放在前面看,我们本来以为这只是一次普通的测试,没想到事情没那么简单。。。

世超给 R1 的提示词只有简单的:“请给我写一篇 10000 字的科幻小说。” 其余从文章的大纲到内容全是它自己完成。

话不多说,大家直接看文吧:

“霓虹像永不凝固的液态宝石”,“整座城市浸泡在一种迷幻而冰冷的蓝紫色调里”。。。

此刻,世超只恨不能把全篇小说截给大家,感兴趣的差友可以去文末链接阅读全文。

作为一篇悬疑科幻小说,DeepSeek 行文流畅,科幻氛围浓厚,人物描写细致入微,从情节到逻辑都无可挑剔。

写出这样的故事,DeepSeek 只思考了 40 秒。

而一直以来被大家认为文字功底很强的 Gemini 2.5 pro 表现一般,写出来的小说像是辞藻堆砌,有些晦涩难懂。

有一说一,看完 DeepSeek 写的小说,世超的心情非常复杂。这篇小说甚至可以说比大部分网文都优秀,又有速度又有质量,大模型恐怖如斯。

难道失业的风也要吹到。。。世超表示瑟瑟发抖。

咱再说说代码生成上的更新。其实 R1-0528 的代码能力也有显著的提升,只不过比起它的长文本生成,就有点不够看了。

在大模型代码能力测试基准 LiveCodeBench 上,DeepSeek-R1-0528 已经跃升到了榜单第四,略逊于 o4-Mini(Medium),但和 o3-Mini 打得有来有回,直接被闭源的 OpenAI 包围了。

既然编程能力这么强,世超就先拿经典问题 —— 五边形小球弹跳测一测。

各位差友可能还有印象,之前咱评测 V3-0324 版本的时候也把老 R1 拿出来溜了溜,结果那时候 R1 的表现非常拉垮。

不过,这次 R1-0528 的表现确实出乎意料,比起老 R1 好了不是一点半点。

左边旧 R1,右边 R1-0528

不仅代码一次启动成功,不像老版的飞檐走壁,新版本小球弹跳的效果明显更符合物理规律,在五边形拐角处的丝滑回弹更是细节到位。

除了物理效果提升,R1-0528 生成的界面也很美观,甚至可以自定义重力强度、旋转速度、弹性系数、摩擦系数的参数,还能实时看到小球运动的各种物理参数。

不过可能因为咱在提示词里并没有让它干这些事,虽然物理参数是实时显示变化的,但动画参数控制滑块仅供观赏,没啥实际用途。。。

世超还看到有网友说 R1-0528 能和 Claude Sonnet 4 碰一碰。记得上次测 V3-0324 的时候,Claude Sonnet 3.7 赢得很彻底。不知道这回 DeepSeek 的前端审美有啥优化?

测试完世超觉得,R1 真的没输。

我们给两个模型分别只一次机会,相同的提示词,生成的结果该是啥样就是啥样,不能重来。

首先从画面美观度和功能完整度来说,两者算打个平手。R1-0528 的界面明显不像 V3 时期那么简陋了。功能方面,Sonnet 4 有的,R1-0528 通通都有,R1 还贴心地加上了使用说明。

左 DeepSeek-R1-0528,右 Claude Sonnet 4

但是,实测 Claude Sonnet 4 的清空画板和保存键并不好用。而且两者的取色功能都存在 bug,取色器会穿到色卡的下面去,只能说还有一定进步空间。

左 DeepSeek-R1-0528,右 Claude Sonnet 4

除此之外,也有网友表示这回更新之后,DeepSeek 的深度思考直接停不下来了。。。

为了提升模型深度思考的能力,R1-0528 似乎有意拉长了大模型的思考时长。但这个改动带来的具体效果还是看个人需求,毕竟要是一个问题想上 25 分钟,即使答案更完美,作为用户也确实有点捉急。

总的来说,这次更新 DeepSeek 依然延续了他们过往的风格:轻描淡写小更一下,但是整个大活儿。

DeepSeek-R1-0528 不管是纵向和自己比,还是横向和其它大模型比,表现都丝毫不输,甚至在中文长文本生成方面一骑绝尘。

世超觉得,这次 DeepSeek 带来的惊喜,让我们对国产大模型又有了新的期待。DeepSeek-R1-0528 向我们展示了,它们不仅可以和闭源模型卷性能,还有不可替代的本土化优势。

最后,想体验的差友,现在上官网就能用到 R1 最新的 0528 版本啦。

撰文:莫莫莫甜甜

编辑:江江 & 方糖

相关内容

热门资讯

醉酒的蝴蝶歌谱小号用什么调? 醉酒的蝴蝶歌谱小号用什么调?问题有点奇怪,你是不是想问按照简谱的调号吹吧。先学学移调吧。
学会这19大销售生存法则,让你... 法则一:知己知彼,百战不殆了解你的目标客户是销售成功的关键。通过深入了解他们的需求、喜好和痛点,你能...
难者不会会者不难的会是什么意思 难者不会会者不难的会是什么意思解释:做任何事情,都要有方法。如果你知道做某一件事情的最佳方法。那么,...
超智能足球第二部在哪里看 超智能足球第二部在哪里看是53到第104集,还没上映呢,恐怕得等到明年暑假了。就是 ...
外交部发言人就美国防长赫格塞思... 问:据报道,5月31日,美国防长赫格塞思在香格里拉对话会上发表演讲,大肆渲染中国威胁,就涉台、南海等...
中演协明确:演出结束后不支持以... 5月30日,中国演出行业协会正式发布《大型营业性演出活动运营服务要求》团体标准。该标准针对观众人数在...
湖南省省长毛伟明:以整改实效提... 转自:中国环境网湖南省省长毛伟明近日来到湘潭市,调研督导中央巡视组第一批立行立改交办事项整改落实情况...
《明青讲习所》沪上开播 专家共... 原标题:《明青讲习所》沪上开播 专家共议思政教育新范式5月29日,上海教育电视台《明青讲习所》节目专...
吉林省2025年“我们的节日·... 转自:中国吉林网  5月31日,“粽情辽吉·文明白城”端午游园会暨吉林省“我们的节日·端午”主题文明...
京雄之间架起“连心桥”,他们亲... 转自:北京日报客户端在雄安新区1770平方公里的土地上,能真切感受到这座拔节生长的城市,每一天都是新...
全国歌迷今晚共享同一片雨云 【#全国歌迷今晚共享同一片雨云#】#周深是不是在微博超话装了监控##陈小春演唱会上座率#登上热搜,今...
解密招商蛇口“好房子”的北京样... 房地产市场供求关系已经发生了重大变化,“好房子”这一概念首次从政策倡导转变为具有强制约束力的国家标准...
筑牢心理防线 护航青春成长 转自:中国吉林网  “早发现、早疏导、早干预”、让心理健康教育渗透成长细微处、为学生筑牢心灵防护网…...
福特公司在美召回近3万辆汽车 当地时间5月31日,央视记者获悉,福特汽车公司正在美国召回29501辆汽车。美国国家公路交通安全管理...
如何在线免费调整 PNG/JP... PNG 是常用的图像格式之一,有时需要调整图像大小。要将图片上传到您的博客、网站、电子...
新规明确:6月起你有权拒绝刷脸 转自:宁波晚报近年来,用刷脸来识别个人信息的技术应用日益广泛,从小区门禁、酒店登记,到交通出行、金融...
特朗普关税政策暂停一天又恢复,... 澎湃新闻记者 南博一美国国际贸易法院叫停特朗普关税政策1天后,上诉法院又决定恢复实施这些关税。据新华...
海鲜干货创业计划书,海鲜创业计...         【 香辣小海鲜 】      香料的比例可以根据食客口味略有增减。卤水是海鲜原料。这...
想小本创业,能创业尽量不要打工...   35岁以后没有高学历,没有技能、很难找到高薪工作、如果你也没有多少的本钱推荐这个小本生意也许适合...
干事创业精神有待提高 干事创业...