清华团队推出“安全增强版 DeepSeek”
创始人
2025-02-26 21:58:15
0

转自:科普中国

2 月 23 日,清华大学计算机系相关研究团队宣布推出大语言模型 RealSafe-R1。该模型基于 DeepSeek R1 进行深度优化与后训练,在确保性能稳定的基础上,显著提升了安全性,为开源大模型的安全发展与风险治理提供了创新性解决方案。

近日来,国产开源大模型 DeepSeek 在自然语言处理和多任务推理方面展现了强大的技术实力,但在面对越狱攻击等安全性挑战时仍存在一定局限性。为此,清华团队提出了基于模型自我提升的安全对齐方式,将安全对齐与内省推理相结合,使大语言模型能够通过具有安全意识的思维链分析来检查潜在风险,实现基础模型自身能力的自主进化。

基于该方法,团队对 DeepSeek-R1 系列模型进行后训练,正式推出 RealSafe-R1 系列大模型。实验数据表明,RealSafe-R1 安全性提升显著,在多个基准测试中有效增强了对各种越狱攻击的抵抗力,并减轻了安全与性能之间的“跷跷板”现象。

据悉,RealSafe-R1 各尺寸模型及数据集将于近期向全球开发者开源。

策划制作

来源丨人民网

责编丨何通

相关内容

热门资讯

为何押注气泡酒?茅台年轻化战略... 2月21日, “东方起U势,自在悦知己”UMEET蓝莓气泡酒新春品鉴会在上海举办。行业媒体“斗酒”认...
亚马逊宣布使用生成式AI重建A... 观点网讯:2月27日,亚马逊宣布推出重新设计的语音助理Alexa+,该产品具备生成式人工智能功能,并...
华锦阿美精细化工及原料工程项目...   2月26日拍摄的华锦阿美精细化工及原料工程项目芳烃联合装置抽余液塔吊装施工现场(无人机照片)。新...
第二批公共领域车辆全面电动化先... 来源:新华网 新华社北京2月26日电(记者张晓洁、张辛欣)记者26日获悉,工业和信息化部、交通运输部...
金融监管总局等两部门:推动优化... 转自:证券日报    本报讯 (记者刘琪)2月26日,为深入贯彻落实习近平总书记在民营企业座谈会上的...
内驱新动力澎湃 东北制药喜迎开... 在辽宁方大集团东北制药智能化生产车间里,身着统一工装的员工与自动化设备默契配合,数字化屏幕上实时跳动...
高金价下,黄金消费市场冷热交织 来源:新华社 新华社北京2月26日电 开年以来,金价持续攀升,国内黄金现货报价一度逼近每克690元的...
微软宣布取得的重大量子进展遭质... 科技日报北京2月26日电 (记者张梦然)美国微软团队上周宣布创建首个拓扑量子比特处理器“马约拉纳1”...
第五届消博会4月13日开幕 人... 来源:人民网 人民网海口2月26日电 (记者毛雷、李学山)2月26日,记者从第五届中国国际消费品博览...
持续用力更加给力 财政政策助力... 转自:证券日报    本报记者 韩昱    去年12月份举行的中央经济工作会议提出“要实施更加积极的...
CZ:警惕账户被盗,YZiLa... 吴说获悉,币安创始人 CZ 表示,Artists Voyage 的 X 账户可能刚刚被黑客入侵。账户...
欲甩包袱 宁波华翔拟1欧元出售... 2月26日晚间,宁波华翔电子股份有限公司发布关于拟出售欧洲业务的提示性公告,公司于2月25日与Mut...
特朗普:企业可将“金卡”用作招...   美国总统特朗普表示,想要从海外招聘顶尖人才的企业将可使用新的“金卡”签证计划作为一项招聘工具。 ...
于丹为何会突然之间就不受欢迎了... 于丹为何会突然之间就不受欢迎了?人物千日红,话务百日红。于丹现象的消退是正常现象。及时雨丹不再如日中...
YY直播四年博弈终局:百度与欢... YY最终还是留在了百度。2月25日晚,欢聚集团(NASDAQ:YY)发布公告称,公司已与百度达成协议...
特朗普:部分内阁成员“有点不同...   2 月 26 日,在华盛顿特区,美国总统特朗普主持了他的首次内阁会议,埃隆・马斯克出席了会议,马...
我的姐姐怎么写。 我的姐姐怎么写。是英语吗?my sister希望能帮到你,祝你学习颈部点击呐 领取Q币my  sis...
诗经《兼葭》的全诗是怎么写的 诗经《兼葭》的全诗是怎么写的原文蒹葭苍苍,白露为霜。所谓伊人,在水一方。溯洄从之,道阻且长;溯游从之...
美团 2025 春招启动:计划... 2月26日,美团启动2025年春季校园招聘计划,预计招募5000名新员工。此次招聘将覆盖100余种岗...
女孩子喜欢小奶狗多一点,还是喜... 女孩子喜欢小奶狗多一点,还是喜欢小狼狗多一点?对于女孩子来说,如果从小动物的角度来说,肯定是喜欢小奶...