小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式
创始人
2025-06-19 21:08:30

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

6月19日,小红书技术团队发文称,深度思考模型通过Test-Time Scaling(测试时扩展)大幅提升了模型推理能力,但同时也出现了大量冗余和无效思考。小红书Hi Lab团队提出了Think When You Need的强化学习训练方式;在不影响最终效果的前提下,实现动态CoT能力,大幅降低平均思考长度。实验证明,这种思想在推理和非推理等各种任务上广泛适用。团队还发现了一种现象:即在相同任务下,越聪明(参数量大)的模型,需要的思考长度越短;这与当前深度思考模型表现相违背,却十分符合人类的认知。

相关内容

热门资讯

内蒙古粮食产量达840.7亿斤 (来源:内蒙古日报)转自:内蒙古日报本报12月13日讯  (记者  韩雪茹)据12月12日国家统计局...
北疆楷模黄启东先进事迹报告会举... (来源:内蒙古日报)转自:内蒙古日报本报呼和浩特12月13日讯  (记者  皇甫秀玲)12月11日,...
全球最大储能电站在巴彦淖尔投运 (来源:内蒙古日报)转自:内蒙古日报本报巴彦淖尔12月13日电  (记者  薄金凤)12月12日,内...
精彩瞬间 | 全国第十二届残运... 中华人民共和国第十二届残疾人运动会暨第九届特殊奥林匹克会于2025年12月8日至15日在广东、香港、...
美联储降息分析,叙事转变的风险... 来源:宏观对冲陈凯丰Kevin但在我看来,这需要比普遍说法更长的时间才能显现出来……事实上,历史告诉...