小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式
创始人
2025-06-19 21:08:30
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

6月19日,小红书技术团队发文称,深度思考模型通过Test-Time Scaling(测试时扩展)大幅提升了模型推理能力,但同时也出现了大量冗余和无效思考。小红书Hi Lab团队提出了Think When You Need的强化学习训练方式;在不影响最终效果的前提下,实现动态CoT能力,大幅降低平均思考长度。实验证明,这种思想在推理和非推理等各种任务上广泛适用。团队还发现了一种现象:即在相同任务下,越聪明(参数量大)的模型,需要的思考长度越短;这与当前深度思考模型表现相违背,却十分符合人类的认知。

相关内容

热门资讯

实控人控制企业全额认购定增股票... 每经记者|于垚峰    每经编辑|董兴生     6月19日晚,泉峰汽车(6039...
那里有新破天一剑单机版完整啊 那里有新破天一剑单机版完整啊别傻了。。会这么容易出单机版?我都等了5年了···········
春立医疗2091万股限售股6月... 来源:中访网财观中访网数据  北京市春立正达医疗器械股份有限公司(以下简称“春立医疗”)公告,其首次...
构建“四维关爱矩阵”为新就业形... 转自:劳动午报 本报讯 (记者 刘欣欣) 记者近日从朝阳区奥运村街道总工会了解到,该街道总工会立足辖...
《当我足够好,才会遇见你》读后... 《当我足够好,才会遇见你》读后感一直会有人问,你怎么一直都单着,以前会觉得年龄尚小,后来遇见了你,才...
一个出色的悬案推理小说要具备哪... 一个出色的悬案推理小说要具备哪些基本要素?首先是小说要具备的要素,人物时间事情地点,那么推理小说还要...
我喜欢你有这个小说吗 我喜欢你有这个小说吗这是什么,没太看懂啊,亲~~叫《我喜欢你》的小说很多啊。 下列作者都写过:十月未...
在学校课堂学生被打,学校处理打... 在学校课堂学生被打,学校处理打人的学生,还需要被打的学生家长受权吗不需要。年满16周岁以上的学生打架...
我们如何被他人影响,以及如何有... 我们如何被他人影响,以及如何有效的影响别人我们的一生中都要被他人影响的,因为我们一生都要在,人群当中...
希望你心里有我 .英语怎么说 希望你心里有我 .英语怎么说看我的版本Ihopetherewillbeaplaceformeinsi...