小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式_资讯

小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

创始人

2025-06-19 21:08:30

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

6月19日，小红书技术团队发文称，深度思考模型通过Test-Time Scaling（测试时扩展）大幅提升了模型推理能力，但同时也出现了大量冗余和无效思考。小红书Hi Lab团队提出了Think When You Need的强化学习训练方式；在不影响最终效果的前提下，实现动态CoT能力，大幅降低平均思考长度。实验证明，这种思想在推理和非推理等各种任务上广泛适用。团队还发现了一种现象：即在相同任务下，越聪明（参数量大）的模型，需要的思考长度越短；这与当前深度思考模型表现相违背，却十分符合人类的认知。

上一篇：海贼王漫画701话那个人说的然后加上我之前说的那个那人？那个男人是谁？七武海的。

下一篇：求小说人物名字，加上寓意

小红书Hi Lab团队提出可大幅降低平均思考长度的强化学习训练方式

相关内容

热门资讯