复刻OpenAIo1推理大模型,强化学习开源代码LLaMA-O1问世
创始人
2024-11-06 13:02:54

最近,一款复刻OpenAI o1推理大模型的开源项目LLaMA-O1正式发布。该项目来自上海 AI Lab(上海人工智能实验室)团队,其强化学习代码的开源,基于LLaMA开源模型和AlphaGo Zero范式,引起了业界的广泛关注。

LLaMA-O1使用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。这些技术的应用,使得模型在学习和推理过程中能够更加高效地获取知识和提升能力。

早在2024年6月,OpenAI o1发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力。此后,团队不断升级算法,专注于数学奥赛问题,将其作为OpenAI o1的开源版本。10月初,团队上传新论文,使用成对优化提高Llama模型数学奥赛能力,在AIME2024基准测试中取得了显著的进步。10月底,团队宣布在基于AlphaGo Zero架构复刻OpenAIo1 的努力中取得重大进展,成功使模型在学习过程中通过与搜索树交互获得高级思维能力,无需人工标注。

目前已开源的内容包括预训练数据集、预训练模型和强化学习训练代码。其中,OpenLongCoT-Pretrain数据集包含10万+条长思维链数据,每条数据包含一个完整的数学问题推理过程,这为模型的进一步训练提供了丰富的素材。在预训练模型基础上,可以继续进行强化学习训练,其训练过程包括使用蒙特卡洛树搜索进行自我对弈生成经验,将经验存储在优先经验回放缓冲区中,从缓冲区采样批次数据进行训练,更新模型参数和经验优先级等步骤。同时,训练代码中还使用了LoRA进行参数高效微调、PPO算法作为策略优化方法、实现GAE算法用于计算优势函数以及使用优先经验回放提高训练效率等关键技术点。

除了LLaMA-O1项目外,上海交通大学团队的o1-Journey项目也在进行OpenAI o1复刻工作,并取得了一定的进展。

LLaMA-O1强化学习开源代码的问世不仅提供新资源与思路,促进大模型数学推理等能力提升,也有利于降低行业门槛,推动创新与竞争,构建更广泛生态系统。此外,它还为数据敏感行业开发垂类模型提供便利,有助于人工智能技术在更多领域落地应用。

相关内容

热门资讯

打仗需要什么就专攻精练什么,在... 来源:中国军网-解放军报北部战区海军某部在任务一线检验理论学习成果——学用结合 为战砺剑■张腾飞 吴...
柳州部分地区出现塌陷坑,专家:... (来源:上观新闻)5月18日,广西柳州市柳南区发生地震后,辖区池塘、道路等接连出现圆形地面塌陷坑,引...
美加州圣迭戈市伊斯兰中心枪击事... (来源:上观新闻)当地时间5月18日,美国加利福尼亚州圣迭戈市警方表示,当地一家伊斯兰中心当天发生的...
广西柳州两次5.2级地震之间有...   来源:上观新闻  据中国地震台网正式测定,5月18日21时44分在广西柳州市柳南区再次发生5.2...
李在明喊话,三星电子劳资相互让... 【环球时报驻韩国特派记者 莽九晨】连日来,韩国三星电子劳资谈判引发韩国各界关注。据韩联社报道,三星电...