复刻OpenAIo1推理大模型,强化学习开源代码LLaMA-O1问世
创始人
2024-11-06 13:02:54

最近,一款复刻OpenAI o1推理大模型的开源项目LLaMA-O1正式发布。该项目来自上海 AI Lab(上海人工智能实验室)团队,其强化学习代码的开源,基于LLaMA开源模型和AlphaGo Zero范式,引起了业界的广泛关注。

LLaMA-O1使用了蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。这些技术的应用,使得模型在学习和推理过程中能够更加高效地获取知识和提升能力。

早在2024年6月,OpenAI o1发布之前,团队就开始探索蒙特卡洛树搜索提高大模型数学能力。此后,团队不断升级算法,专注于数学奥赛问题,将其作为OpenAI o1的开源版本。10月初,团队上传新论文,使用成对优化提高Llama模型数学奥赛能力,在AIME2024基准测试中取得了显著的进步。10月底,团队宣布在基于AlphaGo Zero架构复刻OpenAIo1 的努力中取得重大进展,成功使模型在学习过程中通过与搜索树交互获得高级思维能力,无需人工标注。

目前已开源的内容包括预训练数据集、预训练模型和强化学习训练代码。其中,OpenLongCoT-Pretrain数据集包含10万+条长思维链数据,每条数据包含一个完整的数学问题推理过程,这为模型的进一步训练提供了丰富的素材。在预训练模型基础上,可以继续进行强化学习训练,其训练过程包括使用蒙特卡洛树搜索进行自我对弈生成经验,将经验存储在优先经验回放缓冲区中,从缓冲区采样批次数据进行训练,更新模型参数和经验优先级等步骤。同时,训练代码中还使用了LoRA进行参数高效微调、PPO算法作为策略优化方法、实现GAE算法用于计算优势函数以及使用优先经验回放提高训练效率等关键技术点。

除了LLaMA-O1项目外,上海交通大学团队的o1-Journey项目也在进行OpenAI o1复刻工作,并取得了一定的进展。

LLaMA-O1强化学习开源代码的问世不仅提供新资源与思路,促进大模型数学推理等能力提升,也有利于降低行业门槛,推动创新与竞争,构建更广泛生态系统。此外,它还为数据敏感行业开发垂类模型提供便利,有助于人工智能技术在更多领域落地应用。

相关内容

热门资讯

格陵兰岛拒绝特朗普提议 #青年看世界# #特朗普称将向格陵兰岛派船#【#格陵兰岛拒绝特朗普提议#】美国总统特朗普21日在社交...
今日返程客流高峰,铁路、民航、... 今天全国铁路预计发送旅客1850万人次今天是大年初七,春节假期进入尾声,全国铁路将迎返程最高峰。今天...
五粮液:重视新兴渠道与年轻化营... 投资者提问:请问公司为何不加大对类似i茅台的小程序,互联网等新兴和年轻化渠道的投入?同时,临近情人节...
A股迎来本命年 “红马年”可以... (来源:中国宁波网)转自:中国宁波网2026年央视春晚上,宇树机器人持酒葫芦表演醉拳。央视春晚截图 ...
央视新闻:白宫退关税打太极 【央视新闻:#白宫退关税打太极# 】#美国并非第一次面对贸易税费返还# 当地时间2月22日,美国财政...