Meta J1系列模型:破解判断模型难题的新利器
创始人
2025-05-22 13:05:46
0

IT之家 5 月 22 日消息,科技媒体 marktechpost 昨日(5 月 21 日)发布博文,报道称 Meta 公司推出 J1 系列模型,通过强化学习和合成数据训练,显著提升判断模型准确性和公平性。

项目背景

大型语言模型(LLM)正在突破传统角色,逐步承担起评估与判断的重任。这种“LLM-as-a-Judge”的模式,让 AI 模型能够审查其他语言模型的输出,成为强化学习、基准测试和系统对齐的重要工具。

不同于传统的奖励模型直接打分,判断模型通过内部链式推理(chain-of-thought reasoning)模拟人类思考,特别适合数学解题、伦理推理和用户意图解读等复杂任务,还能跨语言和领域验证回应,推动语言模型开发的自动化和扩展性。

不过“LLM-as-a-Judge”模式目前面临的挑战是一致性差和推理深度不足,许多系统依赖基本指标或静态标注,无法有效评估主观或开放性问题;另一个问题就是位置偏见(position bias)答案顺序常影响最终判断,损害公平性。

此外,大规模收集人工标注数据成本高昂且耗时,限制了模型的泛化能力。EvalPlanner 和 DeepSeek-GRM 等现有解决方案依赖人工标注或僵化训练模式,适应性有限。

J1 模型的创新突破

为解决上述问题,Meta 的 GenAI 和 FAIR 团队研发了 J1 模型。J1 通过强化学习框架训练,采用可验证的奖励信号学习,使用 22000 个合成偏好对(包括 17000 个 WildChat 语料和 5000 个数学查询)构建数据集,训练出 J1-Llama-8B 和 J1-Llama-70B 两款模型。

团队还引入 Group Relative Policy Optimization(GRPO)算法,简化训练过程,并通过位置无关学习(position-agnostic learning)和一致性奖励机制消除位置偏见。

J1 支持多种判断格式,包括成对判断、评分和单项评分,展现出极高的灵活性和通用性。

测试结果显示,J1 模型性能大幅领先。在 PPE 基准测试中,J1-Llama-70B 准确率达 69.6%,超越 DeepSeek-GRM-27B(67.2%)和 EvalPlanner-Llama-70B(65.6%);即便是较小的 J1-Llama-8B,也以 62.2% 的成绩击败 EvalPlanner-Llama-8B(55.5%)。

J1 还在 RewardBench、JudgeBench 等多个基准测试中展现出顶级表现,证明其在可验证和主观任务上的强大泛化能力,表明推理质量而非数据量,是判断模型精准的关键。

相关内容

热门资讯

南宁市继续保留全国文明城市荣誉...   本报讯(记者郭少东)5月23日,全国精神文明建设表彰大会在北京召开。会上,《中央宣传思想文化工作...
让有信仰的人讲信仰 少先队辅导员是少先队员亲密的朋友和指导者,是少年儿童健康成长的引路人,也是中小学校思政课教师队伍的重...
万豪、希尔顿、雅高、华住、锦江... 注:各大公司财政年度的起始时间不同于自然年,因此会出现财政季度、年度等与自然年不一致的情况。酒店管理...
为一句诺言,坚持广播宣讲50余... 转自:湖州日报  记者  张志炜  本报讯  昨天,全国精神文明建设表彰大会在北京召开。中央宣传思想...
赴港上市热潮涌动 AH股价倒挂... 格隆汇5月24日|近期,A股市场掀起一波赴港上市热潮,多家头部企业相继宣布启动H股发行计划,而已经在...
银行保险资管产品信息披露将迎统... 转自:上海证券报  记者 韩宋辉  上海证券报记者5月23日从金融监管总局获悉,该局起草了《银行保险...
打防并重,护好群众“钱袋子”—... 5月15日是第十六个全国公安机关打击和防范经济犯罪宣传日。当日,省公安厅发布5起经济犯罪典型案例,并...
亚太桥牌锦标赛战罢 中国队三冠... 5月23日,第54届亚太桥牌锦标赛在安徽合肥丰大国际大酒店结束了循环赛的争夺,四个组别冠亚季军出炉。...
早啊!新闻来了〔2025.5.... 吉林★5月23日,全国精神文明建设表彰大会在京召开。表彰会上,我省3个县被授予全国文明城市(区)称号...
科普宣传零距离 寓教于乐树新风     ▲◀小朋友积极参与垃圾分类趣味互动。 本报记者潘浩 摄  本报讯(记者廖欣 通讯员覃巾玲)5...
农生文侯刚会见中国生物工程学会...   本报讯(记者吴军)5月23日,自治区党委常委、市委书记农生文和市长侯刚在南宁会见中国生物工程学会...
全电物流 节能减排 转自:湖州日报  在长兴县小浦镇的湖州南方物流有限公司,“全电物流”项目近日正在运转。该项目由航运码...
特朗普扩大关税威胁 三星等其他... 美国总统特朗普周五加大对海外制造商的施压,表示他早前对苹果(AAPL.US)提出的25%关税威胁将不...
老凤祥相关公司新增一项428.... (转自:快查一企业中标了)快查APP显示,老凤祥相关公司上海新世界股份有限公司于2025年5月23日...
42支队伍将在邕江上演龙舟竞速   本报讯(记者林显威)5月23日,记者从南宁市龙舟协会获悉,将于5月31日举行的2025年南宁龙舟...
为青少年成长注入“心”力量 转自:湖州日报  记者  张  璐  本报讯  昨天上午,在“2025年湖州市中小学生心理健康宣传教...
重庆市武隆区代表团来湖考察 转自:湖州日报  记者  胡熠烨  本报讯  昨天,重庆市武隆区代表团来湖考察,武隆区委书记范立新带...
美司法部与波音达成不起诉协议   新华社旧金山5月23日电(记者吴晓凌)美国司法部23日提交给得克萨斯州联邦法院的文件显示,司法部...
第五届粤港澳大湾区文化艺术节主... 为进一步提升粤港澳大湾区文化艺术节品牌形象,办好第五届粤港澳大湾区文化艺术节(以下简称“艺术节”),...
金融监管总局拟出台重磅新规! 5月23日,据金融监管总局官网消息,金融监管总局起草了《银行保险机构资产管理产品信息披露管理办法(征...