红杉中国正式开源AI基准测试xbench评测集
创始人
2025-06-18 08:41:25

6月18日,红杉中国正式开源其AI基准测试工具xbench的两个评测集xbench-ScienceQA和xbench-DeepSearch。红杉中国表示,未来将基于大模型和AI Agent的发展情况不断动态更新评测集,并且采用“黑白盒”机制,既保证xbench的发展可以服务更多的大模型和Agent开发者,同时尽力避免静态评测集经常出现的过拟合问题,确保xbench的长期有效。

相关内容

热门资讯

海关在一船舶检出1000余只德... 【#海关在一船舶检出1000余只德国小蠊#】据“海关发布”微信公众号消息,近日,石家庄海关所属曹妃甸...
宁忠岩启蒙教练祝玉良:“这枚金... 中新网哈尔滨2月20日电 题:宁忠岩启蒙教练祝玉良:“这枚金牌太为中国长志气”中新网记者 王妮娜“激...
马上驰骋练出稳定腰腹 【#马上驰骋练出稳定腰腹#】#一个动作缓解过年久坐腰背僵硬# 过年久坐、追剧、打牌,腰背部是不是又酸...
东西问丨重兵压境、E-3出动,... 中新网北京2月20日电 题:重兵压境、E-3出动,美伊战争一触即发?记者 贺劭清美伊关系,再临悬崖。...
日本神奈川交警违规执法涉案27... 据日本广播协会(NHK)2月20日报道,日本神奈川县警方查出有多名交通警察多年来违规执法,涉案271...