被质疑缺乏创新?Meta最新大模型基准测试排名低于竞争对手!
创始人
2025-04-12 18:51:08

本周早些时候,Meta公司因在众包基准测试平台LM Arena上使用其Llama 4 Maverick模型的未发布实验版本并取得高分而备受争议。

这一事件引发了广泛关注,促使LM Arena的维护团队出面道歉,并随即调整了其评分政策,转而采用未经修改的原版Maverick模型进行评估。结果显示,该模型在未经优化的情况下,其竞争力并不突出。

截至周五,未经修改的Maverick模型“Llama-4-Maverick-17B-128E-Instruct”在排名上落后于OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及Google的Gemini 1.5 Pro等模型。值得注意的是,这些竞争模型中的许多都是在数月前便已推出的。

那么,为何Maverick模型在未经修改的情况下表现不佳呢?Meta公司在上周六发布的一份图表中给出了解释。原来,其实验性的Maverick模型Llama-4-Maverick-03-26-Experimental已经“针对对话性进行了优化”。这些优化在LM Arena的测试中确实取得了显著成效,因为该平台依赖于人类评分员来比较不同模型的输出,并选择他们更偏好的模型。

尽管LM Arena因其测试方式而备受关注,但它从来都不是衡量AI模型性能的最可靠指标。根据基准测试来定制模型,不仅可能产生误导性结果,还会让开发人员难以准确预测模型在不同环境下的实际表现。

对此,Meta公司的一位发言人在一份声明中表示,Meta已经尝试了“各种类型的自定义变体”。

该发言人指出:“‘Llama-4-Maverick-03-26-Experimental’是我们测试过的聊天优化版本,在LM Arena上的表现确实令人印象深刻。然而,我们现在已经发布了开源版本,并将密切关注开发者如何根据自身需求来定制Llama 4。我们非常期待看到他们的创新成果,并珍视他们持续的反馈。”

(9726215)

相关内容

热门资讯

中外对话丨中外专家警告:日本主...   中新网北京12月15日电 题:中外专家警告:日本主动调整军事战略,或走向穷兵黩武  作者 管娜 ...
夏某某(男,大专学历)隐瞒精神... 转自:扬子晚报2024年参军入伍后在安徽出现精神类障碍被退回,2025年隐瞒病史后入伍再被退兵……1...
告别纸上谈兵!AI 培训找哪个...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:雷达财经)“...
一图读懂vivo S50:田曦...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:快科技)快科...
监管部门出手整治不正当价格行为... 近日,国家市场监督管理总局研究起草了《汽车行业价格行为合规指南(征求意见稿)》(下称《指南》),并向...