被质疑缺乏创新？Meta最新大模型基准测试排名低于竞争对手！_资讯

被质疑缺乏创新？Meta最新大模型基准测试排名低于竞争对手！

创始人

2025-04-12 18:51:08

本周早些时候，Meta公司因在众包基准测试平台LM Arena上使用其Llama 4 Maverick模型的未发布实验版本并取得高分而备受争议。

这一事件引发了广泛关注，促使LM Arena的维护团队出面道歉，并随即调整了其评分政策，转而采用未经修改的原版Maverick模型进行评估。结果显示，该模型在未经优化的情况下，其竞争力并不突出。

截至周五，未经修改的Maverick模型“Llama-4-Maverick-17B-128E-Instruct”在排名上落后于OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet以及Google的Gemini 1.5 Pro等模型。值得注意的是，这些竞争模型中的许多都是在数月前便已推出的。

那么，为何Maverick模型在未经修改的情况下表现不佳呢？Meta公司在上周六发布的一份图表中给出了解释。原来，其实验性的Maverick模型Llama-4-Maverick-03-26-Experimental已经“针对对话性进行了优化”。这些优化在LM Arena的测试中确实取得了显著成效，因为该平台依赖于人类评分员来比较不同模型的输出，并选择他们更偏好的模型。

尽管LM Arena因其测试方式而备受关注，但它从来都不是衡量AI模型性能的最可靠指标。根据基准测试来定制模型，不仅可能产生误导性结果，还会让开发人员难以准确预测模型在不同环境下的实际表现。

对此，Meta公司的一位发言人在一份声明中表示，Meta已经尝试了“各种类型的自定义变体”。

该发言人指出：“‘Llama-4-Maverick-03-26-Experimental’是我们测试过的聊天优化版本，在LM Arena上的表现确实令人印象深刻。然而，我们现在已经发布了开源版本，并将密切关注开发者如何根据自身需求来定制Llama 4。我们非常期待看到他们的创新成果，并珍视他们持续的反馈。”

(9726215)

上一篇：作家高建群谈新著《中亚往事》：用40年写出书中人物与故事

下一篇：26岁女子从紧急就诊到去世仅10分钟！这种病千万别以为是上火了！

被质疑缺乏创新？Meta最新大模型基准测试排名低于竞争对手！

相关内容

热门资讯