(来源:你好张江)
7月28日,张江模力社区产业生态圈的重要成员——北京智谱华章科技股份有限公司(以下简称“智谱”)发布其新一代旗舰模型GLM-4.5,一款专为智能体应用打造的基础模型。据悉,GLM-4.5在包含推理、代码、智能体的综合能力达到开源SOTA,在真实代码智能体的人工对比评测中,实测国内最佳。
GLM-4.5模型采用混合专家(MoE)架构,这种架构能够显著提升训练和推理时的计算效率。新一代GLM-4.5模型系列包括 GLM-4.5(总参数量 3550 亿,激活参数 320 亿)和GLM-4.5-Air(总参数 1060 亿,激活参数 120 亿),二者都采用混合推理模式,提供:用于复杂推理和工具使用的思考模式,以及用于即时响应的非思考模式。
智谱方面表示,过去五年里,OpenAI的GPT-3学会了常识知识,而o1模型则通过强化学习实现了“先思考后回答”,在编程、数据分析和复杂数学问题上的推理能力得到了显著提升。然而,现有模型仍然算不上真正的通用模型:有些擅长编程,有些精于数学,有些在推理方面表现出色,但没有一个能在所有任务上都达到最佳表现。GLM-4.5正是朝着统一各种能力这一目标努力,力求在一个模型中集成所有这些不同的能力。
GLM-4.5模型首次在单个模型中实现将推理、编码和智能体能力原生融合,以满足智能体应用的复杂需求。在最具有代表性的12个评测中,包括MMLU Pro、AIME 24、MATH 500、SciCode、GPQA 、HLE、LiveCodeBench、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL v3和BrowseComp,GLM-4.5的综合平均分取得了全球模型第三、国产模型第一,开源模型第一。性能优化之外,GLM-4.5系列也在成本和效率上实现突破,由此带来远低于主流模型定价:API调用价格低至输入0.8元/百万tokens,输出2元/百万 tokens。
7月30日,GLM-4.5模型登顶HuggingFace Trending全球第一,目前已有Rokid Glasses、智联招聘、脉脉、星流Beta、Flowith、沉浸式翻译、Pi等多家企业表示即将接入使用。
一个真的能搜索的搜索引擎
一个真的能发弹幕的B站
这款新模型的发布,代表了AI迈向通用人工智能的一次重要转变。它不再满足于扮演一个被动回答问题的“聊天机器人”,而是要成为能够理解复杂目标、自主规划并执行多步骤任务的“全优生”。在实际例子中,用户通过z.ai使用该模型时,仅用一句简单的指令,就可让GLM-4.5独立开发出具备搜索功能的“谷歌”网站、可以发弹幕的“B站”,甚至直接上线一个完整的“Flappy Bird”小游戏。
目前,GLM-4.5模型可在Z.ai、智谱清言(chatglm.cn)和开放平台BigModel上使用,开放权重可在HuggingFace和 ModelScope获取。
编辑自:智谱