海外杀疯!阶跃语音模型 CES 出圈后登顶全球第一,听到对话即可思考
创始人
2026-01-15 17:04:01

(来源:上观新闻)

全球知名权威大模型评测榜单 Artificial Analysis Speech Reasoning 更新,大模型创业公司阶跃星辰原生音频推理模型 Step-Audio-R1.1以96.4%准确率,超越 Grok、Gemini、GPT-Realtime 等主流一线模型,刷新历史最好成绩。目前,阶跃星辰已将这款模型开源,开发者可以下载体验。

据了解,该榜单是目前业界评估“原生语音模型”(Native Audio Models)最权威的第三方基准之一。核心考量模型直接处理音频并进行复杂逻辑推理的能力,主要考察维度包括准确率、首包延迟等。

根据榜单评测,在性能与速度的综合权衡上,Step-Audio-R1.1 全面碾压同类语音模型。

2025年11月,阶跃星辰发布了全球首个开源原生音频推理模型 Step-Audio-R1,可以在不增加额外时延的情况下,端到端理解语音内容,并能够“像人类一样听到对话即可思考”。这次发布的 Step-Audio-R1.1 模型,是Step-Audio-R1的升级版,兼顾更强实时对话和复杂语音推理能力。完整的实时语音API将在2月上线,目前开放的chat模式已搭载Step-Audio-R1.1核心,支持边想边说的流式推理。

和大语言模型同理,语音模型同样需要具备强大推理能力,才能提供更高阶智能、更自然交互。基于推理能力,Step-Audio-R1.1不仅能准确识别声音,还可以捕捉到声音背后的情绪和心理状态、言外之意,并能基于环境音推导对物理世界的理解。比如当听到最近爆火网络的“海豹舞”音频时,模型不仅能识别出韩语歌词,更判断出这是典型语言学习或发音练习的音频,而非自然对话。

一种行业共识是,语音是终端场景下最主流的交互方式。自2025年发力“AI+终端”战略,阶跃星辰相继发布了业内首个产品级的开源语音交互模型 Step-Audio、端到端语音模型 Step-Audio 2 系列、音频编辑模型 Step-Audio-EditX、全球首个开源原生音频推理模型 Step Audio R1。

在刚闭幕的 2026 年国际消费电子展(CES)上,吉利展示了搭载阶跃语音大模型的吉利银河 M9 海外版,凭借极具真人感的交互效果引发海外观众的热议。吉利银河 M9 也是业内首个搭载端到端语音模型的量产车型。

原标题:《海外杀疯!阶跃语音模型 CES 出圈后登顶全球第一,听到对话即可思考》

栏目主编:戎兵 题图来源:AI制图

来源:作者:文汇报 沈湫莎

相关内容

热门资讯

广西宁明:AI+低空经济赋能 ... 转自:新华财经日前,“人工智能赋能县域经济高质量发展院士专家宁明行”活动暨广西人机交互与智能决策重点...
视频丨转发周知!春运火车票今起... 今天(1月19日)春运第一天火车票开售哪天可买春节假期第一天的车票?2026年春运购票有哪些新变化?...
钨金属原料价格持续上涨,翔鹭钨... (来源:财闻) 预计归属于上市公司股东的净利润为1.25亿元~1.8亿元,...
网友:为什么飞船必须有舷窗 转... #神20舷窗裂纹维修细节披露#【网友:#为什么飞船必须有舷窗#[思考]转存长知识!】今天,#神20飞...
监管对“投资大V”出手,收割粉... 财联社1月19日讯(记者 吴雨其)在许多普通投资者眼里,社交平台上的“实盘冠军”、“投资大V”,似乎...