报道称,Meta计划在其即将推出的Llama 4中引入改进的语音功能。该模型将致力于使用户与其语音模型间的对话更具互动性,接近自然对话,而不仅仅是单向的问答。
Meta正发力AI Agent,尤其是在端侧AI和语音交互方面。公司计划将在未来几周内推出的Llama 4中引入更强大的语音功能。
据英国《金融时报》报7日报道,Meta首席产品官Chris Cox在摩根士丹利技术、媒体和电信会议上透露,Llama 4将是一个“全能模型”,语音功能将是原生的。
这意味着,Llama 4将能够直接处理语音信息,无需先将语音转换为文本,再将文本输入大型语言模型(LLM)进行处理,最后将输出的文本转换回语音。
Cox认为,这种原生语音功能对于人机交互界面而言意义重大,用户可以直接与AI对话,询问任何问题。
“我相信这对接口产品来说是一件大事,你可以和互联网交谈,随便问它什么。我认为我们仍在思考这有多强大。”
Llama 4:语音功能原生化
扎克伯格已多次强调,2025年将是Meta AI产品的“决定性之年”。为了实现AI技术的商业化,Meta正在考虑多种方案。
据报道援引知情人士透露,Meta一直特别注重使用户与其语音模型之间的对话更接近于双向自然对话,允许用户打断,而不是更僵化的问答形式。
此外,Meta正在探索为AI助手Meta AI推出高级订阅服务,提供诸如预订服务和视频创作等功能Meta还在考虑在其AI助手的搜索结果中引入付费广告或赞助内容。
扎克伯格今年还透露了构建一个具备中级工程师能力的AI工程代理计划,这一项目被认为拥有“非常大的市场潜力”。
Meta的AI业务主管Clara Shih 6日在接受CNBC采访时表示,全球有2亿家小企业已经在使用Meta服务和平台。她预计AI将改变每一项工作和每一项业务,包括使用WhatsApp、Instagram和Facebook与客户建立联系的数亿家小企业。
分析认为,Meta的AI语音计划不仅凸显了Meta在AI领域的雄心,也预示着未来AI交互方式将更加注重自然对话,而非传统的文本主导模式。
竞争格局:OpenAI、xAI与Meta的语音之战
在AI行业的竞争愈发激烈的背景下,Meta正在努力回应来自竞争对手的挑战。OpenAI去年发布的语音模式,专注于赋予其AI不同的人格特征,而由马斯克创办的xAI的Grok 3最近也推出了语音功能。
这些竞争促使Meta在新模型的安全性和使用限制方面进行深入讨论。一方面,Meta需要确保AI模型的输出符合道德规范,避免产生有害或不当内容。另一方面,Meta也希望降低模型的“高尚”程度,使其能够更自由地回答用户的问题。
此前,Meta因其第三版Llama模型受到外界批评,认为其过于“高尚”,拒绝回答一些无辜的问题。
除了语音能力的提升,Meta在AR/VR和智能眼镜领域的投资同样不容小觑。Meta最近推出的Ray-Bans智能眼镜通过语音命令与AI助手互动,还加速筹备轻量级头戴设备的开发,目标是替代智能手机,成为用户的主流计算设备。
风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。