AI已然成为一股不可阻挡的变革力量,当全球科技巨头争相押注AI大模型时,一家中国手机厂商却悄然将触角伸向MR混合现实头显甚至家用机器人等领域。
在2025博鳌论坛上,vivo执行副总裁胡柏山直言:“手机是连接人与数字世界的桥梁。”这背后,是vivo以AI为轴心的一场技术革命——从影像长赛道到蓝心大模型,从端侧算力突破到机器人Lab,vivo正试图打破传统消费电子的边界,探索未来新的可能性。
但当人们一边期待着AI还能怎样提高人类的生活质量,一边又担忧着会不会失去对AI的控制甚至沦为AI的工具人。博鳌期间,AI的安全与治理话题也备受与会专家的关注。
有观点认为,过度严格的治理措施可能会抑制创新,使企业和研究机构在开发AI技术时受到过多限制,影响技术的发展速度和应用效果。但也有专家认为,如果只注重创新而忽视治理,可能导致更大的技术失控。
第一财经《总编看博鳌——与AI同行》特别企划也围绕“人类与AI共生下,如何让AI创造价值并长期健康发展”等话题进行了探讨。其中,vivo作为行业实践者,给出了自己的洞察。
手机厂商为何要造“机器人”?
“十年后,手机仍是必需品,而机器人可能成为家庭标配。”胡柏山的判断,揭示了vivo布局AI的底层逻辑:技术普惠需要场景落地,而场景需要硬件载体。
博鳌亚洲论坛2025期间,vivo 正式对外宣布了成立机器人Lab的计划,正式进军机器人行业。
vivo希望依托自身在AI大模型与影像领域的积累,叠加自研混合现实头显积累的实时空间计算能力,着重研究孵化机器人的“大脑”和“眼睛”,让机器人可以“看得懂场景,听得懂需求,给得了回应”。
在博鳌展区上,vivo首次展示了混合现实头显原型机——vivo Vision。在vivo看来,这款设备被赋予了双重使命:一是弥补手机在沉浸式体验上的短板;二是成为未来机器人的“眼睛”。
通过复用手机端的影像算法与3D感知技术,vivo试图在混合现实头显中构建物理世界的数字孪生。更关键的是,这类设备将成为机器人与现实交互的入口:当用户戴上头显,AI不仅能“看见”环境,还能通过蓝心大模型实时推理决策。
这仅仅是vivo在机器视觉能力的一个阶段性成果,记者了解到,在下个月即将发布的 X200 Ultra上,vivo还会展示更多集成影像领域的最新技术进展。
“机器人是手机行业的未来”,胡柏山表示,目前 AI大模型聚焦在数字世界,而机器人仅能对物理世界做出动作,二者是割裂的,“手机是连接人与数字化世界的桥梁,机器人则将成为联接物理世界和数字世界的桥梁。”这也是vivo未来的方向。
在新的发展阶段,为联接物理世界与数字世界,vivo 致力于创造极致的机器人产品。
依托手机业务中基于AI算法的蓝心大模型、基于影像技术积累的空间感知能力及用户需求洞察能力,vivo已具备了机器人领域核心的“大脑+眼睛(感知)”技术。通过手机生态积累的规模化数据与应用场景经验,这套能力可以快速适配新一代机器人的需求。而从承载技术的“秘密武器”vivo机器人Lab定位来看,未来主要瞄准家庭场景的刚需。
“我们聚焦家庭场景,同时针对存在用户需求的特定场景‘沿途下蛋’。”胡柏山以“陪伴型机器人”举了一个例子。他表示,初期,这种类型的机器人可化身萌宠解决陪伴问题,后期通过迭代感知与操作能力,逐步承担家务、安防等任务。这一路径的关键,在于将手机端积累的AI能力,如影像识别、语音交互与机器人硬件结合,同时借助蓝心大模型的端侧部署,解决数据隐私与实时响应难题。
但技术的实现并不是一蹴而就,尤其是目前终端仍存在一定的算力瓶颈。比如,当前手机算力仅支持30亿参数模型,而机器人大脑显然需要更高的参数量级。对此,vivo的策略是“双轨并行”,一方面持续通过芯片定制提升手机端侧算力,另一方面寻求更强的硬件训练更大参数量级的模型,待功能完善,也可裁切模型反哺手机。
重新定义“终端”
在博鳌论坛的科技对话中,中国工程院院士、清华大学智能产业研究院院长张亚勤抛出了一个观点:“AI正在经历从信息智能到物理智能的质变。”
他认为,当OpenAI的GPT-6开始规划旅行路径,谷歌Gemini能实时解析物理世界,AI的“具身智能”革命已悄然来临,而这也为当下的智能终端技术演进提出了新的挑战。
而在胡柏山看来,未来的手机不应该是一种工具,而是能感知意图的伙伴。“未来的智能终端必须是具备环境感知、自主决策、多模态交互三大能力。”
事实上,当大模型狂飙突进时,硬件厂商的焦虑肉眼可见,如果AI能力被云端垄断,那么硬件终将沦为“管道”。但反过来说,对于手机厂商而言,如果能够将AI深度植入硬件基因,那么手机、眼镜、手表甚至机器人,将会成为“智能体”的最佳载体。
当下,当同行还在比拼大模型参数时,vivo已经通过混合现实头显与机器人的布局找到了更务实的路径:用场景倒逼技术进化,让AI真正“住”进硬件。
混合现实头显天生具备了传递视觉信息的能力,但实际上也能反哺手机上视觉算法的进化。比如在影像上,AI大模型加持的算法变革,也在重塑影像技术。
过去,影像技术依赖硬件堆料与算法调优,但受限于手机空间,天花板明显。DeepSeek等开源模型的涌现,让vivo找到了一种“用AI推理替代暴力计算”的方式。例如,在暗光场景中,模型可综合环境色温、物体距离、用户偏好(如美颜程度)等信息,动态优化成像效果,甚至模拟专业摄影师的决策逻辑。这种“认知智能”的引入,让算法从“调参数”升级为“做判断”。
“AI不是替代摄影师,而是让每个人成为摄影师。”vivo影像副总裁于猛在谈及AI对影像技术的重塑时表示。一方面是在暗光环境下,AI不仅识别主体,还能分析光线反射路径,动态重建被噪声掩盖的细节。另一方面是学习数万张专业摄影作品后,模型可依据用户性别、年龄甚至社交媒体偏好,自动调整美颜参数。
更为重要的是,这种技术的效应正在重塑传统影像行业的发展逻辑。
比如目前vivo正在与医院和高校合作的“眼科筛查模式”,通过两亿像素长焦微距镜头,可清晰捕捉眼球毛细血管形态,AI算法能在3秒内完成青光眼风险初筛,准确率达九成以上。而当影像能力突破“拍照”范畴,向医疗、教育等领域渗透时,手机厂商的角色也从消费电子供应商,升级为“社会刚需解决方案提供者”。
但回到商业逻辑本身,无论是影像、MR还是机器人,其本质都是通过AI放大硬件价值,将技术优势转化为生态护城河,进而重新定义“终端”的价值。正如胡柏山所言,科技公司的责任是通过科学技术和创新能力,不断解决未来的社会问题,为广大用户带来更美好的生活。
AI技术普惠的另一面是“安全基建”
AI技术迅速迭代,从生成式AI走向智能体,从预训练走向推理,从信息智能走向物理智能和生物智能,但同时也带来了更多的安全和治理问题。
当大模型能自主订餐、通话时,用户最担忧什么?“不是AI失控,而是数据滥用。”vivo首席安全官鲁京辉的答案,指向了AI狂飙中的最大隐忧。
鲁京辉对记者表示,“比起‘黑天鹅’事件,我们更要避免‘灰犀牛’事件的发生。黑天鹅事件,因其难以预料只能尽力应对,但灰犀牛事件不同,大家清楚存在的风险,所以应该竭尽全力将灰犀牛事件发生及爆发的可能性降至最低,此时共建一个透明、可理解、可信的、负责任的AI生态尤为重要。”
他认为,AI时代的安全已从“Security”转向“Safety”,不仅要防攻击,更要考虑伦理影响和社会系统性风险,如虚假内容、深度伪造、恶意引导等新型威胁。
目前,手机厂商在AI治理与安全方面,从实施层面有两个维度,分别是数据生命周期和业务生命周期。在数据生命周期,要保证数据高质量,防止低质量或恶意数据污染大模型,确保数据安全。而从业务生命周期,大模型本身要考虑算法安全性,防范训练中的恶意攻击,部署时兼顾传统与AI业务防护手段,干预大模型不可解释性及AI幻觉问题。
“其实核心的底线就是要做好数据安全和隐私保护。”鲁京辉说。
具体来看,在vivo内部,AI安全团队从需求阶段便介入研发全流程。例如,语音助手执行支付前需二次生物验证;生成式AI输出的图片强制嵌入数字水印,确保可追溯。针对Deepfake风险,vivo选择“用技术对抗技术”——通过自研检测算法,在端侧实时拦截伪造内容。鲁京辉强调:“安全不是给AI踩刹车,而是装方向盘。”
这种“底线思维”也体现在技术普惠中。vivo听说、vivo看见等功能,通过AI为视障、听障群体提供实时辅助。例如,将环境声音转化为文字,或将视觉信息翻译为语音提示。这些功能看似与销量无关,却成为vivo构建技术伦理的关键注脚。
不过,正因为智能体的广泛运用,一种“未知的、藏在冰山下”的AI风险在张亚勤看来正在快速提升。
“风险至少上升一倍。”张亚勤认为,智能体具有自我规划、学习、试点并达到自己目的的能力,是强大的技术工具,但在其运行过程中,里面有很多未知的因素,中间路径不可控。智能算法并不完全是黑盒子,但是很多东西并不清楚机理,所以带来很大风险。一种是可控风险,一种是被坏人所利用的风险。因此,使用智能体的时候需要做一些标准,比如限制智能体自我复制,以降低失控风险。
香港科技大学首席副校长郭毅同样指出,AI治理需解决两大矛盾:一是技术权力向精英阶层集中,二是全球协作的缺失。
vivo首席安全官鲁京辉认为,安全性问题不能简单地通过制定法律或规则解决,全球对“安全性”定义也尚未统一。“全球范围内,到底哪一种定义是标准答案,还需要实践来证明。”在他看来,安全没有标准答案,但企业必须有标准动作,企业需要一种更动态的、更敏捷地平衡于发展和安全之间的新的治理模式,既不做保守的防守者,也不做野蛮的开拓者,与其焦虑AI是否失控,不如让它从工具进化为伙伴。
“未来十年,AI的竞争不是单点突破,而是如何用一套技术体系连接更多场景。”正如胡柏山所言,在这场人机共生的试验中,vivo的目标不是成为下一个OpenAI,而是让AI像空气一样,融入每一台设备、每一次交互终,创造更自然的人机共生体验。