AI应用新浪潮 人机协作新图景(附编者按、图片)
创始人
2025-03-13 07:38:01
0

  编者按:伴随Manus这一通用智能体(AI Agent)雏形的大火,智能体正从技术概念加速渗透至产业实践。其“感知—规划—行动”能力有望重构人机协作范式,同时创新与伦理的平衡难题也摆在眼前。

  跟随本期《聚焦》,全面了解AI应用Hehson潮中的核心角色——智能体和正在缓缓展开的人机协作新图景。

  什么是智能体?

  智能体(AI Agent)是指能够感知环境、自主决策并执行任务的智能实体。它通过与环境交互,利用自身能力完成特定目标,应用场景非常广泛。

  ChatGPT等传统大模型于公众而言已经并不陌生,它们虽然在自然语言处理上表现出色,但仍存在产生幻觉、输出结果存在误差、没有实际行动能力和长期记忆功能等局限。而智能体在某些情况下可以打破这些局限,比如当我们点外卖时,传统大模型或许只能提供文字建议,智能体却可以自主调用应用程序,把任务拆分成一系列小步骤,比如搜索引擎、操作外卖APP、调用支付接口等,进而完成从选择菜品到支付费用的全过程,真正成为用户的“助手”。

  智能体的核心架构通常包括以下几个模块:感知模块,负责从环境中获取信息,将原始数据转化为结构化信息,供后续模块使用;知识库,存储Agent的知识和经验,包括规则、事实、模型等,知识库可以是静态的(预定义规则)或动态的(通过学习不断更新);决策模块,基于感知模块和知识库的信息,制定行动策略,可能采用规则引擎、规划算法、强化学习等技术;执行模块,负责将决策模块的输出转化为具体行动,例如发送消息等,需要与环境进行实时交互;学习模块,从经验中学习,优化其行为;通信模块,例如通过自然语言、API接口进行交互协作等。

  智能体和大模型在某些功能上有重叠,但在定义、架构和应用场景上存在显著差异。智能体是能够感知环境、自主决策并执行任务的智能实体,目标是完成特定任务,具备感知、决策、执行和学习能力,能够与环境进行实时交互。而大语言模型是一种基于深度学习的语言模型,目标是理解和生成自然语言,主要具备语言理解和生成能力,缺乏对物理环境的感知和执行能力。智能体通常由多个模块组成,架构较为复杂,适用于需要与环境交互的复杂任务。

  智能体可以调用大模型作为其知识库或决策模块的一部分,但不仅仅依赖大模型,而大模型通常是智能体的底层能力支持。在实际应用中,两者往往相辅相成。从单纯的问答系统到能够理解、规划和行动的智能助手,未来智能体将在我们的日常生活和工作中扮演越来越重要的角色。

  构建智能体的“技术库”

  从技术体系看,智能体的位置处于大模型和应用软件之间,它基于大模型的能力调用各种应用软件,甚至很多时候能够替代应用软件直接完成用户指定的任务。

  这也体现了Agent的“代理”含义,它就像大模型能力的“具象化”,以大模型为基座,才能突破传统程序的机械性响应局限,才能以类人的语义理解、逻辑推理和知识整合能力自主拆解复杂任务并制定策略框架。然后再通过API生态建立跨维度操控能力,既能在数字世界调用各类软件接口如数据分析、图像生成、办公套件等,也能通过IoT协议获得空间感知、环境适应和实时反馈能力,并操控物理设备如机械臂、汽车等,从而突破传统AI的虚拟属性,形成虚实融合的任务执行能力。

  基于智能体的工作原理,可以看到它的技术发展是基于优化工作流程而演进的,包括持续提升通用大模型和推理大模型的智能能力、优化API持续调用的软硬件生态、在不同任务环境下稳定运行的云计算能力和基于长期记忆思维链中反思迭代、与时俱进的安全权限边界。其中,最重要的就是通用大模型和推理大模型的智能能力,这决定了智能体综合处理调用的能力上限。

  在能力量化方面,目前有参考自动驾驶分级而设置的智能体的自主程度及人类监督程度的分级体系。

  具体来看,工具使用能力是智能体突破自身局限的关键。技术库需要构建一个开放的工具集成框架,实现不同功能模块的无缝衔接。这一框架包含三类核心工具:第一类是搜索引擎、数据库等外部信息源,通过RAG技术实现知识增强;第二类是LLM自主生成的代码工具,利用函数调用(Function Calling)接口将自然语言指令转化为可执行程序;第三类是跨模态协作工具,如调用语音识别、图像生成等专用模型。

  工具集成面临两个技术挑战:一是内部知识与外部信息的冲突消解,需要通过置信度评估算法平衡LLM的先验信息与工具输出;二是工具调用的效率优化,需建立动态评估机制决定何时调用工具更优。

  决策规划能力是智能体实现复杂目标的核心。其中包含两种关键技术:其一是基于蒙特卡洛树搜索(MCTS)的路径探索算法,通过剪枝策略排除无效路径;其二是世界模型(World Model)构建技术,在智能体内部模拟环境变化。例如DeepSeek-R1模型通过构建认知图谱,实现多步推理的闭环验证。这种“脑内小剧场”机制显著提升了决策的前瞻性,但也带来计算资源消耗和过度思考的风险。为此,需要开发注意力调度算法,动态调整推理深度与响应速度。

  Manus、AutoGLM人机协同新突破

  近期大火的Manus和AutoGLM分别代表了不同方向的技术突破和应用创新,在多个行业和场景中展现了强大的潜力。

  Manus的横空出世,标志着人工智能应用从“对话式建议”向“自主执行”的跨越式进化。在众多网友口中,比起“百科全书”式的AI工具,Manus是“真干活”的AI,从批量处理文件、深度调研分析到复杂任务的自主规划与执行,它似乎更加接近成为人类的“真助手”。

  根据官方介绍,Manus在GAIA基准测试中的表现令人瞩目。Manus不仅能进行数据源编程,甚至可以为用户生成交互式的可视化展示,这种即刻生成成果的能力与传统的分析方式形成鲜明对比。可以说,Manus代表了智能体从理论到工程化落地的关键一步,为行业提供了新范式。

  在官方给出的12个应用场景案例中,Manus可以根据时间、预算、兴趣偏好等信息,直接输出整理好的各种行程计划,提供详细的行程和超文本语言旅行手册,包含地图、景点标记描述、基本日语短语和旅行提示等,甚至可以做出网页。可以进行股票分析,涵盖公司概况、关键指标、绩效数据、投资建议、财务数据、市场情绪、技术分析、比较资产、价值投资者、投资论文等等。可以为教师制作课程演示材料、比较分析保险单、进行供应商采购比价、寻找潜在客户等。可以大幅提升效率、减轻工作量,实现了从“动脑”到直接“动手”的转变。

  AutoGLM是智谱公司推出的自动化生成语言模型,是“住在手机里的AI管家”,具备模拟用户在智能手机屏幕上的操作及在网页浏览器中进行点击的能力,是一款自主智能体。基于强大的任务规划能力以及屏幕界面信息理解能力,仅通过自然语言指令即可实现复杂任务的快速执行,旨在充当通过图形用户界面实现对数字设备自主控制的核心代理。在任务执行的过程中,持续与用户交互反馈、调用多种工具精准完成操作。

  在微信上“给老板的朋友圈点赞并写一条评论”“向老板请个假”,在淘宝上“购买某一款历史订单产品”“查找某个店铺”“撰写一条评价”,在APP上预订酒店、在12306上查找车次并购买某张火车票、在美团上点个外卖、在大众点评上打卡并写好评、在小红书上关注指定用户……AutoGLM似乎可以完成人类在可视化电子设备上能做的事务,不受限于简单的任务场景或API调用,能够做到在真实日常事务上辅助人类,还能够在迭代过程中持续稳定地提高自身性能。例如,在发布会现场,演示了用户采购火锅食材的场景,AutoGLM自主执行了54步无打断操作并完成任务。

  站在技术奇点的“十字路口”

  伴随大模型的快速发展,未来智能体在工作与生活中的参与程度将大大加深。当前大多数智能体仍处于“人类监督”阶段,但技术突破正在产生规则改写的可能。

  比如DeepMind的Adaptive Agents团队提出了一种人—时间尺度(human-time scale)自适应智能体AdA,证明经过大规模训练后的RL智能体也能具有通用上下文的学习能力,该算法可以像人一样快速适应开放式的具身3D问题。近期大火的Manus,在展示中自发完成了旅行规划、股票分析、教育内容创建、保险政策比较等通用且复杂的任务,通过一长串思维链和工具调用,最终输出一个完整且专业的结果时,令人感叹“这就是通用智能体的雏形”“未来这就是我的同事”。

  同时,智能体调用多工具的发展路径,将自然演变为多智能体协作,从简单分工走向自组织形态。特别是在工业领域,多设备自主规划、自主维护、自主制造的“数字孪生工厂”将极大压缩生产切换、停机维护等所需时间。

  尽管前景广阔,但智能体的发展仍面临多重挑战。首先是隐私与安全问题,自主执行任务涉及用户数据的深度调用,需建立严格的权限管理与合规机制。其次是技术成熟度,复杂场景下的决策准确性、跨领域适应性仍需提升。此外,用户认知门槛与商业模式的探索也是关键,如何平衡技术前瞻性与市场接受度,将成为企业长期竞争力的试金石。

  展望未来,智能体将向三个方向演进:其一,多模态交互能力的深化,结合视觉、语音等多感官输入,实现更自然的人机协同;其二,具身智能的突破,通过与机器人、物联网设备的结合,拓展物理世界的操作能力;其三,生态化发展,开源框架与标准化接口将促进跨行业协作,形成以智能体为核心的数字经济新生态。

  在政策红利与技术迭代的双重推动下,智能体正从概念走向现实,其影响将远超工具层面,重构人类与技术的协作模式。正如比尔・盖茨所言:“智能体不仅会改变每个人与计算机交互的方式,它们还将颠覆软件行业,带来自我们从键入命令到点击图标以来最大的计算革命。智能体将是构建应用程序和技术服务的下一个平台”。

相关内容

热门资讯

蚌山区招商引资工作推进会暨招商... 转自:蚌埠新闻网2025年3月12日,蚌山区招商引资工作推进会暨招商业务培训会成功召开。此次会议聚焦...
国信证券给予蔚蓝锂芯优于大市评...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 每经AI快讯,国信证...
集泰股份:公司的涂料产品已有成... 每经AI快讯,有投资者在投资者互动平台提问:尊敬的董秘您好!中石油揭阳500万立原油库项目,集泰股份...
海关、移民、民航多部门协同发力... 新华财经北京3月13日电 为深入贯彻党的二十大和二十届二中、三中全会精神,扎实落实党中央、国务院优化...
英特尔盘后大涨10%,美国芯片... (文/杨依婷 编辑/吕栋)当地时间3月12日,英特尔官网发布公告,宣布任命陈立武(Lip-Bu Ta...
加拿大央行降息25个基点应对贸...   汇通财经APP讯——在周三的政策会议上,加拿大央行宣布将基准利率从3%降至2.75%,这是为了应...
红山文化考古新发现进一步揭示中... 转自:瞭望3月11日,在辽宁省朝阳市北票市的考古人员住所,考古人员在清洗调查现场发现的碎陶片。当日,...
国家数据局函复同意7个地方开展... 人民财讯3月13日电,国家数据局近日函复同意天津市、河北省(雄安新区)、上海市、江苏省、浙江省、广东...
正在公示!江西多地拟入选 3月13日全国双拥工作领导小组办公室发布关于全国双拥模范城(县)拟命名对象的公示其中江西多地拟入选↓...
江苏省送变电有限公司:大雾中高... 转自:扬子晚报3月12日10时许,经过江苏省送变电有限公司抢修队伍2小时紧张作业,宿迁500千伏任上...
手机套餐有高额违约金咋不早说? #办套餐送笔记本不知解约要赔2000多#【#手机套餐有高额违约金咋不早说#?】#315骗假不留# 中...
男子在女厕所偷拍逃跑时坠楼,重... 转自:农视网3月12日,有重庆网友发视频称近日一男子在女厕所偷拍,被人追赶时从二楼商铺坠地。3月13...
泰胜风能:公司与控股股东参投的... 每经AI快讯,有投资者在投资者互动平台提问:尊敬的董秘,你好!最近政府工作报告提到支持和加强商业航天...
敦煌人大走进信息采集点开展立法...   3月10日,敦煌市人大常委会邀请市、镇、村三级人大代表和基层群众深入全国人大常委会法工委基层立法...
保时捷下调中期利润率目标,计划... 【环球网财经综合报道】据路透社报道,保时捷表示,尽管每股收益下降了30.4%,但该公司将把2024年...
南向资金坚定加码,港股科技板块... 3月13日早盘,Wind数据显示,南向资金净买入额超20亿港元。年内净流入超过3600亿港元,同比大...
四川九洲:公司与相关行业头部企... 每经AI快讯,有投资者在投资者互动平台提问:市场传言贵公司的极目电机与华为有合作,涉及到电机和本体,...
好利科技:数据中心电源业务占比... 投资者提问:请问公司产品在数据中心电源的业务占比多少?在算力飞速发展的重大机遇下,公司有何措施提升该...
友阿股份(SZ002277):... 投资者提问:请问公司24年第三季度扣非净利润亏损的原因董秘回答(友阿股份SZ002277):尊敬的投...
岳阳市第十五中学:走进政协,青... 岳阳日报3月13日讯(通讯员 陈雅奇)3月12日下午,岳阳市第十五中学组织青年学生走进政协开展参观学...