约1000行代码搭起网页AI智能体:微软Webwright登场
创始人
2026-05-26 13:06:02

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

(来源:IT之家)

IT之家 5 月 26 日消息,微软研究院本月发布开源网页智能体框架 Webwright,让 AI 模型在终端里编写 Playwright(浏览器自动化库)代码、执行 bash 命令、查看日志并反复修正。

IT之家援引博文介绍,常见网页智能体采用“截图或 DOM 状态 → 预测下一次点击、输入或滚动”模式,而微软 Webwright 让模型直接在终端中写 Playwright 代码、执行 shell 命令、检查日志、截图和报错,再持续修改脚本。

在架构方面,该框架采用 Runner、Model Endpoint 和终端环境 3 个核心组件。公开信息显示,Runner 约 150 行代码,模型接口约 550 行,环境部分约 300 行,总计约 1000 行,没有多智能体编排,也没有复杂分层规划。

在执行流程上,Runner 把当前上下文发给模型,模型返回思考内容与一条 shell 命令,环境执行后再返回终端输出、日志、截图或错误栈,随后进入下一轮。

相较一次只预测一个低级动作,代码方式更适合表达多步网页任务,例如完整填写表单、选择日期、跨页面重复操作,也更容易借助循环、函数和抽象复用能力。

团队重点解决了 2 个工程问题。首先是“过早宣告完成”,模型可能在任务没真正结束后就声称成功。

为此,Webwright 加入一个门控步骤:模型必须先生成自检配置,再在全新文件夹里运行最终脚本,结合日志和截图通过自我反思判断成功或失败,之后才能输出完成标记。

其次是上下文膨胀,长轨迹编码容易超出上下文限制,因此系统每 20 步会把历史压缩成一份摘要。

基准测试方面,Webwright 在 Online-Mind2Web 和 Odysseys 上都给出较强表现。前者包含 300 个任务、覆盖 136 个常用网站,基于 GPT-5.4 的 Webwright 整体准确率达到 86.67%,在 100 步预算下位列公开 harness 配方前列。

Odysseys 关注跨多网站的长链路浏览任务,任务指令平均 272.3 个词。2026 年 4 月榜单最佳模型 Opus 4.6 得分为 44.5%,而 Webwright+GPT-5.4 达到 60.1%,相对此前最佳结果提升 35.1%,比基础 GPT-5.4 的 33.5% 高出 26.6 个百分点,提升 81.49%。

参考

相关内容

热门资讯

银球传热爱 公益暖职工 5月下旬,在中华全国体育基金会、香港赛马会公益助力下,中国职工乒乓球指导员培训班与“劳动者杯”中国职...
办公双面打印不用手动翻!零基础... 日常办公中,双面打印是高频操作,很多人至今还在靠手动翻页完成打印。这种传统方式虽然能实现双面打印效果...
河北两地市委书记履新 卢健同志任承德市委书记河北日报客户端讯 日前,省委决定:卢健同志任承德市委委员、常委、书记,柴宝良同...
399元起,徕芬手持折叠小风扇...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! (来源:IT之家)I...
一罚一证结果不同?周六福银镯两... 近日,深圳市市场监督管理局公布的一则行政处罚决定书显示,周六福珠宝股份有限公司(以下简称周六福)因生...