◎记者 罗茂林
5月13日,字节跳动旗下火山引擎开启上海站的大模型巡展活动,一批新的大模型产品亮相。与此前大幅跃迁的产品更迭不同,小而专、聚焦实用,甚至是推出大模型工具,成为此次发布会产品的特点。
实用至上,火山引擎这场发布会可视为如今行业巨头布局的一个缩影。“字节在大模型产品迭代上的思路越来越清晰,要能有可靠的商业场景,能被客户用起来,这很重要。”一位接近字节跳动的相关人士告诉记者,相比执着于“一鸣惊人”的大招,今年以来,“小步快跑”“多线程并进”成为字节发展的思路。
更小更便宜 实用至上
依靠短视频崛起的字节跳动在视频生成模型上有了新动作。5月13日,在上海站的发布会上,火山引擎发布了豆包视频生成模型Seedance 1.0 lite,支持文生视频、图生视频,视频生成时长支持5s、10s,分辨率提供480P、720P。
“这是一款参数规模很小的模型,但同时依然能够实现影视级的质量,且视频生成速度大幅提升。”火山引擎相关负责人介绍道,这款产品可谓兼顾效果、速度、性价比。
“这次大模型优化的一个重要思路就是要在指令遵循方面进一步提升精度。”一位相关技术人士告诉记者,通过优化语义理解能力,在生成视频上可以更加精确控制人物表情、衣着服装。包括一些文本中对于程度副词的理解与响应,都做了不小的提升。
这样的调整在持续优化模型推理成本的背景下,显然有着更为明确的市场意图。火山引擎希望这款大模型能够在电商广告、娱乐特效、影视创作、动态壁纸等场景中发挥更大的作用。在现场,不少电商客户表示,如今不少的营销广告素材都可以通过相关大模型制作,从而降低制作成本与周期。
火山引擎发布的另一款大模型——豆包1.5·视觉深度思考模型也遵循了“实用至上”的思路。
数据显示,豆包1.5·视觉深度思考模型(Doubao-1.5-thinking-vision-pro),激活参数仅20B,但具备强大的多模态理解和推理能力,在60个公开评测基准中,有38个取得业内最佳表现,在视频理解、视觉推理、GUI Agent能力等方面均处于第一梯队。
值得一提的是,该模型新增GUI Agent能力。基于强大的GUI定位性能,可在PC端、手机端等不同环境中完成复杂交互任务。例如,可对新开发的App功能进行自动化检测。
布局AI生态
企业,无疑是这场大模型商战中各方争夺的焦点。火山引擎披露了如今的AI生态图景:已在汽车、智能终端、互联网、金融、教育科研、零售消费等行业广泛落地,覆盖4亿终端设备、八成主流车企、70%系统重要性银行和数十家证券基金公司、近七成C9顶级高校和100多家科研院所。
同时,火山引擎进一步介绍了Data Agent——这是一款面向企业的数据全场景智能体。从介绍来看,这款智能体具备主动思考、洞察、分析、行动能力,可以帮助企业挖掘数据资产价值,功能覆盖数据分析、智能营销等关键领域。
“火山引擎相关业务自成立之初就坚持内外统一,这样既能保障对内服务,又能做好对外支持。”火山引擎总裁谭待说,这样的原则在这场AI Agent的布局中依然适用,“通过技术和资源复用,我们能为内外客户提供性价比更高的服务”。
为帮助开发者更便捷地利用AI提升开发效率,字节旗下国内首款AI原生IDE产品Trae也宣布升级。值得注意的是,此次更新后这一工具可以通过MCP让AI主动调用外部工具等。
MCP即基于模型上下文协议,由国外大模型公司Anthropic开发,并于2024年11月正式发布。这一工具被谭待称为类似HTML和HTTP的协议,因此被业内称为AI领域的“万能插座”。
这是字节跳动方面又一次对外释放布局MCP协议的重要信号。谭待此前表示,统一协议有助于降低开发成本、加速行业发展。火山引擎将专注于企业端的垂类智能体开发,并为AI开发者提供便利工具。
“我们内部使用Data Agent进行数据分析,Trae也在内部应用,火山引擎要成为AI原生、AI实践的典范,这样才能助力客户和开发者实现AI转型。”在之前的采访中,谭待如是表示。