就在前天晚上,阿里万相开了个只有十分钟的发布会。
主讲人平淡的语气,让人以为这就是一次普通的视频模型开源。
但看完他们放出来的效果,再加上一手实测,我的看法是,这可能真的是视频开源模型的一个历史性时刻。
众所周知,现在的视频生成模型就跟开盲盒一样,你辛辛苦苦输入一段提示词,结果模型根本听不明白,给你生成的视频总和你的想法有点落差,白白浪费咱的余额。
而VACE这波,最牛的一点就是加入了视频的编辑能力——模型可以按你的需求随意修改视频了。
主体动作不合理?咱可以手绘个草图让它改。花的颜色不对?咱也能重新染色。
意思是,咱以后想要什么颜色的左手右手慢动作,都可以随心所欲定义了。
更神的是,视频画面的主角,咱也能自定义。
比如,可以给它一个小孩一条蛇,让它生成一支“喜气洋洋过蛇年”的视频。
别说,还真挺自然的,可爱得我想养一只。
而且,就连生成好的视频主角,它也能随意替换。。
这家伙,以后明星真不用演戏了,发张自个儿的模型过去替换一下就成了。。
而且,它还能基于人体姿态图,生成特定动作的人物视频。
一段练空手道的男孩的视频,就这么活灵活现的做好了。
这不由得让世超想起一张图啊,被认为是AI代替不了人类的铁证,现在我看人类最后的高地也守不住了。。
X上一些网友们关于这个功能的测试,也是够震撼的。
比如把《Never Gonna Give You Up》的动作套到某动漫角色身上。
还有展示视频扩展功能的,还真毫无违和感,完美的融入了这种艺术风格。
但现在官方还没发布试用入口,本地部署也巨吃配置,想体验满血版的可能还得等两天。值得一提的是,这次VACE开源了两种参数,其中1.3B的可以在消费级显卡上运行,14B的就不用想了,谁来都不好使。
世超找了个14B的量化版浅测了下,来带差友们一起看看效果。注意,不代表满血版效果。
我们找了张大明星哪吒的全身照。
又找了张《街霸》里的人物动作图,叫哪吒模仿该动作。
看看丢进去效果如何?
好像还真没啥毛病啊,如此完美的回旋踢。感觉饺子导演可以闭关研究研究这个了,明年之前手搓哪吒3。
首尾帧生成也做得不赖。我们用黑神话序章里的两张截图做了下测试。
其实还不错,大圣飘在云上的感觉也画出来了。
咱再来看看局部替换功能。宣传片里的人狗共舞,大伙应该都有印象。
诶,这狗长得还挺像公司的爱犬火锅的,所以同事表示他想进去与火锅共舞。这愿望必须满足了啊。
动作确实挺齐的,就是这狗怎么感觉有点蚌埠住了?
不过,这些视频实际上都挺糊。。这是因为VACE目前似乎只支持480p和720p的视频,要做到高清无码还是有点难,而且特别吃显存。。但从效果来说,确实算得上牛。
所以,一个模型这么全能,VACE到底是怎么做到的?
简单来说,他们使用了一个叫 VCU (Video Condition Unit) 的核心模块,这玩意就像一个翻译官,把不同任务的 “指令” 统一成模型能听懂的格式。对模型来说,就是一个【文、图、蒙版】的三元组。
举个例子,如果用户只输入了文字指令,模型发现有文字,但图片和蒙版都没要求,就知道是文生视频指令;要是参考图生成视频,那输入里肯定会有参考图和提示词,模型看见参考图和文字,就理解要让它干图生视频的活儿了。
这样一来,模型不用为每个任务单独学习,而是通过这三个要素的排列组合,灵活处理各种需求。
有了 VCU,这玩意就实现了一个模型顶多个用的效果。
以前,咱需要多个模型分别做不同任务,现在一个就行,而且我们还能精准控制修改内容,通过修改蒙版和参考图,只改想改的部分,其他地方不受影响;甚至只给动作和人物照片,就能生成一段影像。
值得一提,现在拍短剧正热乎呢,这VACE的出现,应该会给个人创作者带来极大的自由空间,拍一段实景,直接让AI给你加特效,不满意就删了重画。人要上天入地,也不用吊威亚了。到时谁还分得清我和成龙?
有了这玩意儿,普通人靠自己手搓电影的日子应该也不远了。
说起来,阿里这些年好像一直是国内AI的领跑者,只不过一直在当AI界的汪峰,一出风头就被抢。
像他们的通义千问,性能持续突破,旗舰模型 Qwen3-235B-A22B 在数学推理、代码生成等评测中超越 OpenAI o1、Gemini 2.5 Pro 等国际顶尖模型,且部署成本仅为同类模型的 3%,仅需 4 张 H20 显卡即可运行满血版。
这次又搞了个视频界的“源神”,不得不说的确有种闷声发大财的味道。
不过这也说明一点,就算风头被抢,人家也是有在老老实实做事的,而且还把自己的东西拿出来分享,只能说伟大,无需多言。
对普通人来说,这也表示机会越来越多了,未来成为创作者的门槛也会越来越低。只要你有想法,搓出属于自己的人生大片,也就顺手的事。
说到这,你是不是对未来有些许期待了呢?
撰文:不咕
编辑:江江 & 面线