可灵AI进入2.0时代,可用“文字+图片+视频”生成视频
创始人
2025-04-15 21:01:25

转自:北京日报客户端

4月15日,可灵AI举行2.0版本模型发布会,发布可灵2.0视频生成模型及可图2.0图像生成模型。据悉,可灵2.0上线了一种可以将文字、图片、视频等不同格式的文件结合起来一起编辑生成视频的新交互模式,此举改变了以往只能用文字生成视频的单一模态编辑方式。

记者了解到,当前视频生成主要分“文生视频”和“图生视频”两种。快手副总裁、可灵AI负责人张迪就披露,85%的视频创作通过“图生视频”完成。一般情况下,AI视频制作者往往通过文字生成图片,再用图片生成视频。而可灵AI此次上线多模态视频编辑功能,使得文字或图片不再成为唯一的AI编辑语言,也可让AI生成的视频更加符合制作者的描述。

根据发布会上的演示,用户能够结合图像、视频片段等多模态信息,将脑海中的多维度复杂想法传达给AI。这也意味着,用户在使用AI生成视频时,提示词中可以夹带图片或视频。业内也将这种全新的交互模式称为MVL(Multi-modal Visual Language,即多模态视觉语言)。

“仅仅用文字描述自己的想象是不够的,人和AI的交互需要新的语言。”快手高级副总裁、社区科学线负责人盖坤说道,例如,用户可以将视频中主人公的面容、服装、背景的参考图片及人物动作的参考视频全部添加到描述中,视频中的人物便可更贴近用户的想象来呈现。此外,这一功能不仅可以灵活理解用户意图,还能支持对视频内容进行局部的增、删、改。

此外,主打“文生图”功能的可图2.0的能力也将迎来升级,其指令遵循能力、电影美学表现力均大幅提升,在多元化的艺术风格方面,可图2.0目前可支持60多种风格化的效果转绘。

据悉,可灵2.0版本发布即上线。即日起,全球用户即可使用可灵AI 2.0模型。“AI在辅助创意表达上拥有巨大潜力,但当前的行业发展现状还远远无法满足用户需求,在AI生成内容的稳定性、用户复杂创意的精确传达上仍有很多挑战。”盖坤表示。

来源:北京日报客户端

相关内容

热门资讯

中共中央办公厅 国务院办公厅印... 转自:中华人民共和国应急管理部近日,中共中央办公厅、国务院办公厅印发了《关于做好2026年元旦春节期...
《互联网药械信息服务备案管理规... (来源:中国食品药品网)  12月22日,国家药监局发布《互联网药品医疗器械信息服务备案管理规定》(...
中色股份:全资子公司1.06亿... 中色股份12月22日公告,全资子公司中色新加坡与Breca Minería S.A.C.(简称“Br...
欧盟回应美任命驻格陵兰特使:丹... 人民财讯12月22日电,当地时间22日,欧盟委员会发言人就美国任命驻格陵兰特使一事表示,维护丹麦的领...
社会救助扩围增效 海南筑牢民生... 中新网海口12月22日电 (张茜翼 黄方舟)社会救助事关困难群众基本生活和衣食冷暖,事关保障基本民生...