智源OmniGen2登场,国产多模态图像生成开源!一周狂揽2000星外网爆火
创始人
2025-07-03 13:42:50
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

新智元报道

编辑:Aeneas 桃子

【新智元导读】智源统一图像生成模型OmniGen2发布后,立刻在AI图像生成领域掀起巨响,多模态技术生态进一步打通。才一周,GitHub星标就已经破了2000,X上的话题浏览数直接破数十万。

刚刚,统一图像生成模型OmniGen2携重大升级震撼登场。

2024年9月,智源首次放出OmniGen,凭借高度通用性和简洁架构,深受AI社区广泛好评。

凭借单一模型,它不仅支持文本生图像、图像编辑、主题驱动图像生成等多种任务,彻底颠覆了传统多模态模型的复杂设计。

如今,全新4B版OmniGen2在继承简洁架构的基础上,大幅提升了上下文理解与指令遵循能力,在图像生成质量实现了质的飞跃。

Github:https://github.com/VectorSpaceLab/OmniGen2/

论文:https://arxiv.org/abs/2506.18871

模型:https://huggingface.co/BAAI/OmniGen2

它深度融合基座多模态大模型的强大能力,支持图像与文字的无缝集成,彻底打破了多模态技术生态。

更令人振奋的是,OmniGen2模型权重、训练代码、训练数据全面开源

仅发布一周,其在GitHub星标突破2000,X上相关话题浏览量数十万

OmniGen2将为全球开发者提供无限可能,加速统一图像生成模型从前沿构想迈向广泛应用的现实。

在实际测试中,OmniGen2有多惊艳?

一句话解锁,人人上手可玩

OmniGen2的玩法简单,只需要输入提示词,就能解锁丰富的图像编辑与生成能力。

现在,科研体验版已开放,可抢先尝试图像编辑、上下文参照的图像生成等特色能力。

科研体验版链接:https://genai.baai.ac.cn

「动嘴」编辑图像

OmniGen2可以通过自然语言指令,实现编辑图片的功能,以及局部修改操作。

其中包括,物体增删、颜色调整、人物表情修改、背景替换等等。

它可以给太乙真人上个「挥手」动作,让黄色裙子变成蓝色,甚至,还能为二次元老婆换上教室背景图。

当你说一句,「移除猫」,猫就消失了。

如下,还有更多的demo示例。

注:图片仅为科研使用,如有任何问题请与智源研究院联系

多模态上下文参考

更令人惊艳的是,OmniGen2还可以从输入图像中提取指定元素,并基于此生成新图像。

如下图所示,提供两张参考图,AI可以瞬间将其无缝合成一张,毫无违和感。

再比如,将第一张图中苹果,替换成第二张图片中的猫,OmniGen2瞬间完成。

顺便提一句,当前OmniGen2更擅长保持物体相似度,而不是人脸相似度。

注:图片仅为科研使用,如有任何问题请与智源研究院联系

此外,OmniGen2还能生成任意比例的图片,1:1、2:1、3:2等任意比例均可以。

核心技术拆解,全部开源

可以看到,OmniGen2在AI图像编辑达到了一个全新高度。它能够取得如此惊艳的表现,离不开背后独创核心技术架构。

分离式架构与双编码器策略

OmniGen2采取了分离式架构解耦文本和图像,同时采用了ViT和VAE的双编码器策略。

不同于其他研究,ViT和VAE独立作用于MLLM和Diffusion Transformer中,提高图像一致性的同时保证原有的文字生成能力。

数据生成流程重构

OmniGen2也在探索解决阻碍领域发展的基础数据和评估方面的难题。

相关的开源数据集大多存在固有的质量缺陷,尤其是在图像编辑任务中,图像质量和质量准确度都不高。

而对于图片上下文参考生成任务,社区中缺乏相应的大规模多样化的训练数据。

这些缺陷极大地导致了开源模型和商业模型之间显著的性能差距。

为了解决这个问题,OmniGen2开发了一个从视频数据和图像数据中生成图像编辑和上下文参考数据的构造流程。

图像生成反思机制

受到大型语言模型自我反思能力的启发,OmniGen2还探索了将反思能力整合到多模态生成模型中的策略。

基于OmniGen2的基础模型构建了面对图像生成的反思数据。

反思数据由文本和图像的交错序列组成,首先是一个用户指令,接着是多模态模型生成的图像,然后是针对之前生成输出的逐步反思。

每条反思都涉及两个关键方面:

1)对与原始指令相关的缺陷或未满足要求的分析;

2)为解决前一幅图像的局限性而提出的解决方案。

经过训练的模型具备初步的反思能力,未来目标是进一步使用强化学习进行训练。

OmniGen2在已有基准上取得了颇具竞争力的结果,包括文生图,图像编辑。

然而,对于图片上下文参考生成(in-context generation)任务,目前还缺乏完善的公共基准来系统地评估和比较不同模型的关键能力。

现有的上下文图像生成基准在捕获实际应用场景方面存在不足。

它们不考虑具有多个输入图像的场景,并且受到上下文类型和任务类型的限制。同时,先前的基准使用CLIP-I和DINO指标来评估上下文生成的图像的质量。

这些指标依赖于输入和输出之间的图像级相似性,这使得它们不适用于涉及多个主题的场景,并且缺乏可解释性。

为了解决这一限制,智源引入了OmniContext基准,其中包括8个任务类别,专门用于评估个人、物体和场景的一致性。

数据的构建采用多模态大语言模型初筛和人类专家手工标注相结合的混合方法。

OmniGen2依托智源研究院自研的大模型训练推理并行框架FlagScale,开展推理部署优化工作。

通过深度重构模型推理链路,并融合TeaCache缓存加速策略,实现32%的推理效率提升,大幅缩短响应时间并强化服务效能。同时,框架支持一键式跨机多实例弹性部署,有效提升集群资源整体利用率。

团队将持续推进软硬协同优化,构建高效推理部署能力体系。

OmniGen2的模型权重、训练代码及训练数据将全面开源,为开发者提供优化与扩展的新基础,推动统一图像生成模型从构想加速迈向现实。

相关内容

热门资讯

灿辉·晶萃173美学样板间品鉴... (转自:上海楼市情报)7月2日,徐泾一场美学样板间的媒体品鉴会,揭开了大虹桥高端人居新纪元。在无数期...
2025年第二批IPO现场检查...   来源:投行最前线  7月3日,中国证券业协会公布了2025年第二批IPO现场检查名单,本次共抽查...
时政微观察丨青年大有可为   7月2日,中华全国青年联合会第十四届委员会全体会议、中华全国学生联合会第二十八次代表大会隆重开幕...
人乐退:公司股票将在7月4日被... 上证报中国证券网讯(记者骆民)人乐退公告,公司股票已被深圳证券交易所决定终止上市。公司股票于2025...
天航一客机滑行时发出巨响,乘客... 7月2日,有网友发视频称,从呼和浩特飞往乌海的天津航空 GS7833次航班飞机在滑行时发出一声巨大声...
持牌消金转型深水区:上半年19... 中经记者 郑瑜 北京报道在宏观经济持续推动消费复苏的背景下,消费金融被认为是金融服务与实体消费的关键...
黄河再添新大桥!宁夏中卫黑山峡... 原标题:黄河再添新大桥!宁夏中卫黑山峡黄河大桥主桥顺利合龙来源:人民日报客户端7月3日,随着最后一块...
化解跨国企业数据本地化痛点 辉... 中经记者 谭伦 上海报道随着AI与云技术的演进融合,在全球企业加速数字化转型的浪潮中,数据基础设施建...
润欣科技:截至6月30日公司的... 证券日报网讯润欣科技7月3日在互动平台回答投资者提问时表示,截至6月30日,公司的股东人数是83,4...
美元人民币盘中上涨102点 07月03日消息,美元人民币盘中上涨102点,涨幅0.14%,截止20:48,报7.1724。