(来源:机器之心)
机器之心发布
机器之心编辑部
2025 年,AIGC 热度再冲新高:从社交头像、电商海报到影视分镜,AI 生成内容已全面渗透日常创作。在这股浪潮中,Nano Banana、Qwen Edit 等通用图像编辑大模型功能强大,涵盖了广泛的图像编辑场景。特别是最新爆火的 Nano Banana Pro 能将文字指令转化为高精度图像,精准呈现复杂场景。但是上述图像编辑大模型在一些细分领域的表现仍有不足,并且用于简单任务性价比不高。
上海交通大学牛力团队自 2018 年底起便投身于图像合成(image composition)领域的研究。图像合成或者物体插入(object insertion),在 AIGC 社区中也被称为融图,是图像编辑领域的常用操作。基础用法是将一个前景物体插入到一张背景图片中,得到一张合成图。然而,通过简单的剪切粘贴得到的合成图往往存在很多问题,例如边缘出现锯齿状伪影、光照不和谐、缺失阴影和反光、透视角度不合理等。图像合成领域的研究工作致力于解决上述问题,将不同图片的元素有机融合,实现逼真的合成效果。
从 2018 年到 2025 年,牛力团队在图像合成领域积累了丰富的资源和成果。团队构建了 10 + 数据集,开发了 30 + 原创模型,并发表了 25 + 高质量学术论文。2023 年底,团队推出了 Libcom 工具箱(github.com/bcmi/libcom),无需进行训练微调,能够对任意图片实现开箱即用的图像合成功能。2025 年,团队将 Libcom 全面升级,并围绕 Libcom 的功能开发了便于用户使用的 Libcom 图像合成工作台。和通用图像编辑大模型不同,Libcom 工作台专注于图像合成领域,包括生成、检测、评估共计 12 项功能。
工作台界面如下,用户简单注册后即可登录。工作台配有详细的功能介绍和说明文档。
Libcom 工作台访问链接:http://libcom.ustcnewly.com/
进入工作台后可以看到 12 项功能,大致分成 6 组:
基础合成:alpha 混合、泊松融合
图像和谐化:颜色迁移、图像和谐化、艺术图像和谐化
背景效果生成:阴影生成、倒影生成
分析工具:不和谐区域检测、物体放置合理性热力图
打分工具:和谐度分数、物体放置合理性分数
高级合成:集成了 FLUX-Kontext 和 InsertAnything 两个模型
接下来我们以 Labubu 为前景主人公,探索一下 Libcom 工作台的功能,并和 Nano Banana Pro 过过招吧。
Labubu 首次出场,惬意地躺在水里。Libcom 将 Labubu 无缝融入水中。Banana Pro 表现很不稳定,通过调节提示词得到的最接近结果如下。
Labubu 来到森林公园,发现自己和背景的光照不太和谐。先用 Libcom 检测不和谐的区域,Libcom 认为 Labubu 和背景不和谐。然后让 Banana Pro 检测一下,Banana Pro 也是这么认为的。和 Banana Pro 的结果相比,Libcom 结果少了两条胳膊,可能是因为两条胳膊和路面颜色比较接近。
再让 Libcom 输出和谐度评分,进行 double check! Libcom 打分 0.391,分数很低,Harmony level poor。然后让 Banana Pro 给和谐度打个分,0.24 分,英雄所见略同!
既然不和谐,就用图像和谐化调整 Labubu 的光照,让它与背景和谐。Libcom 结果中,前景和背景看起来更加和谐了。Banana Pro 的结果背景色调有些变化,前景好像和谐化过头了。
Labubu 来到艺术世界,感觉和周围更不和谐了。干脆疯狂一点,来个疯狂涂鸦!调整 Labubu 的艺术风格,让 Labubu 也变成画作的一部分。下面是 Libcom 的结果和 Banana Pro 的结果,孰优孰劣,见仁见智吧。似乎 Libcom 更疯狂一点,Banana Pro 更保守一点。
Labubu 来到草原上,看着骏马奔驰,在草地上留下了长长的影子。Banana Pro 生成的影子复刻了前景物体的形状,但方向好像不对?
Labubu 来到小河边,想和小鹿们一起喝水,低头一看,水中倒映着自己的盛世美颜。Banana Pro 生成的倒影似乎太大太清晰了。