分割/识别/解说一个模型搞定!3B参数刷新视觉理解SOTA
创始人
2025-06-14 20:26:28
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

可以输出语义的「分割一切模型2.0」来了!

一次交互,「分割+识别+解释+描述」全搞定,同时支持图像、视频和长视频,文本&Mask同时输出!

由港中文MMLab、港理工、北京大学等机构开源的PAM(Perceive Anything Model)模型,能够在保留SAM2分割一切、追踪一切能力的基础上,同时输出丰富的语义信息。

为了训练这样一个强大的模型,PAM团队还构建了一个超大规模高质量训练数据集:拥有150万个图像区域+60万个视频区域标注

实验结果表明,PAM仅使用3B参数,就在多个图像和视频理解基准上全面刷新或逼近SOTA,且具备更优的推理效率和显存占用,真正实现性能与轻量的统一。

所有数据均已完全开源

SAM2拥有强大的分割能力,可以“分割一切物体”,在视频中能够高效追踪任意目标,表现惊艳!

但它也有一个明显的局限:无法提供定位目标的任何语义信息(比如物体是什么、有何功能、处于什么状态等)。

一些最新的Video LLM模型尝试结合VLM和SAM2的强大视觉提示能力,进行视频理解。然而:

而PAM(Perceive Anything Model)既保留了SAM2在图像和视频中分割、追踪一切物体的能力,同时可以输出丰富的语义信息:

在图像任务中,PAM支持一次点击即可输出选中区域的:

在视频任务中,PAM同样支持区域理解:

只需要用户的一次点击,PAM就可以并行输出mask和文本,在许多应用场景下都具有潜力!

对于图片,用户通过或者拖拽矩形框选中一个物体,PAM可以完成分割的同时,输出该物体的类别+解释+描述的详细语义信息!

对于较短视频,用户选中特定物体后,PAM可以追踪并分割该物体,同时输出该物体的事件描述

而对于长视频,PAM在追踪分割用户选中物体的同时,会根据事件的变化,动态地输出流式描述,类似实时字幕

PAM引入了Semantic Perceiver来连接SAM2分割骨架和LLM,高效地将视觉特征“翻译”成多模态token

通过SAM2分割骨架+Semantic Perceiver+LLM并行解码,在保证轻量高效的前提下,实现了分割mask和语义信息并行输出的图像/视频区域级理解。

基于此方法,PAM只使用了1.5B/3B参数的LLM head,就可以输出非常丰富和鲁棒的语义信息。

为支撑PAM的训练,构建了一个大规模、多层次、高密度的图像与视频语义标注数据集,覆盖分类、解释、描述、时序事件等多个维度:

图像数据:精细三连注释

使用SoM(Set of Masks)方法精准定位目标区域**,结合强大的闭源VLM(如GPT-4o)生成三类语义信息:

每个物体不仅知道“是什么”,还能解释“为什么”和“什么作用”。

视频数据:Storyboard驱动式理解

流式视频数据:连贯事件字幕的首创实践

实验分析:规模更小、性能更好

可以看到,PAM-3B在PACO基准测试中达到最佳性能,超过先前最佳模型3.2%以上,并在LVIS基准测试中,就语义IoU而言,超越了当前SOTA模型DAM-8B。

此外,PAM-3B在Total-Text上超过VP-SPHINX-13B超过3.5%,并在COCO-Text上达到相当的性能。

在ImageCaption、VideoCaption、视频时序事件理解等多个benchmark上,PAM都以更小的参数规模(3Bvs8B、13B)刷新或并列SOTA

如图所示,和相同参数量的DAM-3B模型相比,PAM-3B推理更快,显存更省

此外,PAM首创了区域级的流式视频字幕能力,不仅能持续描述一个物体的行为,还能在连续事件中保持高度语义一致性,展现了强大的实际应用潜力。

论文地址:https://arxiv.org/abs/2506.05302

项目主页:https://perceive-anything.github.io/

GitHub Repo:https://github.com/Perceive-Anything/PAM

Model CKPT:https://huggingface.co/Perceive-Anything/PAM-3B

Dataset:https://huggingface.co/datasets/Perceive-Anything/PAM-data

相关内容

热门资讯

父爱如山 温暖相伴 转自:学习强国
普京与特朗普再次通话 俄方准备... 转自:中安在线当地时间6月14日,俄罗斯总统助理乌沙科夫表示,当天俄罗斯总统普京与美国总统特朗普进行...
广西陆川出现山体滑坡3人被埋 ... 受今年第1号台风“蝴蝶”云系影响,6月14日夜间至15日,广西玉林出现大范围暴雨到大暴雨。受暴雨影响...
Labubu娃衣卖爆 【#Labubu娃衣卖爆#】#2023年全球娃衣市场规模约18亿美元#作为今年夏天当之无愧的“顶流”...
气候物理学者、北大副教授闻新宇...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 澎湃新闻记者从相关方...
当大模型接入玩具 AI硬件与情... 《科创板日报》6月15日讯 当大模型巨头们接连布局AI玩具,越来越多的玩具学会“察言观色”,甚至“开...
我喜欢的女孩(她也喜欢我)要放... 我喜欢的女孩(她也喜欢我)要放弃我怎么办爱要双方认可才会有结果,她既然让你放弃,就说明她没有接受你对...
中东危情48小时:伊以持续互袭... 转自:央视新闻客户端以色列13日凌晨开始对伊朗进行打击,伊朗则在13日夜间发起报复行动,使用无人机及...
回忆过去看的动物世界 虎是百兽... 回忆过去看的动物世界 虎是百兽之王 当然有人说是狮子 还有豹 这些都其实,狮,虎在兽类中都不是最强大...
伊朗总统:若以继续侵略伊朗将更... 转自:北京时间 #伊朗警告美英法3国不要支持以#【伊朗总...
穿越时光与你相遇,走进内蒙古的...   呼麦  马头琴  长调民歌  ……  这些来自内蒙古的  非遗项目犹如颗颗璀璨明珠  诉说着这片...
电脑开机时出现黑屏,屏幕左下角... 电脑开机时出现黑屏,屏幕左下角还有个小笑脸,是不是中毒了?这又是什么病毒啊?windows清理助手 ...
熬夜刷手机会对情绪造成长久的负... 跟踪前沿进展,掌握最新动态一手掌握一周重大科技新闻撰文 | 姚湧  小学森  庐州月责编 | 既来知...
海法遭大批导弹袭击,美俄总统紧... 以色列北部多地遭伊朗导弹袭击 德黑兰两处储油设施遭袭以色列北部海法等地14日深夜遭伊朗导弹袭击。据以...
伊朗导弹密集打击以色列,高超声... 澎湃新闻特约撰稿 唐军6月14日凌晨,伊朗革命卫队对以色列实施代号为“真实承诺-3”的军事行动,报复...
顿感是什么意思 顿感是什么意思突然感到(顿时感到)的意思,可见于梧州岑溪日常语中(属白话)钝感,心理学名词,与“敏感...
让文物焕发新活力绽放新光彩——...   6月14日,市民在贵州省都匀市西山大桥非遗集市观看民族服饰走秀。肖 伟摄(人民视觉)  6月14...
喝果汁的好处和坏处 喝果汁的好处和坏处急需好处是能补充一定的维生素c 口感好些坏处是你还喝下去很多果汁里添加的多种添...
口袋妖怪漆黑的魅影里怎么把精灵... 口袋妖怪漆黑的魅影里怎么把精灵携带出来只是开bug的作弊码,没什么了不起~
文山州口岸经济跑出加速度 上... 天保口岸国际货场一角。 通讯员 杨红武 摄  云南网讯(记者 张文峰)记者从文山壮族苗族自治州商务局...