SVFormer:走进半监督动作识别的视觉 Transformer
创始人
2024-05-26 02:23:24
0

出品人:Towhee 技术团队 顾梦佳

半监督学习(SSL)的动作识别是一个关键的视频理解任务,然而视频标注的高成本加大了该任务的难度。目前相关的方法主要研究了卷积神经网络,较少对于视觉 Transformers(ViT)模型的探索。SVFormer 研究了如何将半监督 ViT 用于动作识别。它采用稳定的伪标签框架(即 EMA-Teacher)处理未标记的视频样本。它还针对视频数据提出了一种新颖的增强策略,Tube TokenMix,其中视频剪辑通过掩码混合,在时间轴上具有一致的掩码 token。另外,SVFormer 还利用一种时间扭曲增强来覆盖视频中复杂的时间变化,将所选帧拉伸到各种片段的持续时间段。通过在三个公开的视频数据集 Kinetics-400、UCF101 和 HMDB-51 上进行的大量实验,SVFormer 验证了其优势。

 

Tube TokenMix Training in SVFormer

SVFormer 是一种基于 Transformer 的半监督动作识别方法。它采用一致性损失,构建两个不同的增强视图并要求它们之间的一致预测。最重要的是,该方法提出使用 Tube TokenMix(TTMix),一种天然适用于视频 Transformer 的增强方法。与 Mixup 和 CutMix 不同,Tube TokenMix 在掩码token后就结合了 token 级别的特征,使得掩码在时间轴上具有一致的掩码 token。这样的设计可以更好地模拟 token 之间的时序相关性。为了帮助模型学习时序动态,SVFormer 进一步引入时序扭曲增强(TWAug),可以任意改变时间片段中每一帧的长度。

相关资料:

  • 代码地址:https://github.com/ChenHsing/SVFormer

  • 论文链接:

相关内容

热门资讯

甘肃文县强降雨致两条国道交通中... 转自:千龙网7月4日至5日,受持续强降雨影响,甘肃省陇南市文县境内国道212线K593+900天阴桥...
锤炼“空中飞人” 硬实力 转自:衢州日报  近日,衢州市龙游县消防救援大队联合县应急管理局、蓝天救援队、民安救援队、山野救援队...
今夜!史诗级,外卖大战!   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 【导读】7月5日晚间...
科技赋能,让文化产业迸发新活力 转自:衢州日报  张方  近日,第二十一届中国(深圳)国际文化产业博览交易会落下帷幕。这是我国文化产...
品质优才能品牌强 转自:衢州日报  乔金亮  品牌是农业竞争力的体现。从国际看,农业强国无不是农业品牌强国。当前全球农...
均价0.83元/吨!山西3宗储... (转自:砂石骨料网)砂石骨料网消息,近日,山西省自然资源网上交易平台发布3宗超亿吨砂石大矿成交公告。...
爱情像把扇子的原文是 爱情像把扇子的原文是爱就像个疯子  我眼中的爱情像一把扇子一样经历挫折, 像扇子一样长久, 像扇子一...
如果你选择离开我,请记得有个傻... 如果你选择离开我,请记得有个傻瓜曾经爱过你,我把难过留给自己,不做恋人我也心存感激。挽留女朋友行么不...
求魔幻小说的名字 求魔幻小说的名字要求:魔幻,原创郭敬明的《幻城》《七色绯夏:魔法学院录》华胥引、三生三世十里桃花、花...
贝利亚变成邪恶奥特曼的片名叫什... 贝利亚变成邪恶奥特曼的片名叫什么贝利亚变成邪恶奥特曼的片名叫什么雷欧尼克斯宇宙雷欧尼斯、叫大怪兽大战...