SVFormer:走进半监督动作识别的视觉 Transformer
创始人
2024-05-26 02:23:24
0

出品人:Towhee 技术团队 顾梦佳

半监督学习(SSL)的动作识别是一个关键的视频理解任务,然而视频标注的高成本加大了该任务的难度。目前相关的方法主要研究了卷积神经网络,较少对于视觉 Transformers(ViT)模型的探索。SVFormer 研究了如何将半监督 ViT 用于动作识别。它采用稳定的伪标签框架(即 EMA-Teacher)处理未标记的视频样本。它还针对视频数据提出了一种新颖的增强策略,Tube TokenMix,其中视频剪辑通过掩码混合,在时间轴上具有一致的掩码 token。另外,SVFormer 还利用一种时间扭曲增强来覆盖视频中复杂的时间变化,将所选帧拉伸到各种片段的持续时间段。通过在三个公开的视频数据集 Kinetics-400、UCF101 和 HMDB-51 上进行的大量实验,SVFormer 验证了其优势。

 

Tube TokenMix Training in SVFormer

SVFormer 是一种基于 Transformer 的半监督动作识别方法。它采用一致性损失,构建两个不同的增强视图并要求它们之间的一致预测。最重要的是,该方法提出使用 Tube TokenMix(TTMix),一种天然适用于视频 Transformer 的增强方法。与 Mixup 和 CutMix 不同,Tube TokenMix 在掩码token后就结合了 token 级别的特征,使得掩码在时间轴上具有一致的掩码 token。这样的设计可以更好地模拟 token 之间的时序相关性。为了帮助模型学习时序动态,SVFormer 进一步引入时序扭曲增强(TWAug),可以任意改变时间片段中每一帧的长度。

相关资料:

  • 代码地址:https://github.com/ChenHsing/SVFormer

  • 论文链接:

相关内容

热门资讯

中证A500ETF摩根(560... 8月22日,截止午间收盘,中证A500ETF摩根(560530)涨1.19%,报1.106元,成交额...
A500ETF易方达(1593... 8月22日,截止午间收盘,A500ETF易方达(159361)涨1.28%,报1.104元,成交额1...
何小鹏斥资约2.5亿港元增持小... 每经记者|孙磊    每经编辑|裴健如 8月21日晚间,小鹏汽车发布公告称,公司联...
中证500ETF基金(1593... 8月22日,截止午间收盘,中证500ETF基金(159337)涨0.94%,报1.509元,成交额2...
中证A500ETF华安(159... 8月22日,截止午间收盘,中证A500ETF华安(159359)涨1.15%,报1.139元,成交额...
科创AIETF(588790)... 8月22日,截止午间收盘,科创AIETF(588790)涨4.83%,报0.760元,成交额6.98...
创业板50ETF嘉实(1593... 8月22日,截止午间收盘,创业板50ETF嘉实(159373)涨2.61%,报1.296元,成交额1...
港股异动丨航空股大幅走低 中国... 港股航空股大幅下跌,其中,中国国航跌近7%表现最弱,中国东方航空跌近5%,中国南方航空跌超3%,美兰...
电网设备ETF(159326)... 8月22日,截止午间收盘,电网设备ETF(159326)跌0.25%,报1.198元,成交额409....
红利ETF国企(530880)... 8月22日,截止午间收盘,红利ETF国企(530880)跌0.67%,报1.034元,成交额29.0...