【论文翻译】Integral Human Pose Regression(2018)
创始人
2024-06-02 07:08:53
0

摘要

最先进的人体姿态估计方法基于热图表示。尽管具有良好的性能,但该表示在本质上存在一些问题,例如不可微后处理和量化误差。这项工作表明,简单的积分运算关联并统一了热图表示和联合回归,从而避免了上述问题。它是可微的、有效的,并且与任何基于热图的方法兼容。其有效性首次通过在各种环境下的综合消融实验得到令人信服的验证,特别是在3D姿态估计方面。

1.介绍

人体姿态估计已被广泛研究[24,3,28]。近年来,利用深度卷积神经网络(CNN)在这一问题上取得了重大进展。2D姿态估计的最佳方法都是基于检测的[2]。它们为每个关节生成一个可能性热图,并将关节定位为图中具有最大可能性的点。热图也被扩展用于3D姿态估计,并显示出前景[37]。

        尽管热图表示具有良好的性能,但其本质上存在一些缺点。“最大化”操作是不可微分的,并阻止了培训的端到端。由于深度神经网络中的下采样步骤,热图的分辨率低于输入图像的分辨率。这导致不可避免的量化误差。使用分辨率更高的图像和热图有助于提高精度,但需要计算和存储,尤其是对于3D热图。

        从另一个角度来看,姿态估计本质上是一个回归问题。回归方法执行端到端学习并产生连续输出。它避免了上述问题。然而,对于2D人体姿态估计,回归方法不如基于检测的方法有效。在2D姿势基准[2]中表现最好的方法中,只有一种方法[7]是基于回归的。一个可能的原因是回归学习比热图学习更困难,因为热图学习由密集的像素信息监督。尽管回归方法被广泛用于3D姿态估计[42,55,56,33,32,30,35,43,21,14],但其性能仍不令人满意。

        现有工作要么基于检测,要么基于回归。这两个类别之间存在明显的差异,研究它们之间的关系的工作很少。这项工作表明,一个简单的操作将关联并统一热图表示和联合回归。它将“取最大值”操作修改为“取期望值”。关节估计为热图中所有位置的积分,并根据其概率(从似然度归一化)进行加权。我们称这种方法为积分回归。它共享热图表示和回归方法的优点,同时避免了它们的缺点。积分函数是可微的,允许端到端训练。它很简单,计算和存储开销很小。此外,它可以很容易地与任何基于热图的方法相结合。

        积分运算本身并不新鲜。它被称为soft-argmax,并在之前的工作中使用[27,52,45]。具体而言,两个当代作品[29,34]也将其应用于人体姿态估计。然而,这些工作的消融实验有限。积分回归的有效性没有得到充分评估。具体来说,他们只在MPII 2D基准上进行实验,在该基准上性能接近饱和。目前尚不清楚该方法在其他设置下是否有效,例如3D姿态估计。更多讨论请参见第3节。

        因为积分回归是无参数的,并且只将姿势表示从热图转换为关节,所以它不会影响其他算法设计选择,并且可以与其中的任何一个组合,包括不同的任务、热图和关节损失、网络架构、图像和热图分辨率。摘要见图1。我们进行了全面的实验,以研究在所有这些设置下积分回归的性能,并找到一致的改进。这些结果验证了积分表示的有效性。

        我们的主要贡献是在各种实验设置下应用积分回归并验证其有效性。具体而言,我们首先表明,积分回归显著改善了3D姿态估计,实现了3D和2D数据的混合使用,并在Human3.6M上实现了最先进的结果[24]。我们在2D姿势基准(MPII[3]和COCO[28])上的结果也具有竞争力。代码也将发布,以促进未来的工作。

2 Integral Pose Regression

给定第k个关节的已知热图H^k,图中的每个位置表示关节所在位置的概率。最终关节位置坐标J_k通过位置p获得,最大似然为

        这种方法有两个主要缺点。首先,等式(1)是不可微的,将其本身简化为后处理步骤,但不是学习的组成部分。训练不是端到端的。监督只能强加给学习的热图。

        第二,热图表示导致量化误差。由于深度神经网络中的下采样步骤,热图分辨率远低于输入图像分辨率。因此,联合定位精度受到量化因子的限制,这对精确的联合定位提出了挑战。使用更大的热图可以缓解这个问题,但代价是额外的存储和计算。

        与基于热图的方法相比,回归方法有两个明显的优势。首先,学习是端到端的,由联合预测的目标驱动,弥补了学习和推理之间的共同差距。第二,输出是连续的,原则上达到任意定位精度。这与热图中的量化问题相反。

        我们提出了一种统一的方法,将热图转换为联合位置坐标,并从根本上缩小了热图和基于回归的方法之间的差距。它带来原则和实际的好处。

        我们的方法简单地修改了等式(1)中的最大运算,以将期望值作为

(2)

 

        这里,\widetilde{H_k}是归一化热图并且Ω 是其域。估计的关节是域中所有位置p的积分,通过其概率加权。归一化是使\widetilde{H_k}(p)的所有元素都为非负,并求和为1。[34]已经讨论过,我们在本文中使用softmax作为

(3)

方程(2)的离散形式为

 

        默认情况下,热图为3D。其深度、高度和宽度的分辨率分别表示为D、H和W。对于2D热图,D=1。

        以这种方式,通过将等式(4)中的积分函数附加到热图Hk并采用Jk的回归损失,可以增强任何基于热图的方法用于联合估计。我们称这种方法为积分姿态回归。

        积分姿态回归具有基于热图和回归方法的所有优点。等式(4)中的积分函数是可微的,允许端到端训练。它简单、快速且非参数化。它可以很容易地与任何基于热图的方法相结合,同时为训练或推理增加了可忽略的计算和内存开销。它的底层热图表示使得训练变得容易。它具有连续输出,并且不存在量化问题。

 2.1 Joint 3D and 2D training

         缺乏多样的训练数据是3D人体姿态估计的一个严重问题。已经做出了一些努力来将3D和2D训练相结合[55,31,43,51,41]。由于积分回归为2D和3D姿态估计提供了统一的设置,因此它是促进3D和2D联合训练以解决3D人体姿态估计中的数据问题的简单和通用的解决方案。

        最近,Sun等人[42]介绍了一种简单而有效的方法,将2D和3D数据混合用于3D人体姿态估计,并显示出巨大的改进。关键是将联合预测Jk的2D部分(xy)与深度部分(z)分离,使得xy部分可以由丰富的2D数据来监督。

        由于等式(4)中积分运算的可微性,积分回归自然可以采用这种混合训练技术。在我们的实验中,我们也从这一技术中获得了巨大的改进,由于积分公式,这种改进是可行的。

        然而,丰富的2D数据仍然无法监控潜在的3D热图。为了解决这个问题,我们进一步将积分函数方程(4)分解为两步版本,以生成单独的x、y、z热图目标。例如,对于x目标,我们首先将3D热图积分到1D x热向量方程(5)中

 

然后,将1D x热向量进一步积分到x关节坐标方程中

 

 相应的y和z公式应易于推断。通过这种方式,x、y、z目标在第一步被分离,从而允许2D和3D混合数据训练策略。我们从三维姿态估计的直接和两步积分回归中获得了显著的改进。

3 Methodology for Comprehensive Experiment

这项工作的主要贡献是为消融实验提供了一种综合方法,以评估各种条件下积分回归的性能。图1说明了框架的概述和每个阶段的决策选择。

        相关工作[29,34]仅在MPII基准[2]上进行了2D姿态估计实验。他们也有有限的消融实验。具体而言,[29]仅提供了系统级比较结果,而没有任何消融实验。[34]研究了热图归一化方法、热图正则化和骨干网络,这远不如我们的全面。

任务。我们的方法是通用的,可用于2D和3D姿态估计任务,无法区分。这两项任务都得到了一致的改进。特别地,2D和3D数据可以在训练中容易地同时混合。3D任务从这项技术中受益匪浅,并在很大程度上优于之前的作品。

热图损失。在文献中,热图的损失函数有几种选择。最广泛采用的是预测热图和地面真实热图之间的均方误差(或L2距离),其中2D高斯斑点以地面真实联合位置为中心[48,49,6,33,10,12,13,5]。在这项工作中,高斯斑点的标准偏差σ=1,如[33]所示。我们的损失基线表示为H1(热图为H)。

        最近的mask RCNN工作[19]使用了一个one-hot 的 m×m的GT掩码,其中只有一个位置被标记为关节。它使用m^2方式 softmax 输出上的交叉熵损失。我们的损失基线表示为H2。

        另一工作[38,22,36]解决了每像素二进制分类问题,因此使用了二进制交叉熵损失。每个热图中的每个位置都被分类为关节或非关节。在[38,22]之后,通过将15个像素内的每个位置处的正标签1分配给地面真实关节,构建每个关节的地面真实热图,否则为负标签0。本实施的基线表示为H3。

        在实验中,我们表明我们的方法可以很好地处理这些热图损失。尽管这些手动设计的热图损失在不同任务上可能具有不同的性能,并且需要单独进行仔细的网络超参数调整,但它们的整体版本(I1、I2、I3)将得到显著改善并产生一致的结果。

热图和关节损失组合。对于关节坐标损失,我们将预测关节和地面真实关节之间的L1和L2距离作为损失函数进行了实验。我们发现L1loss始终比L2loss更好。因此,我们在所有实验中采用L1loss。

        注意,我们的积分回归可以在有或没有中间热图损失的情况下进行训练。对于后一种情况,定义了积分回归方法的变体,表示为I*。网络是相同的,但热量图上的损失没有被使用。训练监督信号只在关节上,而不是热图上。在实验中,我们发现无论有没有热图监督,积分回归都能很好地工作。最佳性能取决于具体任务。例如,对于2D任务I1获得最佳性能,而对于3D任务I*获得最佳性能。

图像和热图分辨率。由于热图的量化误差,通常需要高图像和热图分辨率以获得高定位精度。然而,它对内存和计算要求很高,尤其是对于3D热图。在实验中,我们表明我们的方法对图像和热图分辨率的变化更为鲁棒。这使得在实际场景中,当计算能力受到限制时,它是一个更好的选择。

 

实验等就不写了感兴趣自己去看或者后面再补上

相关内容

热门资讯

北汽福田2024年报解读:净利... 北汽福田汽车股份有限公司(以下简称“北汽福田”或“公司”)近日发布2024年年度报告,各项财务数据变...
原地掉头、蟹行模式、双30英寸... 在刚刚开幕的上海车展上,领克旗下全新大型SUV首发亮相,新车将于晚些的4月28日正式上市。该车基于S...
三千年前,“重要的事情说七遍”... 转自:新华每日电讯“重要的事情说七遍”!四字铭文“实证”北京三千年建城史人们常说“重要的事情说三遍”...
240小时“遇见”广交会,广州... 中国青年报客户端讯(中青报·中青网记者 林洁)4月23至27日,第137届中国进出口商品交易会(以下...
特朗普回应泽连斯基:选择和平,... 此前,泽连斯基称,乌克兰不会在法律上承认(俄方)对克里米亚的占领,表示“在这个问题上没什么好谈”。泽...
迟来的忍者与武士:从《刺客信条... 2025年3月,以古代日本为背景的《刺客信条》系列终于推出正统续作《刺客信条:影》(以下简称《影》)...
通州运河上演时空穿越大戏 【#通州运河上演时空穿越大戏#】#运河上的通州#“通漕天下,开运大吉”,2025大运河文化推广活动于...
同济科技:六大板块业务协同发力... 上证报中国网讯(记者高志刚)4月26日,发布了2024年年报。数据显示,公司全年实现营业收入41.7...
硬派“方盒子”!AI智能四驱、... 日前,我们从上海车展展台获悉,吉利银河战舰将于2026年上市。新车在刚刚开幕的上海车展上正式发布,定...
突然就火了!不少人都买过!看似... 从几百到近万元不等,号称能护眼防近视的“大路灯”值得买吗?近期,“落地护眼灯”受到家长群体的追捧,因...
快评 | 工程院8个名额有深意... 昨天,2025年两院院士增选工作启动。中国工程院明确提出将8个名额主要用于支持民营科技领军企业候选人...
瑞斯康达2024年报解读:经营... 瑞斯康达科技发展股份有限公司于近日发布2024年年度报告,报告期内,公司面临诸多挑战,多项关键财务指...
厦门金龙汽车2025年一季度财... 厦门金龙汽车集团股份有限公司于近日发布2025年第一季度财报,各项财务数据变动引发关注。本文将对关键...
建行深圳分行又一副行长被查! 自2022年以来,建行深圳分行被查的高管干部就有九人,这一切还是由前行长王业开始。作者丨财媒汇· ·...
多地传来好消息!生育津贴直接发... 转自:国家医保局医保部门持续推进生育津贴发放至个人,今年3月份以来,在此前7个省(市)全部实现生育津...
“最好牧场为航天” 67年后她... 转自:草原云2025年4月24日17时17分,内蒙古阿拉善盟额济纳旗的东风航天城,长征二号F遥二十运...
娄底市委书记调整 转自:北京日报客户端据《湖南日报》消息,4月26日,娄底市召开全市领导干部会议,宣布省委有关人事安排...
美国上演罕见一幕:FBI冲进法... 根据美国司法部和联邦调查局通报,当地时间周五联邦特工在密尔沃基县巡回法院逮捕了一名法官,因她涉嫌帮助...
三亚一景区发生游客溺亡事件,官... “古韵崖州”微信公号4月25日,三亚市崖州区旅游工作领导小组办公室发布关于三亚市崖州区某景区游客溺亡...
网警提醒:“银狐”木马病毒再度... 转自:公安部网安局素材 | 天津网警