【论文翻译】Integral Human Pose Regression（2018）_资讯

【论文翻译】Integral Human Pose Regression（2018）

创始人

2024-06-02 07:08:53

摘要

最先进的人体姿态估计方法基于热图表示。尽管具有良好的性能，但该表示在本质上存在一些问题，例如不可微后处理和量化误差。这项工作表明，简单的积分运算关联并统一了热图表示和联合回归，从而避免了上述问题。它是可微的、有效的，并且与任何基于热图的方法兼容。其有效性首次通过在各种环境下的综合消融实验得到令人信服的验证，特别是在3D姿态估计方面。

1.介绍

人体姿态估计已被广泛研究[24，3，28]。近年来，利用深度卷积神经网络（CNN）在这一问题上取得了重大进展。2D姿态估计的最佳方法都是基于检测的[2]。它们为每个关节生成一个可能性热图，并将关节定位为图中具有最大可能性的点。热图也被扩展用于3D姿态估计，并显示出前景[37]。

尽管热图表示具有良好的性能，但其本质上存在一些缺点。“最大化”操作是不可微分的，并阻止了培训的端到端。由于深度神经网络中的下采样步骤，热图的分辨率低于输入图像的分辨率。这导致不可避免的量化误差。使用分辨率更高的图像和热图有助于提高精度，但需要计算和存储，尤其是对于3D热图。

从另一个角度来看，姿态估计本质上是一个回归问题。回归方法执行端到端学习并产生连续输出。它避免了上述问题。然而，对于2D人体姿态估计，回归方法不如基于检测的方法有效。在2D姿势基准[2]中表现最好的方法中，只有一种方法[7]是基于回归的。一个可能的原因是回归学习比热图学习更困难，因为热图学习由密集的像素信息监督。尽管回归方法被广泛用于3D姿态估计[42，55，56，33，32，30，35，43，21，14]，但其性能仍不令人满意。

现有工作要么基于检测，要么基于回归。这两个类别之间存在明显的差异，研究它们之间的关系的工作很少。这项工作表明，一个简单的操作将关联并统一热图表示和联合回归。它将“取最大值”操作修改为“取期望值”。关节估计为热图中所有位置的积分，并根据其概率（从似然度归一化）进行加权。我们称这种方法为积分回归。它共享热图表示和回归方法的优点，同时避免了它们的缺点。积分函数是可微的，允许端到端训练。它很简单，计算和存储开销很小。此外，它可以很容易地与任何基于热图的方法相结合。

积分运算本身并不新鲜。它被称为soft-argmax，并在之前的工作中使用[27，52，45]。具体而言，两个当代作品[29，34]也将其应用于人体姿态估计。然而，这些工作的消融实验有限。积分回归的有效性没有得到充分评估。具体来说，他们只在MPII 2D基准上进行实验，在该基准上性能接近饱和。目前尚不清楚该方法在其他设置下是否有效，例如3D姿态估计。更多讨论请参见第3节。

因为积分回归是无参数的，并且只将姿势表示从热图转换为关节，所以它不会影响其他算法设计选择，并且可以与其中的任何一个组合，包括不同的任务、热图和关节损失、网络架构、图像和热图分辨率。摘要见图1。我们进行了全面的实验，以研究在所有这些设置下积分回归的性能，并找到一致的改进。这些结果验证了积分表示的有效性。

我们的主要贡献是在各种实验设置下应用积分回归并验证其有效性。具体而言，我们首先表明，积分回归显著改善了3D姿态估计，实现了3D和2D数据的混合使用，并在Human3.6M上实现了最先进的结果[24]。我们在2D姿势基准（MPII[3]和COCO[28]）上的结果也具有竞争力。代码也将发布，以促进未来的工作。

2 Integral Pose Regression

给定第k个关节的已知热图 $H^k$ ，图中的每个位置表示关节所在位置的概率。最终关节位置坐标 $J_k$ 通过位置p获得，最大似然为

这种方法有两个主要缺点。首先，等式（1）是不可微的，将其本身简化为后处理步骤，但不是学习的组成部分。训练不是端到端的。监督只能强加给学习的热图。

第二，热图表示导致量化误差。由于深度神经网络中的下采样步骤，热图分辨率远低于输入图像分辨率。因此，联合定位精度受到量化因子的限制，这对精确的联合定位提出了挑战。使用更大的热图可以缓解这个问题，但代价是额外的存储和计算。

与基于热图的方法相比，回归方法有两个明显的优势。首先，学习是端到端的，由联合预测的目标驱动，弥补了学习和推理之间的共同差距。第二，输出是连续的，原则上达到任意定位精度。这与热图中的量化问题相反。

我们提出了一种统一的方法，将热图转换为联合位置坐标，并从根本上缩小了热图和基于回归的方法之间的差距。它带来原则和实际的好处。

我们的方法简单地修改了等式（1）中的最大运算，以将期望值作为

（2）

这里， $\widetilde{H_k}$ 是归一化热图并且Ω 是其域。估计的关节是域中所有位置p的积分，通过其概率加权。归一化是使 $\widetilde{H_k}(p)$ 的所有元素都为非负，并求和为1。[34]已经讨论过，我们在本文中使用softmax作为

（3）

方程（2）的离散形式为

默认情况下，热图为3D。其深度、高度和宽度的分辨率分别表示为D、H和W。对于2D热图，D=1。

以这种方式，通过将等式（4）中的积分函数附加到热图Hk并采用Jk的回归损失，可以增强任何基于热图的方法用于联合估计。我们称这种方法为积分姿态回归。

积分姿态回归具有基于热图和回归方法的所有优点。等式（4）中的积分函数是可微的，允许端到端训练。它简单、快速且非参数化。它可以很容易地与任何基于热图的方法相结合，同时为训练或推理增加了可忽略的计算和内存开销。它的底层热图表示使得训练变得容易。它具有连续输出，并且不存在量化问题。

2.1 Joint 3D and 2D training

缺乏多样的训练数据是3D人体姿态估计的一个严重问题。已经做出了一些努力来将3D和2D训练相结合[55，31，43，51，41]。由于积分回归为2D和3D姿态估计提供了统一的设置，因此它是促进3D和2D联合训练以解决3D人体姿态估计中的数据问题的简单和通用的解决方案。

最近，Sun等人[42]介绍了一种简单而有效的方法，将2D和3D数据混合用于3D人体姿态估计，并显示出巨大的改进。关键是将联合预测Jk的2D部分（xy）与深度部分（z）分离，使得xy部分可以由丰富的2D数据来监督。

由于等式（4）中积分运算的可微性，积分回归自然可以采用这种混合训练技术。在我们的实验中，我们也从这一技术中获得了巨大的改进，由于积分公式，这种改进是可行的。

然而，丰富的2D数据仍然无法监控潜在的3D热图。为了解决这个问题，我们进一步将积分函数方程（4）分解为两步版本，以生成单独的x、y、z热图目标。例如，对于x目标，我们首先将3D热图积分到1D x热向量方程（5）中

然后，将1D x热向量进一步积分到x关节坐标方程中

相应的y和z公式应易于推断。通过这种方式，x、y、z目标在第一步被分离，从而允许2D和3D混合数据训练策略。我们从三维姿态估计的直接和两步积分回归中获得了显著的改进。

3 Methodology for Comprehensive Experiment

这项工作的主要贡献是为消融实验提供了一种综合方法，以评估各种条件下积分回归的性能。图1说明了框架的概述和每个阶段的决策选择。

相关工作[29，34]仅在MPII基准[2]上进行了2D姿态估计实验。他们也有有限的消融实验。具体而言，[29]仅提供了系统级比较结果，而没有任何消融实验。[34]研究了热图归一化方法、热图正则化和骨干网络，这远不如我们的全面。

任务。我们的方法是通用的，可用于2D和3D姿态估计任务，无法区分。这两项任务都得到了一致的改进。特别地，2D和3D数据可以在训练中容易地同时混合。3D任务从这项技术中受益匪浅，并在很大程度上优于之前的作品。

热图损失。在文献中，热图的损失函数有几种选择。最广泛采用的是预测热图和地面真实热图之间的均方误差（或L2距离），其中2D高斯斑点以地面真实联合位置为中心[48，49，6，33，10，12，13，5]。在这项工作中，高斯斑点的标准偏差σ=1，如[33]所示。我们的损失基线表示为H1（热图为H）。

最近的mask RCNN工作[19]使用了一个one-hot 的 m×m的GT掩码，其中只有一个位置被标记为关节。它使用 $m^2$ 方式 softmax 输出上的交叉熵损失。我们的损失基线表示为H2。

另一工作[38，22，36]解决了每像素二进制分类问题，因此使用了二进制交叉熵损失。每个热图中的每个位置都被分类为关节或非关节。在[38，22]之后，通过将15个像素内的每个位置处的正标签1分配给地面真实关节，构建每个关节的地面真实热图，否则为负标签0。本实施的基线表示为H3。

在实验中，我们表明我们的方法可以很好地处理这些热图损失。尽管这些手动设计的热图损失在不同任务上可能具有不同的性能，并且需要单独进行仔细的网络超参数调整，但它们的整体版本（I1、I2、I3）将得到显著改善并产生一致的结果。

热图和关节损失组合。对于关节坐标损失，我们将预测关节和地面真实关节之间的L1和L2距离作为损失函数进行了实验。我们发现L1loss始终比L2loss更好。因此，我们在所有实验中采用L1loss。

注意，我们的积分回归可以在有或没有中间热图损失的情况下进行训练。对于后一种情况，定义了积分回归方法的变体，表示为I*。网络是相同的，但热量图上的损失没有被使用。训练监督信号只在关节上，而不是热图上。在实验中，我们发现无论有没有热图监督，积分回归都能很好地工作。最佳性能取决于具体任务。例如，对于2D任务I1获得最佳性能，而对于3D任务I*获得最佳性能。

图像和热图分辨率。由于热图的量化误差，通常需要高图像和热图分辨率以获得高定位精度。然而，它对内存和计算要求很高，尤其是对于3D热图。在实验中，我们表明我们的方法对图像和热图分辨率的变化更为鲁棒。这使得在实际场景中，当计算能力受到限制时，它是一个更好的选择。

实验等就不写了感兴趣自己去看或者后面再补上

上一篇：《卓有成效的管理者》读书笔记（一）

下一篇：公司新来一00后说我不会自动化测试，3个问题直接给他问趴下...

【论文翻译】Integral Human Pose Regression（2018）

相关内容

热门资讯