【3D目标检测】Is Pseudo-Lidar needed for Monocular 3D Object detection?
创始人
2024-06-02 03:11:06
0

目录

  • 概述
  • 细节
    • 背景
    • 网络结构
    • 3D检测头
    • 损失函数
    • 深度预训练
    • 讨论

概述

【2021】【DD3D】
研究的问题:

  • 如何引入获得空间信息
  • 如何增强深度估计效果

解决的方法:

  • 密集深度估计子网络
  • 大规模数据集下的深度估计预训练

细节

背景

背景:基于伪点云的算法能够随着深度估计效果的提升而提升,比如在大规模数据集中预训练的深度估计网络能够很好的提升伪点云算法的效果,但是单目深度估计这个任务很困难。简单且端到端的3D检测器似乎更有前景,但他们无法受益于深度估计网络的预训练。因此作者提出了一个端到端且能够受益于深度预训练的网络。
本文方法与伪点云方法的流程比较:
在这里插入图片描述

单目3D目标检测的分类:

  • 将2D检测器的结果通过形状和场景几何等信息提升到3D空间
  • 利用2D/3D之间的几何一致性约束,将检测任务变为优化问题
  • 视图转换的方法,将图像转换为点云、鸟瞰图等

网络结构

主要分为两部分:特征提取网络和检测头。特征提取网络中提取多尺度特征,但每个尺度特征对应的检测头都是一样的,也就是分类头、2D检测头和3D检测头。
其中,分类头以及2D检测头和FCOS中的定义相同,关键是3D检测头。
在这里插入图片描述

3D检测头

任务:3D检测头负责预测3D边界框、稠密深度图以及置信度,总共12个参数
前四个参数(qw,qx,qy,qz)(q_w,q_x,q_y,q_z)(qw​,qx​,qy​,qz​)表示方向参数,作者这里预测3个方向,而不是平常的一个方向
两个深度参数zcz_czc​与zpz_pzp​,前者是目标的z坐标,只与目标对应的特征有关,后者是到目标表面的深度,与图像中每个像素都有关,通过zcz_czc​与zpz_pzp​可以计算得到真正的深度dcd_cdc​与dpd_pdp​,其中涉及到的参数都是已知的。可以发现计算p的过程中用到了相机内参(焦距),作者说这种设计使得网络是具有相机意识的,也就是不仅从输入图像中推断深度,还从像素大小推断深度,而这对于训练的稳定很有用。实践中,输入图像的尺寸改变之后,作者也会对内参矩阵进行变换,最终求的的深度图也会做上采样。(因为在作者的设计中,计算深度考虑到了像素)
在这里插入图片描述

位置参数(Δu,Δv)(\Delta u,\Delta v)(Δu,Δv),具体的位置计算如下:
在这里插入图片描述
尺寸参数(δW,δH,δD)(\delta W,\delta H,\delta D)(δW,δH,δD),具体的尺寸计算如下:
在这里插入图片描述
其中(W0,H0,D0)(W_0,H_0,D_0)(W0​,H0​,D0​)是数据集中各类别的平均尺寸

置信度参数β3D\beta_{3D}β3D​,具体的边界框置信度计算如下:
在这里插入图片描述
作者将边界框置信度乘上前面分类头的分类置信度,得到最终的置信度。

损失函数

主要是三个检测头的损失,包括2D检测损失,3D检测算是以及置信度损失
在这里插入图片描述
其中2D检测损失是与FCOS完全相同的,3D检测损失用的是Disentangling Monocular 3D Object Detection中提到的disentangled L1 loss作为回归损失,置信度损失用的是自监督损失,在这里插入图片描述

深度预训练

作者在深度估计任务下做预训练,能够使得网络得到更准确的空间信息。具体的过程是:DD3D中作者先用一组在COCO数据集上预训练的2D目标检测参数初始化了特征提取网络FPN,然后将深度估计网络放到DDAD15M数据集上预训练,然后在KITTI-3D中训练。

在深度预测数据集中做密集深度预测(数据集的gt就是点云投影得到的深度图),训练时采用的深度损失如下:
在这里插入图片描述
作者发现:

  • 使用FPN产生的多尺度特征,而不是单一尺度特征,进行预测会使训练更加稳定
  • 使用L1 loss、较大的batch-size以及尺寸输入会比在深度估计任务中常用的SILog loss效果好
  • 因为作者在设计深度参数的时候采用了相机内参,因此在做迁移的时候会更加有效

讨论

大规模深度预训练真的有用吗?去除COCO数据集的初始化参数会导致效果小幅下降,但是去掉DDAD 15M这个大数据集的预训练之后,效果显著下降。
在这里插入图片描述
深度预训练真的有用吗?作者分别使用2D检测和深度估计作为预训练,发现在深度估计数据集上预训练效果更好。
在这里插入图片描述
预训练数据集的大小?作者发现随着预训练数据集的增大,带来的提升也越来越大
在这里插入图片描述

伪点云方法中预训练的问题1——需要微调:
DD3D的训练中作者先用一组在COCO数据集上预训练的2D目标检测参数初始化了特征提取网络FPN,然后将深度估计网络放到DDAD15M数据集上预训练,然后在KITTI-3D中训练。
PL的训练,作者先DDAD15M数据集上预训练,然后在KITTI-depth上微调,最后KITTI-3D中训练。
原因是作者发现,没有KITTI-depth上的微调,会导致PL性能的大幅下降。差不多就是不进行微调的话,预训练就没用了(而DD3D则不需要微调)
在这里插入图片描述

伪点云方法中预训练的问题2——泛化性能相对较差:
在验证集上PL的方法会比DD3D好一些,但是测试集上PL的方法会比DD3D低很多

相关内容

热门资讯

职场中有哪些聊天禁区? 职场中有哪些聊天禁区?如题最讨厌的就是同事在背后说这说那的,又不当着人的面说清楚。不要再背后议论他人...
周星驰的《大话西游》好在哪里? 周星驰的《大话西游》好在哪里?周星驰的《大话西游》好在它独特的创新风格,给电影加入了很多新的元素,不...
南真纪【sa特优生的作者】还有... 南真纪【sa特优生的作者】还有哪些作品?《最佳“女”朋友!?》、《恋爱指南部》应该是这个了也许只有漫...
ST中嘉: 摘帽问题待解,投资... 投资者提问:请问:公司摘帽问题迟迟不能解决,这对公司与投资者都是灾难!公司似乎无所谓的摘不摘帽!可以...
消费不及预期当中乐观 沪铜期价... 研报正文核心观点一、市场概述4 月 2 日,沪铜主力合约开盘价格为79910 元/吨,最高达到802...
湖南省吉首市人大常委会原党组成... 稿源:掌上长沙2025-04-03 11:52   长沙晚报掌...
东方锆业:董秘回答关于控股股东... 投资者提问:请问上次的增持计划进行如何?董秘回答(东方锆业SZ002167):尊敬的投资者,您好!公...
意大利、巴西、加拿大等国批评美... 本文转自【新华社】4月2日,美国总统特朗普在华盛顿白宫展示签署后的关于所谓“对等关税”的行政令。新华...
他背叛了我,那我该怎么办? 他背叛了我,那我该怎么办?他背叛你了,也许是一时的错误,这样你可以原谅。但是他要是不爱你了,而去背叛...
我的脚夏天穿凉鞋出汗老厉害了,... 我的脚夏天穿凉鞋出汗老厉害了,打滑然后还脏鞋子怎么办啊?帮帮忙啊,各位朋友是脚汗打引起的,有几个方法...
新建沪渝蓉高铁武宜段进入静态验... 来源:中国新闻网 中新网武汉4月3日电 (姚威)据中国铁路武汉局集团有限公司3日消息,新建沪渝蓉高铁...
女友还在听以前的歌曲什么意思? 女友还在听以前的歌曲什么意思?是又怎么样?你究竟想要什么样脊码的结果?她又究竟是想怎样逗态?世上本无...
美国前财长批关税政策:推高物价... 来源:中国新闻网 中新网4月3日电(张乃月)据彭博社当地时间4月2日报道,美国前财政部长劳伦斯·萨默...
顺络电子:美国加征关税34%对... 投资者提问:请问这次美国加征关税34%,对公司未来发展和业绩有何影响,短期是否承压?谢谢。董秘回答(...
现场画面曝光!菲律宾间谍偷拍反... 转自:北京日报客户端近日,国家安全机关经缜密侦查,成功摧毁菲律宾间谍情报机关在华布建的某情报网络,依...
中澳科学家联手探寻中子星“体重... 转自:千龙网中子星的直径仅为20多千米,切面相当于北京四环内区域大小,但其重量却是地球的几十万倍。如...
工运史话丨忠诚与背叛——至暗时... 转自:北京日报客户端钱壮飞是中共最杰出的地下工作者之一,与李克农、胡底合称“龙潭三杰”。顾顺章是中共...
2025花开北京赏花季,赏春游... 北京市园林绿化局和北京时间送福利啦!4月7日,2025 #花开北京# 影像征集活动将正式拉开帷幕。只...
极其危险!内蒙古一地发生翻车事... 2025年3月18日,内蒙古公安厅交通管理局高速公路一支队集宁大队指挥中心接到一起交通事故报警称,在...
3名菲籍间谍落网!国家安全机关... 本文转自【央视新闻】近年来,境外间谍情报机关处心积虑,发展运用本国在华人员,大肆开展间谍情报活动,持...