【Structure Light】reading notes(一)

it2023-01-10  52


文章目录

《基于结构光测量技术的接触轨检测方法研究》——杨柳(2019.5)《基于彩色结构光的航空发动机叶片快速测量方法研究》——徐泓(2019.5)《基于多线结构光的三维测量系统的研究》——邹易(2019.5)《RGB-D 室内场景图像的目标提取算法研究》——吴晓秋(2018.4)《RGB-D 图像的显著目标检测方法研究及其应用》——邵婷(2018.2)《RGB-D 图像和点云图像实例分割方法研究》——王玉婷(2019.4)

《基于结构光测量技术的接触轨检测方法研究》——杨柳(2019.5)

接触式测量,有通过机械式通过卡尺手工测量,而人工操作检测精度和效率低,且容易引起人为因素造成的误差,仪器长期使用容易产生磨损从而进一步影响检测精度

非接触式测量,克服了接触式检测低效、精度低、易损耗等缺点,具有高可靠性、高自动化、高精度的优势,是当前检测的发展趋势。缺陷是:环境光照,光学畸变等的影响

机器视觉的测量(非接触式)根据是否需要外部光源,可以分为被动或主动两种技术类型

主动式光学测量方法主要有

结构光(structure light)莫尔条纹法(Moire Shadows)飞行时间法(Time of Flight)

《基于彩色结构光的航空发动机叶片快速测量方法研究》——徐泓(2019.5)

Color Structure Light

航空发动机叶片三维测量方法

接触式三维测量法

三坐标测量法

标准样板法

电感测量法

光学三维测量法(非接触式)

激光三角测量法

结构光测量法(主动式光学测量)

双目立体视觉测量法(被动式光学测量)

《基于多线结构光的三维测量系统的研究》——邹易(2019.5)

非接触式光学测量方法由于其高灵敏度、高速度、无损坏、获取数据多等优点而被公认为最有前途的三维面形测量方法


《RGB-D 室内场景图像的目标提取算法研究》——吴晓秋(2018.4)

目标提取(Object Proposal,OP)

  目标检测(object detection),要求模型不仅能判断一幅输入图像中包含哪类目标,还得框出目标的具体位置(bounding box)。   为了实现上述要求,传统的方法是利用滑动窗口(Sliding Window)的方式,用不同尺度(scale)、比例(aspect ratio)的窗口在图像上滑动,穷举出所有可能位置上的子图像块。然后再将这些子图像块输入到目标识别(object recognition)模型中进行分类。这种方式数据量巨大,通常一幅图像需要分割成约10^6个子图像块……   相对于滑动窗口的方法,另一类就是OP方法。这类方法的基本思路就是在图像上找到一些潜在的目标,而不是穷举!然后将这些潜在的目标输入目标识别模型进行分类。

参考 Object Proposal(OP)综述

基于深度信息的场景布局估计算法研究(第三章)

1)深度图空洞填补

双边滤波器进行预处理

2)深度图转换点云

深度图麠过坐标转化可以转换为点云数据,有规则及必要信息的点云数据也可以反过来换算为深度图像数据

下图展示了 世界坐标系下的三维坐标点 M ( x w , y w , z w ) M(x_w,y_w,z_w) M(xw,yw,zw) 映射到图像物理坐标系中的点 m ( u , v ) m(u,v) m(u,v) 的过程

最终的转化公式为

{ x w = z c ⋅ ( u − u 0 ) ⋅ d x / f y w = z c ⋅ ( v − v 0 ) ⋅ d y / f z w = z c \left\{\begin{matrix} x_w = z_c \cdot (u-u_0) \cdot dx / f \\ y_w = z_c \cdot (v-v_0) \cdot dy / f \\ z_w = z_c \end{matrix}\right. xw=zc(uu0)dx/fyw=zc(vv0)dy/fzw=zc

3)基于 3D点云的平面分割与分类

由于空间照明变化、遮挡、噪声等因素的影响,利用传统的 2D 图像颜色、纹理等特征极可能将这些大平面区域分割成多段,这篇文章中作者用 3D 点云数据来做平面分割与分类,以便更好地利用 3D 数据的稳健的几何连续性

点云数据的重力矫正

《 Perceptual organization and recognition of indoor scenes from RGB-D images》(CVPR-2013)

《RGB-D 图像的显著目标检测方法研究及其应用》——邵婷(2018.2)

用的传统方法

Salient Object Detection

《Progressive Feature Polishing Network for Salient Object Detection》(AAAI-2020)

显著性目标检测和一般目标检测最本质的区别是什么?区别仅仅是把目标分割出来么?

https://www.zhihu.com/question/351268377

融合显著深度特征的 RGB-D 图像显著目标检测的应用(人脸检测)

《RGB-D 图像和点云图像实例分割方法研究》——王玉婷(2019.4)

RGB-D 图像包含了深度信息,点云图像包含了立体信息

2.1 三维数据的获取与表示

2.1.1 深度信息的获取方式

双目立体视觉技术(被动式) 原理上和人类感知世界的方式是一样的

结构光传感器(主动式) 建立在三角测量基础上

Kinect 是微软在2009年6月2日的E3大展上。发布的体感周边外设。Kinect彻底颠覆了单一操作。让人机互动的理念更加彻底的展现出来, 网友普遍称其中文名为“啃奶特”它是一种3D体感摄影机(开发代号“Project Natal”),同时它导入了即时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动等功能。所以对它有一定的认识对学习很有用处

来自:kinect 的功能介绍

Kinect v1 主要由三部分组成:红外发射器、彩色摄像头和红外摄像头

红外发射器发射近红外光谱到物体表面,利用光编码(light coding)技术通过投射具有高度伪随机性的激光散斑,会随着不同距离变换不同的图案,对三维空间直接标记,通过观察物体表面的散斑图案就可以判断其深度,红外摄像头就是可以读取激光散斑计算深度的设备结构。彩色摄像头用来捕获场景中目标物体的彩色图像。

飞行时间法(主动式)

首先光线发射器向目标物体发射红外光,光线到达物体表面经过漫反射被红外探测器接收,通过测量红外光在目标物体与传感器之间的往返时间来计算中间距离也就得到了各个像素点的深度值

激光雷达(Light Detection And Ranging,LiDAR)

LiDAR 的工作方式是向物体发射高频激光脉冲,并测量它们返回传感器所需的时间,这与 TOF 相机的飞行时间技术类似,但 LiDAR 的射程明显更长,能捕获的点更多,并且在有其它光源干扰的情况下也更加稳定。在目前无人驾驶技术中大放异彩,缺点是:体积大、笨重、贵


【补充知识】

根据公式:光速= 波长 * 频率,频率越高,波长越短。波长越短,意味着分辨率越高;而分辨率越高,意味着在距离、速度、角度上的测量精度更高。

目前应用于汽车无人驾驶的雷达主要有三种:

介于微波和红外线之间,频率范围10GHz—200GHz,波长为毫米级,毫米波雷达;介于红外线和可见光之间,频率大致为10^14Hz(100000GHz),波长为纳米级,本文的主角——激光雷达;频率高于20000Hz的超声波雷达;

来自 激光雷达干货全面分析(一):最大优势,四大系统,八个指标


2.1.2 三维数据的表示方式

目前流行的 3D 数据表示方法主要有 RGB-D 图像、点云、体素网格(Voxel grids)、多边形网格四种

RGB-D 图像

点云

体素网格(Voxel grids) 体素可以理解为三维空间中的像素,体素网格则可理解为量化的、大小固定的点云。然而点云在浮点像素坐标的空间中的任一地方,都可以有任意数量的点,体素网格则是在每个单元或体素都具有固定大小和离散坐标的三维网格

多边形网格(Polygon meshes) 由一组与多边形表面近似、共享顶点的几何面组成,也称非结构网络,这些网格可以用三角形,四边形或者其他凸多边形组成,以此来简化渲染过程


2.2 三维图像特征提取

三维卷积很关键的一点就是可以同时用多个卷积核同时特征提取

上图展示了 3 个 2 维卷积和 1 个 3 维卷积

基于深度学习的点云特征提取方法最经典的就是 PointNet 网络


3 基于双金字塔特征融合网络的 RGB-D 实例分割

3.1 数据层融合模型

RGD 和深度图(原始的或者 HHA、SF 处理过的)按照一定权重组合在一起,做分割效果没有仅用 RGB 的好

结合定性结果可知,虽然深度特征带来了更多的分割实例,但是大部分实例的语义分类是错误的,分割的物体越多,语义分类错误的物体也越多,导致最终的平均精度越低!

3.2 双金字塔特征融合模型

RGB 用 ResNet 提取特征,深度图像用一个小网络提取特征,然后相同分辨率的 add 在一起,add 的魅力下图可以看的非常明显

实验模型能够充分提取并利用 Depth 特征,补偿单纯依靠彩色信息无法正确区分颜色相近的目标物体的问题

各个类别的分割精度

4 基于八叉树提议生成网络的 3D 点云实例分割

RGB-D 图片表示三维数据依旧只是对底层 3D 结果的不完美近似,本质上 RGB-D 图像的实例分割还是建立在二维图像学习之上,无法真正以 3D 形式进行学习。

八叉树的介绍可以参考 四叉树与八叉树 ,下面两张图直抒胸臆

八叉树每一个节点,只可能有八个或者零个子节点(图4-1)

八叉树卷积 点云的特征维度为 2 ∗ 2 ∗ 2 ∗ n 2*2*2*n 222n n n n 表示点的维度, 2 ∗ 2 ∗ 2 2*2*2 222 的立方体描述点的局部特征,沿 x x x 方向卷积后维度为 1 ∗ 2 ∗ 2 ∗ n 1*2*2*n 122n,沿 y y y 方向卷积后维度为 1 ∗ 1 ∗ 2 ∗ n 1*1*2*n 112n,沿 z z z 方向卷积后维度为 1 ∗ 1 ∗ 1 ∗ n 1*1*1*n 111n,再与输入端的结合在一起 上张图进行点云的特征提取,采用了 PointNet++ 中的 set abstraction(SA,实现点云的下采样)和 feature propagation(FP,实现点云的上采样)模块来提高运算效率,OC 表示八叉树卷积

配合作者提出的改进损失,进行点云的分割

最新回复(0)