[关闭]
@snuffles 2016-10-18T22:09:01.000000Z 字数 2230 阅读 1057

slam 支持的物体检测

#C114#


摘要

相比传统的frame-by-frame的方法,单目SLAM-aware的物体检测使得识别效果更佳强壮稳定。
结合了多视角物体提取,高效特征编码,本系统利用RGB相机在常数时间内检测,鲁棒的识别物体。

多视角物体检测,统一预测假设


简介

传统方法训练库挑选的是特定的图片,机器人在环境中得到的是连续的图片流,反复观察到同一物体。如果机器人可以同时定位和建图物体检测和识别可以因此而被加强,通过多视角整合物体检测。

slam-aware
能够增量地建立他所观察到的环境的地图,并且知道任意时刻的相机位置。
不同于slam-oblivious,
这些检测和识别物体,是frame-by-frame的,没有认知的地图,和相机的位置,这些物体在地图中的位置。

贡献:

  1. 利用semi-dense地图重建方法,单目视觉座位与输入
  2. 多视角一致的的物体候选
  3. BOW物体分类,box-encoding识别
  4. slam back end后端增强识别效果
  5. 能够在常数时间识别大量物体

相关工作

Sliding window DPM
chuantong wuti jiance fangfa .
HOG DPM.

这些方法
给出每个物体形状的模型,他们的部分的有向边模板,分为几个尺度。

模板模型,在多个尺度下需要在整个图片里做滑动窗口扫描。

这个就受限于尺度,还有目录的大小。

如果尺度更大,物体更多,在识别速度上就会有所降低。

密度采样,特征编码方法:
bovw ,vlad ,fisher vectors

物体提取
cpmc,selective search,edge boxes,binarized normed gradients.

物体提取中的尺度编码
bow +encoding

多视角目标检测
1. hog-based sliding window ,mrf
2. joint sfm,但是,run time
3. object-based salm ..有限的物体,需要RGBD输入,需要3D model.

本文方法

A 目标提取

传统物体检测方法是基于像素的或者是基于边缘表示的。他们都在单张图像中确认是否包含候选物体。但是,室内环境下,机器人在环境中可能通过不同的角度观察到同一个物体,这需要时空重建三维的内容使得物体检测的结果鲁棒。
利用室内定位与建图技术可以提供时空的三维重建,从而辅助物体检测,提高检测鲁棒性。为了检索到物体,在传统室内定位与建图技术的基础上进行语义分割。
本方法利用时空和边缘颜色信息,建立基于密度分区的半稠密场景。可以得到不同视角下的候选物体。

通过ORB-SLAM方法得到半稠密的重建场景后进行滤波和分割。滤掉低密度的区域每个分区在原始的RGB图片流中映射到帧中去,作为特征描述、编码,分类的候选。

密度分区通过四个不同密度阈值重复进行。每个都有两个因子。得到一个过分类的重建场景,用来作为物体提取候选的输入。这些输入,投影到每个相机的视角中去方便后续处理。
淘汰掉
1. 窗口大小小于20*20的候选。
2. 为了避免错误的识别,我们估计重建深度的中值,从而去掉遮挡的候选。
3. 用IoU0.5的阈值来去掉重叠的候选。

B BOW

流程图:
1. 输入RGB image stream I,
2. 用ORB-SLAM重建半稠密场景we first reconstruct the scene in a semi-dense fashion using an existing monocular visual-SLAM implementation (ORB-SLAM) with a semi-dense depth estimator, and subsequently extract relevant map M, keyframe K and pose information ξ.
3. 基于密度的分类场景得到多视角下的目标提取We perform multi-scale density-based segmentation on the reconstructed scene to obtain object proposals O that are consistent across multiple views.
4. 每个图片同时提取特征On each of the images in the input RGB image stream I, we compute Dense-SIFT (R128) + RGB (R3) and reduce it to Φ ∈ R80 via PCA.
5. 特征和目标提取一起用VLAS FLAIR编码The features Φ are then used to efficiently encode each of the projected object proposals O (bounding boxes of proposals projected on to each of the images with known poses ξ) using VLAD with FLAIR, to obtain Ψ.
6. 进行目标预测,得到目标的标签The resulting feature vector Ψ is used to train and predict likelihood of target label/category p(xi | y) of the object contained in each of the object proposals. The likelihoods for each object o ∈ O are aggregated across each of the viewpoints ξ to obtain robust object category prediction.

添加新批注
在作者公开此批注前,只有你和作者可见。
回复批注