@snuffles 2016-10-18T14:09:01.000000Z 字数 2230 阅读 1146

slam 支持的物体检测

#C114#

摘要

相比传统的frame-by-frame的方法，单目SLAM-aware的物体检测使得识别效果更佳强壮稳定。
结合了多视角物体提取，高效特征编码，本系统利用RGB相机在常数时间内检测，鲁棒的识别物体。

多视角物体检测，统一预测假设

简介

传统方法训练库挑选的是特定的图片，机器人在环境中得到的是连续的图片流，反复观察到同一物体。如果机器人可以同时定位和建图物体检测和识别可以因此而被加强，通过多视角整合物体检测。

slam-aware
能够增量地建立他所观察到的环境的地图，并且知道任意时刻的相机位置。
不同于slam-oblivious，
这些检测和识别物体，是frame-by-frame的，没有认知的地图，和相机的位置，这些物体在地图中的位置。

贡献：

利用semi-dense地图重建方法，单目视觉座位与输入
多视角一致的的物体候选
BOW物体分类，box-encoding识别
slam back end后端增强识别效果
能够在常数时间识别大量物体

本文方法

A 目标提取

传统物体检测方法是基于像素的或者是基于边缘表示的。他们都在单张图像中确认是否包含候选物体。但是，室内环境下，机器人在环境中可能通过不同的角度观察到同一个物体，这需要时空重建三维的内容使得物体检测的结果鲁棒。
利用室内定位与建图技术可以提供时空的三维重建，从而辅助物体检测，提高检测鲁棒性。为了检索到物体，在传统室内定位与建图技术的基础上进行语义分割。
本方法利用时空和边缘颜色信息，建立基于密度分区的半稠密场景。可以得到不同视角下的候选物体。

通过ORB-SLAM方法得到半稠密的重建场景后进行滤波和分割。滤掉低密度的区域每个分区在原始的RGB图片流中映射到帧中去，作为特征描述、编码，分类的候选。

密度分区通过四个不同密度阈值重复进行。每个都有两个因子。得到一个过分类的重建场景，用来作为物体提取候选的输入。这些输入，投影到每个相机的视角中去方便后续处理。
淘汰掉
1. 窗口大小小于20*20的候选。
2. 为了避免错误的识别，我们估计重建深度的中值，从而去掉遮挡的候选。
3. 用IoU0.5的阈值来去掉重叠的候选。

B BOW

流程图：
1. 输入RGB image stream I,
2. 用ORB-SLAM重建半稠密场景we first reconstruct the scene in a semi-dense fashion using an existing monocular visual-SLAM implementation (ORB-SLAM) with a semi-dense depth estimator, and subsequently extract relevant map M, keyframe K and pose information ξ.
3. 基于密度的分类场景得到多视角下的目标提取We perform multi-scale density-based segmentation on the reconstructed scene to obtain object proposals O that are consistent across multiple views.
4. 每个图片同时提取特征On each of the images in the input RGB image stream I, we compute Dense-SIFT (R128) + RGB (R3) and reduce it to Φ ∈ R80 via PCA.
5. 特征和目标提取一起用VLAS FLAIR编码The features Φ are then used to efficiently encode each of the projected object proposals O (bounding boxes of proposals projected on to each of the images with known poses ξ) using VLAD with FLAIR, to obtain Ψ.
6. 进行目标预测，得到目标的标签The resulting feature vector Ψ is used to train and predict likelihood of target label/category p(xi | y) of the object contained in each of the object proposals. The likelihoods for each object o ∈ O are aggregated across each of the viewpoints ξ to obtain robust object category prediction.

slam 支持的物体检测

摘要

简介

相关工作

本文方法

A 目标提取

B BOW

内容目录