@isfansiming
2019-01-16T11:32:12.000000Z
字数 7564
阅读 1961
检测和跟踪人是计算机视觉中最重要的应用问题之一。娱乐,监控,机器人,辅助和自动驾驶等重要应用都以人为中心。因此,它们需要高度可靠的人体探测器,可以在各种室内和室外场景中工作,并且对于具有挑战性的视觉效果(例如可变外观,不均匀照明,低分辨率,遮挡和有限视野)具有鲁棒性。
虽然最近在物体检测方面取得了很大进展,但目前的系统仍然无法满足这些要求,特别是在自动驾驶和监控中,可靠的行人检测对安全性至关重要。遗憾的是,目前的基准测试(benchmark)不足以可靠地评估这些局限性,更不用说要支持进一步研究来解决这些问题。
为了填补这一空白,我们引入了NightOwls,这是一个新的数据集,用于评估最先进的行人探测器在极端但现实条件下使用时的局限性。我们特别关注夜间检测,这一问题在文献中很少提及,但在许多应用(辅助驾驶、监控和自动驾驶)中非常重要——作为传感器融合关键输入视觉传感器还受益于高质量形状和颜色信息的优势,传感器输出的人类可解释性和低能耗(无源传感器),而其他传感器模式则不然。
我们的工作受到PASCAL VOC,ImageNet和MS-COCO等数据集的启发,其引入启动了分类和检测的基础研究的新浪潮,从视觉词袋( bag-of-visual-words)到可变形零件模型(DPM),最后 深度卷积神经网络。Caltech pedestrians等基准测试对行人检测具有类似的影响。
为了使数据集具有影响力,它必须强调当前一代算法中的重要缺点。 对于行人检测,最常用的数据集Caltech几乎饱和,最先进的检测器的平均漏检率(miss rate)为8.0%,而引入时的平均漏检率为83.0%。 这一巨大的改进表明,如果我们将人类表现(5.6% by 《How far are we fromsolving pedestrian detection》,2016)作为上限,Caltech benchmark几乎“解决了”。
虽然Caltech和类似的基准测试可能已经饱和,但我们无法断定行人检测在一般情况下是“已经解决”的。大多数数据集的一个限制是它们专注于白天的检测。 虽然这需要应对诸如遮挡、可变外观、比例和姿势之类的挑战,但是在光线不足的情况下,特别是在夜间,这样做仍然更具挑战性。 根据经验,我们将证明在这种情况下,当前的检测器远远低于人类的性能。
为了做到这一点,NightOwls旨在代表以下挑战:
1.运动模糊和图像噪声:夜间成像需要在长曝光时间和传感器增益之间进行权衡,从而导致显着的运动模糊或噪声。
2.反射和高动态性:夜景中由于不均匀的光源及其反射引起的光强变化可能超过相机的动态范围,出现欠饱和和过饱和区域。
3.对比度变化大,色彩信息减少:不均匀照明会导致图像中的对比度变化大。在低对比度区域中检测是困难的,并且可能导致颜色信息的丢失以及前景和背景区域的混淆。
4.天气和季节:天气和季节会导致影响检测器性能的其他视觉变化(variations)。 虽然积雪有可能使场景照明度更加均匀,但雨水可以显着降低对比度并增加路面反射。
除了解决这些挑战之外,NightOwls还具有许多其他合意的属性:
(i)图像由行业标准的汽车相机捕获,而其他数据集通常使用通用相机。
(ii)提供每帧的完整注释(标准MS-COCO和Caltech格式)。
(iii)代表多个欧洲城市和国家。
(iv)提供在多个帧中检测到对象时的跟踪标识信息。
(v)有一个中央评价服务器,用于提交和比较结果。 (vi)附加的类(自行车、摩托车)和属性(姿势、难度)被标注。
根据经验,我们证明了最先进的行人检测方法在该数据集上表现不佳,即使是在夜间数据上进行了专门训练,我们也证明了日夜检测的准确性差距非常大。虽然我们主要关注行人检测,但我们也相信全面的夜间数据集的可用性可能会引发其他领域的进一步研究,例如一般物体检测或跟踪。
现有数据集 在过去十年中,已为行人检测创建了几个数据集。 早期的包括INRIA,ETH,TUD-Brussels和Daimler。这些数据集现在太小(INRIA,ETH,TUD-Brussels)或仅提供灰度图像(Daimler)。 最近,已经提出了更大和更丰富的数据集,并且已经变得更加流行,例如Caltech,KITTI和CityPersons数据集。Caltech数据集已被广泛使用,因为它提供了大量注释,包括大约250,000帧和185,000个行人边界框。 然而,注释的多样性是有限的,因为视频仅在一个城市内的11个会话(session)中被记录,注释的对齐质量由于在相邻帧之间实现的插值而较差,并且仅在白天记录。 然后在【How far are we fromsolving pedestrian detection】中进一步改进了噪声注释。
KITTI数据集的重点是鼓励在由摄像机、激光扫描仪和GPS/IMU定位系统组成的多传感器设置领域进行研究,为立体匹配、光流、视测/SLAM、目标检测和3D估计等多个任务提供数据,但对于行人检测,数据集相对较小。
CityPersons数据集由来自德国和邻国27个城市的街道上记录的大量不同的立体视频序列组成。在5000张图片中为35k行人提供了高质量的边框注释。此外,还提供30个视觉类别的精细像素级注释。精细注释包括人员和车辆的实例标签。但是,数据集没有夜景或背景图像。此外,它没有驱动序列(driving sequences)(它由单个图像组成),因此它没有跨多个帧的相同对象的例子。
据我们所知,KAIST数据集是目前唯一包含一些行人检测夜间图像的公共数据集(10个记录中有5个是在夜间)。数据被捕获在一个城市、一个季节,这限制了多样性;相机是一个消费级相机,导致记录质量差和相当大的额外的图像噪音;数据集不提供occlusion标签严重限制了训练此数据集的能力(见第4节)。KAIST的重点是多光谱行人检测认为热传感器的数据融合和RGB相机, KAIST数据集的重点是多光谱行人检测,它考虑了来自热传感器和RGB相机的数据融合,试图克服夜间行人检测的问题。我们注意到,仅使用热传感器进行物体检测可能是不可行的,因为其空间和动态分辨率低,衣服中人的热足迹有限以及目前成本过高。
表2总结了不同数据集中的图像和注释数量,表1中对关键统计数据进行了比较。
夜间行人检测 除了KAIST之外,上述所有数据集和绝大多数行人检测工作【1,4,5,19,21,23】都侧重于白天的检测。一些早期的工作试图在跟踪方法【11,18】或立体图像【15】的帮助下解决夜间物体/行人检测问题。然而,据我们所知,夜间行人或物体探测并未引起研究界的太多关注,尽管其对于强大的视觉应用非常重要。我们怀疑主要原因是此类研究缺乏公开数据。
在本节中,我们将介绍数据捕获过程,注释协议,设计选择和数据统计。
数据记录 数据集已在欧洲多个城市使用前瞻性行业标准摄像机进行记录,使用挡风玻璃安装,与生产车辆中的专业安装相同。 数据采集时间为全年早晚,在不同的天气条件下(图1),共采集40条个体记录,分成训练、验证和测试集,保持关键参数(天气、行人姿态/身高困难度等)分布均匀。
图像质量和尺寸 研究数据集【5,12】通常用消费类摄像设备记录,导致图像噪声高和动态范围受限。 为了提供具有现实的对比度和模糊度变化的夜间数据集,数据集由行业标准相机(图像分辨率1024×640)捕获,与生产车辆中使用的非常相似。数据集包括模糊和清晰图像,质量取决于场景照明和车速。
注释 帧速率为15 fps,每帧都是手动注释的。 每个行人,骑自行车者和摩托车手(>50px)都有一个边界框注释,旁边有三个属性:遮挡、困难(低对比度或异常姿势)和姿势。 海报上的人、雕塑上的人和难以区分的群体都被标记为“忽视”。我们注意到,与现有数据集相比,每帧的平均对象数量更低,因为夜间街道自然不那么热闹(见表1)。
因此,数据集包含279k个完全注释的帧,其中包含42,273个行人,其中32k帧包含至少一个带注释的对象,其余247k是背景图像。 这些注释以标准的MS-COCO和Caltech(VBB)格式提供,因此新数据集可以插入现有框架而无需任何额外的工作。
与Caltech数据集类似,这些属性被分为几个组,以便使用不同的数据维度进行更细粒度的评估。
行人高度分为远、中、近(见表3),根据不同速度行驶车辆触发自动破断所需的距离。
使用针孔相机模型,相机校准参数和平均人物身高(1.6m,1.8m),注释高度h
我们注意到大多数行人被归类为远(见图3左),这是由于每一帧都经过了详尽的标注过程。类似地,我们还根据平均图像亮度的直方图将图像亮度分类为低,中和高(参见第4节和图3右)。姿势注释为左,右,前和后,但我们指的是 它们是正面(正面,背面)和侧面(左,右)。我们注意到数据中有一种偏向于正面姿势的倾向(见表3),这是由人们/骑自行车的人通常如何在道路上行走和沿着道路行走这一事实给出的。
数据多样性 为了实现检测算法的泛化能力所需的高数据多样性,在5个月的时间内,在3个国家(德国,荷兰,英国)的7个城市收集了记录。该数据集捕捉了秋冬春不同的天气状况,包括雨和雪,它们改变了场景的灯光并增加了额外的反射。
背景图像 误报率是实际应用的主要问题,因为安全关键系统的误报在驾驶场景中是不可接受的。此外,在这些应用中,没有任何感兴趣对象的帧数明显高于具有它的帧数,这进一步增加了误报的可能性。
为了支持具有低误报率的鲁棒检测器的研究并可靠地估计检测器精度,数据集中包括247k背景图像。对于夜间图像,尤其是具有低照度或反射的区域通常容易出现这种误报。
时间跟踪 大多数方法都侧重于从单个帧进行检测,这种方法本身更容易出现假阳性和假阴性错误。 为了能够研究更健壮的多帧检测方法,数据集包括时间跟踪注释,以便可以在不同的帧上识别相同的对象。
验证和测试集 与最近的大型数据集(如MS-COCO或CityPersons)类似,我们明确地将用于评估的数据拆分为验证和测试集。我们发布两个集合的图像,但只发布验证集的注释。测试集注释只能由评估服务器使用(见下文)。 两组都具有相似的数据统计,验证集足够大,因此研究人员可以将其用于局部评估和超参数调整。通用验证集的另一个好处是超参数实验可以在不同的方法之间进行比较。
评估服务器 提供中央提交服务器用于数据集下载和评估。 在测试集上自动评估检测结果(JSON格式)的提交,并呈现排行榜,以便在一个地方评估所有检测方法。 提交的内容仅限于每天提交一次,以减少过度拟合测试集的可能性。 此外,由于测试集足够大,我们只在排行榜上的一个子集上发布性能,而第二个隔离子集的性能将保持私有。如果两个子集的准确性存在显着差异,则表明对测试数据过度拟合或训练。
方法 我们已经在现有数据集上评估了6个最近发布的行人检测算法,以及新引入的数据集:
每个方法都在训练子集上进行训练,并在数据集的验证子集(如果可用,否则为测试子集)上进行评估,保持训练元参数,例如学习率或时间数对于给定方法在不同之间的相同数据集。 然而,我们计算了图像的平均颜色,并将其减去,作为每个数据集单独的预处理步骤——这个值对所有方法都是一样的。我们遵循所有数据集的标准平均失误率(MR)度量,但KITTI数据集除外,该数据集通常使用平均平均精度(mAP)。
与其他数据集的比较 使用合理子集,SDS-RCNN检测器,这是Caltech数据集中最先进的方法,也实现了我们数据集的最低平均漏失率(见表5),但误差仍然比Caltech高出2.5倍,比CityPersons数据集高出50%,这表明提议的数据集比现有数据集更具挑战性。 对于我们的数据集,vanilla Faster R-CNN和改进版本(SDS-RCNN)之间的失误率的差距也小得多,这说明SDS-RCNN中实例分割所带来的额外信息对夜间场景没有那么大的帮助
我们还在KAIST数据集上训练Adapted Faster R-CNN,这是唯一具有一些夜间图像的现有数据集,我们比较两个数据集的准确度(见表6)。我们展示了在KAIST测试集上,在NightOwls数据集上训练的模型实际上优于在KAIST训练集上训练的模型,这很可能是由于KAIST图像和注释质量的问题(参见第2节)。请注意,因为KAIST没有遮挡标记,所以我们没有对上述实验中的任何一个数据集使用该标记来进行比较公平。
宽高比和比例
我们根据不同的ground truth属性评估了在NightOwls数据集上训练的所有方法的性能,符合Dollar等人引入的标准评估。我们表明这些方法对纵横比不敏感(图4-顶行),但它们对行人的大小非常敏感(图4-第二行)。深度学习方法明显受益于训练数据量,而对于Medium和Near scales,它们的误差率与白天数据集相当,但对于Far scale的小行人(h<90px),误差率急剧上升,深度学习方法的准确性接近传统方法(见图6-样本图像的顶行)。
照明度
我们还比较了基于平均图像亮度的性能,其中亮度是HSL颜色空间中的亮度L8(图4-2第3行)。 也许违反直觉,更明亮的图像的误差比较暗的图像更高 - 这是由于相机过度曝光(见图6 - 中间行)引起的,这使得检测非常具有挑战性。 注意,基于行人图像补丁亮度的评估与整个图像亮度和不同亮度定义相对应得到非常相似的结果,因此我们仅将它们包括在补充材料中。
姿势
与最常用的数据集相比,我们还可以根据行人姿势评估检测结果 - 这清楚地表明,对于面向或远离摄像机的人(正面姿势),所有方法的表现都明显优于面向侧面的行人( 图4 - 底行)。 我们认为这是由于侧面姿势的模糊性较高,当从旁边观看人而不是从正面观看时,与其他物体混淆的可能性更高,但通常也是由于像素数量较少而因此信息量较低 在图像中捕获侧面姿势(见图6 - 底行)。
夜间数据细节
为了评估夜间数据的具体情况,我们还用最先进的SDS-RCNN在Caltech数据集上训练,该数据集具有相似数量的图像,但它是专门捕获白天数据。 该模型在Caltech上的平均失误率为7.36%,但在我们的数据集上为63.99%(相应地更新了作为预处理步骤减去的图像平均值,以确保图像数据始终以零为中心)。 类似地,在CityPersons数据集上训练的Adapted Faster R-CNN模型的未命中率为59.05%(参见图5)。 这些结果证实了在白天数据上训练的行人检测器在夜间工作不好的预期,并且需要像前几节那样专门训练夜间数据。
在本文中,我们介绍了一个新的综合行人数据集NightOwls,以鼓励研究夜间图像。 最近行人检测和计算机视觉中一般目标检测的基准主要集中在白天采集的图像上。虽然夜间检测由于光照低、对比度变化、颜色信息较少,是一项更具挑战性的任务,但对夜间时间数据的研究代表性不足,依赖于特定于研究的数据,而且仅限于缺乏官方基准的个案研究。我们相信,通过引入一个全面的夜间行人检测数据集和基准,可以激发对夜间视觉挑战的前沿研究。