@wanghuijiao
2022-11-16T16:10:05.000000Z
字数 2649
阅读 306
Event-Based Vision: A Survey 阅读笔记
学习笔记
What to do next?
- 详读【8】:High Speed and High Dynamic Range Video with an Event Camera;
- 【104】:Events-tovideo: Bringing modern computer vision to event cameras,
Why do you read it?
- I read it because I want to know what/why/how about the image reconstruction task based on event camera.
4.5 Image Reconstruction
1. What is image reconstruction?
- Events are just a non-redundant (i.e., "compressed") per-pixel way of encoding the visual content in the scene. Event integration or, more generically, image reconstruction can be interpreted as "decompressing" the visual data encoded in the event stream.
- 事件流可以看作是场景视觉信息的压缩形式,图像重建可视作将事件流中的视觉信息解压缩的过程。
2. Why do it?
- 图像重建可以将事件转为亮度图像,然后应用成熟的计算机视觉算法[104, 204], 这对基于事件的和基于帧的团体都有重要影响;
- 重建的图像捕获高速运动和高动态场景,这对某些应用场景很有好处,但是以增加计算开销、延时和功耗为代价;
- 最重要的一点是图像重建提供了场景表征,比如外观映射[7,24],这种表征相对于事件数据对运动更稳定,并且协助建立事件联系,这是一些事件数据处理任务的最大挑战之一,如特征跟踪[64]。
3. How did the previous works do image reconstruction and what are the shortages of them?
- 从第一篇到现在,解决思路的演变过程如何?
- 正如文献所揭示的,从事件中重建图像的洞察力是它需要正则化(?)。事件记录的是图像的亮度变化,如果直接积分的话,得到的是增量图像,所以需要一个偏置图像(an offset image),即一段序列最开始的亮度图像,加到增量图像上[81, 200]。
- 但也有些工作[62,119,199,201]使用时间或空间平滑从0开始来重建亮度图像。
- 另外一些形式的正则化,使用了从自然场景中学习特征来达到重建的目的[102, 104, 199].
- 每篇文章是如何分析图像重建这个问题的,如何给出解决思路?
- [23]首先提出了假设在旋转摄像机运动和静态场景下从事件中重建图像,这些假设和亮度常数(4)一起被用于视觉映射网络中像素之间的消息传递算法,共同估计几个量,如场景亮度。 [24]也在上述运动和场景假设下,展示了如何从事件中重建高分辨率全景图,推广了基于事件的HDR图像重建的思想。全景图像的每个像素使用卡尔曼滤波器估计亮度梯度(基于(4)),然后使用泊松重建进行集成,得到绝对亮度。[203]中的方法利用了平台绕单轴旋转的受限运动来重建图像,然后用于立体深度估计.
- [101]将运动限制替换为正则化假设,以实现通用运动和场景的图像重建。在这项工作中,图像亮度和光流同时估计使用一个变分框架,其中包含几个惩罚项(关于数据拟合(1)和解的平滑性),以最好地解释离散为体素网格的事件时空体积。该方法是第一个在动态场景中显示事件重建视频的方法。后来[119],[199],[201]表明,即使不需要估计运动,图像重建也是可能的。这可以使用基于时间曲面的变分图像去噪方法[119],[201],或者使用稀疏信号处理,使用基于补丁的学习字典,将事件映射到图像梯度,然后进行泊松积分[199]。与此同时, [25]和[26]中的VO方法,将[24]中的图像重建技术通过使用计算出的场景深度和姿态扩展到6自由度的相机运动:[25]使用鲁棒变分正则器来减少噪声并提高重建图像的对比度,而[26]显示图像重建作为辅助结果,因为它不需要实现VO。最近,[62]提出了一种用于图像重建和连续融合事件和帧的时间平滑滤波器。滤波器独立作用于每个像素,因此显示不需要空间正则化在图像平面上也能恢复亮度,虽然它自然地减少了噪音和人工制品以牺牲一些真正的细节为代价。
- 最近,[8],[104]提出了一种深度学习方法,与以前的方法相比取得了相当大的进步,并减轻了视觉假象。回顾早期的作品,支持图像重建的运动限制或手工制作的正则化器已经被来自自然场景的感知的、基于数据的先验所取代,从而产生更自然的图像。注意,VO或SLAM[23],[24],[25]中使用的图像重建方法假设静态场景,而[8],[62],[101],[104],[119],[199],[201]方法具有弱或无运动假设,自然用于重建任意(如动态)场景的视频。
- 另外除了从事件中重建图像,另一类方法解决了事件和帧的融合问题(例如,来自DAVIS[4]),从而增强了来自具有高时间分辨率和事件[28]的HDR属性的帧的亮度信息,[62],[200]。这些方法也不依赖运动知识,最终基于(2)。[200]中的方法在帧之间按像素执行直接事件集成。然而,融合的亮度很快就会被事件噪声破坏(由于非理想的效果,灵敏度不匹配,丢失的事件等),所以融合是重置与每一个传入帧。为了减少噪声,事件和帧在[62]中使用逐像素的时间互补滤波器进行融合,该滤波器在事件中为高通,在帧中为低通。这是一种有效的解决方案,它考虑了事件和帧的互补感知方式:帧携带缓慢变化的亮度信息(即低时间频率),而事件携带“变化”信息(即高频)。[28]中的融合方法利用事件的高时间分辨率从帧中去除运动模糊,从单个模糊帧和事件中产生高帧率、清晰的视频。它基于一个优化框架内的二重积分模型(一个积分恢复亮度,另一个积分消除模糊)。上述方法的一个局限性是仍然会受到事件噪声的影响而产生假象。如果结合以学习为基础的方法,这些问题可能会得到缓解[8]。
4. 有何启示?
- 压缩和解压缩的过程是否可以对应训练一个编码器和一个解码器网络,学习一个完整的映射?并非闭环,event和frame清晰度不同,event重建的图像要更清晰,frame可能对应模糊的图像,另外,event中的噪声需要抑制。