@hshustc
2018-12-08T21:56:09.000000Z
字数 1271
阅读 1617
ComputerVision
计算机视觉,英文Computer Vision,简称CV,顾名思义是一门研究如何使计算机“看”的科学。它的目标是使计算机能像人一样通过视觉观察和理解世界,从而具有自主适应环境的能力。对于计算机而言,摄像头所拍摄的图片只是一堆0/1的数字,如何从这些死板的数字里面读取到有意义的视觉信息,是计算机视觉应该解决的问题。下面作者将对计算机视觉中的经典任务,包括物体识别,物体检测,语义分割,实例分割,视觉问答等,一一加以介绍,以期让读者获取到一个对计算机视觉的整体了解。
物体识别是计算机视觉中最基础的任务之一,即给定一张图片或者一段视频,算法能够自动识别出其中的常见物体。该任务又可以细分为单标签识别(single-label object recognition)以及多标签识别(multi-label object recognition)。下图所示是一个用CNN进行图像识别(Input image->This is a Chihuahua)的例子。现实中的应用包括像微软识花的app,手机拍照里面的场景识别(如自动识别出是在会议室还是阳光沙滩)等等。
物体检测是计算机视觉在现实中应用最广的任务,相较于图像识别,除了需要找出输入图片或者视频中物体的类别属性之外,还需要找出其位置信息,由此衍生出了诸如人脸检测(Face Detection,在安防中获得了大量应用,具体可参见张学友演唱会新闻),车辆检测(Vehicle Detection,例如违章停车被摄像头拍下来会自动上传交管中心)等细分的检测算法。
得益于自动驾驶技术的快速发展,语义分割是近年来的热门研究方向之一,它可以被看作是一个特殊的物体识别任务,即对输入图像或视频中的每个像素进行预测。如下图所示,图像中的每一个像素都有属于自己的类别,行驶中的汽车会根据语义分割的结果作出相应的决策。
实例分割在语义分割的基础上更进一步。语义分割中不区分属于相同类别的不同实例,如图像中有很多个人时,语义分割会将所有人的像素都预测为“人”。与此不同的是,实例分割需要区分出哪些像素属于第一个人,哪些像素属于第二个人。
视觉问答的研究目的在于根据输入图像或视频,由用户进行提问,而算法自动根据提问问题以及输入内容进行回答。除了问答以外,还有一种与视觉问答密切相关的算法称为标题生成算法(image/video caption),即计算机根据输入图像或者视频自动生成一段描述内容的文本。这种跨越两种数据形态(文本和图像)的算法,有时候也称为多模态问题。
通过以上的介绍读者是否对计算机视觉有了个整体的认识呢?计算机视觉是一门很有意思的学科,里面有很多激动人心的问题,并且具有巨大的实用价值。如果对这个方向有什么问题的话,欢迎随时咨询。