@hshustc 2018-12-08T13:56:09.000000Z 字数 1271 阅读 1992

计算机视觉入门介绍

ComputerVision

计算机视觉，英文Computer Vision，简称CV，顾名思义是一门研究如何使计算机“看”的科学。它的目标是使计算机能像人一样通过视觉观察和理解世界，从而具有自主适应环境的能力。对于计算机而言，摄像头所拍摄的图片只是一堆0/1的数字，如何从这些死板的数字里面读取到有意义的视觉信息，是计算机视觉应该解决的问题。下面作者将对计算机视觉中的经典任务，包括物体识别，物体检测，语义分割，实例分割，视觉问答等，一一加以介绍，以期让读者获取到一个对计算机视觉的整体了解。

物体识别（Object Recognition）

物体识别是计算机视觉中最基础的任务之一，即给定一张图片或者一段视频，算法能够自动识别出其中的常见物体。该任务又可以细分为单标签识别（single-label object recognition）以及多标签识别（multi-label object recognition）。下图所示是一个用CNN进行图像识别（Input image->This is a Chihuahua）的例子。现实中的应用包括像微软识花的app，手机拍照里面的场景识别（如自动识别出是在会议室还是阳光沙滩）等等。
image recognition

物体检测（Object Detection）

物体检测是计算机视觉在现实中应用最广的任务，相较于图像识别，除了需要找出输入图片或者视频中物体的类别属性之外，还需要找出其位置信息，由此衍生出了诸如人脸检测（Face Detection，在安防中获得了大量应用，具体可参见张学友演唱会新闻），车辆检测（Vehicle Detection，例如违章停车被摄像头拍下来会自动上传交管中心）等细分的检测算法。
object detection

语义分割（Semantic Segmentation）

得益于自动驾驶技术的快速发展，语义分割是近年来的热门研究方向之一，它可以被看作是一个特殊的物体识别任务，即对输入图像或视频中的每个像素进行预测。如下图所示，图像中的每一个像素都有属于自己的类别，行驶中的汽车会根据语义分割的结果作出相应的决策。
semantic segmentation

实例分割（Instance Segmentation）

实例分割在语义分割的基础上更进一步。语义分割中不区分属于相同类别的不同实例，如图像中有很多个人时，语义分割会将所有人的像素都预测为“人”。与此不同的是，实例分割需要区分出哪些像素属于第一个人，哪些像素属于第二个人。
instance segmentation

视觉问答（Visual Question Answering）

视觉问答的研究目的在于根据输入图像或视频，由用户进行提问，而算法自动根据提问问题以及输入内容进行回答。除了问答以外，还有一种与视觉问答密切相关的算法称为标题生成算法（image/video caption），即计算机根据输入图像或者视频自动生成一段描述内容的文本。这种跨越两种数据形态（文本和图像）的算法，有时候也称为多模态问题。
visual question answering

通过以上的介绍读者是否对计算机视觉有了个整体的认识呢？计算机视觉是一门很有意思的学科，里面有很多激动人心的问题，并且具有巨大的实用价值。如果对这个方向有什么问题的话，欢迎随时咨询。