小白版本

在 CV 出现之前,一张图片对于机器只是一个文件(18禁.jpg)。机器并不知道图片里的内容到底是什么,只知道这张图片是什么尺寸,有多少k,是什么格式的……

而图片中最重要的信息并不是大小和尺寸,而是图片里到底有什么内容,是帅哥美女,还是阿猫阿狗。

CV之前机器是“看不懂”图片的
CV之前机器是“看不懂”图片的

计算机视觉(CV)就是要解决机器“看不懂”图片的问题!

目前主流的 CV 技术都是采用深度学习的技术,经过学习之后机器可以看懂图片和视频(视频可以看成很多图片的集合)里的内容了。现在机器可以看懂图片里的很多东西,例如:

  • 图片(或视频)是否有人脸,这张脸是谁
  • 图片里是否存在动物,是什么动物
  • 图片里是有什么物品
  • 自动驾驶中对车道的识别
  • ……
CV可以看懂图片里的内容
CV可以看懂图片里的内容

 

百度百科版本

计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。这里所 指的信息指Shannon定义的,可以用来帮助做一个“决定”的信息。因为感知可以看作是从感官信号中提 取信息,所以计算机视觉也可以看作是研究如何使人工系统从图像或多维数据中“感知”的科学。

查看详情

 

维基百科版本

计算机视觉是一个跨学科的科学领域,涉及如何制作计算机以从数字图像或视频中获得高层次的理解。从工程的角度来看,它寻求自动化人类视觉系统可以完成的任务。

计算机视觉任务包括用于获取,处理,分析和理解数字图像的方法,以及从现实世界中提取高维数据以便例如以决策的形式产生数字或符号信息。

在这种情况下理解意味着将视觉图像(视网膜的输入)转换为可以与其他思维过程交互并引出适当行动的世界描述。这种图像理解可以看作是利用几何学,物理学,统计学和学习理论构建的模型从图像数据中解开符号信息。

作为一门科学学科,计算机视觉关注从图像中提取信息的人工系统背后的理论。图像数据可以采用多种形式,例如视频序列,来自多个相机的视图或来自医学扫描仪的多维数据。作为一门技术学科,计算机视觉试图将其理论和模型应用于计算机视觉系统的构建。 计算机视觉的子域包括场景重建,事件检测,视频跟踪,对象识别,3D姿态估计,学习,索引,运动估计和图像恢复。

查看详情

 

【视野】深度学习计算机视觉极限将至,我们该如何找到突破口?

【实践】从三大案例,看如何用 CV 模型解决非视觉问题

【实践】使用Google Colab构建一个图像分类模型,10分钟搞定!

【应用】万物皆可“计算机视觉”