计算机视觉中的重要研究方向

 计算机视觉     |      2020-11-19 18:05

  视觉是一门研究如何让计算机达到人类那样“看”的技术。使用摄像头和电脑来代替人类完成一些复杂的工作,例如对目标进行分类、识别、分割、跟踪等,计算机视觉技术已经在很多行业的应用场景中大放异彩。

  本文将主要介绍计算机视觉中的几个重要的研究方向。主要包括图像分类、目标检测、语义分割、实例分割、全景分割等。通过对这几个计算机视觉任务的对比,我们将更好的理解每个视觉任务的含义以及应用场景。我们将通过这张对比图来对以上的概念进行说明。

  图像分类是计算机视觉任务中的一个重要的概念,目标检测技术的发展之初也主要是通过图像分类思想来实现的。

  图像分类,顾名思义,即是输入一张图像,我们通过算法来输出这个图像的类别,例如判断出这张图像是猫或者狗。对于经典的Mnist数据集来说,这个数据集包括了0到9共10个数字的手写体图片,所以这就是一个典型的图像多分类问题,即将这些图片分为0到9共10个类别。传统的图像分类的主要步骤是进行特征提取,然后训练分类器。

  2012年,基于神经网络的AlexNet网络提出,在2012年的ImageNet竞赛中夺得冠军。之后,更多的更深的神经网络被提出,比如优秀的vgg、GoogLeNet、ResNet等。

  目标检测是对图像中的目标进行分类和定位,如图所示,即找出图像中的三个目标,将其划分为“羊”这个类别,然后对每一只羊的位置进行定位,用边界框的形式将其位置标注出来,目标检测的应用非常广泛。

  目前目标检测领域的深度学习方法主要分为两类:两阶段的目标检测算法、单阶段目标检测算法。两阶段目标检测是指首先由算法生成一系列作为样本的候选框,再通过卷积神经网络进行样本分类。常见的两阶段算法有R-CNN、Fast R-CNN、Faster R-CNN等。单阶段目标检测算法不需要产生候选框,直接将目标框定位的问题转化为回归问题处理。常见的算法有YOLO系列算法、SSD算法等。

  语义分割是一种像素级别的分类,就是把图像中每个像素赋予一个类别标签(比如羊、草地等),对比图中的语义分割没有对草地和天空进行划分,只是单纯的将每一个像素划分为:是羊的像素;不是羊的像素。将羊的像素部分用颜色表示出来,我们一般将其称为二进制掩码,即一个0-1矩阵,其中羊的像素部分取值为1,不是羊的像素部分,取值为0。于是上述的图片如果使用语义分割算法进行图像分割,得到的二进制掩码如下图所示:

  通过对掩码的解析,我们就可以知道当前图像中是否存在羊,以及羊处于什么位置。但是语义分割有一个局限性,比如如果一个像素被标记为橙色,那就代表这个像素所在的位置是一只羊,但是如果有两个都是橙色的像素,语义分割无法判断它们是属于同一只羊还是不同的羊。也就是说语义分割只能判断类别,无法区分个体。

  语义分割中的经典算法为全卷积网络FCN,通常CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图映射成一个固定长度的特征向量。以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务。与经典的CNN在卷积层之后使用全连接层得到固定长度的特征向量进行分类不同,FCN可以接受任意尺寸的输入图像,采用反卷积层对最后一个卷积层的feature map进行上采样,使它恢复到输入图像相同的尺寸,从而可以对每个像素都产生了一个预测,同时保留了原始输入图像中的空间信息,最后在上采样的特征图上进行逐像素分类。

  实例分割算法有点类似于语义分割和目标检测的结合,不过目标检测输出的是边界框的坐标,实例分割除了输出边界框的坐标,还会输出二进制掩码。实例分割和语义分割不同,它不需要对每个像素进行标记,它只需要找到感兴趣物体的边缘轮廓就行,实例分割是在像素级识别对象轮廓的任务。比如上图中的羊就是感兴趣的物体。我们可以看到每只羊都是不同的颜色的轮廓,因此我们可以区分出单个个体。

  经典的实例分割算法有Mask-RCNN算法、SOLO算法,以及提升速度的YOLACT算法、BlendMask算法等。

  全景分割最先由FAIR与德国海德堡大学联合提出,其任务是为图像中每个像素点赋予类别Label和实例ID,生成全局的、统一的分割图像。全景分割任务要求图像中的每个像素点都必须被分配给一个语义标签和一个实例ID。其中,语义标签指的是物体的类别,而实例ID则对应同类物体的不同编号。全景分割的一个重要的特征在于其对背景也进行了检测和分割。全景分割可以认为是语义分割和实例分割的结合。

  计算机视觉任务目前的主要应用场景主要有:人脸识别自动驾驶、人群计数、视频监控、文字识别、医学图像分割等。其应用领域涉及诸多行业。通过将图像的分类、识别、分割、跟踪等技术进行结合,可以在更多的行业场景中发挥作用。

  文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

  据市场研究公司Strategy Analytics估计,到2021年,全球消费者在智能家居设备上的支....

  关于太阳能电池的选择, 应考虑的因素包括输出功率、电压、抗干扰能力以及和电源模块的耦合性等。其中, ....

  据报道,2019年,位于杭州的东风裕隆生产基已经处于停产状态。随后今年的11月13日,东风裕隆汽车销....

  研究亮点: 1. 基于MoS2开发了一种基于浮栅场效应晶体管(FGFETs)的存储器中逻辑器件和电路....

  随着人工智能技术的快速落地,智能机器人产业的持续发展,机器视觉正迸发出更加强劲的活力。目前,机器视觉....

  11月17日,郑州高新技术产业开发区管理委员会与紫光计算机联合在北京召开主题为“智造新工具·数字新启....

  11 月 15 日,第二届中国超级算力大会在北京举行,2020 年的中国高性能计算机性能TOP100....

  对于检查塑料、油漆和标签的开发者而言,紫外(UV)照明能显示出可见光无法显示出的缺陷。 许多机器视觉....

  计算机视觉领域中,目标检测一直是工业应用上比较热门且成熟的应用领域,比如人脸识别、行人检测等,国内的....

  现代计算机通过执行几十年前几乎不可能实现的任务,正在不断改变我们的生活。各种各样的创新使现代计算机(....

  关于菲力尔 美国菲力尔公司(FLIR Systems, Inc.)专注于设计、开发、生产、营销和推广....

  叶绿素含量的检测具有相当重要的意义,它能够反映植物的健康状况,例如说叶绿素含量少,我们可以了解植物的....

  走进位于桐乡的桐昆集团恒邦厂区纺丝三车间,未来工厂试验产线G+AI智能巡检机器人....

  每一代华为Mate系列除了首发麒麟Soc、拥有强大的影像能力之外,工业设计也是华为Mate40系列的....

  中兴也有了自家的 超大杯机型,刚刚中兴手机正式宣布了中兴天机 AXON 20 至尊版手机。 从官方放....

  对B码进行解码就是将B码中所包含的时、分、秒信息提取出来,转换成主计算机能够识别的形式,同时以秒的准....

  说起来,该3D激光扫描测距仪(3D激光雷达)就核心设计原理来而言,应该在激光键盘设计项目之后。现在给....

  尽管如今的人工智能已经极其先进了,但它们还是无法意识到自己的真实身份。也许它们能回答“你是不是计算机....

  AI 独角兽开启上市潮,素有 AI 四小龙之称的依图科技也在近日提交了科创板招股书,若进展顺利,其有....

  “超大杯”是今年手机行业的热词,像华为、三星、小米、Redmi都有“超大杯”。

  华为保持对小米10至尊纪念版以及iPhone 12 Pro Max榜单领先

  刚接触视觉部分的小白,想利用labview和大恒摄像头读取条形码数据。 如下图,不知道是不是采集的条形码还是太过于模糊了,不够清...

  由于计算机科学和电子技术的迅速发展,如今,就市场份额而言,人脸识别正成为仅次于指纹的全球第二大生物特....

  11 月 17 日,郑州高新技术产业开发区管理委员会与紫光股份旗下紫光计算机联合在北京召开主题为 智....

  日前有数码博主爆料称,华为与徕卡的合作已经到期。据Android Authority报道,华为方面回....

  为解决共享交通下的共乘用户群体发现效率低、准确率不高问题,依据R-树原理建立Geo OD-Tree索....

  IT之家 11 月 18 日消息 根据外媒 TechPowerUp 的消息,由日本理研所和富士通联合....

  10月16日,中共中央政治局集体学习量子科技。就在此前一天,美国国务院发布了《关键与新兴技术国家战略....

  在今天召开的OPPO 未来科技大会 2020(OPPO INNO DAY 2020)上,OPPO 推....

  先来看一组数据。据群智咨询数据显示,2020年三季度全球手机摄像头传感器出货量约17亿颗,其中智能手....

  Cerebras Systems和联邦能源部国家能源技术实验室今天宣布,该公司的CS-1系统比图形处....

  紫光计算机召开新品发布会,宣告计算机业务的回归。其主打产品为商用计算机,主要面向行业客户。紫光计算机....

  智能制造的起源是智慧工厂,而智慧工厂的概念最早由IBM于2009年提出,属于IBM“智慧地球”理念在....

  2020年11月17日-18日,OPPO未来科技大会2020 (OPPO INNO DAY 2020....

  苹果iPhone12mini/Pro Max体验:拍视频无敌,信号不完美

  今年苹果 iPhone 12 系列的后两道菜 iPhone 12 mini 和 iPhone 12 ....

  今天,中兴手机宣布明天有大事要宣布,细节暂未透露。有网友猜测,中兴明天可能会宣布新机。此前中兴通讯吕....

  相信大家在刚接触机器视觉检测这个行业的时候有点二丈摸不着头脑,首先是不明白这个视觉检测是什么意思,其....

  11 月 17 日消息,紫光计算机召开新品发布会,正式宣告商用计算机业务的回归。紫光计算机科技有限公....

  由于小米10系列机型的出色市场表现,现在已经有不少消费者的目光开始投向小米11系列机型。此前,网上也....

  机器视觉就是用机器代替人眼来做测量和判断。机器视觉系统是指通过杋器视觉产品将被摄取目标转换成图像信号....

  本次建设的视频监控系统设计以数字网络架构为基础,应用基于计算机网络的多媒体控制管理技术,将监控视频图....

  作为一个经常混迹于各大论坛以及平台的数码产品爱好者,报名众测数码产品可以说是家常便饭了。毕竟绝大部分....

  2019年中国自动化市场规模达到1865亿元,较2018年增长1.8%。随着《智能制造发展规划(20....

  相机评比机构 DxOMark,近日对 iPhone 12 Pro 的摄像头展开了一番详细的评测。结果....

  平板电脑各个部件进行的质检与测试环节尤为重要,尤其是LCD/OLED屏幕、3C锂电池、平板上的摄像头....

  当选择两种光源的时候,最佳的选择是选择更亮的那个。当光源不够亮时,可能有三种不好的情况会出现。第一,....

  香橙派Orange Pi Zero2开发板使用USB摄像头的方法(安卓镜像)

  1) 先在开发板的 USB 接口中插入 USB 摄像头,然后确认下 USB 摄像头相关的内 核模块已正常加载 7) 然后双击...

  2020年4月,以近70亿美元被英伟达最终收购的以色列顶级数据中心网络技术公司Mellanox,在长....

  计算机辅助制造cam已广泛应用于飞机、汽车、机械制造业、家用电器和电子产品制造业。

  日经报道,日本理化学研究所周二表示,日本的“Fugaku”超级计算机在美国-欧洲500强项目的年度排....

  计算机辅助制造的英文缩写为CAM。计算机辅助制造是指在机械制造业中,利用电子数字计算机通过各种数值控....

  近日,评定全球最强超级计算机Top 500第56期新榜单公布,来自日本的超级计算机富岳再次蝉联第一,....

  目前机器视觉在智能制造、自动化领域的作用越来越重要,机器视觉检测技术的应用能更大程度地把关、提高产品质量、降低生产成本,...

  于10月24日参加了深圳的HarmonyOS先行者技术沙龙,在活动现场,除了聆听各位专家的讲座外,并有幸申请到一套HiSpark IPC...

  本章将介绍计算机视觉中最核心传感器-摄像头的基本使用,主要讲解了CSI摄像头,USB摄像头,网络摄像头的基本使用。 ...

  计算机解题的基本思想方法和步骤。是对要解决一个问题或要完成一项任务所采取的方法和步骤的描述,包...

  在薄膜的实际生产过程中,由于各方面因素的影响,薄膜表面会出现诸如孔洞、蚊虫、黑点、晶点、划伤、斑点等瑕疵,严重影响了薄膜...

  颗粒分析,包括《NI Vision 概念手册》中以下章节:第8章,图像分割,包含了使用全局灰度阈值、全局颜色阈值、局部阈值和形态...

  机器视觉是通过计算机来模拟人类视觉功能,以让机器获得相关视觉信息和加以理解。在制造业质检环节中,大部分缺陷检测情况都由肉...

  【HarmonyOS HiSpark IPC DIY Camera试用连载 】Hi3518 HiSpark IPC DIY Camera开箱

  很遗憾收到套件这么长时间才发开箱体验,在开始体验正文之前还是要感谢这次活动并且感谢给我这次体验的机会!当我看到我获得试用...