编译:ronghuaiyang
导读
先容使图像分割的方法,包括传统方法和深度学习方法,以及运用处景。
基于人工智能和深度学习方法的当代打算机视觉技能在过去10年里取得了显著进展。如今,它被用于图像分类、人脸识别、图像中物体的识别、视频剖析和分类以及机器人和自动驾驶车辆的图像处理等运用上。
许多打算机视觉任务须要对图像进行智能分割,以理解图像中的内容,并使每个部分的剖析更加随意马虎。本日的图像分割技能利用打算机视觉深度学习模型来理解图像的每个像素所代表的真实物体,这在十年前是无法想象的。
深度学习可以学习视觉输入的模式,以预测组成图像的工具类。用于图像处理的紧张深度学习架构是卷积神经网络(CNN),或者是特定的CNN框架,如AlexNet、VGG、Inception和ResNet。打算机视觉的深度学习模型常日在专门的图形处理单元(GPU)上演习和实行,以减少打算韶光。
什么是图像分割?图像分割是打算机视觉中的一个关键过程。它包括将视觉输入分割成片段以简化图像剖析。片段表示目标或目标的一部分,并由像素集或“超像素”组成。图像分割将像素组织成更大的部分,肃清了将单个像素作为不雅观察单位的须要。图像剖析有三个层次:
分类 - 将整幅图片分成“人”、“动物”、“户外”等种别目标检测 - 检测图像中的目标并在其周围画一个矩形,例如一个人或一只羊。分割 - 识别图像的部分,并理解它们属于什么工具。分割是进行目标检测和分类的根本。语义分割 vs. 实例分割在分割过程本身,有两个粒度级别:
语义分割 - 将图像中的所有像素划分为故意义的工具类。这些类是“语义上可阐明的”,并对应于现实天下的种别。例如,你可以将与猫干系的所有像素分离出来,并将它们涂成绿色。这也被称为dense预测,由于它预测了每个像素的含义。实例分割 - 标识图像中每个工具的每个实例。它与语义分割的不同之处在于它不是对每个像素进行分类。如果一幅图像中有三辆车,语义分割将所有的车分类为一个实例,而实例分割则识别每一辆车。传统的图像分割方法还有一些过去常用的图像分割技能,但效率不如深度学习技能,由于它们利用严格的算法,须要人工干预和专业知识。这些包括:
阈值 - 将图像分割为前景和背景。指定的阈值将像素分为两个级别之一,以隔离工具。阈值化将灰度图像转换为二值图像或将彩色图像的较亮和较暗像素进行区分。K-means聚类 - 算法识别数据中的组,变量K表示组的数量。该算法根据特色相似性将每个数据点(或像素)分配到个中一组。聚类不是剖析预定义的组,而是迭代地事情,从而有机地形成组。基于直方图的图像分割 - 利用直方图根据“灰度”对像素进行分组。大略的图像由一个工具和一个背景组成。背景常日是一个灰度级,是较大的实体。因此,一个较大的峰值代表了直方图中的背景灰度。一个较小的峰值代表这个物体,这是另一个灰色级别。边缘检测 - 识别亮度的急剧变革或不连续的地方。边缘检测常日包括将不连续点排列成曲线线段或边缘。例如,一块赤色和一块蓝色之间的边界。深度学习如何助力争像分割方法当代图像分割技能以深度学习技能为动力。下面是几种用于分割的深度学习架构:
利用CNN进行图像分割,是将图像的patch作为输入输入给卷积神经网络,卷积神经网络对像素进行标记。CNN不能一次处理全体图像。它扫描图像,每次看一个由几个像素组成的小“滤镜”,直到它映射出全体图像。
传统的cnn网络具有全连接的层,不能处理不同的输入大小。FCNs利用卷积层来处理不同大小的输入,可以事情得更快。终极的输出层具有较大的感想熏染野,对应于图像的高度和宽度,而通道的数量对应于类的数量。卷积层对每个像素进行分类,以确定图像的高下文,包括目标的位置。
集成学习 将两个或两个以上干系剖析模型的结果合成为单个。集成学习可以提高预测精度,减少泛化偏差。这样就可以对图像进行精确的分类和分割。通过集成学习考试测验天生一组弱的根本学习器,对图像的部分进行分类,并组合它们的输出,而不是试图创建一个单一的最优学习者。
DeepLab 利用DeepLab的一个紧张动机是在帮助掌握旗子暗记抽取的同时实行图像分割 —— 减少样本的数量和网络必须处理的数据量。另一个动机是启用多尺度高下文特色学习 —— 从不同尺度的图像中聚合特色。DeepLab利用ImageNet预演习的ResNet进行特色提取。DeepLab利用空洞卷积而不是规则的卷积。每个卷积的不同扩展率使ResNet块能够捕获多尺度的高下文信息。DeepLab由三个部分组成:
Atrous convolutions — 利用一个因子,可以扩展或紧缩卷积滤波器的视场。ResNet — 微软的深度卷积网络(DCNN)。它供应了一个框架,可以在保持性能的同时演习数千个层。ResNet强大的表征能力促进了打算机视觉运用的发展,如物体检测和人脸识别。Atrous spatial pyramid pooling (ASPP) — 供应多尺度信息。它利用一组具有不同扩展率的繁芜函数来捕获大范围的高下文。ASPP还利用全局均匀池(GAP)来合并图像级特色并添加全局高下文信息。SegNet neural network 一种基于深度编码器和解码器的架构,也称为语义像素分割。它包括对输入图像进行低维编码,然后在解码器中利用方向不变性能力规复图像。然后在解码器端天生一个分割图像。
图像分割的运用
图像分割有助于确定目标之间的关系,以及目标在图像中的高下文。运用包括人脸识别、车牌识别和卫星图像剖析。例如,零售和时尚等行业在基于图像的搜索中利用了图像分割。自动驾驶汽车用它来理解周围的环境。
目标检测和人脸检测这些运用包括识别数字图像中特定类的目标实例。语义工具可以分类成类,如人脸、汽车、建筑物或猫。
人脸检测 - 一种用于许多运用的目标检测,包括数字相机的生物识别和自动对焦功能。算法检测和验证面部特色的存在。例如,眼睛在灰度图像中显示为谷地。医学影像 - 从医学影像中提取临床干系信息。例如,放射学家可以利用机器学习来增强剖析,通过将图像分割身分歧的器官、组织类型或疾病症状。这可以减少运行诊断测试所需的韶光。机器视觉 - 捕捉和处理图像,为设备供应操作辅导的运用。这包括工业和非工业的运用。机器视觉系统利用专用摄像机中的数字传感器,使打算机硬件和软件能够丈量、处理和剖析图像。例如,检测系统为汽水瓶拍照,然后根据合格 - 不合格标准剖析图像,以确定瓶子是否被精确地添补。视频监控 — 视频跟踪和运动目标跟踪这涉及到在视频中定位移动物体。其用场包括安全和监视、交通掌握、人机交互和视频编辑。
自动驾驶 自动驾驶汽车必须能够感知和理解他们的环境,以便安全驾驶。干系类别的工具包括其他车辆、建筑物和行人。语义分割使自动驾驶汽车能够识别图像中的哪些区域可以安全驾驶。虹膜识别 一种能识别繁芜虹膜图案的生物特色识别技能。它利用自动模式识别来剖析人眼的视频图像。人脸识别 从视频中识别个体。这项技能将从输入图像中选择的面部特色与数据库中的人脸进行比较。零售图像识别这个运用让零售商理解货架上商品的布局。算法实时处理产品数据,检测货架上是否有商品。如果有产品缺货,他们可以找出缘故原由,关照跟单员,并为供应链的相应部分推举办理方案。
英文原文:https://missinglink.ai/guides/computer-vision/image-segmentation-deep-learning-methods-applications/
更多内容,请关注微信"大众号“AI公园”。