对付注释者而言,在工具周围绘制边界框比完备分割同一图像要随意马虎得多。

基于机器学习的语义分割系统常日是在图像上进行演习的,在该图像中,已经仔细地手动跟踪了工具边界,这是一项耗时的操作。
另一方面,可以在图像上演习工具检测系统,在这些图像中,工具由称为边界框的矩形框起来。
对付人类注释者,对图像进行手工分割均匀须要的韶光是标记边界框的35倍。

本日先容一个新系统,称为Box2Seg,该系统仅利用边界框演习数据(弱监督学习的一个示例)来学习对图像进行分割。

在实验中,此的系统在称为均值交集(mIoU)的度量标准上比以前的弱监督系统提高了2%,该度量标准衡量了系统对图像的分割与手动分割之间的同等性。
此系统的性能也可以媲美在一样平常图像数据上进行预演习,然后在完备分割的数据上进行演习的系统。

计算机机械进修无需手动瓜分演习数据即可对图像进行图片瓜分

此外,当利用弱监督方法演习系统,然后在完备分割的数据上对其进行微调时,对一样平常图像数据进行预演习的系统的性能提高了16%。
这表明,纵然有分段的演习数据可用,利用此弱监督方法进行的预演习仍旧具有上风。

喧华的标签

此方法是将边界框视为喧华的标签。
将框内的每个像素都视为已标记为试图探求其边界的工具的一部分;但是,个中一些像素的标签禁绝确。
框外的所有像素均视为精确标记的背景像素。

在演习过程中,此系统的输入通过三个卷积神经网络:一个工具分割网络和两个赞助网络。
在运行期间,我们丢弃了赞助网络,因此它们不会增加已支配系统的繁芜性。

赞助网络之一在图像中的像素之间实行成比拟较,以考试测验学习区分派景和前景的一样平常方法。
直不雅观地,它正在探求边界框内的像素,这些像素与该框外精确标记的背景像素相似,并且在该框内探求彼此不同的像素簇。
我们将此网络称为嵌入网络,由于它学习的是像素的矢量表示(嵌入),该像素仅捕获可用于区分派景和前景的那些属性。

利用称为GrabCut的标准分段算法供应的相对粗略的分段对嵌入网络进行预演习。
在演习过程中,嵌入网络的输出向工具分割网络供应监控旗子暗记。
也便是说,我们用来评估嵌入网络性能的标准之一是其输出与嵌入网络的输出是否同等。

另一个赞助网络是标签特定的关注网络。
它学会识别视觉属性,这些视觉属性常常在具有相同标签的边界框内的像素之间重复涌现。
可以将其视为工具检测器,其输出不是工具标签,而是突出显示特定工具类特色的像素簇的图像图。

利用边界框手动分割图像

从左到右:图像的手动分割;边界框与GrabCut算法供应的粗略分割相结合;以及边界框与研究职员特定标签关注网络的输出相结合。
在第三对图像中,朝向光谱赤色真个颜色表示图像特色,这些特色常常涌如今带有特定标签的边界框内。
在演习过程中,工具分割网络应特殊把稳哪些功能。

标签特定的关注网络仅对演习中看到的工具种别有用。
它的输出可能会与未经演习的工具种别揠苗助长。
但是在演习过程中,它像嵌入网络一样,供应了有用的监督旗子暗记,可以帮助工具分割网络学习实行更常规的分割。

在利用标准基准数据集进行的实验中,创造仅利用边界框演习数据,Box2Seg的性能就优于在完备分割的演习数据上演习的其他12个别系。
当利用Box2Seg演习的网络在完备分段的数据上进行了微调时,性能提高乃至更加明显。
这表明,在没有完备分割的演习数据时,纵然是在没有监督演习的情形下,对工具分割进行弱监督演习也可能会很有用。