多阶段检测器进行点标注到框标注转换的方法与流程

文档序号：30757706发布日期：2022-07-13 12:45阅读：137来源：国知局

1.本发明涉及计算机视觉技术领域，更具体地，涉及一种多阶段检测器进行点标注到框标注转换的方法。

背景技术：

2.目标检测是从一张图片中找到感兴趣的实例，给出其外接框的坐标与对应的类别，但是标注物体的框比较繁琐，需要不断调整框的边界，学术界也有用无任何标注的图片或者只有分类类别的标注来提升检测器性能的尝试，但是因为缺少实例级别信息，对检测器的性能提升有限。
3.目前，在point-detr方案中，提出了使用点标注来提升检测器的性能，将每个感兴趣的实例上的任意位置点作为一个具有类别标注的点，其先使用少量框标注的数据来训练一个可以从点标注转化为框标注的检测器，然后在点标注的数据上预测出框标注，所有的数据就可以被任意的检测器使用。这种方案基于transformer模型，利用点标注的位置与类别生成query代替detr预设的query与特征图交互，得到对应实例的检测框。现有的point-detr虽然提出了基本的解决方法，但因为点标注失去了尺度信息，并且没有提出有效方案来解决多层特征图的正负样本匹配问题，而是选择了基于transformer的单层检测器detr，然而detr存在以下缺点：
4.1)基于transformer的方法在数据量较少的情况下性能较差。
5.2)没有解决在存在多尺度特征图时的正负样本划分问题，只使用了单层特征图，因此对小物体的检测性能较差。
6.综上，尽管目标检测在深度学习帮助下获得了巨大的进步，但是深度学习的范式需要大量的标注数据，而目前目标检测通常需要在图片上对每个实例标注框与类别，费事费力。

技术实现要素：

7.本发明的目的是克服上述现有技术的缺陷，提供一种多阶段检测器进行点标注到框标注转换的方法，该方法包括以下步骤：
8.以距离标注点的距离为参考，从金字塔特征图上选择最近的多个特征点组成实例的备选特征组；
9.对于实例的备选特征组的特征，通过区域建议网络得到多个预测框，作为实例的备选框；
10.对于各实例对应的备选框，进行实例级别的正负样本匹配，以确定实例对应的实例框；
11.对于实例对应的实例框，进行回归分类，选出分数最高的框作为检测框，该分数反映检测框与实例的符合程度。
12.在一个实施例中，对于实例对应的备选框，进行实例级别的正负样本匹配包括：以
实现各实例与实例框之间的一一映射为目标，对于实例对应的备选框，仅根据与真实框的交并比阈值来确定该实例的正样本。
13.在一个实施例中，对于所述实例框，进行回归分类，选出分数最高的框作为检测框包括：
14.计算特征图上每个点距离标注点在特征图位置投影的距离，并将该距离级联在特征金字塔上，以区分各实例的特征金子塔，得到实例级别的区域池化特征；
15.对于各实例在特征金字塔上的区域池化结果作均值，得到的向量作为实例独有的描述，并且利用对应的类别编码与均值向量级联，利用此级联向量为每个实例生成独有的参数；
16.利用动态分组卷积在实例级别的区域池化特征上进行卷积，并进行分类回归，进而选出分数最高的框作为实例对应的实例框，进而实现点标注到框的转换。
17.在一个实施例中，对于所述实例框，采用卷积神经网络进行回归分类。
18.与现有技术相比，本发明的优点在于，利用点标注数据来提升检测器性能的方案，将目前每个实例框级别的标注变成实例物体上的带类别的点标注，利用点标注来获得实例的框标注，在降低标注成本的前提下，提升了检测器性能。
19.通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。
附图说明
20.被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。
21.图1是根据本发明一个实施例的多阶段检测器进行点标注到框标注转换方法的流程图；
22.图2是根据本发明一个实施例的利用点标注在金字塔特征图上生成实例的备选组的示意图；
23.图3是根据本发明一个实施例的普通正负样本与实例级别的正负样本划分的对比示意图；
24.图4是根据本发明一个实施例的多阶段检测器进行点标注到框标注转换的过程示意图；
25.图5是根据本发明一个实施例的实验效果图。
具体实施方式
26.现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
27.以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。
28.对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。
29.在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。
30.应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。
31.本发明提供在卷积神经网络基础上实现由点标注得到实例框的解决方案，整体上包括：首先，利用点标注在多层特征图上根据距离远近选择多个实例的候选框作为一组，并为每组单独进行实例级别的正负样本匹配，进而通过在特征图上根据点标注位置为每个实例添加不同的相对位置编码，然后利用级联网络对每组框进一步回归分类，以选择出其中最符合实例的检测框。
32.具体地，参见图1所示，所提供的多阶段检测器进行点标注到框标注转换方法包括以下步骤：
33.步骤s110，根据特征金字塔上各层映射的特征点与点标注之间的距离选择多个特征点组成实例组，每个实例组包含了对应实例潜在的正样本框。
34.如图2所示，利用点标注在金字塔特征图上，选择每层距离标注点最近的若干个特征点组成这个实例的备选组(或称实例组)，每个实例组中的特征通过区域建议网络得到的预测框作为对应实例的备选框。
35.本发明选择特征金字塔上特征点到点标注的距离最近的若干个点组成实例组，每个实例组包含了对应实例潜在的正样本框，从而解决了点标注失去了尺度信息后如何使用特征金字塔的问题。
36.步骤s120，针对各实例组，进行实例级别的正负样本划分，以保证每个实例组的高分框与点标注实例之间对应。
37.在得到若干实例组的备选框后，对于每个实例组的备选框，首先进行实例级别的正负样本划分，如图3所示，其中图3(a)是传统的普通正负样本划分示意，图3(b)是本发明提供的实例级别正负样本划分示意，线条颜色较浅方框表示正样本，线条颜色较深方框表示负样本，图3(a)中具有两个正样本，图3(b)中具有一个正样本。与普通检测器中的正负样本划分相比，在本发明中，每个实例组中的正负样本只根据与真实框的交并比来确定是否是这个实例的正样本，即每个实例中的框永远不可能是其他实例的正样本，从而实现了实例组到实例框的一一映射。正负样本与真实框的交并比阈值可根据目标检测效率和精度要求进行设置，例如设置为0.5或0.7等。
38.综上，传统的正负样本划分会导致不同实例组与实例无法一一对应的问题，本发明特有的实例级别的正负样本划分可以保证最后的每个实例组的高分框是对应点标注实例而不是其他实例。
39.步骤s130，对每个实例组的框进行进一步回归分类，实现点标注到框的转换。
40.在进行正负样本划分后，对每个实例组的框利用网络进行进一步回归分类，由于实例级别的正负样本划分与卷积神经网络的平移等变性质相悖，在一个实施例中，通过以下两个操作克服这个困难，结合图4所示。
41.1)为特征图增加相对位置编码。具体地，计算特征图每个点距离标注点在特征图位置投影的距离，并将这个距离级联在特征金字塔上，通过这种方式，对于每个实例，其特征金字塔就不再相同，从而破坏了卷积神经网络的平移等变性，得到实例级别的区域池化
特征。
42.2)为每个实例组生成特定的参数。具体地，利用每个实例组在特征金字塔上的区域池化结果做均值，得到的向量可以作为其实例独有的描述，并且利用其类别标注，选择类别的编码，进而与均值向量级联，利用此级联向量为每个实例组生成独有的参数，以实现动态分组卷积。
43.然后，利用动态分组卷积在实例级别的区域池化特征上进行卷积，进而进行分类回归，经过例如三次这样的操作，从每个实例组中选出分数最高的框作为这个实例的框，从而实现了点标注到框的转换。
44.综上，通过为特征图增加实例级别的位置编码，从而破坏特征图的平移等变性，并且根据每个实例组的区域池化特征与对应类别编码为每个实例组生成自己的运算参数，即动态分组卷积。通过这种方式，实现了实例组到实例框的一一映射，能够提升目标检测准确度。
45.为进一步验证本发明的效果，进行了实验验证，参见图5所示。在经典检测数据集coco上进行了实验，利用5％的框标注辅以95％的点标注的情况下，性能显著超过仅有点标注的情况，并且在所有数据比例下，验证了本发明都比现有的point-detr性能好，特别的是在5％的框标注，其余图片只有点标注的情况下比现有point-detr提升明显。
46.综上所述，相对于现有技术，本发明具有以下优势：
47.1)、目前基于tansformer模型的方法因为抛弃了太多先验，在数据量较小的情况下性能较差，而这恰恰是点标注的使用场景，实验证明本发明在有限数据量情况下，性能明显优于现有方案，解决了多阶段检测器的点标注在多尺度特征图的正负样本匹配问题。
48.2)、现有技术没有解决点标注丢失尺度信息后如何利用特征金子塔的问题，然而特征金子塔是检测中应对尺度变化的关键组件，本发明解决了此问题。实验证明，本发明在尺度变化较大的数据集上大幅度超过了现有方案。
49.应理解的是，在不违背本发明精神和范围的前提下，本领域技术人员可对上述实施例进行适当的改变或变型。本发明可用于多种场景，例如，可用在标注工具为标注员提供辅助标注功能，即标注员只需要在图片点击实例，利用模型预测的框为基础进行调整，以减少标注成本。
50.本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
51.计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
52.这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。
53.用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如smalltalk、c++、python等，以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。
54.这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。
55.这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
56.也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
57.附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动
作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
58.以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张士龙王新江陈恺
技术所有人：上海人工智能创新中心
我是此专利的发明人

上一篇：一种纸面石膏板的连续式上料装置的制作方法
上一篇：吊桥式双外探操作平台的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。