多标签识别模型的训练方法、装置、设备及存储介质与流程

文档序号：35959275发布日期：2023-11-08 21:33阅读：54来源：国知局

所属的技术人员能够理解，本技术的各个方面可以实现为系统、方法或程序产品。因此，本技术的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。与上述方法实施例基于同一发明构思，本技术实施例中还提供了一种计算机设备，参阅图5所示，计算机设备500可以至少包括处理器501、以及存储器502。其中，存储器502存储有程序代码，当程序代码被处理器501执行时，使得处理器501执行上述任意一种多标签识别模型的训练方法的步骤。在一些可能的实施方式中，根据本技术的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本技术各种示例性实施方式的多标签识别模型的训练方法中的步骤。例如，处理器可以执行如图2b中所示的步骤。下面参照图6来描述根据本技术的这种实施方式的计算装置600。图6的计算装置600仅仅是一个示例，不应对本技术实施例的功能和使用范围带来任何限制。如图6所示，计算装置600以通用计算装置的形式表现。计算装置600的组件可以包括但不限于：上述至少一个处理单元601、上述至少一个存储单元602、连接不同系统组件(包括存储单元602和处理单元601)的总线603。总线603表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。存储单元602可以包括易失性存储器形式的可读介质，例如随机存取存储器(ram)6021和/或高速缓存存储单元6022，还可以进一步包括只读存储器(rom)6023。存储单元602还可以包括具有一组(至少一个)程序模块6024的程序/实用工具6025，这样的程序模块6024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。计算装置600也可以与一个或多个外部设备604(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置600交互的设备通信，和/或与使得该计算装置600能与一个或多个其它计算装置进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口605进行。并且，计算装置600还可以通过网络适配器606与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器606通过总线603与用于计算装置600的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置600使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。与上述方法实施例基于同一发明构思，本技术提供的多标签识别模型的训练方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本技术各种示例性实施方式的多标签识别模型的训练方法中的步骤，例如，计算机设备可以执行如图2b中所示的步骤。程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。尽管已描述了本技术的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本技术范围的所有变更和修改。显然，本领域的技术人员可以对本技术进行各种改动和变型而不脱离本技术的精神和范围。这样，倘若本技术的这些修改和变型属于本技术权利要求及其等同技术的范围之内，则本技术也意图包含这些改动和变型在内。

背景技术：

1、多标签图像识别是计算机视觉领域中一个非常重要，且具有挑战性的任务。它旨在识别出图片中的所有类别，在人体属性识别、场景理解与弱监督检测等任务中起到了非常重要的作用。对于多标签任务而言，想获取到大量的、精确的标签是一件非常困难、成本高昂的事情。所以，如何在减少标注成本与保证模型性能之间达到平衡，是目前亟需解决的问题。

2、针对多标签任务的标签成本问题，提出了一种基于单正例标签的多标签学习(sinlge positive multi-label learning，spml)的多标签识别模型训练方法。spml作为一种弱监督识别方法，对每一张图片只标注一个正例标签，在忽略图片中其他标签的情况下进行多标签识别模型的训练，能够有效减少标注成本。而且，经过论证，在标签比例比较少的情况下，smpl更具有优势。

3、多标签识别模型将漏标的正例标签错误地分类成负(false negative，fn)样本，而fn样本又会抑制正例特征的提取，或者错误地拉远同类样本的特征距离，导致多标签识别模型出现模型退化的情况。

技术实现思路

1、本技术实施例提供了一种多标签识别模型的训练方法、装置、设备及存储介质，以解决模型退化的问题。

2、第一方面，本技术实施例提供了一种多标签识别模型的训练方法，包括：

3、采用循环迭代方式，基于训练集中已标注类别的多张原始图像，对多标签识别模型进行训练，直至输出已训练的多标签识别模型，其中，每次迭代包括：

4、基于上一次迭代中各原始图像的类别识别结果，对包含未标注类别的原始图像进行数据增强，获得相应的增强图像；

5、将各原始图像与各增强图像作为本次迭代的样本图像，分别对各样本图像进行特征提取，获得所述各样本图像各自的第一特征图；

6、分别对各第一特征图进行分类识别，获得相应的分类热力图组，并基于各分类热力图组，分别得到相应样本图像的类别识别结果；

7、分别对所述各第一特征图进行特征提取，获得相应的第二特征图，并分别基于各第二特征图及其各自关联的分类热力图组，得到相应的第一类别表征向量，并基于各第一类别表征向量，调整所述多标签识别模型的模型参数；其中，每个第一类别表征向量包含多个第一类别特征，每个第一类别特征表征：一个类别在相应第二特征图上的分布。

8、第二方面，本技术实施例还提供了一种多标签识别模型的训练装置，包括：

9、模型训练单元，用于采用循环迭代方式，基于训练集中已标注类别的多张原始图像，对多标签识别模型进行训练，直至输出已训练的多标签识别模型，其中，每次迭代包括：

10、数据增强单元，用于基于上一次迭代中各原始图像的类别识别结果，对包含未标注类别的原始图像进行数据增强，获得相应的增强图像；

11、特征提取单元，用于将各原始图像与各增强图像作为本次迭代的样本图像，分别对各样本图像进行特征提取，获得所述各样本图像各自的第一特征图；

12、分类识别单元，用于分别对各第一特征图进行分类识别，获得相应的分类热力图组，并基于各分类热力图组，分别得到相应样本图像的类别识别结果；

13、参数调整单元，用于分别对所述各第一特征图进行特征提取，获得相应的第二特征图，并分别基于各第二特征图及其各自关联的分类热力图组，得到相应的第一类别表征向量，并基于各第一类别表征向量，调整所述多标签识别模型的模型参数；其中，每个第一类别表征向量包含多个第一类别特征，每个第一类别特征表征：一个类别在相应第二特征图上的分布。

14、可选的，所述参数调整单元用于：

15、对所述各第一类别表征向量进行降维，得到相应的第二类别表征向量；

16、基于各第二类别表征向量中各种类别各自的第二类别特征，及各种类别各自关联的同类图像组与异类图像组，确定各种类别各自的子损失；每个同类图像组是由包含相同类别的至少一张样本图像组成的，每个异类图像组是由不包含该类别的至少一张样本图像组成的；

17、基于各子损失及各种类别各自关联的同类图像组，确定本次迭代的总损失，并基于所述总损失调整模型参数。

18、可选的，所述参数调整单元通过执行以下操作，确定一种类别的子损失：

19、针对所述同类图像组中的各同类图像分别执行以下操作，获得多个同类特征评估值，并将各同类特征评估值的总和，确定为所述一种类别的子损失：

20、基于分布在所述一张样本图像上一种类别的第二类别特征，与分布在一张同类图像上所述一种类别的第二类别特征，确定同类特征相似度；

21、基于分布在所述一张样本图像上所述一种类别的第二类别特征，与分布在各异类图像上的其他类别各自的第二类别特征，确定异类特征相似度；

22、基于所述同类特征相似度与所述异类特征相似度，得到同类特征评估值。

23、第三方面，本技术实施例还提供了一种计算机设备，包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述任意一种多标签识别模型的训练方法的步骤。

24、第四方面，本技术实施例还提供了一种计算机可读存储介质，其包括程序代码，当程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行上述任意一种多标签识别模型的训练方法的步骤。

25、第五方面，本技术实施例还提供了一种计算机程序产品，包括计算机指令，计算机指令被处理器执行上述任意一种多标签识别模型的训练方法的步骤。

26、本技术有益效果如下：

27、本技术实施例提供了一种多标签识别模型的训练方法、装置、设备及存储介质，该方法包括：采用循环迭代方式，基于训练集中已标注类别的多张原始图像，对多标签识别模型进行训练，直至输出已训练的多标签识别模型，其中，每次迭代包括：

28、基于上一次迭代中各原始图像的类别识别结果，对包含未标注类别的原始图像进行数据增强，获得相应的增强图像；将各原始图像与各增强图像作为本次迭代的样本图像，分别对各样本图像进行特征提取，获得相应的第一特征图。

29、分别对各第一特征图进行分类识别，获得相应的分类热力图组，并基于各分类热力图组，分别得到相应样本图像的类别识别结果；

30、分别对各第一特征图进行特征提取，获得相应的第二特征图，并分别基于各第二特征图及其各自关联的分类热力图组，得到相应的第一类别表征向量，并基于各第一类别表征向量，调整多标签识别模型的模型参数；其中，每个第一类别表征向量包含多个第一类别特征，每个第一类别特征表征：一个类别在相应第二特征图上的分布。

31、为了解决模型退化的问题，本技术实施例对包含未标注类别的原始图像进行数据增强，获得相应的增强图像，并将各原始图像与各增强图像作为每次迭代的样本图像，对多标签识别模型进行多轮训练，以使模型学习到漏标的类别标签，降低fn样本对模型的影响程度。

32、这样，训练结束后输出的多标签识别模型，才能够正确地提取正例特征，拉近同类样本间的特征距离与拉远异类样本间的特征距离，确保模型的识别准确率不受影响。

33、本技术的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本技术而了解。本技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：高英国朱城鄢科
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

上一篇：对肺腺癌亚型分型的方法
上一篇：人脸识别模型的训练方法、人脸识别的方法和装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。