一种能够处理新标记和缺失标记的图像标注方法

文档序号：34735634发布日期：2023-07-12 19:12阅读：28来源：国知局

本发明属于图像分类，具体涉及一种能够处理新标记和缺失标记的图像标注方法。

背景技术：

1、随着互联网和云存储技术的快速发展和广泛应用，多媒体数据如图像的数量飞速增长。且这些图像数据中的每幅图像一般都涉及了多个主题，结构较为复杂。同时，每幅图像常常会关联多个语义标记，难以捕获完整标记。如何对这些数据进行有效的表示以及充分描述数据内容的分类标记成为了一项挑战。

2、现有的图像标注方法是将每个研究对象如一幅图片进行特征提取，用一个或多个特征向量(示例)来描述该对象，然后将示例与对应的类别标记关联起来。虽然这种表示方式已经在现实领域中被广泛应用，但是仍然存在着与复杂学习任务不相符的问题。在现实应用中，许多研究数据是具有复杂结构的，而特征向量无法表示这种复杂数据，更无法有效捕获对象中各个部分之间的相互关系。

3、多图多标记分类方法已经应用在复杂的学习任务中，在该框架中，每个研究对象由一个包含多个图的图包来表示，包中的图能够捕获对象内部各个部分的依赖关系，同时关联多个类别标记，描述了现实生活中标记的模糊性。多图多标记分类的学习任务是构建分类器，为未知的多图包预测多个相关的标记。

4、在实际应用中，专家在标注时仅仅关注相关的标记，而在固定标记集合之外，有一些被忽略的新标记可能存在，例如鸟类图像中的一些罕见鸟类存在但并没有被标注。而且由于成本负担或噪声干扰，难以获得完整的标记信息，缺失标记是存在的，例如动物图像中的背景对象常常被忽略。新标记和缺失标记的出现均会导致标记信息的不完整，进而会限制模型对图像数据进行标注的能力。然而现有一些多图多标记分类方法认为多图数据的标记集合是完整的，没有解决图像中可能存在不完整标记信息的问题，限制了多图多标记学习的范围。因此，对新标记的挖掘和缺失标记的填补是十分有意义的。当前，研究人员已经提出了一些处理新标记和缺失标记的方法，但这些方法是针对于基于特征向量的对象，多图结构更为复杂，不能直接应用在多图多标记学习环境中。

技术实现思路

1、针对现有技术存在的问题，本发明提供了一种能够处理新标记和缺失标记的图像标注方法，旨在克服了现有多图多标记方法的适用场景限制，能够有效地处理带有新标记和缺失标记的图像数据，对图像数据进行准确的标注。

2、本发明的技术方案为：一种能够处理新标记和缺失标记的图像标注方法，包括以下步骤：

3、步骤1：获取真实的原始图像数据集，并对该真实的原始图像数据集进行数据预处理，获得多图数据集，其中包括多图包结构表示和已知类别标记集合，将多图数据集分为训练集以及测试集；

4、按图像的各个物体将每幅图像划分为多个区域，每个区域对应于一个标记，使用超像素分割算法slic对每个区域进行切割得到多个超像素点，将每个超像素点视为一个节点，相邻的超像素点认为有边存在，每个节点的特征取rgb颜色直方图和方向梯度直方图的向量合值，此时图像的每个区域被转成一个图，则一个图像能被表示为一个图包；对原始图像数据集进行预处理，即对图像处理后得到多图数据集；将训练时的多图包表示为其中，n表示多图包个数，将一个多图包bi表示bi＝{gi1,gi2,…,gini}，其中gij表示在第i个包中的第j个图，ni表示在第i个包中的图个数，1≤i≤n，1≤j≤ni；将与多图包相应的已知的标记集合表示为y＝{y1,y2,…,yn}∈{0,1}n×c，其中，包bi的标记被表示为yi＝{yi1,yi2,…,yic}，c是已知标记个数，当yik＝1时表示第i个包属于第k个类标记，当yik＝0时表示第i个包不属于第k个类标记或者当前值缺失，设定有q个新标记未被挖掘，l＝c+q是所有标记个数，则完整的标记集合应是y＝{y1,y2,…,yn}∈{0,1}n×l。

5、步骤2：将多图包中的每个图从图空间映射到高维特征空间，使用图核方法计算在训练集中的每个图与多图包中所有的图之间的相似性，从而得到关于每个图的基于图核的图表示；

6、对于任意的一个图g，计算图g与多图包中所有图的相似性，得到基于图核的图表示，具体公式如下：

7、xg＝f(g)＝[k(g,g1),…,k(g,gd)] (1)

8、其中，gi为数据集中的第i个图，d是所有图的个数，k(·,·)表示图核函数；

9、步骤3：基于所有图的图表示，利用权重矩阵w对类别标记进行语义描述，对图与标记之间的关系进行建模，构造图标记的置信度矩阵

10、为学习图的不完整的标记信息，定义一个未知的图标记的置信度矩阵对图表示与标记之间的关系进行建模，具体公式如下：

11、

12、其中，w是所有标记对应的权重向量构成的权重矩阵，是图标记的置信度矩阵，由图的所有标记的置信度向量构成，包括已知标记和新标记，xg＝{xg1,…,xgn}是由所有图的图标记构成的图表示矩阵，α是正则化参数，||·||1是l1范数；

13、步骤4：构造两视角正则化项、投影相似性正则化项和包相关正则化项以对图标记的置信度矩阵进行学习；

14、步骤4.1：为了学习图标记的置信度矩阵构造两视角正则化项，从图相关和标记相关的角度制造两个假设；从图相关角度，假设在图空间中相互靠近的图更有可能关联相似的标记，即对图的相似性矩阵s进行分解得到从标记相关角度，多个标记之间通常是相关的，假设图的标记能够从相似的标记中推断，即对标记的相似性矩阵c进行分解得到同时从这两个角度进行假设获得一个两视角正则化项，对图标记的置信度矩阵恢复，具体公式如下：

15、

16、其中，s是由图核方法计算得到的图的相似性矩阵，c是可学习的标记的相似性矩阵，||·||f是frobenius范数，l＝c+q是所有标记个数；

17、步骤4.2：计算已知标记的相似性，利用投影矩阵p，对标记的相似性矩阵c进行左乘和右乘，以返回c的左上角c×c的标记相似性，构建投影相似性正则化项，使其已知标记部分相似性与真实的标记相似性相一致，具体公式如下：

18、

19、其中，p∈{0,1}c×l是投影矩阵，其左侧为c×c单位矩阵，其他为0，是由余弦相似性计算得到的训练集关联的已知标记的相似性矩阵；

20、步骤4.3：构建包相关正则化项，进一步学习图标记的置信度矩阵此时考虑包标记与图标记之间的关系：若一个包关联一个标记，则包中至少有一个图关联此标记，控制图标记的置信度矩阵和图标记的真值矩阵之间的差异d，即利用能够指示包中存在哪些图的指示矩阵q和投影矩阵p，分别对进行左乘和右乘，以返回包中关联每个标记的图个数的前c列，然后对其和包标记y进行巧妙的变换后，设计包的标记和图的标记的关系，求包相关正则化项的公式具体公式如下：

21、

22、其中，q∈{0,1}n×n是指示矩阵，表示包中图的存在性；d是差异矩阵，控制图标记的置信度矩阵和图标记的真值矩阵之间的差异；是非负矩阵，表示哈达玛积；

23、步骤5：基于步骤4构建的三项正则化项，即公式(3)-(5)，形成一个统一的最小化目标函数以对图的新标记和缺失标记进行学习，具体公式如下：

24、

25、其中，λ1、λ2、λ3、α、β、γ和η是超参数，对于超参数取值域设置为{10-3,10-2,…,102,103}；

26、步骤6：通过加速近端梯度法和近端梯度法对步骤5中的最小化目标函数进行优化更新，得到更新后的权重矩阵w，进而构建能够同时对新标记和缺失标记进行建模的分类器，具体包括如下步骤：

27、步骤6.1：初始化所有的参数：权重矩阵w、置信度矩阵相似性矩阵c、差异矩阵d、非负矩阵z、附加参数ω的第0和第1次迭代ω0和ω1；

28、步骤6.2：通过使用图核方法，计算每个图与所有的图之间的相似性，得到关于所有图的基于图核的图表示，并组成图表示矩阵xg；

29、步骤6.3：使用加速近端梯度法对权重矩阵w进行更新：

30、

31、

32、其中，wt是w的第t次迭代，w(t)是w的第t-1和t次迭代的联合，ωt是附加参数ω的第t次迭代，是目标函数在w上的梯度，是关于w的lipschitz常数，是软阈值操作其中

33、步骤6.4：使用近端梯度法对标记的相似性矩阵c进行更新：

34、

35、其中，是目标函数在c上的梯度，ct是c的第t次迭代，是关于c的lipschitz常数，是奇异值阈值操作；

36、步骤6.5：使用近端梯度法对图标记的置信度矩阵进行更新：

37、

38、其中，和是的t和t+1次迭代，是目标函数在上的梯度，是关于的lipschitz常数；

39、步骤6.6：使用近端梯度法对差异矩阵d进行更新：

40、

41、其中，dt是d的第t次迭代，是目标函数在d上的梯度；是关于d的lipschitz常数；

42、步骤6.7：此时目标函数有闭式解，直接对非负矩阵z进行更新：

43、

44、步骤6.8：对附加参数ω进行更新：

45、

46、步骤6.9：反复迭代运行步骤6.3至步骤6.8，直至达到预设迭代次数，则结束训练过程。

47、步骤7：给定测试集中的一个测试包根据步骤6学习到的权重矩阵w，构建图级分类器，对测试包中的图进行标记预测，并利用包的标记与图的标记的关系，从而实现对未知多图包的标记预测，完成图像数据的标注；

48、当有新的图包要进行标记预测，先得到新图包中图的图表示根据训练阶段得到的权重矩阵w，构建图级分类器计算测试图包的预测值对每个图所关联的所有标记的预测值取一个最大值，这个最大值所对应的标记作为包中图的标记，设置标记位置为1，其他位置记为0，根据包的标记和图的标记之间的关系：若包中的图有一个标记，则包也对应有此标记，得到包的预测标记。

49、与现有技术相比，本发明提出的技术方案具有以下有益效果：

50、1、本发明首次提出一种能够处理新标记和缺失标记的图像标注方法，将新标记和缺失标记的设置融合于现有的多图多标记学习框架中，克服了现有多图多标记方法中使用场景的限制，能够有效地处理带有新标记和缺失标记的图像数据，以对其进行准确的标注；

51、2、本发明根据图核方法得到每个图的基于图核的图表示，只需要计算每个图与其他图之间的相似性，而不需要显示地将图转为二进制特征向量，从而保留了丰富的结构信息；

52、3、本发明在新的带有新标记和缺失标记的多图多标记学习框架下，构建两视角正则化项、投影相似性正则化项和包相关正则化项，并形成一个统一的目标函数，以对图像数据的不完整标记信息进行处理，并对目标函数进行优化更新，得到处理不完整标记的分类器，从而实现对未知多图数据的标记的预测。

53、4、本发明方法将图像转为多图多标记数据，对数据进行合理的表示，并对新标记和缺失标记进行处理，可以提高图像数据的已知标记的分类准确性，同时具有填补缺失标记和挖掘新标记的能力。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：赵宇海黄苗苗田鑫王业江印莹
技术所有人：东北大学
我是此专利的发明人

上一篇：一种移动电池储能柜的制作方法
上一篇：一种菌菇切根机构、自动菌菇采收切根机及全自动菌菇处理线的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。