基于多示例多标记学习的数字图像标注方法

文档序号：6400436阅读：277来源：国知局

专利名称：基于多示例多标记学习的数字图像标注方法
技术领域：
本发明涉及数字图像标注技术领域，特别是涉及一种基于多示例多标记学习的数字图像标注方法。
背景技术：
随着数码产品的普及以及各类社交网站的流行，每天都有海量的数字图像产生并传播。要在如此大规模的图像数据上提供相关的服务，一个最核心也是最困难的任务是让计算机理解图像的语义，而图像标注则是其中的关键技术。自动图像标注装置的任务是基于数字图像的视觉特征来预测图像的语义标记。具体的，标注装置首先会从数字图像中抽取视觉特征来表示这些图像，然后基于这些特征表示，从已有语义标记的图像数据集合中训练出一个标注模型。当将没有标记的数字图像的特征表示输入标注模型后，模型就能预测出它们的语义标记。目前的自动图像标注技术往往将图像表示成单一的示例。但是图像往往具有复杂的语义，包含多个对象实体，这样单示例的表示会造成信息损失，无法准确描述图像的语义，从而无法准确预测图像标记。更有效方法是基于多示例多标记机器学习(简称MIMLMA输入表示方式，用多个特征示例组成的集合来表示一幅图像，其中每一个示例则往往对应一个比较简单的实体和语义。目前有少数基于MML输入表示的图像自动标注技术，但是它们的模型复杂度随着表示空间的变大而急剧增大，导致这些技术非常低效，无法应用在大规模的图像标注任务上。因此，一种能够基于MML输入表示的高效自动图像标注技术亟待提出。

发明内容
技术问题:针对数字图像往往具有复杂语义，而基于单示例的技术无法对其进行有效表达和学习，以及标注效率低下等技术问题，本发明提出了一种基于多示例多标记学习的数字图像标注方法。技术方案:基于多示例多标记学习的数字图像标注方法，包括如下步骤，( I)初始化标注模型；(2)从数据集合中随机选择一幅图像以及该图像的一个相关标记，并确定该标记的代表示例；(3)通过随机采样获得一个排在相关标记前面的不相关标记，并确定该不相关标记的代表示例；(4)针对图像，相关标记以及不相关标记构成的三元组进行梯度下降更新模型；(5)判断该模型是否达到要求，若是则返回(2);否则结束并输出标注模型。本发明采用上述技术方案，具有以下有益效果:本发明基于多示例多标记学习框架，对图像的每一个标记，从多示例多标记机器学习输入表示中选择一个当前模型最认可的代表示例来表示该图像，从而能够充分利用多示例多标记机器学习带来的更多的信息。同时，利用随机梯度下降算法进行在线学习，大大降低了时间和内存开销，从而既保证了标注的精确度，又提闻了标注效率。

图1为本发明实施例的训练标注模型的流程图；图2为本发明实施例的方法流程图；图3为本发明实施例的采样图像及确定其相关标记的代表示例的流程图；图4为本发明实施例的采样不相关标记及确定其代表示例的流程图；图5为本发明实施例的更新标注模型的流程图。
具体实施例方式下面结合具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。图1为本发明实施例的数字图像自动标注装置训练标注模型的流程图。假设训练图像数据集合由N幅图像组成，每幅图像都已经打上标记。装置对数据集合中的图像提取符合多示例多标记学习输入的特征，每一幅图像由一组特征向量表示，每个特征向量称为一个示例。作为优选，特征提取可以使用机器学习教科书中的经典方法生成适用的图像特征，例如先进行图像分割，再对每个图像块提取颜色、纹理、形状等特征。用这个数据集合训练出来标注模型后，装置将对输入的无标记图像进行同样的特征提取，并用标注模型进行预测，输出相关标记作为标注结果。图2所示为本发明实施例的方法流程图。步骤S20对标注模型进行初始化，主要包括对两个矩阵W和V赋初值。假设抽取的图像特征维度为d，总共有L个可能的标记，则W是一个LX 100大小的矩阵，而V是一个dX 100大小的矩阵。这里的数值100可以根据用户需要换成其它值，通常选择较大的值会提高标注准确度，而较小的值则会加快速度。W和V被赋予随机值并保证它们每一列的均值为0，且标准差为,1/^/5。步骤S21从训练数据集合
中随机采样一幅图像X，假设其相关标记集合为Y，不相关标记集合为I装置从Y中随机选择一个标记，假设为1，并为I从集合X中选出代表示例X，具体过程见图3。步骤S22从本图像的不相关标记集合f中一个一个的随机采样标记，直到遇到一个被排在I前面的不相关标记見并为其确定代表示例*，具体过程见图4。步骤S23进行梯度下降更新模型，具体过程见图5。步骤S24判断模型是否达到要求，是则结束训练过程，否则回到步骤S21。这里判断模型是否达到标准可以采用机器学习或模式识别教科书中常用的方法，比如迭代轮数达到用户指定的次数。图3所示为图2中步骤S21的具体过程。步骤S210为开始动作。步骤S211中，在训练图像数据集合中随机抽取一幅图像X，假设其共包含η个示例Ix1,…，X1J，图像的相关标记集合Y共包含m个标记Iy1,…ym}。步骤S212从Y中随机抽取一个标记y。步骤S213初始i为1，开始对X中的示例计数。步骤S214判断i是否大于n，如果大于则X中的示例已经遍历完，跳向步骤S217，否则进入下一步骤S215中。步骤S215对示例Xi计算下式所示的值:fy(Xi) =WyV1Xi (I)其中Wy表示W的第y行，fy(Xi)可以理解为示例Xi与标记y的相关程度。步骤S216将计数i加1，再返回步骤S214。步骤S217比较所有计算出来的fy (Xi)值，并选择值最大的示例作为代表示例，假设为X，相应的fy(x)可以理解为这幅图像与标记I的相关程度。整个过程结束于步骤S218。图4所示为图2中步骤S23的具体过程。假设图像的不相关标记集合共包含t个标记Ο/ι.….ζλ}。步骤S230为起始动作。步骤S231按照式(I)为标记y计算值fy(x)，这
里我们假设X是I的代表示例。步骤S232初始化i为1，开始计数，并引入一个指示变量Q，初始化为O。步骤S233判断是否t个不相关标记都已遍历完，若i > t则跳到步骤S238结束，否则进入下一步。步骤S234按照式(I)为标记fi计算/ ,(而),这里我们假设为&的代表示例。步骤S235比较两个标记y和ft的顺序，如果/α(Α)则进入步骤S236，将计数
i加一并返回步骤S234 ;如果不相关的标记fc排在了相关标记y的前面，即> / (:/:),则跳到步骤S237，将Q赋值为i，表示在第i次采样找到了一个违反顺序的不相关标记，并将找到的不相关标记及其代表示例分别记录为和^然后进入步骤S238结束。图5所示为通过梯度下降更新模型的具体过程。步骤S240为起始动作。步骤S241判断在步骤S23中是否采样到了违反顺序的标记，也就是Q是否大于O。如果Q = 0，表示没有采样到违反顺序的标记，直接进入步骤S245结束，否则进入步骤S242，根据Q值来估计相关标记I的排名r,具体计算公式如下:
权利要求
1.基于多示例多标记学习的数字图像标注方法，其特征在于，包括如下步骤， (1)初始化标注模型； (2)从数据集合中随机选择一幅图像以及该图像的一个相关标记，并确定该标记的代表示例； (3)通过随机采样获得一个排在相关标记前面的不相关标记，并确定该不相关标记的代表示例； (4)针对所选图像，相关标记以及不相关标记构成的三元组更新模型； (5)判断该模型是否达到要求，若是则返回(2);否则结束并输出标注模型。
2.如权利要求1所述的基于多示例多标记学习的数字图像标注方法，其特征在于，所述训练标注模型的方法是，对于输入的标记图像，采用数据图像自动标注装置对训练图像数据集合中的图像提取符合多示例多标记学习输入的特征，每一幅图像由一组特征向量表示，每个特征向量称为一个示例；训练出来标注模型后，并用标注模型进行预测，输出相关标记作为标注结果；所述装置对输入的无标记图像进行同样的特征提取和预测标记过程。
3.如权利要求2所述的基于多示例多标记学习的数字图像标注方法，其特征在于，在多示例多标记学习输入表示下，每个标记的代表示例由当前标注模型确定。
4.如权利要求1所述的基于多示例多标记学习的数字图像标注方法，其特征在于，利用随机梯度下降算法针对图像、相关标记以及不相关标记构成的三元组更新模型。
5.如权利要求1所述的基于多示例多标记学习的数字图像标注方法，其特征在于，判断模型是否达到要求的标准包括迭代轮数达到用户指定的次数。
全文摘要
本发明针对数字图像往往具有复杂语义，而基于单示例的技术无法对其进行有效表达和学习等技术问题，公开了一种基于多示例多标记学习的数字图像标注方法，包括初始化标注模型；从数据集合中随机选择一幅图像以及该图像的一个相关标记，并确定该标记的代表示例；通过随机采样获得一个排在相关标记前面的不相关标记，并确定该不相关标记的代表示例；针对该图像，相关标记以及不相关标记构成的三元组进行梯度下降更新模型。本发明利用随机梯度下降算法进行在线学习，大大降低了时间和内存开销，从而既保证了标注的精确度，又提高了标注效率。
文档编号G06T7/00GK103116893SQ20131008495
公开日2013年5月22日申请日期2013年3月15日优先权日2013年3月15日
发明者周志华, 黄圣君申请人:南京大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周志华;黄圣君
技术所有人：南京大学
我是此专利的发明人

上一篇：一种基于抠图技术的图像合成方法及其系统的制作方法
上一篇：一种海洋微生物的实时监测方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。