基于多模态的图像标注装置以及方法

文档序号：6504601阅读：169来源：国知局

基于多模态的图像标注装置以及方法
【专利摘要】本发明实施例提供一种基于多模态的图像标注装置以及方法，所述图像标注装置包括:分数生成单元，利用训练图像及图像的多个模态，为查询图像生成多组关于标注词典中所有标签的第一分数;后融合单元，将获得的多组分数进行融合来获得关于所有标签的最终分数;标签选择单元，根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。通过本发明实施例，可以对多个模态进行有效地融合;并且能获得更鲁棒且精确的图像标注结果。
【专利说明】基于多模态的图像标注装置以及方法

【技术领域】
[0001]本发明涉及图像处理【技术领域】，尤其涉及一种基于多模态(Mult1-modal)后融合(Late Fus1n)的图像标注(Image Tagging)装置以及方法。

【背景技术】
[0002]随着Web2.0技术的快速发展，图像的数量正呈爆炸式增长，快速浏览和搜索所需图像因此变得费时费力。为了能有效减速浏览图像，图像标注技术变得越来越重要且必不可少。
[0003]传统的图像标注方法通常只考虑一个模态(Modal)，然而单个模态无法为表征图像提供充分的信息，并且越来越多的研究也表明同时考虑多个模态是有益的，因此融合图像多个模态的图像标注技术就显得越来越重要。
[0004]基于搜索的图像标注方法是最近提出的一种融合多模态的图像标注方法。它先归一化每种模态，然后对所有归一化的模态直接拼接以得到单一模态，再利用拼接的单一模态找出近邻图像并统计所有近邻图像的标签以得出最终标注结果。
[0005]但是，发明人发现该方法只是简单的对所有归一化的模态直接进行拼接，但是由于各个模态的尺度问题，很难通过归一化实现各个模态在尺度上的统一，因此它无法有效地对多个模态进行融合。
[0006]应该注意，上面对技术背景的介绍只是为了方便对本发明的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本发明的【背景技术】部分进行了阐述而认为上述技术方案为本领域技术人员所公知。
[0007]下面列出了对于理解本发明和常规技术有益的文献，通过引用将它们并入本文中，如同在本文中完全阐明了一样。
[0008][参考文献 I]:P.Gehler and S.Nowozin.0n feature combinat1n formulticlass object classificat1n, In Proceedings of Internat1nal Conference onComputer Vis1n,2009.
[0009][参考文献 2]:Χ.Li，C.Snoek，and M.Worring.Learning social tag relevanceby neighbor voting,IEEE Transact1ns on Multimedia, 1310-1322，2009.

【发明内容】

[0010]本发明实施例提供一种基于多模态的图像标注装置以及方法，目的在于对图像的多个模态进行有效地融合，获得更鲁棒(Robust)且更精确的图像标注结果。
[0011]根据本发明实施例的一个方面，提供一种基于多模态的图像标注装置，所述图像标注装置包括:
[0012]分数生成单元，利用训练图像以及图像的多个模态，为查询图像生成多组关于标注词典所有标签的第一分数；
[0013]后融合单元，将获得的多组分数进行融合来获得关于所有标签的最终分数；
[0014]标签选择单元，根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。
[0015]根据本发明实施例的另一个方面，提供一种基于多模态的图像标注方法，所述图像标注方法包括:
[0016]利用训练图像以及图像的多个模态，为查询图像生成多组关于标注词典所有标签的第一分数；
[0017]将获得的多组分数进行融合来获得关于所有标签的最终分数；
[0018]根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。
[0019]本发明的有益效果在于:在利用多个模态的同时采用后融合的方式，可以避免各个模态之间的尺度问题从而实现对多个模态进行有效地融合。通过对图像的多个模态进行有效地融合，相比于单模态下的图像标注方法将能获得更鲁棒且精确的图像标注结果。
[0020]参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。
[0021]针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。
[0022]应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

【专利附图】

【附图说明】
[0023]图1是本发明实施例1的图像标注装置的一构成示意图；
[0024]图2是本发明实施例2的图像标注装置的一构成示意图；
[0025]图3是本发明实施例2的图像标注过程的一示意图；
[0026]图4是本发明实施例2的图像标注装置的另一构成示意图；
[0027]图5是本发明实施例2的图像标注过程的另一示意图；
[0028]图6是本发明实施例3的图像标注方法的一流程示意图；
[0029]图7是本发明实施例4的图像标注方法的一流程示意图；
[0030]图8是本发明实施例4的图像标注方法的另一流程示意图。

【具体实施方式】
[0031]参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。
[0032]实施例1
[0033]本发明实施例提供一种基于多模态的图像标注装置，图1是本发明实施例的图像标注装置的一构成示意图。如图1所示，该图像标注装置100包括:分数生成单元101、后融合单元102和标签选择单元103。
[0034]其中，分数生成单元101针对某一个查询图像，利用训练图像及图像的多个模态，为该查询图像生成多组关于标注词典中所有标签的分数；后融合单元102将获得的多组分数进行融合来获得关于所有标签的最终分数；标签选择单元103根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为该查询图像的标签。
[0035]在本实施例中，需要为一个查询图像标注一个或者多个标签。可以给定一个含有K个关键词的标注词典D和含有N幅标注训练图像的图像集T。其中，K个关键词可作为候选的标签；每幅训练图像 Ii=({Xli；X2i,..., XMi}, Yi)，i=l,…，N ; {Xli；X2i,..., XmJ 表示训练图像Ii的M个模态％是一个K维的0-1向量,它表示训练图像Ii的标注信息，Yij=I表示训练图像Ii含有第j个标签，Yij=O表示训练图像Ii不含有第j个标签，j=l,…，K。本发明中对于任意一幅含有M个模态的查询图像I,，可以利用标注词典D和训练图像集T自动推断出该查询图像的所有标签。
[0036]值得注意的是，对于任何一幅图像，利用现有技术均可以得到该图像的M个模态，因此查询图像和训练图像均可以有M个模态。关于模态的具体内容以及如何获取，可以参考现有技术。
[0037]在本实施例中，分数生成单元101可以针对每一模态生成一组关于所有标签的分数，具体可以包括:基于某一模态计算与该查询图像最为相似的k幅训练图像Ik幅训练图像中统计每个标签出现的频数，将归一化后的标签频数作为该模态下的一组关于所有标签的分数。
[0038]在本实施例中，分数生成单元101可以生成多组分数，后融合单元102可以将获得的多组分数进行融合来获得关于所有标签的一组最终分数；标签选择单元103根据所有标签的一组最终分数，从中选择具有较大标签分数的一个或多个标签作为该查询图像的标签。
[0039]由此，与现有技术不同的是，本发明计算多个模态的标签分数之后，再通过后融合的方式对多个模态进行有效地融合，由此可以避免各个模态之间的尺度问题，并且相比于单模态下的图像标注方法将能获得更鲁棒且精确的图像标注结果。
[0040]实施例2
[0041]在实施例1的基础上，本发明实施例提供一种基于多模态的图像标注装置，以下对本发明实施例进行进一步说明。
[0042]图2是本发明实施例的图像标注装置的又一构成示意图。如图2所示，该图像标注装置200包括:分数生成单元101、后融合单元102和标签选择单元103。其中，分数生成单元101针对某一查询图像，利用训练图像及图像的多个模态生成多组关于标注词典中所有标签的第一分数，如实施例1所述。
[0043]如图2所示，图像标注装置200还可以包括:模态拼接单元204，该模态拼接单元204将图像的所有模态直接拼接成一组合模态。并且，分数生成单元101还用于利用训练图像以及该组合模态，为查询图像生成一组关于所有标签的第二分数；以及后融合单元102将多组第一分数与该第二分数进行融合来获得关于所有标签的最终分数。
[0044]在本实施例中，通过多组(例如M组)第一分数和一组第二分数来进行后融合，可以使得图像标注结果更为准确。以下以后融合单元102进行线性组合为例对本发明进行详细说明；值得注意的是，本发明的后融合并不仅限于线性组合，还可以采用其他融合方式，可以根据实际情况确定具体的实施方式。
[0045]在具体实施时，分数生成单元101可以基于每个单一模态生成一组标签分数。例如，对于某个模态t，按某种距离尺度(如欧氏距离、余弦距离等)计算出查询图像I,与训练图像集中所有图像的距离，找出前k个具有最小距离的训练图像:Iql，Iq2,…，Iqk。并且，可以按公式(I)统计所有标签在这k个最近邻训练图像中出现的频率，这些频率即可以作为在该模态t下生成的一组关于所有标签的分数。
[0046]⑴
[0047]而图像的每种模态可以用一个特征向量表示，模态拼接单元204可以对每个模态进行0-1归一化，然后直接拼接得到一个新的单一模态(组合模态)。并且，分数生成单元101对于该拼接的单一模态，可以按某种距离尺度(如欧氏距离、余弦距离)计算出查询图像
I,与训练图像集中所有图像的距离，找出前k个具有最小距离的训练图像:Iql，Iq2,…，Iqk。同样的，由公式(I)统计所有标签在这k个近邻图像中出现的频率并将这些频率视为基于拼接模态下生成的一组标签分数。
[0048]在具体实施时，后融合单元102具体可以用于:对多组第一分数进行线性组合；并且将利用组合模态生成的第二分数作为约束项以引导线性组合。
[0049]假定基于每个单一模态t下生成的一组标签分数为TSt=(TStl，TSt2，…，TStK)，t=l,…，Μ;基于拼接模态下生成的一组标签分数为TSa= (TSal，TSa2,…，TSaK)。后融合单元102由如下步骤可以对多组标签分数进行融合，以生成一组最终的关于所有标签的分数TSf。
[0050]具体地，后融合单元102可以对所有TSt，t=l,…，M进行线性组合，得到一个线性组合的标签分数TSc= Σ MwtTSt ;其中TSt为所述第一分数，m为所述多个模态的个数；wt为线性权重。其中线性权重W= (W1, w2，"'Wm)1满足如下条件:
[0051](I)所有线性权重均大于或者等于零，即Wt彡O, t=l,…，M ;
[0052](2)线性权重的L2-范数(I |w| |2)尽可能小；
[0053](3)线性组合中的TS。和TSa尽可能接近；TSa为所述第二分数。
[0054]具体的，线性权重w的求解可以由对以下问题求解而得到:
[0055]min^-wrw + ^-\\TSC-TSa |g
w 22(2)
[0056]s.t.Wi ^ 0，i=l，...，M
[0057]μ是预给定的一个常数。
[0058]对(2)进行变换得到如下目标函数(3):
Iτ
[0059]min—W7 [I + //TTr]w + [(-//TT'" )1 ]w
”2 (j)
[0060]s.t.Wi ^ 0, i=l,..., M
[0061]其中7 = [7^，7贫，...，75^，扩=1^，1是单位矩阵，s.t.表示满足条件。(3)是一个标准的约束二次规划问题，可以很容易地求解。由此，后融合单元102可以通过多组第一分数与一组第二分数的融合来获得关于所有标签的最终分数。
[0062]图3是本发明实施例的图像标注过程的一示意图。如图3所示，针对一查询图像，可以通过标注词典D和训练图像集T生成M个模态对应的第一分数，以及由M个模态拼接成的组合模态对应的第二分数；然后，将多组第一分数以及该第二分数进行融合生成组合后的一组标签分数；最后，选择具有较大标签分数的一个或多个标签作为该查询图像的标签。
[0063]此外，为了使得图像标注结果更加鲁棒和准确，还可以对标签分数进行更新。图4是本发明实施例的图像标注装置的另一构成示意图。如图4所示，该图像标注装置400包括:分数生成单元101、后融合单元102、标签选择单元103和模态拼接单元204 ;如上所述。
[0064]如图4所示，该图像标注装置400还可以包括:分数更新单元405 ;该分数更新单元405根据线性组合获得的标签分数TS。来更新第二分数TSa ;并且，后融合单元102还用于根据更新后的第二分数TSa求解线性权重，来更新线性组合获得的标签分数TS。。
[0065]如图4所示，该图像标注装置400还可以包括:条件判断单元406，该条件判断单元406判断是否满足预设条件；在满足预设条件时，后融合单元102还用于将获得的标签分数TS。作为关于所有标签的最终分数；在不满足预定条件时，分数更新单元102继续更新第二分数。
[0066]在具体实施时，分数更新单元405具体可以使用如下公式:
TS.+aTS..
[0067]^ --
1 + ?(4)
[0068]其中，α为一常数。由此，新的TSa将更新如前所述的优化问题(2)，并重新求解线性组合权重W。值得注意的是，式(4)仅为本发明的一具体的实施方式，但本发明不限于此，还可以根据实际情况确定其他的更新公式等，或者可对该公式进行适当变型或调整。
[0069]在本实施例中，预设条件例如可以是:达到预定的执行次数，或者线性组合的标签分数TS。的变化在预定范围之内(例如本次获得的TS。与前次获得的TS。之差小于预设阈值)等。但本发明不限于此，可以根据实际情况确定具体的预设条件。
[0070]在本实施例中，可以重复上述步骤直到满足预设条件，最后的线性组合的标签分数TS。即可以被认为是最终的关于所有标签的分数TSf。假定得到最终的关于所有标签的分数TSf=(TSfl，TSf2,…，TSffi)，则可以按从大到小的顺序排序，选择前匕个最大的标签分数，相对应的Ii1个标签即为查询图像I,的标注结果。
[0071]图5是本发明实施例的图像标注过程的另一示意图。如图5所示，针对一查询图像，可以通过标注词典D和训练图像集T生成M个模态对应的第一分数，以及由M个模态拼接成的组合模态对应的第二分数；然后，将多组第一分数以及该第二分数进行融合生成组合后的标签分数，其中可以对标签分数进行更新并重新求解线性组合权重；最后，选择具有较大标签分数的一个或多个标签作为该查询图像的标签。
[0072]在本发明中，图像的多个模态被考虑，相比于传统的只使用单一模态的图像标注方法更鲁棒且精确；并且，本发明线性组合多个模态产生的标签分数，这种后融合方式相比传统的直接拼接所有归一化模态为一个单一模态的融合方式更鲁棒且高效；此外，本发明尤其适用于web图像标注任务，因为对于web图像来说多个模态更容易获得。
[0073]由上述实施例可知，利用多个模态的同时采用后融合的方式，可以避免各个模态之间的尺度问题从而实现对多个模态进行有效地融合。通过对图像的多个模态进行有效地融合，相比于单模态下的图像标注方法将能获得更鲁棒且精确的图像标注结果。
[0074]实施例3
[0075]本发明实施例提供一种基于多模态的图像标注方法，对应于实施例1所述的图像标注装置，相同的内容不再赘述。
[0076]图6是本发明实施例的图像标注方法的一流程示意图。如图6所示，该图像标注方法包括:
[0077]步骤601，利用训练图像及图像的多个模态，为查询图像生成多组关于标注词典中所有标签的分数；
[0078]步骤602，将获得的多组分数进行融合来获得关于所有标签的最终分数；
[0079]步骤603，根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。
[0080]由上述实施例可知，利用多个模态的同时采用后融合的方式，可以避免各个模态之间的尺度问题从而实现对多个模态进行有效地融合。通过对图像的多个模态进行有效地融合，相比于单模态下的图像标注方法将能获得更鲁棒且精确的图像标注结果。
[0081]实施例4
[0082]本发明实施例提供一种基于多模态的图像标注方法，对应于实施例2所述的图像标注装置，相同的内容不再赘述。
[0083]图7是本发明实施例的图像标注方法的一流程示意图。如图7所示，该图像标注方法包括:
[0084]步骤701，利用训练图像及图像的多个模态，为查询图像生成多组关于标注词典所有标签的第一分数。
[0085]步骤702，将图像的所有模态直接拼接成一组合模态；并利用训练图像和该组合模态为该查询图像生成一组关于所有标签的第二分数。
[0086]步骤703，将获得的多组第一分数和该第二分数进行融合来获得关于所有标签的最终分数。具体地，可以对多组第一分数进行线性组合；并且将利用该组合模态生成的第二分数作为约束项以引导该线性组合。具体如何计算可以参考实施例2。
[0087]步骤704，根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。
[0088]在本实施例中，为了使得图像标注结果更加鲁棒和准确，还可以对标签分数进行更新。图8是本发明实施例的图像标注方法的另一流程示意图。如图8所示，该图像标注方法包括:
[0089]步骤801，利用训练图像及图像的多个模态，为查询图像生成多组关于标注词典所有标签的第一分数；
[0090]步骤802，将图像的所有模态直接拼接成一组合模态；并利用训练图像和该组合模态为该查询图像生成一组关于所有标签的第二分数；
[0091]步骤803，将获得的多组第一分数和该第二分数进行融合来获得关于所有标签的标签分数；具体地，可以对多组第一分数进行线性组合；并且将利用该组合模态生成的第二分数作为约束项以引导该线性组合。具体如何计算可以参考实施例2。
[0092]步骤804，判断是否满足预设条件；如果不满足预设条件，则执行步骤805 ;如果满足预设条件，则将该标签分数作为最终分数后执行步骤806。
[0093]步骤805，更新第二分数。然后重新执行步骤803，重新求解线性组合权重来获得关于所有标签的分数。具体如何更新以及如何重新求解线性组合权重，可以参考实施例2。
[0094]步骤806，根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。
[0095]由上述实施例可知，利用多个模态的同时采用后融合的方式，可以避免各个模态之间的尺度问题从而实现对多个模态进行有效地融合。通过对图像的多个模态进行有效地融合，相比于单模态下的图像标注方法将能获得更鲁棒且精确的图像标注结果。
[0096]本发明以上的装置和方法可以由硬件实现，也可以由硬件结合软件实现。本发明涉及这样的计算机可读程序，当该程序被逻辑部件所执行时，能够使该逻辑部件实现上文所述的装置或构成部件，或使该逻辑部件实现上文所述的各种方法或步骤。本发明还涉及用于存储以上程序的存储介质，如硬盘、磁盘、光盘、DVD、flash存储器等。
[0097]以上结合具体的实施方式对本发明进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本发明保护范围的限制。本领域技术人员可以根据本发明的精神和原理对本发明做出各种变型和修改，这些变型和修改也在本发明的范围内。
[0098]关于包括以上实施例的实施方式，还公开下述的附记:
[0099](附记I)一种基于多模态的图像标注装置，所述图像标注装置包括:
[0100]分数生成单元，利用训练图像及图像的多个模态，为查询图像生成多组关于标注词典所有标签的第一分数；
[0101]后融合单元，将获得的多组分数进行融合来获得关于所有标签的最终分数；
[0102]标签选择单元，根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。
[0103](附记2)根据附记I所述的图像标注装置，其中，所述图像标注装置还包括:
[0104]模态拼接单元，将图像的所有模态直接拼接成一组合模态；
[0105]并且，所述分数生成单元还用于利用训练图像和所述组合模态为所述查询图像生成一组关于所有标签的第二分数；以及所述后融合单元将多组所述第一分数与所述第二分数进行融合来获得关于所有标签的最终分数。
[0106](附记3)根据附记2所述的图像标注装置，其中，所述后融合单元具体用于:对多组所述第一分数进行线性组合；并且将利用所述组合模态生成的所述第二分数作为约束项以引导所述线性组合。
[0107](附记4)根据附记3所述的图像标注装置，其中，所述后融合单元中的所述线性组合获得的标签分数为:TS。= Σ t=1；...；MwtTSt ;其中TSt为所述第一分数，M为所述多个模态的个数;wt为线性权重，所述线性权重满足如下条件:
[0108](I)所有线性权重均大于或者等于零；
[0109](2)线性权重的L2-范数最小；
[0110](3)线性组合中的TS。和TSa尽可能接近；所述TSa为所述第二分数。
[0111](附记5)根据附记4所述的图像标注装置，其中，所述线性组合满足如下约束:
[0112]miniwrw + E\\TSC-TSa ||;
w 2 2 ?
[0113]s.t.Wi ^ 0，i=l，...，M
[0114]其中，W=Cw1,w2,...，wM)T, μ 是一个给定的常数。
[0115](附记6)根据附记4所述的图像标注装置，其中，所述图像标注装置还包括:
[0116]分数更新单元，根据所述线性组合获得的标签分数TS。来更新所述第二分数TSa ；
[0117]并且，所述后融合单元还用于根据更新后的所述第二分数TSa求解所述线性权重，来更新所述线性组合获得的标签分数TS。。
[0118](附记7)根据附记6所述的图像标注装置，其中，所述图像标注装置还包括:
[0119]条件判断单元，判断是否满足预设条件；
[0120]在满足预设条件时，所述后融合单元还用于将获得的标签分数TS。作为关于所有标签的最终分数；在不满足预定条件时，所述分数更新单元继续更新所述第二分数。
[0121](附记8)根据附记6所述的图像标注装置，其中，所述分数更新单元具体使用如下公式:

TS.-VaTS
[0122]IS1 =-^
' I + a
[0123]其中，α为一常数。
[0124](附记9)一种基于多模态的图像标注方法，所述图像标注方法包括:
[0125]利用训练图像及图像的多个模态，为查询图像生成多组关于标注词典所有标签的第一分数；
[0126]将获得的多组分数进行融合来获得关于所有标签的最终分数；
[0127]根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。
[0128](附记10)根据附记9所述的图像标注方法，其中，所述图像标注方法还包括:
[0129]将图像的多个模态直接拼接成一组合模态；
[0130]并且，利用训练图像以及所述组合模态为所述查询图像生成一组关于所有标签的第二分数；以及将多组所述第一分数与所述第二分数进行融合来获得关于所有标签的最终分数。
[0131](附记11)根据附记10所述的图像标注方法，其中，将获得的多组分数进行融合来获得关于所有标签的最终分数包括:
[0132]对多组所述第一分数进行线性组合；并且将利用所述组合模态生成的所述第二分数作为约束项以引导所述线性组合。
[0133](附记12)根据附记11所述的图像标注方法，其中，所述线性组合获得的标签分数为:TS。= Σ t=1；...；MwtTSt ;其中TSt为所述第一分数，M为所述多个模态的个数;wt为线性权重，所述线性权重满足如下条件:
[0134](I)所有线性权重均大于或者等于零；
[0135](2)线性权重的L2-范数最小；
[0136](3)线性组合中的TS。和TSa尽可能接近；所述TSa为所述第二分数。
[0137](附记13)根据附记12所述的图像标注方法，其中，所述线性组合满足如下约束:
[0138]min—wrw + —Il TSc -TS11|,
w 2 2 1
[0139]s.t.Wi ^ 0，i=l，...，M
[0140]其中，WKw1, w2,...，wM)T, μ是一个给定的常数。
[0141](附记14)根据附记12所述的图像标注方法，其中，所述图像标注方法还包括:
[0142]根据所述线性组合获得的标签分数TS。来更新所述第二分数TSa ；
[0143]并且，根据更新后的所述第二分数TSa求解所述线性权重，来更新所述线性组合获得的标签分数TS。。
[0144](附记15)根据附记14所述的图像标注方法，其中，所述图像标注方法还包括:
[0145]判断是否满足预设条件；
[0146]在满足预设条件时，将获得的标签分数TS。作为关于所有标签的最终分数；在不满足预定条件时，继续更新所述第二分数。
[0147](附记16)根据附记14所述的图像标注方法，其中，根据所述线性组合获得的标签分数TS。来更新所述第二分数TSa具体使用如下公式:
TSa+CiTSc
[0148]ISa=^1-^

I + Cl
[0149]其中，α为一常数。
[0150](附记17)—种计算机可读程序，其中当在图像处理装置中执行所述程序时，所述程序使得计算机在所述图像处理装置中执行如附记9至附记16中任一项所述的图像标注方法。
[0151](附记18)—种存储有计算机可读程序的存储介质，其中所述计算机可读程序使得计算机在图像处理装置中执行如附记9至16中任一项所述的图像标注方法。
【权利要求】
1.一种基于多模态的图像标注装置，所述图像标注装置包括: 分数生成单元，利用训练图像以及图像的多个模态，为查询图像生成多组关于标注词典中所有标签的第一分数；后融合单元，将获得的多组分数进行融合来获得关于所有标签的最终分数；标签选择单元，根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。
2.根据权利要求1所述的图像标注装置，其中，所述图像标注装置还包括: 模态拼接单元，将图像的所有模态直接拼接成一组合模态；并且，所述分数生成单元还用于利用所述训练图像及所述组合模态，为所述查询图像生成一组关于所述所有标签的第二分数；以及所述后融合单元将多组所述第一分数与所述第二分数进行融合来获得关于所述所有标签的最终分数。
3.根据权利要求2所述的图像标注装置，其中，所述后融合单元具体用于:对多组所述第一分数进行线性组合；并且将利用所述组合模态生成的所述第二分数作为约束项以引导所述线性组合。
4.根据权利要求3所述的图像标注装置，其中，所述后融合单元中的所述线性组合获得的标签分数为:TS。= Σ ^,...,MWtTSt ;其中TSt为所述第一分数，M为所述多个模态的个数；Wt为线性权重，所述线性权重满足如下条件: (1)所有线性权重均大于或者等于零； (2)线性权重的L2-范数最小； (3)线性组合中的TS。和TSa尽可能接近；所述TSa为所述第二分数。
5.根据权利要求4所述的图像标注装置，其中，所述线性组合满足如下约束: miniw'Sv+^Hr^-rSJI^ w 2 2
s.t.Wi ^ O，i=l，...，M 其中，w=^，w2,μ是一个给定的常数。
6.根据权利要求4所述的图像标注装置，其中，所述图像标注装置还包括: 分数更新单元，根据所述线性组合获得的标签分数TS。来更新所述第二分数TSa ；并且，所述后融合单元还用于根据更新后的所述第二分数TSa求解所述线性权重W，以更新所述线性组合获得的标签分数TS。。
7.根据权利要求6所述的图像标注装置，其中，所述图像标注装置还包括: 条件判断单元，判断是否满足预设条件；在满足预设条件时，所述后融合单元还用于将获得的标签分数TS。作为关于所有标签的最终分数；在不满足预定条件时，所述分数更新单元继续更新所述第二分数TSa。
8.根据权利要求6所述的图像标注装置，其中，所述分数更新单元具体使用如下公式:...c TS,.+aTS.1 S =----1 + a 其中，Cl为一常数。
9.一种基于多模态的图像标注方法，所述图像标注方法包括: 利用训练图像以及图像的多个模态，为查询图像生成多组关于标注词典中所有标签的第一分数；将获得的多组分数进行融合来获得关于所有标签的最终分数；根据所有标签的最终分数，选择具有较大标签分数的一个或多个标签作为所述查询图像的标签。
10.根据权利要求9所述的图像标注方法，其中，所述图像标注方法还包括: 将图像的所有模态直接拼接成一组合模态；并且，利用所述训练图像及所述组合模态，为所述查询图像生成一组关于所有标签的第二分数；以及将多组所述第一分数与所述第二分数进行融合来获得关于所有标签的最终分数。
【文档编号】G06F17/30GK104239359SQ201310251807
【公开日】2014年12月24日申请日期:2013年6月24日优先权日:2013年6月24日
【发明者】刘曦, 刘汝杰申请人:富士通株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘曦;刘汝杰
技术所有人：富士通株式会社
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。