采用多加权特征的多媒体检索方法

文档序号：6570071阅读：166来源：国知局

专利名称：采用多加权特征的多媒体检索方法
技术领域：
本发明涉及采用多个描述符的多媒体检索方法。具体地说，本发明涉及根据用于以用户要求格式进行查询的描述符的组合，通过使用自动选择最佳加权数据，提供更高级检索功能的多媒体检索方法。
在相关技术中，一种典型多媒体检索技术是使用用户界面，利用用户界面，在用户每次进行多媒体检索时，用户可以指定他或她希望使用的描述符数。
通过指定各描述符的重要性，例如色彩为50％，纹理为30％，用户可以进行多媒体检索。
在相关技术中，另一个多媒体检索技术的例子是提供与用户所查找图像相似的图像的反馈数据，并自动计算此描述符的权重。然而，此方法存在缺陷，因为只在用户每次查询提供反馈时应用权重。
从另一方面来说，最近试图使检索所需的数据实现标准化，例如，MPEG-7等等。这样，使得对描述符的加权数据实现标准化成为可能，并将标准数据添加到多媒体数据。在这种情况下，可以将各种数据的加权数据始终应用于查询，而与用户请求无关，这样就成功实现高级检索功能。
由此可见，可以在标准数据内指定大量描述符，因为它指定在可能应用范围内需要的所有种类的描述符。然而，实际上，只有部分描述符可以用于根据应用程序进行查询和检索。
例如，用于解释视频片段的描述符可以包括如文本数据一类的各种语义数据和如色彩直方图一类的低级描述符。
由于考虑到在这种情况下视频用于多媒体并且包括静止图像描述符(例如色彩数据、纹理数据和形状数据)，所以一些低级描述符尤其可以用于描述运动数据，因为从某种意义上说视频图像是静止图像的集合。
如果多媒体检索与用于对视频片段与其它分段进行比较的应用程序有关，则可以使用包括运动数据、色彩数据、纹理数据和形状数据在内的所有数据类型。
然而，如果多媒体检索与对视频片段与静止图像的比较过程有关，则不需要运动数据。
因此，实际用于多媒体检索的描述符可以根据各应用程序而有所不同。在这种情况下，可以改变各描述符之间的相对权重。
举另一个实例，假定包括在视频片段内的描述符是色彩直方图、代表性色彩数据以及纹理直方图，则应用程序1使用所有三个描述符，而应用程序2仅使用色彩直方图和纹理直方图。
然后，对于应用程序1，在使用所有3个描述符(色彩直方图、代表性色彩数据以及纹理直方图)情况下，可以将特定多媒体数据的各描述符的权重分别指定为0.5、0.3和0.2。同时，对于应用程序2，由于对于相同数据不使用色彩直方图，所以其余两个描述符的相对权重为0.3和0.2，即将代表性色彩数据和纹理直方图分别转换并指定为0.6和0.4。
然而，实际上上述方法并不是那样应用的，因为只有当视频片段内的所有描述符互相无关并且互相正交时，才适于使用上述方法。不幸地是，在许多情况下，并非如此。
即，不同于纹理直方图，色彩直方图和代表性色彩数据在色彩方面互相之间关系密切。
因此，当象在具有关于色彩的两种数据(色彩直方图和代表性色彩数据)和一种纹理数据的应用程序1中那样，使用所有3个描述符(色彩直方图、代表性色彩数据以及纹理直方图)时，与仅采用一种色彩数据的应用程序2比较，出乎意料，实际上可以使用色彩数据。
假定这3个描述符的权重分别是0.5、0.3和0.2。与以0.8∶0.2(色彩∶纹理)的比例使用色彩相关数据(2)和纹理相关数据(1)相似，使用所有3个标识符非常恰当。
正如对应用程序2说明的那样，如果代表性色彩数据和纹理直方图根据重要性以0.6∶0.4的比例组合，则与使用所有3个描述符的情况比较(色彩∶纹理＝0.8∶0.2)，使用更少的色彩数据。
因为上述原因，为了提高代表性色彩数据的重要性，使用所有3个描述符比使用诸如代表性色彩数据和纹理直方图的两种描述符要好。
因此，如果使用多个组合描述符，根据各描述符的组合，可以应用互相之间具有不同比例的最佳权重。
根据各种可能的描述符组合，使用不同描述符组合的多媒体数据内的权重数据尤其应该独立具有适当的权重数据，因而可以实现高效检索。
再回到此实例，当根据色彩直方图、代表性色彩数据和纹理直方图中的代表性色彩数据和纹理直方图的组合，实现多媒体检索时，可以认为组合的权重依赖于色彩和纹理，并且色彩数据的权重被设置得相对较高，即0.8∶0.2或者0.7∶0.3。因此，为了获得更高级的检索功能，重要地是使描述符的各组合具有适当的权重数据。
与此同时，根据查询意图，即使相同的多媒体数据同样可以产生不同的检索结果。
例如，如果进行查询是为了查找小船图像，则检索过程会搜索任何有小船和不必要的海面背景的图像，然而，如果进行查询是为了查找具有海面背景的图像，则检索过程最后会得到任何一种没有小船的海面背景，也可能是它们二者的组合。
同样，如果利用特定查询过程来检索相同数据，结果会随查询的种类(意向、着眼点)而变化。然而，如果利用不同的权重来表示查询着眼点，则可以获得预期的结果。
因此，为了获得与查询一致的正确检索结果，多媒体数据应该具有多个权重特征。此外，多媒体数据还应该提供一种通过弄明白用户希望查询什么来对查询着眼点自动选择正确权重的方法，以及一种用于提取多个权重的方法。
因此，本发明的一个目的是提供一种为了获得更高级检索功能采用多加权特征的多媒体检索方法。
本发明的另一个目的是提供一种用于检索多媒体对象的多媒体检索媒介。
为了实现上述目的，提供了一种采用多个用于检索对象的描述符的多媒体检索方法，该方法包括如下步骤根据用于查询的多个描述符中各描述符的组合，对描述符权重进行分析；并将此权重添加到多媒体描述符；以及根据进行多媒体检索时，用于查询的描述符组合，根据与描述符组合相应的选择权重，进行检索。
在此，通过利用相应描述符组合对图像进行检索的检索结果，或者通过由用户给定的有关相似对象的反馈与事先定义的任何相似对象的组群数据相结合，根据描述符组合对权重进行分析。
在上述描述符组合内含有的其它描述符当中，当描述符提高相似对象之间的相似性时，就获得更高的权重。
根据在多媒体检索期间用于进行查询的描述符组合来检索与描述符组合相应的选择权重的步骤进一步包括如下步骤利用包括在多媒体描述符内的每个权重，根据在相似对象或检索结果的组群数据中所做的选择后，对用户提供反馈的相似对象的相似性进行测度；以及根据在所测得的其它相似性中最高相似性的选择权重进行检索。
在根据在多媒体检索期间进行查询使用的描述符组合的相应权重进行检索的步骤中，当用户选择特定描述符进行检索时，只有对从包括在多媒体描述符内的多个权重中选择的描述符分析权重用于进行检索。
此外，在根据在多媒体检索期间进行查询使用的描述符组合的相应权重进行检索的步骤中，当用户指定查询对象和检索对象时，只有对根据检索对象和查询对象种类预先指定的描述符进行权重分析用于进行检索。
此外，为了利用多个描述符检索多媒体对象，根据本发明的多媒体检索方法包括步骤将根据为了检索进行查询的各着眼点分析的描述符权重包括在多媒体描述符内；以及通过从包括在多媒体描述符内的描述符权重中选择查询着眼点的相应权重，进行检索。
此外，根据本发明的多媒体检索媒介包括多个描述符，用于检索多媒体对象；以及数据特征，包括根据在多个描述符中特别用于进行查询的各描述符组合的最佳权重。
在此，根据每次进行查询的着眼点对描述符进行不同组合，并且根据每次进行查询的着眼点对权重进行区别。
图6示出根据本发明另一个优选实施例，包括查询着眼点的描述数据在内的权重特征的示意图；图7示出根据本发明另一个优选实施例的查询图像和查询着眼点的例；以及图8示出根据本发明另一个优选实施例，包括描述符数据的权重特征的示意图。
为了更好地理解多媒体检索和权重分析方法，可以将本发明划分为4个类别(1)根据描述符组合的多权重分析方法；(2)根据描述符组合的多权重应用方法；(3)根据查询着眼点的多权重分析方法；以及(4)根据查询着眼点的多权重应用方法。
1.一种根据描述符组合的多权重分析方法假定用于进行多媒体检索的全部描述符集合为集合A＝[C1、C2、C3、…、CN]，并且用于当前描述符组合的描述符集合为集合B＝[Ci1、Ci2、Ci3、…、CM]集合A。在示出图像检索过程的

图1中，对用于提取集合B的权重的算法进行了解释。
首先，将集合B[Ci1、Ci2、Ci3、…、CM]的各描述符设置为具有相同重要性，并对其相似性进行测度和排列(S101)。
对排列检索结果内的任何差错进行检索并用E表示差错数。换句话说，如果正确图像数是K，则差错意味着比高等级K低的低等级图像，而与差错是正确图像无关。将差错数设置为E。
利用两种方法可以获得正确图像数据第一种方法是，用户以在步骤101获得的第一检索结果的形式给出关于正确图像数据的反馈；第二种方法是，从数据块中采集相同等级的正确图像并预先把该图像分组，之后，利用采样组找出正确图像数据。
接着，如果差错E(或E/K，其中E是差错图像数，E/K是根据精确点的百分比差错度)低于特定临界值Th1，则结束分析方法(S103)。
如果差错不低于上述临界值，则利用差错E判定反馈所需的图像数，n＝2×E(S104)。
提供与之前判定的反馈图像数相同数目的反馈。在此，在步骤102所用的差错页中任意选择差错最多的差错页的数目n，并被自动指定为反馈图像。图像的等级越低，存在的差错就越多。
根据提供的反馈，对各描述符的权重进行更新(S106)。
利用更新的权重，再一次检索图像并进行排列(S107)，并且检索结果列表内所列的任何差错均被指定为E’(S108)。如果差错E’(或者E’/K)低于特定临界值Th1，则结束分析方法，否则，则进入下一步骤(S109)。
检验差错的减少度是否超过特定临界值(S110)。即，如果E-E’大于特定临界值(Th2)(或者E×Th2’＞E)，则在下列步骤，利用当前差错E’，确定反馈图像数n，例如n＝E’×2(S111)。如果E-E’不大于特定临界值(Th2)，则将反馈图像数确定为比先前反馈数小的数，例如，n＝n×b，0＜b＜1(S112)。
此时，如果反馈所需的图像数比最小数(在本发明中，最小数为2，2＝相似图像1+不相似图像1)还要小，则将反馈图像数指定为2。
最后，重新将当前E’指定为E，并且分析方法返回步骤105(S113)。
这样，就可以提取根据描述符组合的权重，即集合B的权重，并在步骤106利用反馈对此权重进行更新。以下将对更新权重的方法进行说明。
首先计算待更新的新权重(New_W)New_W＝(可靠性×Old_W+Cur_W)/(可靠性+1)其中，Cur_W是根据当前给定的反馈计算的相对权重；Old_W是更新前的权重；可靠性是当前权重的可靠性值。
显然，可靠性表示权重可靠程度。并且，计算新可靠性(new_W)(待更新的新可靠性)如下New_R＝old_R(1+增加R)+a增加R＝f(#反馈)×(精度(t)-精度(t-1))其中，#反馈是在一级中的反馈数，old_R是先前的可靠性。
此外，如果f(#反馈)小，则返回接近0的值，并且如果f变大，它返回一个增量。此函数示于图2，并且在这种情况下，可以采用调整的反曲线函数。
如上所述，以下根据当前给定的反馈计算相对权重(Cur_W)
Cur_W＝a Sim(RI，FI)，假定FI是相关图像Cur_W＝a Dist(RI，FI)，假定FI是非相关图像其中，FI是反馈图像；RI是基准图像；W是打印权重(Wk)、单元权重(We)或位置权重(Wp)；a是Wk、We和Wp的归一化系数。
此外，如果采用描述符k、e和p，则Sim(FI，RI)表示基准图像(RI)与反馈图像(FI)之间的相似性。另一方面，如果采用描述符k、e和p，则Dist(FI，RI)表示基准图像(RI)与反馈图像(FI)之间的非相似性。
因此，当利用集合B内的描述符组合进行检索时，可以象上述说明的那样成功地对图像的相应权重进行分析。
同样，如果存在另一个描述符组合，集合C，则可以利用集合C内的描述符对正确权重进行检索和分析。此时，各描述符权重的大小与集合内的组元数相同。
2.根据描述符组合的多权重应用方法如上所述，可以将根据各描述符组合分析的不同多权重应用于其它情况。
首先，利用图3所示的用户界面，用户可以选择用于进行多媒体检索的描述符。
尤其在图3中，例如可以从5个描述符(色彩直方图、纹理直方图、代表性色彩数据、运动直方图以及形状数据)中选择色彩直方图、代表性色彩数据以及运动直方图。
一旦用户通过用户界面选择了进行多媒体检索所需的描述符，则根据选择描述符组合，根据图1所示的方法，自动选择其权重用于进行检索。
以下将对根据对选择的描述符的分析，从多个权重中选择权重的方法进行说明。
权重特征包括各权重和表示一个权重从属于一个描述符的数据。
根据上述数据，可以发现描述符权重包括在当前权重内，并且权重表示的描述符包括选择与选择的描述符相应的权重。
选择权重的另一种方法是，用户从先前的检索结果中选择他或她希望查找的相似对象。
对于选择的相似对象，利用根据描述符组合分析的各权重，对相似性进行测度，并且选择产生基于最高相似性结果的权重。
如果多媒体对象已经含有例如属于相似类的对象的数据，则该检索方法显示具有查询对象的相同类对象(在这种情况下，它是一幅图像)，如图4所示，并帮助用户选择他或她希望查找的对象。
换句话说，该方法显示具有查询图像的相同类图像作为相似图像，并使得用户可以选择他或她所希望的图像。
图4中用粗线框包围的相似图像是用户选择作为相似图像的图像。一旦选择了对象，根据描述符组合，利用分析权重，可以对用户选择的相似图像与查询图像之间的相似性进行测度，并选择产生最高相似性的权重。
同时，利用事先指定的不同类型的查询选择权重。
例如，可以将查询划分为几类，例如视频与视频检索、或者视频与静止图像检索。确定各种情况的描述符，并为了根据用户查询的类型选择正确权重，指定相应的权重。
一旦确定了查询对象和检索对象，就可以确定用户请求的查询类型。例如，如果查询类型是视频片段，并且检索对象是图像数据库，则关掉视频和静止图像检索。
3.根据查询着眼点的多权重分析方法图5示出用于解释根据特定查询的着眼点用于提取权重的算法的实例。
首先，将所拥有的描述符设置为同等重要性，然后对其相似性进行测度和排列(S500)。
接着，在先前检索结果中，根据当前查询的着眼点，用户给出相似图像的反馈(S501)。在下列步骤中，可以将根据反馈的相似图像看作正确答案，并从此开始进行分析。
特别是在步骤500和步骤501内，根据用户根据先前检索结果给出的反馈，对根据特定查询的着眼点的正确答案的数据进行检索。如果每个对象均含有属于同一类的图像实例的数据，则不象步骤500那样进行先前检索，而首先显示属于同一类的图像实例，用户可以从显示的图像中选择相似图像。
从现在开始，重复图1中步骤102之后的相同过程。
也就是说，通过在排列的检索结果内检索任何差错，来确定差错数E(S502)。如果差错数E(或者E/k)低于特定临界值Th1，则分析方法结束，否则，利用差错数E判定反馈所需的图像数(n＝2×E)(S503和S504)。根据上述的方法，给出的反馈数与图像数n相同(S505)此后，利用给出的反馈对各描述符权重进行更新(S506)，并根据更新的权重，再一次检索和排列图像(S507)。在检索结果列表内检索差错后，指定另一个差错E’(S508)。在此，如果E’(或者E’/k)低于特定临界值Th1，则结束此方法，否则，进行下一步(S509)。
检验差错的减少度是否超过特定临界值(S510)，并根据在此获得的结果，利用当前差错E’，确定反馈所需的图像数n(n＝E’×2)(S511)。否则，在下一步512判定用于反馈的图像数小于先前反馈数(n＝n×b，0＜b＜1)，并且在将当前差错E’重新指定为E之后，重复步骤505(S513)。
4.根据查询着眼点的多权重应用方法如上所述，可以将根据各描述符组合分析的不同多媒体应用于其它情况。
首先，用户在先前检索结果内选择他或她希望查找的对象的相似对象。
对于选择的相似对象，利用根据描述符组合分析的各权重测度相似性，并且选择产生基于最高相似性结果的权重。
如果多媒体对象已经含有属于相似类的对象实例的数据，则检索方法显示具有查询对象的相同类对象，如图4所示，并帮助用户选择他或她希望查找的对象。
一旦选择了对象，利用各权重测度相似性，并且选择适合查询的相应着眼点、产生最高相似性结果的权重。
图6示出含有查询着眼点方案的权重特征的实例。
根据图6，权重方案600包括用于描述权重601的描述符ID 602、相应权重值603以及查询着眼点方案604。
如果以图6所示的文本形式描述权重特征内相应查询的着眼点，则也可以应用这种方法。
换句话说，现有权重的查询着眼点(特别是文本内描述的查询着眼点)排列为如图7所示那样供用户选择。图7具体示出包括木屋的风景画图像，在此，查询着眼点可以是如木屋、蓝天或原野的事物。
另一方面，图8示出含有描述符组合数据的权重特征。
根据图8，权重方案800包括原野描述权重801的描述符ID 802、相应权重值以及相关描述符列表804。
利用含有描述符组合数据的权重特征，通过直接使用该数据，就可以容易地选择合适的权重。
到现在为止，已经对根据查询着眼点的多权重特征和根据描述符组合的多权重特征进行了解释。
因此，利用根据描述符组合的多权重特征和根据查询着眼点的多权重特征，可以自动选择和使用相应权重，尽管各权重特征不必具有描述符组合数据或查询着眼点本身。
然而，如果各权重特征含有当前用于图8所示的权重的描述符组合的数据，或者如果以图6所示的各权重特征形式描述查询着眼点，则通过直接使用该数据，可以更容易地选择正确权重。
在这种情况下，尽管应用更容易了，但是由于需要额外数据，所以在数据大小方面，同样存在缺陷。
如上所述，通过为各对象提供适于各种应用的最佳描述符权重，根据本发明的多媒体检索方法可以实现非常先进的检索功能。此外，即使对于同一个对象，通过提取用户要求查询的着眼点的最佳权重，本发明可以使用户根据不同的着眼点进行不同检索，从而实现以用户为中心进行检索。
尽管参考特定优选实施例对本发明进行了说明和描述，但是，本技术领域内的熟练技术人员明白，在所附权利要求所述的本发明实质范围内，可以在细节和形式方面进行各种变更。
权利要求
1.一种利用多个描述符检索多媒体对象的多媒体检索方法，该方法包括以下各步骤根据在查询所需的多个描述符中各描述符的组合，分析描述符权重并将该权重添加到多媒体描述符中；以及在进行多媒体检索时，根据用于查询的描述符组合，根据与描述符组合相应地选择的权重，进行检索。
2.根据权利要求1所述的方法，其中利用通过相应描述符组合对图像进行检索的检索结果，或者通过由用户给定的有关相似对象的反馈与事先定义的任何相似对象的组群数据相结合，根据描述符组合对权重进行分析。
3.根据权利要求2所述的方法，其中提高相似对象之间的相似性的描述符获得高权重。
4.根据权利要求2所述的方法，该方法进一步包括步骤利用包括在多媒体描述符内的各权重，根据从相似对象或检索结果的组群数据中所做的选择，对用户提供反馈的相似对象的相似性进行测度；以及根据产生其它测得的相似性中最高相似性的选择权重进行检索。
5.根据权利要求1所述的方法，其中如果用户选择特定描述符进行检索，则仅使用对从包括在多媒体描述符内的多个权重中选择的描述符进行权重分析来进行检索。
6.根据权利要求1所述的方法，其中如果用户指定查询对象和检索对象，则仅使用对根据检索对象和查询对象种类预定的描述符进行权重分析来进行检索。
7.一种利用多个描述符检索多媒体对象的多媒体检索方法，该方法包括以下各步骤根据为了检索进行查询的各着眼点，对描述符权重进行分析并将该权重添加到多媒体描述符；以及在进行多媒体检索时，根据在包括在多媒体描述符内的其它描述符权重中与查询着眼点的相应选择权重，进行检索。
8.根据权利要求7所述的方法，其中通过对图像进行检索的检索结果，或者利用用户与关于事先定义的任何相似对象的组群数据而进行相应查询的着眼点相联系，而给定的关于相似对象的反馈，根据查询着眼点对权重进行分析。
9.根据权利要求8所述的方法，其中提高相似对象之间的相似性的描述符获得高权重。
10.根据权利要求7所述的方法，该方法进一步包括步骤利用包括在多媒体描述符内的各权重，根据从相似对象或检索结果的组群数据中所做的选择，对用户提供反馈的相似对象的相似性进行测度；以及根据产生其它测得的相似性中最高相似性的选择权重进行检索。
11.根据权利要求7所述的方法，该方法进一步包括步骤显示权重方案中描述的查询着眼点；以及通过从显示的其它着眼点中选择用户进行查询的着眼点，根据利用此查询着眼点选择的权重进行检索。
12.一种基于查询着眼点的多权重产生方法，该方法包括以下各步骤产生并保存用于表示包括在多媒体对象内的描述符的重要性的权重值；以及产生并保存计算权重值所需查询着眼点的技术数据。
13.一种基于查询着眼点的多权重产生方法，该方法包括以下各步骤产生并保存用于表示包括在多媒体对象内的描述符的重要性的权重值；以及产生并保存与用于表示各描述符要描述什么样的权重值的描述符相应的数据。
14.一种多媒体检索媒介，该媒介包括多个描述符，用于检索多媒体对象；以及数据特征，含有根据在多个描述符中进行查询所需的各描述符组合的最佳权重数据。
15.根据权利要求14所述的媒介，其中根据各查询着眼点，描述符组合和权重互相不同。
全文摘要
本发明涉及多媒体检索方法和权重分析方法,它们通过将多个权重用作描述多媒体数据特征的数据,并通过根据描述符的不同组合选择正确权重数据,实现非常先进的多媒体检索功能。此外,本发明还涉及多媒体检索方法和权重分析方法,它们通过将多个权重用作描述多媒体数据特征的数据,并通过根据查询着眼点的不同选择正确权重数据,实现非常高级的多媒体检索功能。
文档编号G06F17/30GK1356651SQ0113960
公开日2002年7月3日申请日期2001年11月23日优先权日2000年11月25日
发明者李振秀, 金贤俊申请人:Lg电子株式会社

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李振秀;金贤俊
技术所有人：LG电子株式会社
我是此专利的发明人

上一篇：光学扫描装置的内存中影像数据排列方法
上一篇：三五声码的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。