融合不同模态信息实现媒体间交叉检索的方法

文档序号：6460459阅读：262来源：国知局

专利名称：融合不同模态信息实现媒体间交叉检索的方法
技术领域：
本发明涉及不同模态间媒体的交叉检索，尤其涉及一种融合不同模态信息实现媒体间交叉检索的方法。

背景技术：
Web的发展伴随着信息数量的急剧增长，面对如此巨大的数据量，检索已经成为人们获取信息的重要手段，单纯的文本检索已经不能满足用户日益复杂的需求，用户希望通过检索能获得的不只是文本数据还包括图像、视频、音频、Microsoft PowerPoint格式的幻灯片等不同模态的数据。而现有的多媒体对象的检索一般通过人工标注和底层特征的匹配来实现，但这种方法需要大量的手工标注，由于数据量的基数巨大并且数据一直以极高的速度增长，以标注作为基础的多媒体搜索只适合在有限数据量的小范围内使用；基于多媒体对象的底层特征的匹配检索虽然不需要大量的人工投入，但由于底层特征和语义间存在着鸿沟，例如视觉上相似的图像可能表示着完全不同的语义，而语义上相同的图像可能看起来完全不一样，因此融合底层特征和语义的检索方法有非常重要的意义。
目前没有办法直接得到媒体对象的语义，因此只能充分利用媒体对象之间的语义关系来实现基于语义和特征的检索。现实中的媒体对象一般不是独立存在的，而是以附属于超媒体的形式存在，这里的超媒体指的是包含有多种模态的媒体对象的对象，例如网页和幻灯片等。对于网页中的图像，虽然不能直接得到它的语义，但是一般情况下它和网页中的其他媒体对象及文本之间存在着相似的或互补的语义关系。利用同个超媒体中的媒体对象之间的语义关系，可以跨越不同模态媒体对象底层特征上的鸿沟，从而建立基于底层特征和语义相关性的超媒体对象的关系网。建立了超媒体对象的关系网，用户可以通过媒体对象或超媒体来查询想要的媒体对象和超媒体，例如可以通过提交网页或图像来检索语义相似的视频，因此实现媒体对象间的交叉检索很有意义。

发明内容
本发明的目的是克服现有技术的不足，提供一种融合不同模态信息实现媒体间交叉检索的方法。
融合不同模态信息实现媒体间交叉检索的方法包括如下步骤 1)对超媒体建立关系图并获得对应的相关系数矩阵； 2)用户提交数据库内或数据库外的媒体对象或超媒体作为查询例子标注初始匹配度； 3)利用超媒体间的相关系数矩阵反复迭代至稳定状态将匹配性传播到未标注的超媒体，并返回匹配度大于0.6的超媒体或这些超媒体中的某种特定模态的媒体对象； 4)周期性地根据用户的查询例子集和正例集对超媒体对象关系图进行调整。
所述的对超媒体建立关系图并获得对应的相关系数矩阵步骤如下 1)建立超媒体对象间的音频距离图A，对任意两个超媒体对象，若两个超媒体对象都含有音频对象，则计算这两个超媒体对象间的音频距离，在这两个超媒体对象中各取一个音频作为音频对，计算两个音频的梅尔频率倒谱系数MFCC，然后计算所有音频对的底层特征距离，取特征距离最小的两个音频间的距离并做归一化，作为这两个超媒体对象的音频距离，如果其中一个超媒体对象不含有音频，则这两个超媒体对象的音频距离设为无穷大； 2)建立超媒体对象间的图像距离图I，对任意两个超媒体对象，若两个超媒体对象都含有图像，则计算这两个超媒体对象间的图像距离，在这两个超媒体对象中各取一个图像作为图像对，对这两个图像提取颜色和纹理特征，然后计算欧氏距离，取特征距离最小的图像对的距离做归一化，作为这两个超媒体对象的图像距离，如果其中一个超媒体对象不含有图像，则这两个超媒体对象的图像距离设为无穷大，对数据集内的所有图像提取颜色特征和纹理特征，其中颜色特征包括颜色直方图、颜色矩和颜色聚合向量，纹理特征包括粗糙度、方向性和对比度； 3)建立超媒体对象间的文本距离图T，对任意两个超媒体对象，若两个超媒体对象都含有文本，则计算这两个超媒体对象间的文本距离，对超媒体对象内的文本对象采用词汇频率/逆文档频率方法进行矢量化，计算所有文本对象两两之间的欧式距离，并将所有的距离归一化，取两个超媒体对象间特征距离最小的文本特征距离作为这两个超媒体对象的特征距离，如果其中一个超媒体对象不含有文本，则这两个超媒体对象的文本距离设为无穷大； 4)调整超媒体对象的音频距离图A、图像距离图I和文本距离图T，分别在这三个图上计算任意两点间的最短路径，并用最短路径替代原来两点间的边的权重； 5)构造超媒体对象距离图，统计用音频、图像和文本单独查询的查准率分别记为Pa、Pi和Pt，超媒体对象距离图中每个顶点代表一个超媒体对象，边代表两个超媒体对象间的距离，令归一系数γ＝1/(Pa+Pi+Pt)，超媒体对象距离图第i个和第j个点距离公式是γ×(Aij×Pa+Iij×Pi+Tij×Pt)； 6)令数据集中有n个超媒体对象，建立矩阵Cn×n以表示任意两个超媒体对象间的语义关系。Cij表示矩阵C中第i行第j列的元素，如果i和j值相等，令Cij值为零，否则Cij值为exp(-HMGij2/2σ2)，其中HMGij表示媒体对象距离图中连接序号分别为i和j的媒体对象的边权重，σ是可调节的参数。
所述的用户提交数据库内或数据库外的媒体对象或超媒体作为查询例子标注初始匹配度的步骤如下 1)如果用户提交的是数据库内的媒体对象或超媒体，在数据库中找到该对象并将该对象和查询输入的匹配度标注成1； 2)如果用户提交的是数据库外的媒体对象或超媒体，计算数据库中所有媒体对象和查询例子中包含的媒体对象的底层特征距离，根据底层特征距离，找到数据库内和查询例子最接近的k个媒体对象，将这些媒体对象所隶属的超媒体相对于查询例子的匹配度都标识成1。
所述的利用超媒体间的相关系数矩阵反复迭代至稳定状态将匹配性传播到未标注的超媒体步骤如下根据已标注矩阵Yn×1＝[y1，y2...yn]T其中yi对应的第i个超媒体对象和查询例子的匹配度，利用公式Y*＝(1-α)(I-αC)-1Y(0)求出所有媒体对象在迭代稳定后与输入例子的匹配度，并返回匹配度大于0.6的超媒体对象或其包含的媒体对象。
本发明融合了不同模态媒体信息，利用了超媒体内的完整的语义，并且根据用户反馈动态调整语义关系，因此具有更准确的查准率。同时，本方法还公开了一种不同模态媒体交叉检索的方法，用户可以提交超媒体对象、文本、音频或图像来检索相同或不同模态的媒体对象和超媒体，因此更灵活，功能更强大。

图1是融合不同模态信息实现媒体间交叉检索的方法流程图；图2是本发明的检索结果；该图显示内容是用户通过提交一个谈论猫的网页查询图像返回的前9个结果。

具体实施例方式 融合不同模态信息实现媒体间交叉检索的方法包括如下步骤 1)对超媒体建立关系图并获得对应的相关系数矩阵； 2)用户提交数据库内或数据库外的媒体对象或超媒体作为查询例子标注初始匹配度； 3)利用超媒体间的相关系数矩阵反复迭代至稳定状态将匹配性传播到未标注的超媒体，并返回匹配度大于0.6的超媒体或这些超媒体中的某种特定模态的媒体对象； 4)周期性地根据用户的查询例子集和正例集对超媒体对象关系图进行调整。
所述的对超媒体建立关系图并获得对应的相关系数矩阵步骤如下 1)建立超媒体对象间的音频距离图A，对任意两个超媒体对象，若两个超媒体对象都含有音频对象，则计算这两个超媒体对象间的音频距离，在这两个超媒体对象中各取一个音频作为音频对，计算两个音频的梅尔频率倒谱系数MFCC，然后计算所有音频对的底层特征距离，取特征距离最小的两个音频间的距离并做归一化，作为这两个超媒体对象的音频距离，如果其中一个超媒体对象不含有音频，则这两个超媒体对象的音频距离设为无穷大； 2)建立超媒体对象间的图像距离图I，对任意两个超媒体对象，若两个超媒体对象都含有图像，则计算这两个超媒体对象间的图像距离，在这两个超媒体对象中各取一个图像作为图像对，对这两个图像提取颜色和纹理特征，然后计算欧氏距离，取特征距离最小的图像对的距离做归一化，作为这两个超媒体对象的图像距离，如果其中一个超媒体对象不含有图像，则这两个超媒体对象的图像距离设为无穷大，对数据集内的所有图像提取颜色特征和纹理特征，其中颜色特征包括颜色直方图、颜色矩和颜色聚合向量，纹理特征包括粗糙度、方向性和对比度； 3)建立超媒体对象间的文本距离图T，对任意两个超媒体对象，若两个超媒体对象都含有文本，则计算这两个超媒体对象间的文本距离，对超媒体对象内的文本对象采用词汇频率/逆文档频率方法进行矢量化，计算所有文本对象两两之间的欧式距离，并将所有的距离归一化，取两个超媒体对象间特征距离最小的文本特征距离作为这两个超媒体对象的特征距离，如果其中一个超媒体对象不含有文本，则这两个超媒体对象的文本距离设为无穷大； 4)调整超媒体对象的音频距离图A、图像距离图I和文本距离图T，分别在这三个图上计算任意两点间的最短路径，并用最短路径替代原来两点间的边的权重； 5)构造超媒体对象距离图，统计用音频、图像和文本单独查询的查准率分别记为Pa、Pi和Pt，超媒体对象距离图中每个顶点代表一个超媒体对象，边代表两个超媒体对象间的距离，令归一系数γ＝1/(Pa+Pi+Pt)，超媒体对象距离图第i个和第j个点距离公式是γ×(Aij×Pa+Iij×Pi+Tij×Pt)； 6)令数据集中有n个超媒体对象，建立矩阵Cn×n以表示任意两个超媒体对象间的语义关系。Cij表示矩阵C中第i行第j列的元素，如果i和j值相等，令Cij值为零，否则Cij值为exp(-HMGij2/2σ2)，其中HMGij表示媒体对象距离图中连接序号分别为i和j的媒体对象的边权重，σ是可调节的参数。
所述的用户提交数据库内或数据库外的媒体对象或超媒体作为查询例子标注初始匹配度的步骤如下 1)如果用户提交的是数据库内的媒体对象或超媒体，在数据库中找到该对象并将该对象和查询输入的匹配度标注成1； 2)如果用户提交的是数据库外的媒体对象或超媒体，计算数据库中所有媒体对象和查询例子中包含的媒体对象的底层特征距离，根据底层特征距离，找到数据库内和查询例子最接近的k个媒体对象，将这些媒体对象所隶属的超媒体相对于查询例子的匹配度都标识成1。
所述的利用超媒体间的相关系数矩阵反复迭代至稳定状态将匹配性传播到未标注的超媒体步骤如下根据已标注矩阵Yn×1＝[y1，y2...yn]T其中yi对应的第i个超媒体对象和查询例子的匹配度，利用公式Y*＝(1-α)(I-αC)-1Y(0)求出所有媒体对象在迭代稳定后与输入例子的匹配度，并返回匹配度大于0.6的超媒体对象或其包含的媒体对象。
所述的周期性地根据用户的查询例子集和正例集对超媒体对象距离图HMG进行调整的步骤如下 1)构造图G(0)，每个顶点代表一个超媒体对象，任意两个超媒体间都没有边； 2)每次用户的相关反馈都用来对G图进行改进，例如第t轮的用户反馈可以对G(t-1)进行改造； 3)对G图中各边的权重用最短路径算法进行调整； 4)用G图对超媒体对象距离图进行调整，使超媒体距离图更符合用户角度的超媒体间的关系。
本发明通过利用同模态媒体对象间的底层特征距离和同个超媒体中不同模态媒体对象的语义上的高度相关性，对数据集中所有超媒体对象建立距离图和相关性矩阵，并在关系图中根据点和点之间的权重传递查询例子的匹配度，实现了异构媒体间的交叉检索和基于内容及语义的超媒体检索。
如图1所示，融合不同模态信息实现媒体间交叉检索的方法具体说明如下 1)离线处理该模块实现对数据库内的媒体对象进行语义理解和建立超媒体距离图。该模块主要包括特征提取、超媒体单模态距离图建立、超媒体对象距离图建立、建立相关性矩阵四个主要算法。具体说明如下 a媒体对象特征提取和距离计算该算法对先对异构媒体对象采用不同方法提取底层特征，并计算相同模态媒体对象间距离。对于数据集内所有文本对象，使用词汇频率/逆文档频率来矢量化文本，然后计算任意两文本间的欧式距离；对于数据集中的所有音频对象，采用梅尔频率倒谱系数MFCC作为音频的特征，并计算音频间的距离；对于所有图像对象，提取颜色特征和纹理特征，并计算图像两两间的欧式距离；最后对文本、图像和音频的距离做归一化。
b超媒体单模态距离图建立该算法对音频、图像和文本三种模态分别建立超媒体距离图，对于超媒体音频距离图，每个顶点代表一个超媒体对象，取两个超媒体各自对象包含的底层特征距离最小两个音频间的距离作为两点之间的距离，如果其中一个超媒体不包含音频，则这两个超媒体间的距离设为无穷大；在这个原始音频距离图上，计算所有两点间的最短路径，并用最短路径代替两点间的距离。超媒体图像距离图和超媒体文本距离图的建立方法同音频距离图。
c超媒体对象距离图建立该算法构造超媒体对象距离图。统计用音频、图像和文本单独查询的查准率分别记为Pa、PI和Pt，超媒体对象距离图中每个顶点代表一个超媒体对象，边代表两个超媒体对象间的距离，令归一系数γ＝1/(Pa+Pi+Pt)，超媒体对象距离图第i个和第j个点距离公式是γ×(Aij×Pa+Iij×Pi+Tij×Pt)； d建立相关性矩阵令数据集中有n个超媒体对象，建立矩阵Cn×n以表示任意两个超媒体对象间的语义关系。Cij表示矩阵C中第i行第j列的元素，如果i和j值相等，令Cij值为零，否则Cij值为exp(-HMGij2/2σ2)，其中HMGij表示媒体对象距离图中连接序号分别为i和j的媒体对象的边权重，σ是可调节的参数。
2)检索该模块实现媒体对象的交叉搜索和超媒体语义检索，用户可以提交图像、声音、文本或超媒体作为查询输入来检索与查询输入语义相关性最大的媒体对象或超媒体。具体说明如下 a当用户提交的检索例子是数据集中存在的超媒体时，首先将该超媒体对象与查询输入的匹配度标识成1，构造矩阵Yn×1＝[y1，y2...Yn]T其中yi对应的第i个超媒体对象和查询例子的匹配度，如果超媒体对象就是输入查询，就把yi赋值1，否则赋值0。然后利用公式Y*＝(1-α)(I-αC)-1Y(0)求出所有媒体对象在迭代稳定后与输入例子的匹配度，并返回匹配度大于0.6的超媒体对象或其包含的媒体对象。
b当用户提交的检索例子是数据集中存在的媒体对象时，找到该媒体对象所隶属的超媒体，将该超媒体对象与查询输入的匹配度标识成1，其他的超媒体对象的匹配度赋0，接下来求稳定状态下所有超媒体对象与查询输入匹配度的稳定态，方法与步骤a一致。
c当用户提交的检索例子是在数据集外的媒体对象时，则按照预处理模块计算媒体对象间距离的方法计算查询例子与数据集中所有对象在底层特征上的距离，求得k个最近邻，并把这k个媒体对象隶属的超媒体的匹配度标识成1来代替输入例子查询，接下来的方法与步骤a一致。
d当用户提交的检索例子是数据集外的超媒体时，首先对该超媒体中的多个媒体对象都寻找k个最近邻，并把这些最近邻隶属的超媒体对应的Y矩阵中元素的匹配度赋值成1，其他对象的值为0，接下来求稳定状态下所有对象与查询例子匹配程度的稳定状态，方法与步骤a一致。
3)根据用户反馈的查询例集和正例集来构造用户反馈图G来表示用户对超媒体对象间关系的视角，并周期性地使用G图对超媒体对象距离图进行改进。具体说明如下 a构造图G(0)，对于任意的超媒体对象i和超媒体对象j，令Gij(0)＝0。
b令第t轮用户反馈的查询集和正例集分别为Qt和Pt，则第t轮修改后的用户反馈图Gij(t)＝λ+log2(Gij(t-1)+2)，其中对象i和对象j都属于Qt或Pt，λ是大于等于1的可调整参数。
c根据公式2，优化用户反馈图G中的边权重，其中Gp表示在用户反馈图G中路径p的权重，min表示参数中最小的值，minv表示连接两点的路径中经过的最短边，l表示该路径经过的边数。
d根据公式3，综合用户反馈图G和超媒体距离图来调整超媒体距离图中超媒体对象间的距离，并根据公式1重新生成超媒体对象相关性矩阵C。对任意超媒体i和超媒体j，如果i和j都属于第r轮相关反馈的查询集和正例集，则HMGij＝ω×HMGij，其中ω是小于1的正整数，HMGij表示媒体对象i和对象j间的边权重；如果i和j都属于第r轮相关反馈的查询集和正例集并且在图G中超媒体对象k和超媒体对象j之间有权重为非零的边，则HMGij＝HMGij/Gkj。
实施例假设有1000个超媒体，由950个图像，100个声音片段和800段文本构成。首先提取所有图像的颜色特征和纹理特征，其中颜色特征包括颜色直方图、颜色矩和颜色聚合向量，纹理特征包括粗糙度、方向性和对比度，然后计算所有图像之间的两两距离；对声音片段，提取梅尔频率倒谱系数MFCC，计算所有声音对象两两之间的距离；对文本，采用词汇频率/逆文档频率矢量化后计算文本对象两两之间的距离。在完成媒体对象距离计算之后，要对图像距离，文本距离和声音距离分别归一化。建立超媒体对象间的音频距离图A、图像距离图I和文本距离图T，要建立音频距离图A，首先对于任意超媒体对象甲和乙，首先找到分别属于这两个超媒体的音频之间的所有距离，取其中最小的距离作为甲乙对象间的音频距离，如果甲乙中有一个不包含或两个都不包含音频对象，则甲乙对象间的音频距离设为无穷大。再用Dijkstra算法计算任意两点间最短距离，将最短距离作为两顶点之间边的新的权重；图像距离图I和文本距离图T的建立方法和音频距离图的建立方式一致。统计用音频、图像和文本单独查询的查准率分别记为Pa、PI和Pt，融合音频、图像和文本距离图建立超媒体距离图，超媒体距离图中每个顶点代表一个超媒体对象，边代表两个超媒体对象间的距离，令归一系数γ＝1/(Pa+Pi+Pt)，超媒体距离图第i个和第j个点距离HMGij＝γ×(Aij×Pa+Iij×Pi+Tij×Pt)。在超媒体距离图基础上建立1000×1000的矩阵C以表示任意两个超媒体对象间的语义关系。Cij表示矩阵C中第i行第j列的元素，如果i和j值相等，令Cij值为零，否则Cij值为exp(-HMGij2/0.5)；建立1000×1的矩阵Y1000×1，Yi表示的是第i个超媒体对象和查询的相关程度，Yi都被初始化成零。
图2是用户通过提交一个谈论猫的网页去查询图像返回的前9个结果，其检索过程如下当用户提交一个谈论猫的网页的时候，假设网页中包含一个音频对象和一段文字，系统首先对这个音频计算计算梅尔频率倒谱系数MFCC，并找到数据集中和它最近的3个音频，把包含这3个音频的超媒体在矩阵Y中的元素设成1，类似的，系统对输入例子中的文本计算词频/逆文档频率，并求出在数据集中和这段文本底层特征最相近的3段文本，并把包含这3段文本的Y矩阵中的元素设成1，其余的超媒体对应的元素都设置成0，得到初始化好的匹配矩阵Y(0)，使用公式Y*＝(1-0.5)(I-0.5×C)-1Y(0)算出最终的匹配程度矩阵Y*，返回Y*中匹配度大于0.6的前9个超媒体对象中包含的图像，作为用户检索的结果。从图二可以看出，查准率是相当高的，说明这种方法有效的跨过了语义鸿沟，解决了不同模态媒体间的交叉检索的问题。
从上面的例子可以看到，与传统的检索方法不同的是，本发明充分利用了超媒体对象包含的多媒体对象间的语义相关性和互补性，而且根据统计结果合理分配了不同模态媒体对象对查准率的影响，因此比传统的检索方法查准率高；同时本发明既可以通过超媒体这种完整的融合了不同模态媒体对象的集合来检索，也可以通过提交普通媒体对象来检索任意模态的媒体对象，因此从功能角度来说，本发明更加灵活，功能更强大，更能符合用户的需求。
权利要求
1.一种融合不同模态信息实现媒体间交叉检索的方法，其特征在于包括如下步骤
1)对超媒体建立关系图并获得对应的相关系数矩阵；
2)用户提交数据库内或数据库外的媒体对象或超媒体作为查询例子标注初始匹配度；
3)利用超媒体间的相关系数矩阵反复迭代至稳定状态将匹配性传播到未标注的超媒体，并返回匹配度大于0.6的超媒体或这些超媒体中的某种特定模态的媒体对象；
4)周期性地根据用户的查询例子集和正例集对超媒体对象关系图进行调整。
2.根据权利要求1所述的一种融合不同模态信息实现媒体间交叉检索的方法，其特征在于，所述的对超媒体建立关系图并获得对应的相关系数矩阵步骤如下
1)建立超媒体对象间的音频距离图A，对任意两个超媒体对象，若两个超媒体对象都含有音频对象，则计算这两个超媒体对象间的音频距离，在这两个超媒体对象中各取一个音频作为音频对，计算两个音频的梅尔频率倒谱系数MFCC，然后计算所有音频对的底层特征距离，取特征距离最小的两个音频间的距离并做归一化，作为这两个超媒体对象的音频距离，如果其中一个超媒体对象不含有音频，则这两个超媒体对象的音频距离设为无穷大；
2)建立超媒体对象间的图像距离图I，对任意两个超媒体对象，若两个超媒体对象都含有图像，则计算这两个超媒体对象间的图像距离，在这两个超媒体对象中各取一个图像作为图像对，对这两个图像提取颜色和纹理特征，然后计算欧氏距离，取特征距离最小的图像对的距离做归一化，作为这两个超媒体对象的图像距离，如果其中一个超媒体对象不含有图像，则这两个超媒体对象的图像距离设为无穷大，对数据集内的所有图像提取颜色特征和纹理特征，其中颜色特征包括颜色直方图、颜色矩和颜色聚合向量，纹理特征包括粗糙度、方向性和对比度；
3)建立超媒体对象间的文本距离图T，对任意两个超媒体对象，若两个超媒体对象都含有文本，则计算这两个超媒体对象间的文本距离，对超媒体对象内的文本对象采用词汇频率/逆文档频率方法进行矢量化，计算所有文本对象两两之间的欧式距离，并将所有的距离归一化，取两个超媒体对象间特征距离最小的文本特征距离作为这两个超媒体对象的特征距离，如果其中一个超媒体对象不含有文本，则这两个超媒体对象的文本距离设为无穷大；
4)调整超媒体对象的音频距离图A、图像距离图I和文本距离图T，分别在这三个图上计算任意两点间的最短路径，并用最短路径替代原来两点间的边的权重；
5)构造超媒体对象距离图，统计用音频、图像和文本单独查询的查准率分别记为Pa、Pi和Pt，超媒体对象距离图中每个顶点代表一个超媒体对象，边代表两个超媒体对象间的距离，令归一系数γ＝1/(pa+pi+pt)，超媒体对象距离图第i个和第j个点距离公式是γ×(Aij×Pa+Iij×Pi+Tij×Pt)；
6)令数据集中有n个超媒体对象，建立矩阵Cn×n以表示任意两个超媒体对象间的语义关系。Cij表示矩阵C中第i行第j列的元素，如果i和j值相等，令Cij值为零，否则Cij值为exp(-HMGij2/2σ2)，其中HMGij表示媒体对象距离图中连接序号分别为i和j的媒体对象的边权重，σ是可调节的参数。
3.根据权利要求1所述的一种融合不同模态信息实现媒体间交叉检索的方法，其特征在于，所述的用户提交数据库内或数据库外的媒体对象或超媒体作为查询例子标注初始匹配度的步骤如下
1)如果用户提交的是数据库内的媒体对象或超媒体，在数据库中找到该对象并将该对象和查询输入的匹配度标注成1；
2)如果用户提交的是数据库外的媒体对象或超媒体，计算数据库中所有媒体对象和查询例子中包含的媒体对象的底层特征距离，根据底层特征距离，找到数据库内和查询例子最接近的k个媒体对象，将这些媒体对象所隶属的超媒体相对于查询例子的匹配度都标识成1。
4.根据权利要求1所述的一种融合不同模态信息实现媒体间交叉检索的方法，其特征在于，所述的利用超媒体间的相关系数矩阵反复迭代至稳定状态将匹配性传播到未标注的超媒体步骤如下根据已标注矩阵Yn×1＝[y1，y2…yn]T其中yi对应的第i个超媒体对象和查询例子的匹配度，利用公式Y*＝(1-α)(I-αC)-1Y(0)求出所有媒体对象在迭代稳定后与输入例子的匹配度，并返回匹配度大于0.6超媒体对象或其包含的媒体对象。
全文摘要
本发明公开了一种融合不同模态信息实现媒体间交叉检索的方法。包括如下步骤1)对超媒体建立关系图并获得对应的相关系数矩阵；2)用户提交数据库内或数据库外的媒体对象或超媒体作为查询例子标注初始匹配度；3)利用超媒体间的相关系数矩阵反复迭代至稳定状态将匹配性传播到未标注的超媒体，并返回与查询例子匹配度大于0.6的超媒体或这些超媒体中的某种特定模态的媒体对象；4)周期性地根据用户的查询例子集和正例集对超媒体对象关系图进行调整。本发明融合各种媒体对象的底层特征，并通过媒体对象间亲缘关系来传播语义，所以检索效果更好，由于检索例子和返回结果的模态可以不同并且利用了语义传播，因此检索更准确，适用更广泛。
文档编号G06F17/30GK101303694SQ20081006144
公开日2008年11月12日申请日期2008年4月30日优先权日2008年4月30日
发明者飞吴, 庄越挺, 王文华, 易杨申请人:浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴飞;庄越挺;王文华;杨易
技术所有人：浙江大学
我是此专利的发明人

上一篇：基于现场视觉差异的大型构件施工安全性监控方法
上一篇：一种生成特定形状烟花的计算机模拟方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。