一种基于覆盖率最优化法的内容检索方法及系统与流程

文档序号：11133998阅读：338来源：国知局

本发明涉及信息技术领域，尤其涉及一种基于覆盖率最优化法的内容检索方法及其系统。

背景技术：

如今，互联网多媒体资源的可用性和可扩展性发展突飞猛进。因此，音频和视频信息检索技术的发展和进步变得越来越重要和受追捧。然而，现有的方法往往专注于单独的视觉内容或音频内容，而缺乏适当的方法来结合视觉和音频信息。

实际上，一套处理密集多任务的系统首先需要将用于检索内容的信息尽可能最小化。尽管音频检索只需要较小的比特率，但由于其是自然的声音，所以相比于信息量更大的二维视频帧，音频检索响应的时间更长。因此，希望优化比特流从而将比特率最小化，同时保持良好的检索性能。

本发明公开的方法及其系统用于解决现有技术中的一个或者多个问题。

技术实现要素：

本发明一方面公开了一种内容检索方法。所述方法包括提取若干数据库存储内容的指纹，包括若干视频指纹和若干音频指纹内容。内容包括与视频指纹相对应的视频帧和与音频指纹相对应的音频序列。所述方法包括判断视频帧的代表性视频指纹和音频序列的代表性音频指纹，生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围，并且根据所述存储限制，将选中的代表性视频指纹和代表性音频指纹存储在指纹数据库中。所述方法还包括接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息；提取至少一个用于表示查询信息的查询指纹，根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果，并向用户返回搜索结果。

本发明另一个方面公开了一种内容检索系统，包括：视频/音频指纹提取模块，用于从数据库的存储内容中，提取若干视频指纹和音频指纹；所述内容包括与视频指纹相对应的视频帧和与音频指纹相对应的音频序列；判断视频帧的代表性视频指纹和音频序列的代表性音频指纹；以及生成表示存储限制的数据比率和表示所返回的搜索结果数量的覆盖范围；指纹数据库，用于根据所述存储限制，存储选中的代表性视频指纹和代表性音频指纹在；目标查询视频/音频预处理模块，用于接收包含由用户所提交的至少一个音频数据和至少一个视频数据的查询信息；目标查询视频/音频指纹提取模块，用于提取至少一个用于表示查询信息的查询指纹；搜索模块，用于根据覆盖范围确定与查询指纹最匹配的若干指纹以生成表示由若干所述最匹配的指纹所表示的匹配内容的搜索结果；以及向用户返回搜索结果。

本发明的其他方面可以根据本发明的说明书，权利要求书以及附图进行理解。

附图说明

1:图1为本发明实施例中应用环境示意图。

2:图2为本发明实施例中计算系统示意图。

3:图3为本发明实施例中基于覆盖率最优化法的视频/音频内容检索系统示意图。

4:图4为本发明实施例中将视频/音频序列分为不同的视频/音频成分的流程图。

5:图5为本发明实施例中多种模块在利用指纹实现覆盖率最优化的视频/音频内容检索系统中执行的流程图。

6:图6为本发明实施例中表示视频/音频内容的指纹示意图。

7:图7为本发明实施例中算法中的状态转换示意图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。除非另外指出，在各图中相同的参考数字用于相同的部件。

多媒体内容的爆炸性增长使其在互联网上越来越容易被获取，因此如何有效地组织和即时地检索这些内容显得尤为重要。例如，利用搜索引擎只搜索几个单词或段落就显得非常方便。然而，如果考虑的是一个没有先验知识的感兴趣的视频剪辑，情况就会变得有所不同，因为用户可能无法在言语上描述它，从而可能导致大部分的工作都变成徒劳。

创建一个可靠的内容(如视频)检索系统并不是一件容易的事情。首先，需要综合通过利用音频或视觉信息进行内容检索。对于音频检索，第一步需要将一系列“特性”隔离于音频，这组特征即为音频序列的“指纹”。

指纹的概念，在音频检索系统中，是为了将含有大量比特的音频对象映射为有限数量的比特，后者即为所谓的指纹，所述指纹需要有充足的辨识度，以便两个指纹可以被明显地分开或被认为是互相类似。

在视频检索中，视频序列中单个图像帧的辨别度已足够使其在大型数据集中被搜索到。这使得无论每帧之间的信息是什么，每一帧本身都可以被认为是一个独立的单元。因此，可以直接使用适当的帧或代表帧进行数据库搜索，而不需要收集所有的连续帧，而冗余的帧间信息更是没有必要收集。

术语“视频指纹”指的是一种技术，在所述技术中，软件先后识别，提取，压缩视频的特征组件，使视频被所合成的“指纹”唯一确定。所述技术包括关键帧分析、颜色和运动变化序列分析，功能和对象分析，相机镜头分析等，然后分析结果可被用作视频序列的指纹。

由于互联网内容通常涉及音频和视频两方面，本发明提供了一种基于视频/音频指纹技术的内容检索系统。图1为本发明实施例的工作环境100。

如图1所示，环境100包括用户终端102，服务器104，用户106和网络110，也包括其他一些设备。用户终端102包括任何合适类型的用户设备，比如电视机(TV)，包括等离子电视机，液晶电视机，投影电视机，非智能或智能电视机。用户终端102包括其他的计算系统，比如个人电脑(PC)，平板或笔记本电脑，或智能手机等。此外，用户终端102可以是任何适当的能够呈现内容的设备，能够在一个或多个频道呈现多个节目，并能够通过遥控器实现控制(图中未画出)。

服务器104包括任何合适类型的服务器计算机或若干向用户提供个性化内容的服务器计算机。服务器104也可以促进沟通、数据存储，以及其他服务器和用户终端102之间的数据处理。用户终端102和服务器104通过一个或多个通信网络110相互通信，比如有线电视网络、电话网络、和/或卫星网络等。

用户106利用用户终端102查询和检索各种内容或观看节目和执行其他感兴趣的活动，或者如果用户终端102安装了运动传感器或深度照相机，用户就可以简单地使用手或肢体语言来控制用户终端102。用户106可以是单个用户或多个用户，比如家庭用户。

用户终端102，和/或服务器104可以在任何合适的电子计算平台上执行。图2显示的是能够执行用户终端102，和/或服务器104的计算系统的框图。

如图2中所示，计算系统200包括处理器202，存储介质204，显示器206，通信模块208，数据库214，以及外围设备212。某些设备可被省略，也可以包括其他设备。

处理器202包括任何合适的一个或多个处理器。具体的，处理器202包括用于多线程或并行处理的多个核心。存储介质204包括内存模块，如ROM、RAM、闪存模块，和大容量存储器，如光盘和硬盘等。存储介质204可以存储由处理器202执行时，实现各种步骤的计算机程序。

此外，外围设备212包括多种传感器和其他的输入/输出设备，比如键盘和鼠标，通信模块208包括若干网络接口设备，用于在通信网络中建立连接。数据库214包括一个或多个数据库，用于存储特定的数据，或在存储的数据中执行特定操作，比如数据库检索。

用户终端102和/或服务器104安装内容检索系统，便于用户106使用。图3显示的是基于利用指纹技术实现覆盖率最优化概念的内容(如视频和/或音频)检索系统300。

如图3所示，内容检索系统300包括目标查询视频/音频302，目标查询视频/音频预处理模块304，目标查询视频/音频指纹提取模块306、搜索模块308，视频/音频数据库310，视频/音频预处理模块311，视频/音频指纹提取模块312、指纹数据库314，搜索结果316。某些组件可被省略，也可以增加其他组件。内容检索系统300(如各种组件)可以应用于硬件，软件，或者硬件和软件的结合。

在执行过程中，内容检索系统300可以创建和存储大量的内容，并创建一个视频/音频指纹数据库用于存储内容的指纹。用户可以通过用户终端查询音频和/或视频，从内容检索系统300中检索出所需的内容。进一步地，应用程序也可以自动查询内容检索系统300，并从内容检索系统300中检索出相应的内容。

目标查询视频/音频302包括任何合适类型的视频/音频。目标查询视频/音频302可以同时包括视频/音频数据和元数据。图4显示的是被分成不同视频组件的视频流。

如图4所示，一个视频分为多个场景；一个场景可以分为多个镜头；一个镜头可以分成多个帧，一个帧又可以进一步分为多个对象。因此，提取视频帧的特点再进一步进行处理。而音频数据可以单独显示，或者与视频数据一起显示。

请继续参阅图3，目标查询视频/音频处理模块304用于转换视频/音频信号，消除噪音，重采样以及过滤目标查询视频/音频。目标查询视频/音频处理模块304可以安装于用户终端102内部或者外部，由特定的应用程序而定。

目标查询视频/音频指纹提取模块306用于提取指纹，所述指纹表示由目标查询视频/音频302获取的查询视频帧或音频序列。例如，目标查询视频/音频指纹提取模块306使用一个预先设计的特征提取算法提取目标查询视频帧的特征以代表目标查询视频帧的特征信息，和/或使用一个预先设计的音频特征提取算法提取查询音频序列的特征。即，视频特征和音频特征可以同时或单独被提取。

此外，搜索模块308用于计算查询指纹和选定指纹之间的相似性，然后从最优化覆盖范围内的指纹数据库314中寻找与查询指纹相匹配的指纹，以便找出一个或多个最相似的指纹。

此外，视频/音频数据库310或内容数据库310包含任何合适的数据库以存储视频/音频序列和/或视频/音频序列的元数据，所述元数据即为基于查询视频/音频检索的内容。

视频/音频预处理模块311的功能类似于目标查询视频/音频预处理模块304的功能。视频/音频预处理模块311用于转换视频/音频信号、降噪、重采样和过滤存储在视频/音频数据库310中的视频/音频序列。

视频/音频指纹提取模块312用于从存储在视频/音频数据库310的若干音频或视频帧序列中提取若干视频/音频指纹。更具体的，视频/音频指纹提取模块312使用预先设计的与目标查询视频/音频指纹提取模块306相同的特征提取算法，从若干视频/音频帧中提取视频/音频指纹。即，可以在查询内容检索系统300中同时或分别使用视频或音频特征。

指纹数据库314用于存储从大量视频/音频序列中提取的视频/音频指纹和相应的元数据，如视频/音频的标题。

搜索结果316由搜索模块308输出。即，根据从查询视频/音频提取模块306和指纹数据库314获得的信息，搜索模块308会在指纹数据库314中获取与提取指纹匹配的指纹，并生成搜索结果316。

图5显示的是本发明实施例中多种模块在利用指纹实现覆盖率最优化的视频/音频内容检索系统300中执行的流程图。

如图5所示，首先，根据预先设计的算法(S502)提取用于检索而存储的视频/音频内容的指纹。更具体的，视频/音频内容数据库中的每一个视频/音频序列会首先被分成若干视频帧和音频序列。

因为视频是视频帧序列，连续视频帧之间的变化相对于典型的视频帧速率较小(如25帧/秒)，因此不会单独处理每一帧，而是使用一些分组或集群技术将整个视频分割为不同的帧组，并且每一组含有类似的帧以便进一步处理。具体的，代表性的帧用于代表类似的帧。同样的，音频内容也被分为音频序列组，代表性序列用于代表类似的音频序列。

下一步，提取视频帧和音频序列的指纹。视频/音频指纹可以作为唯一标识视频/音频信号的特征信息。一般的，每个视频/音频指纹对应于特定的一段视频/音频。图6显示的是本发明实施例中的视频和音频指纹。

如图6所示，对于视频帧，指纹是固定大小的特征向量，而对于音频段落，指纹是一组固定大小的特征点。对于音频和视频内容而言，上述的指纹也可以用来表示已经存储的，用于检索的视频帧及音频段落。

进一步的，生成代表性视频指纹和代表性音频指纹(S504)。其中，代表性视频指纹代表视频帧和代表性音频指纹代表音频序列。为内容检索服务生成内容检索系统300的数据速率上限和覆盖范围(S506)。

为了在最低数据率存储要求下，达到基于这些视频和音频指纹的目标内容的预期检索精度，内容检索系统300提供基于根据从所述精度转换而来的覆盖率的搜索服务。在实施例中，数据速率表示存储代表性视频和音频指纹的存储限制，覆盖范围表示返回的若干搜索结果或作为搜索结果返回的若干代表性指纹。

视频和音频代表的数量分别用和表示。对于视频帧，指纹是固定大小的特征向量，因此每个视频代表的成本是相等的量，在这里用常数表示。而音频指纹是均匀密度分布的自然要点，经过预处理获得音频片段，其中要点的数量是相等的。因此，对于每一个音频段，选择代表性音频帧的比特率成本也是统一的，这里用另一个常数表示。数据速率指用于提供服务的数据存储总量，即总比特数，由R表示。

R＝B_V×N_V+B_A×N_A (1)

因此，要解决的一个问题是在给定的比特率上限R_budget，下，

获得查询准确性A_t的最大值。其中，如果检索到满意的结果，A_t＝1，否则A_t＝0。由于从用户输入的查询中进行选择是一个随机过程，所以要根据所有可能的查询评估查询精度的期望值。精度的期望值可以被定义为：

因此，原问题可以转换为以下公式计算：

Maximize E(A)s.t.R≤R_budget (3)

在内容检索系统300中，在查询过程之前，从视频帧和音频片段中选择一定数量的指纹分别作为视频和音频的代表。每个代表在特征空间中保存一组与K最邻近算法。在每次查询中，最相似的代表组可作为查询结果返回。实际上，如果正确的帧包含在最大值为K的组中，查询结果被视为满意，其中K是用户能够容忍的每次查询返回的结果数。即，如果查询帧在任何代表帧的K最邻近算法中，查询结果被认为是正确的，即，精度为1。

根据上述定义的结果满意度和正确性，基于数据集表示法，可以使用新的标准评估查询性能。即，将估计精度转换为覆盖范围，即数据库中视频帧和音频片段的数量是正确的，或者说，在特定代表的K最邻近算法中。覆盖范围是这些代表的属性，表示为C。

因此，方程(3)可以转换为：

Maximize C，s.t.R≤R_budget (4)

其中C表示数据集中代表的融合覆盖，通过重量控制参数α协调视频C_V和音频C_A覆盖之间的平衡：

其中α∈[0，1]，根据实验结果为不同的媒体源选择不同的值。

因此，给定的代表数量所确定的最大覆盖和大部分K点可以通过一个名为磁盘覆盖问题的优化过程得出。具体的，为了找到基于N_A和N_V的最大覆盖，可以使用RKCP3算法进行优化。

RKCP3算法旨在解决磁盘部分覆盖问题：已知具有相同半径r的k磁盘，部分覆盖问题研究的是k磁盘的中心位置以便覆盖n个总点的大部分。

在最大范围的背景下，问题是找到总视频帧中覆盖大部分帧的视频代表的数量N_V，和找到总音频片段中覆盖大部分片段的音频代表的数量N_A。半径r是由用户容忍度的全局约束决定以提供K最邻近算法，即，半径由每个代表的最大覆盖范围所限制，对于整个数据库来说，是固定值。

设每个点v_i∈V，G_i(E_i，分别地)表示距离v_i点r(3r，分别地)范围内的点集。G_i的点集被称为半径r的代表和E_i的点集为相应的半径3r的扩展代表。覆盖大多数视频帧或音频片段的RKCP3算法程序可以被描述为如下的原始3-近似算法，具体如下。

构建所有的代表和相应的扩展代表

For i＝1，…，k，do

设G_i为最重要的代表，即包含了大部分覆盖的帧或片段。

在相应的扩展代表E_i中将其标记为已覆盖的所有帧/片段。

更新所有的代表和扩展代表，即，除去所有已覆盖的帧/片段。

Return{G₁，G₂，…，G_k}

上述算法即为3-近似算法，而这个问题的时间复杂度可以表示为O(k·n)。

因此，最大覆盖只由代表的数量决定，因此，我们有：

其中f_V(N_V)和f_A(N_A)分别为视频//音频的最优化过程。

因此，方程(4)可以重新定义为：

使得:B_V×N_V+B_A×N_A≤R_budget (8)

优化问题(8)的解可以使用拉格朗日乘子法推导以放宽比特率限制，以便于使用最短路径算法来解决松弛问题。首先，拉格朗日成本函数可以表示为：

J_λ(N_V，N_A)＝(αf_V(N_V)+(1-α)f_A(N_A))+λ(B_V×N_V+B_A×N_A) (9)

其中λ被称为拉格朗日乘子，如果存在λ^*则并推出R＝R_budget，其中{N_V^*，_A^*}是解决问题(8)的最优化方法。因此，如果可以找到最大值的最优化方法，则最优λ^*以及与约束问题(8)相似的问题也可以解决。

此外，为了计算最大的J，每个状态需要N_V和N_A在同一时刻的状态。已知节点元组(i，j)表示为最短路径空间中的状态(N_V,N_A)，从在先的状态p_k-1引出了两条路径，用p_k表示。图7显示的是从在先状态到当前状态的转换过程。因此，从(0，0)到终止状态可以根据二维DAG最短路径算法，使用动态规划求解问题(8)的最优解。

在动态编程下，解决优化问题(8)，需要构建一个成本函数T(p_k)，表示包括状态空间中状态(i，j)的成本：

T(p_k)＝max{αf_V(i)+(1-α)f_A(j)+λ(B_V×i+B_A×j)} (10)

子问题f_V和f_A，最大化视频和音频覆盖的优化问题，分别已知N_V和N_A。通过观察发现，尽管代表帧的选择与在先的状态无关，但是增量成本表示为：

其独立于在先的状态p₀,p₁,…,p_k-2的选择，因此，成本方程为：

T(P_k)＝max(T(P_k-1)+Δ(p_k-1,p_k)) (12)

可以使用DP算法解决。

因此，在预定的数据速率限制与所需的内容检索精度内(如精度是1或包含正确的搜索结果)，确定所需的或最大的覆盖，即所谓的覆盖率优化。

请继续参阅图5，数据速率和覆盖范围被确定后，将数据速率需求内的视频指纹和音频指纹存储于指纹数据库(S508)。指纹数据库表现为搜索树的形式，或其他适当的数据结构，同时可以被索引。并将视频/音频内容的若干视频/音频代表指纹和相应的元数据(如视频/音频标题)存储于指纹数据库。

将视频/音频内容的代表指纹存储在指纹数据库之后，内容检索系统300完成服务设置阶段，准备提供查询服务和内容检索服务。更具体地，在操作过程中，接收目标查询视频/音频序列(S510)。可以分别或者同时收到和处理视频和音频查询。

收到查询后，从目标查询视频/音频序列中至少提取一个指纹(S512)。提交的查询(视频/音频)包括任何合适类型的视频/音频内容来源以及包含各种视频/音频源。查询视频/音频内容包括视频/音频数据和元数据。若干帧与提交的查询视频相关，并用于指纹提取，类似地，音频序列与提交的查询音频有关，并用于指纹提取。具体的，因为内容检索系统300提供了响应用户查询的服务，用于内容检索，并根据相同的指纹提取算法将存储内容(视频/音频)和查询转换成了视频帧和音频片段的指纹。

此外，使用至少一个目标查询视频/音频指纹，在预定的范围内，在指纹数据库中搜索视频/音频内容的匹配项(S514)。所述至少一个查询指纹包括视频查询指纹和音频查询指纹，且匹配者根据视频查询指纹或音频查询指纹实现。在实施例中，视频查询指纹和音频查询指纹都可以用于匹配。进一步的，可以包括多个视频查询指纹和/或多个音频指纹查询。

在匹配过程中，视频/音频内容的总K值或与大部分查询视频/音频指纹匹配的内容代表由搜索结果决定，其中K是基于预定覆盖的内容总数，或基于预定覆盖的代表指纹的总数。

此外，返回K个搜索结果(S516)。例如，返回搜索结果的K数量给用户，也可以各种显示格式呈现给客户。用户可以从搜索结果中选择所需的视频/音频内容并呈现给用户。内容检索系统300接收用户选择和检索视频/音频内容并下载给用户(S518)。用户的选择即为对搜索精度的确认，将这样的信息反馈到算法以便进一步的优化。

因此，在最优化的查询精度中考虑比特率的上限，通过使用多媒体内容检索系统的框架，提供一种优化方法将非确定性多项式难题转换为多项式时间可解的优化问题。通过应用这个框架，可以大大节省存储空间和传输时间，同时根据内容查询任务，提供所需的检索性能。

应该注意的是，视频/音频检索系统的概念和方法可以扩展到其他服务。例如，在智能电视系统和/或智能终端上集成本发明的视频/音频检索方法和系统来帮助组织和共享信息，所述信息有利于协助检测和删除某些网站数据库中版权侵权或感知相同的视频/音频内容，并且防止用户未来在这些网站的任何上传行为，只接受经过鉴定或识别的图像和/或音频，等等。进一步地，视频/音频指纹也可以用于广播监控(如广告监测、新闻监控)和通用媒体检控。广播监控解决方案使用播放列表通知内容提供者和内容所有者应该何时何地使用他们的视频/音频内容。

本发明公开的系统和方法可适用于其他具有显示器的设备，如智能手机、平板电脑，个人电脑，只能手表等，实现视频/音频检索。本发明具体实施例所述的方法仅用于解释，相类似的想法和实现方法均可以应用于其他不同的系统中，将本发明所述系统和方法应用于不同领域，进行改进，替换，调整或者相当于本发明所公开的具体技术实施方案都是本领域普通技术人员不需要通过创造性劳动就能实现的。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：汪灏泓;宁广涵;张帜;任小波;
技术所有人：TCL集团股份有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。