一种视频片段结构化查询方法、装置及电子设备与流程

文档序号：12034799阅读：220来源：国知局

本发明涉及视频图像处理技术领域，特别是涉及一种视频片段结构化查询方法、装置及电子设备。

背景技术：

安防系统(surveillancesystem)是以运用安全防范产品和其它相关产品所构成的入侵报警系统、视频安防监控系统、出入口控制系统、防爆安全检查等的系统；或是由这些系统为子系统组合或集成的电子系统或网络。

在视频安防监控系统中，保存有海量的监控视频，经常需要从监控视频中搜索包含例如行人、车辆等目标的视频片段，即待查询目标对应的视频片段。现有的查询方法是首先检测出包含有待查询目标的图像中待查询目标的特征，然后针对视频数据库(即海量的监控视频构成的数据库)中的目标视频的每一视频帧，选取可能包含查询目标的所有待匹配区域，提取这些待匹配区域的特征，将提取的特征与待查询目标的特征进行相似度匹配，获得包含筛选出的待匹配区域的视频帧，其中，筛选出的待匹配区域所对应的相似度高于预设阈值。将获得的所有视频帧，确定为包含该待查询目标的视频帧，进而得到包含该待查询目标的视频片段。

然而，现有视频片段的查询方法，在每次检测出待查询目标后，均需要针对视频数据库的目标视频的每一视频帧，执行待匹配区域选取、待匹配区域的特征提取、特征相似度匹配等步骤，以获得包含该待查询目标的所有视频帧，从而得到该目标对应的视频片段。可见，现有的针对目标对应视频片段的搜索，过程比较繁琐，所花费的时间较长，导致搜索效率不高。

技术实现要素：

本发明实施例的目的在于提供一种视频片段结构化查询方法、装置及电子设备，以提高目标对应视频片段的搜索效率。具体技术方案如下：

为达到上述目的，本发明实施例公开了一种视频片段结构化查询方法，方法包括：

获取包含待查询目标的输入数据，其中，所述输入数据包括：图像和/或文本；

提取所述输入数据中所述待查询目标的结构化特征，其中，所述结构化特征包括目标的类别、目标类别中的子属性和目标的类别身份特征；

根据所述待查询目标的结构化特征，查询视频数据库对应的目标特性数据库，确定所述视频数据库中、所述待查询目标的结构化特征对应的视频片段，其中，所述目标特性数据库是由所述视频数据库中的视频数据提取的结构化特征组成的。

可选的，所述根据所述待查询目标的结构化特征，查询视频数据库对应的目标特性数据库之前，所述方法还包括：

解码所述视频数据库中的视频，确定所述视频数据库中每一视频中每一采样视频帧包含的目标；

针对确定出的每个目标，提取所述目标的结构化特征，且所述结构化特征为基于深度学习算法确定的；

根据提取的各个目标的结构化特征，建立所述目标特性数据库。

可选的，所述根据所述待查询目标的结构化特征，查询视频数据库对应的目标特性数据库，确定所述视频数据库中、所述待查询目标的结构化特征对应的视频片段，包括：

在确定完毕所述视频数据库的视频中所有视频帧所包含的目标后，确定包含各个目标的视频帧，基于所确定出的包含各个目标的视频帧，确定各个目标对应的视频片段。

可选的，所述提取所述输入数据中所述待查询目标的结构化特征，包括：

当所述输入数据为包含待查询目标的类别及其子属性的文本时，将所述文本中包括的所述待查询目标的类别及其子属性作为所述待查询目标的结构化特征。

可选的，所述提取所述输入数据中所述待查询目标的结构化特征，包括：

当所述输入数据为图像时，检测所述图像包含的待查询目标；

提取所述待查询目标的结构化特征；

所述根据所述待查询目标的结构化特征，查询视频数据库对应的目标特性数据库，确定所述待查询视频数据库中、所述待查询目标的结构化特征对应的视频片段，包括：

利用所述待查询目标的结构化特征中包含的目标的类别和目标类别中的子属性，对视频数据库对应的目标特性数据库进行筛选，确定与所述待查询目标的类别和目标类别中的子属性均相同的目标；

利用所述待查询目标的结构化特征中包含的目标的类别身份特征，对所确定的目标进行搜索，得到与所述待查询目标的类别身份特征的相似度达到预设阈值的目标；

从所述待查询视频数据库中，确定搜索得到的目标所对应的视频片段，作为所述待查询视频数据库中、所述待查询目标的结构化特征对应的视频片段。

可选的，所述提取所述输入数据中所述待查询目标的结构化特征，包括：

当输入数据包括图像和文本时，将所述文本包括的待查询目标的类别及其子属性，以及提取的所述图像包含的所述待查询目标的类别身份特征，作为所述待查询目标的结构化特征；

利用所述文本包含的待查询目标的类别及其子属性，对视频数据库对应的目标特性数据库进行过滤，确定与所述待查询目标的类别及其子属性均相同的目标；

利用所述图像包含的所述待查询目标的类别身份特征，对所确定的目标进行搜索，得到与所述类别身份特征的相似度达到预设阈值的目标；

从所述待查询视频数据库中，确定搜索得到的目标所对应的视频片段，作为所述待查询视频数据库中、所述待查询目标的结构化特征对应的视频片段。

为达到上述目的，本发明实施例提供了一种视频片段结构化查询装置，装置包括：

获取模块，用于获取包含待查询目标的输入数据，其中，所述输入数据包括：图像和/或文本；

第一提取模块，用于提取所述输入数据中所述待查询目标的结构化特征，其中，所述结构化特征包括目标的类别、目标类别中的子属性和目标的类别身份特征；

查询模块，用于根据所述待查询目标的结构化特征，查询视频数据库对应的目标特性数据库，确定所述视频数据库中、所述待查询目标的结构化特征对应的视频片段，其中，所述目标特性数据库是由所述视频数据库中的视频数据提取的结构化特征组成的。

可选的，所述装置还包括：

检测模块，用于解码所述视频数据库中的视频，确定所述视频数据库中每一视频中每一采样视频帧包含的目标；

第二提取模块，用于针对确定出的每个目标，提取所述目标的结构化特征，且所述结构化特征为基于深度学习算法确定的；

建立模块，用于根据提取的各个目标的结构化特征，建立所述目标特性数据库。

可选的，所述查询模块为确定模块；

所述确定模块，用于在检测完毕所述视频数据库的视频中所有视频帧所包含的目标后，确定包含各个目标的视频帧，基于所确定出的包含各个目标的视频帧，确定各个目标对应的视频片段。

可选的，所述提取模块为第一确定模块；

所述第一确定模块，用于当所述输入数据为包含待查询目标的类别及其子属性的文本时，将所述文本中包括的所述待查询目标的类别及其子属性作为所述待查询目标的结构化特征。

可选的，所述提取模块，包括：

检测单元，用于当所述输入数据为图像时，检测所述图像包含的待查询目标；

提取单元，用于提取所述待查询目标的结构化特征；

所述查询模块，包括：

第一确定单元，用于利用所述待查询目标的结构化特征中包含的目标的类别和目标类别中的子属性，对视频数据库对应的目标特性数据库进行筛选，确定与所述待查询目标的类别和目标类别中的子属性均相同的目标；

第一搜索单元，用于利用所述待查询目标的结构化特征中包含的目标的类别身份特征，对所确定的目标进行搜索，得到与所述待查询目标的类别身份特征的相似度达到预设阈值的目标；

第二确定单元，用于从所述待查询视频数据库中，确定搜索得到的目标所对应的视频片段，作为所述待查询视频数据库中、所述待查询目标的结构化特征对应的视频片段。

可选的，所述提取模块为第二确定模块；

所述第二确定模块，用于当输入数据包括图像和文本时，将所述文本包括的待查询目标的类别及其子属性，以及提取的所述图像包含的所述待查询目标的类别身份特征，作为所述待查询目标的结构化特征；

所述查询模块，包括：

过滤单元，用于利用所述文本包含的待查询目标的类别及其子属性，对视频数据库对应的目标特性数据库进行过滤，确定与所述待查询目标的类别及其子属性均相同的目标；

第二搜索单元，用于利用所述图像包含的所述待查询目标的类别身份特征，对所确定的目标进行搜索，得到与所述类别身份特征的相似度达到预设阈值的目标；

第三确定单元，用于从所述待查询视频数据库中，确定搜索得到的目标所对应的视频片段，作为所述待查询视频数据库中、所述待查询目标的结构化特征对应的视频片段。

在本发明实施的又一方面，本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的视频片段结构化查询方法。

在本发明实施的又一方面，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频片段结构化查询方法。

可见，提取输入数据中待查询目标的结构化特征，利用该结构化特征，只需要查询视频数据库对应的目标特性数据库、确定视频数据库中、待查询目标的结构化特征对应的视频片段等两个步骤，即可完成对待查询目标对应视频片段的搜索，不必在每次检测出待查询目标后，均需要针对视频数据库的目标视频的每一视频帧，执行待匹配区域选取、待匹配区域的特征提取、特征相似度匹配等步骤，以获得包含该待查询目标的所有视频帧，才可确定该目标对应的视频片段。可见，利用本发明实施例，能够简化针对待查询目标对应视频片段的搜索过程，搜索花费的时间变得较短，进而提高目标对应视频片段的搜索效率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例提供的视频片段结构化查询方法的一种流程示意图；

图2为本发明实施例提供的视频片段结构化查询方法的另一种流程示意图；

图3为本发明实施例提供的视频片段结构化查询装置的一种结构示意图；

图4为本发明实施例提供的视频片段结构化查询装置的另一种结构示意图；

图5为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了解决现有技术中由于针对目标对应视频片段的搜索过程比较繁琐、所花费的时间较长而导致搜索效率不高的问题，本发明实施例提供了一种视频片段结构化查询方法、装置及电子设备。

具体的，上述的视频片段结构化查询方法，首先，需要获取包含待查询目标的输入数据。然后，提取该输入数据中该待查询目标的结构化特征，根据该待查询目标的结构化特征，通过查询视频数据库对应的目标特性数据库，直接就能够搜索确定出该视频数据库中、该待查询目标的结构化特征对应的视频片段，从而简化视频片段的搜索过程，缩短搜索花费的时间，提高目标对应视频片段的搜索效率。

需要说明的是，本发明实施例提供的一种视频片段结构化查询方法可以优选应用于服务器，当然并不局限于服务器，例如：该方法还可以应用于用户设备，这也是合理的。

具体的，对于应用于服务器而言，本发明实施例所提供的方法可以应用部署在云端服务器，也可以在本地服务器；并且，服务器所需处理的数据量规模较小时，可以选择单机部署，数据量规模较大时可以以分布式架构，部署在服务器组上。

参见图1，图1为本发明实施例提供的视频片段结构化查询方法的一种流程示意图，可以包括如下步骤：

s101，获取包含待查询目标的输入数据；其中，输入数据包括：图像和/或文本；

具体的，输入数据可以包括：包含待查询目标的图像和/或文本，其中，待查询目标可以为人、人脸、车或车牌等等。例如，图像可以为包含行人、骑二轮车的人、骑三轮车的人、卡车、轿车、巴士车或面包车的图像，文本可以为包含待查询目标的类别及其类别中的子属性等关键词的文本。并且，图像还可以是人的面部图像、形体图像等等。

其中，目标的类别中的子属性可以是对目标类别进一步进行的细分和描述。比如，待查询目标的类别为人，该类别中的子属性可以为：人的服饰、形体、年龄、性别等等；待查询目标的类别为车，则该类别中的子属性可以为：车型、车标、车牌颜色、车牌号码等等。

s102，提取输入数据中待查询目标的结构化特征，其中，结构化特征包括目标的类别、目标类别中的子属性和目标的类别身份特征；

具体的，结构化特征可以是目标的类别、目标类别中的子属性和目标的类别身份特征的总称，可以用来表征和描述待查询目标的目标内容。

其中，目标的类别可以是对目标划分出的种类，比如可以为人和车两类。或者，也可以对人、车类进行细分，例如，将人细分为：行人、骑二轮车的人、骑三轮车的人等子类别，将车细分为：卡车、轿车、巴士车、面包车等子类别。最终，细分出的每个子类别均可以作为目标的一种类别。

目标的类别中的子属性，可以是对目标类别进一步进行的细分和描述。比如，待查询目标的类别为人，该类别中的子属性可以为：人的服饰、形体、年龄、性别等等；待查询目标的类别为车，则该类别中的子属性可以为：车型、车标、车牌颜色、车牌号码等等。

目标的类别身份特征，可以是目标所在的图像区域的局部特征(传统的图像特征)，包括颜色特征、纹理特征和形状特征，例如颜色直方图、颜色矩、gloh(gradientlocationandorientationhistogram，梯度位置方向直方图)、hog(histogramoforientedgradient，方向梯度直方图)、sift(scaleinvariantfeaturetransform，尺度不变特征变换)、shapecontext(形状上下文)等等，也可以是基于现有的深度学习算法所确定的深度学习特征，或者可以是图像区域的局部特征与深度学习特征的组合。

其中，由于目前传统的图像特征不能准确地描述图像中目标的类别特点，并且，深度学习技术虽然对目标的类间区别的性能较好，但是对类内目标的细分能力较差。基于此，目标的类别身份特征优选可以为图像区域的局部特征与深度学习特征的组合。

示例性的，图像区域的局部特征与深度学习特征的组合，可以包括但不局限于以下任一组合：

基于cnn(convolutionalneuralnetwork，卷积神经网络)确定的特征与颜色直方图、颜色矩、gloh、hog、sift或shapecontext的组合；

基于递归神经网络确定的特征与颜色直方图、颜色矩、gloh、hog、sift或shapecontext的组合；

基于dnn(deepneuralnetwork，深度神经网络)确定的特征与颜色直方图、颜色矩、gloh、hog、sift或shapecontext的组合；

基于lstm(longshort-termmemory，长短时间记忆单元)确定的特征与颜色直方图、颜色矩、gloh、hog、sift或shapecontext的组合等等。

需要说明的是，上述给出的目标的具体类别、子属性和类别身份特征，仅仅作为示例，并不应该构成对本发明实施例的限定。

s103，根据待查询目标的结构化特征，查询视频数据库对应的目标特性数据库，确定视频数据库中、待查询目标的结构化特征对应的视频片段，其中，目标特性数据库是由视频数据库中的视频数据提取的结构化特征组成的。

具体的，可以对视频数据库中的历史视频数据，进行离线处理，提取视频数据的结构化特征，组成目标特性数据库。或者，也可以对实时视频流进行在线处理，提取实时视频流的结构化特征，组成目标特性数据库。其中，视频数据库是用来存储视频数据的数据库，存储的视频可以是安防视频、监控视频等等。

具体的，可以通过待查询目标的结构化特征，与目标特征数据库中的结构化特征进行比对，查询视频数据库存储的视频数据中、与待查询目标的结构化特征相同或相似的目标，确定所查询出的目标对应的视频片段，作为该待查询目标的结构化特征对应的视频片段。

例如，可以利用对比算法，查询与待查询目标的结构化特征的相似度大于一定阈值(80％、90％或其他，可以根据实际情况确定)的目标。其中，对比算法近邻与准近邻搜索算法，例如bruteforcesearch(强力搜索)、反向文件索引、kd-tree(k-dimensional树，k-空间树)、ann(approximatenearestneighbor，近似最近邻搜索)或哈希等算法。或者，以搜索相似度从高到低进行排序，得到排序后的视频目标列表，返回前n(topn)个结果给用户。

参见图2，图2为本发明实施例提供的视频片段结构化查询方法的另一种流程示意图，本发明图2实施例在图1所示实施例的基础上，在根据待查询目标的结构化特征，查询视频数据库对应的目标特性数据库之前，增加步骤s104：解码视频数据库中的视频，确定视频数据库中每一视频中每一采样视频帧包含的目标；针对确定出的每个目标，提取目标的结构化特征，且结构化特征为基于深度学习算法确定的；根据提取的各个目标的结构化特征，建立目标特性数据库。

其中，可以采用深度学习技术取代传统特征提取技术对原始视频进行结构化处理。

在实际应用中，可以利用检测和/或跟踪的方法，确定视频数据库中每一视频中每一采样视频帧包含的目标。由于检测往往非常耗时，可以间或使用检测、间或使用跟踪来锁定视频中的目标。跟踪的好处在于，能够快速在相邻帧中关联每个目标。

需要说明的是，在实际应用中，s104的执行时序并不以图2为限，s014可以在s103之前的任意阶段执行，本发明对此并不进行限定。

具体的，可以利用目标检测方法如dpm(deformablepartsmodel，可变性部件模型)等，或者基于深度学习的目标检测算法如faster-rcnn、rcnn、ssd(singleshotmultiboxdetector)、yolo(youonlylookonce)，或者传统的动态目标检测算法如高斯混合模型(gmm)、vibe(visualbackgroundextractor，视觉背景提取)、背景减除法、动态背景更新等，检测或跟踪视频数据库中每一视频中每一采样视频帧包含的目标，并得到目标的类别。另外，在检测出的目标为行人、轿车等运动目标的情况下，可以采集跟踪与关联算法，如卡尔曼滤波、粒子滤波、meanshift(均值飘移)、模板匹配或kcf(kernerlizedcorrelationfilter，核化相关滤波器)等算法，实现运动目标跟踪。

其中，可以将每一视频帧作为采样视频帧，但出于视频处理效率与实时性的考虑，在实际应用中，优选可以以一定的采样间隔提取视频中的部分视频帧，将提取的视频帧作为采样视频帧。

在检测出的每个目标并得到目标的类别后，可以基于目标在视频中出现的时间以及目标所出现在的视频帧中的位置，抽取目标的类别身份特征，用于目标的身份重认证。然后，对不同类别的目标，利用深度学习模型，提取目标类别中的子属性，从而实现：针对确定出的每个目标，提取目标的结构化特征。最后，将提取的各个目标的结构化特征集合在一起，存入基于目标的特性数据数据库，即可建立起目标特性数据库。

需要强调的是，为了保证待查询目标的结构化特征与目标特性数据库中的结构化特征的对比具有有效性，目标特性数据库中所采用的结构化特征，需要与前述的待查询目标的结构化特征保持一致。

由于基于深度学习的目标检测算法具有高精度的优点，在进行目标检测与运动目标跟踪时，采用该种目标检测算法并融合运动目标跟踪等算法，整个运动目标检测与跟踪可以达到100fps(framespersecond，每秒显示帧数)，检测精度可以达到80％或更高。

在本发明提供的又一实施例中，在检测完毕视频数据库的视频中所有视频帧所包含的目标后，确定包含各个目标的视频帧，基于所确定出的包含各个目标的视频帧，得到各个目标对应的视频片段。

需要说明的是，视频片段确定的方式可以是在建立起目标特性数据库后预先确定的，也可以是在查询视频数据库对应的目标特性数据库时实时确定的。一般情况下，可以实时确定目标对应的视频片段，这样做的好处是可以节约预先确定各个目标对应的视频片段所占用的存储空间，节约服务器的存储资源。

在本发明提供的又一实施例中，当输入数据为包含待查询目标的类别及其子属性的文本时，将文本中包括的待查询目标的类别及其子属性作为待查询目标的结构化特征。

然后，可以利用该待查询目标的类别及其子属性，对视频数据库对应的目标特性数据库进行过滤，确定与该待查询目标的类别及其子属性均相同的目标。

示例性的，输入数据为“行人帽子”的文本，则该文本包含的待查询目标可以为：身上带有帽子的行人。将“行人”作为待查询目标的类别，“帽子”作为目标的类别“行人”中的子属性，该文本的结构化特征即为“行人”和“帽子”。利用“行人”和“帽子”过滤目标特性数据库，列出满足该结构化特征的候选目标，例如手持帽子的行人a、头戴帽子的行人b等等。最后，确定各个候选目标对应的视频片段，作为该文本包含的待查询目标所对应的视频片段，并支持用户点选某个目标对应的视频片段以进行回放，或基于点选的视频片段搜索与该视频片段相似的视频等等。

另外，在检测出的目标为行人或车辆的情况下，可以基于深度学习算法，精确提取行人的服装区域或车辆所在的帧区域，统计该区域内的颜色分布，并映射到颜色空间，从而支持行人服装或车辆颜色的文本搜索。例如，输入的文本为“行人红色”，则可以将身着红色服装的行人所对应的视频片段搜索出来；输入的文本为“车辆红色”，则可将外部涂色为红色的车辆所对应的视频片段搜索出来。

并且，在检测出的目标为车牌的情况下，可以对车牌号码进行识别，将识别出的车牌号码存入目标特性数据库中，以支持基于正则表达式的车牌号码搜索，使得搜索方式变得更加多样性，用户搜索起来更为方便快捷。

在本发明提供的又一实施例中，当输入数据为图像时，检测图像包含的待查询目标；提取待查询目标的结构化特征；

利用待查询目标的结构化特征中包含的目标的类别和目标类别中的子属性，对视频数据库对应的目标特性数据库进行筛选，确定与待查询目标的类别和目标类别中的子属性均相同的目标；

利用待查询目标的结构化特征中包含的目标的类别身份特征，对所确定的目标进行搜索，得到与待查询目标的类别身份特征的相似度达到预设阈值的目标；其中，预设阈值可以为80％、90％或其他数值，具体可以根据实际情况自行确定，并且在得到搜索的相似度达到预设阈值的目标后，为了方便用户查看，可以对目标进行排序，得到以搜索相似度从高到低排序后的目标的列表；

从待查询视频数据库中，确定搜索得到的目标所对应的视频片段，作为待查询视频数据库中、待查询目标的结构化特征对应的视频片段。其中，可以支持用户点选某个目标对应的视频片段以进行回放，或基于点选的视频片段搜索与该视频片段相似的视频等等。

需要说明的是，检测图像包含的待查询目标，所采用的目标检测算法，可以是dpm、faster-rcnn、rcnn、ssd、yolo，或者传统的动态目标检测算法如高斯混合模型、vibe、背景减除法、动态背景更新等其中之一或者多个算法的混合，具体选用的算法，需要与前述的建立目标特性数据库的过程中所采用的目标检测算法保持一致。并且，提取待查询目标的结构化特征，所采用的方法，亦需要与前述建立目标特性数据库的过程中所采用的方法保持一致。

并且，可以在界面显示待查询目标的目标类别和目标类别中的子属性，并支持针对子属性的人工修改。

此外，均可以利用现有技术，分别实现：对视频数据库对应的目标特性数据库进行筛选，以及对所确定的目标进行搜索，本发明实施例在此不对其进行赘述。

另外，在输入数据为人脸图像的情况下，可以在统一的深度学习框架内，融合快速人脸区域检测、人脸标记点检出与人脸对齐、及人脸特征抽取等三个部分，提取基于深度学习的、高区分度的人脸特征，可支持海量视频中嫌疑人脸的以图找人，即根据人脸图像，查询视频数据库对应的目标特性数据库，确定视频数据库中该人脸的结构化特征对应的、拥有该人脸长相的人的视频片段。

而且，在输入数据为人的形体图像的情况下，可以基于深度学习的行人目标检测与行人特征提取，提取的基于深度学习的高区分度的行人特征，可支持海量视频中基于嫌疑人形体特征的以图找人，即根据形体图像，查询视频数据库对应的目标特性数据库，确定视频数据库中该形体的结构化特征对应的、具有该形体的人的视频片段，增强搜索的实用性。

在本发明提供的又一实施例中，当输入数据包括图像和文本时，将文本包括的待查询目标的类别及其子属性，以及提取的图像包含的待查询目标的类别身份特征，作为待查询目标的结构化特征；

利用文本包含的待查询目标的类别及其子属性，对视频数据库对应的目标特性数据库进行过滤，确定与待查询目标的类别及其子属性均相同的目标；

利用图像包含的待查询目标的类别身份特征，对所确定的目标进行搜索，得到与类别身份特征的相似度达到预设阈值的目标；其中，预设阈值可以为80％、90％或其他数值，具体可以根据实际情况自行确定，并且在得到搜索的相似度达到预设阈值的目标后，为了方便用户查看，同样可以对目标进行排序，得到以搜索相似度从高到低排序后的目标的列表；

从待查询视频数据库中，确定搜索得到的目标所对应的视频片段，作为待查询视频数据库中、待查询目标的结构化特征对应的视频片段。

其中，均可以利用现有技术，分别实现：对视频数据库对应的目标特性数据库进行过滤，以及对所确定的目标进行搜索，本发明实施例在此不对其进行赘述。

示例性的，输入数据为：包括“行人帽子”的文本和一张包含一位头戴帽子的行人的图像，则该输入数据包括的待查询目标即为：头戴帽子的行人。

检测该图像包含的待查询目标，提取检测出的待查询目标的类别身份特征，将提取的类别身份特征和该文本包括的待查询目标的类别“行人”及其子属性“帽子”，作为该待查询目标的结构化特征。

需要强调的是，检测图像包含的待查询目标，所采用的目标检测算法，可以是dpm、faster-rcnn、rcnn、ssd、yolo，或者传统的动态目标检测算法如高斯混合模型、vibe、背景减除法、动态背景更新等其中之一或者多个算法的混合，具体选用的算法，依然需要与前述的建立目标特性数据库的过程中所采用的目标检测算法保持一致。并且，提取待查询目标的结构化特征，所采用的方法，依然需要与前述建立目标特性数据库的过程中所采用的方法保持一致。

输入数据除了图像或文本之外，还可以是图像和文本的结合，增加了用户的搜索方式，实用性得到增强。并且，结合图像和文本，可以更为准确地表征待查询目标的结构化特征，从而提高该待查询目标对应视频片段的搜索准确度。

另外，本领域技术人员可以理解的是，建立目标特性数据库，可以部署在视频处理服务器组上，其硬件配置可以为cpu(centralprocessingunit，中央处理器)：xeon3.0g*n；gpu(graphicsprocessingunit，图形处理器)：nvidiagpu*m；内存：16g以上；硬盘：300g*2，raid0+1。

执行s101-s103，可以部署在检索服务器组上，其硬件配置可以为cpu：xeon2.4g；内存：64g以上；硬盘：300g*2，raid0+1。

视频数据库和目标特性数据库，可以存储在磁盘阵列中，其硬件配置可以为：存储容量(gb)：10000以上；平均传输速率(mb/s)：200m以上；raid(redundantarraysofindependentdisks，磁盘阵列)支持：0，0+1，1，5，6，10，50，jbod(justabunchofdisks，磁盘簇)。

需要强调的是，前述提出的部署方式，既可以部署在云端，也可以部署在本地，其中，数据量规模较小时可以单机部署，规模较大时可以以分布式架构部署。典型的硬件配置环境可以如上所述，也可以是其他可行的硬件配置，本发明对此并不进行限定。

具体的，根据视频数据库的视频数据量大小，可采用高速分布式多节点存储，计算单元可以选择gpu和cpu。在运维方面，可分为离线处理(数据量对应负载)与在线搜索(访问次数对应并发数)两大部分，简化处理过程，提高效率，时间复杂度和空间复杂度都得到大大降低，符合海量大数据的处理要求，具备很强的实用性。

参见图3，图3为本发明实施例提供的视频片段结构化查询装置的一种结构示意图，与图1所示的流程相对应，该查询装置可以包括：获取模块301、第一提取模块302和查询模块303；

获取模块301，用于获取包含待查询目标的输入数据，其中，输入数据包括：图像和/或文本；

第一提取模块302，用于提取输入数据中待查询目标的结构化特征，其中，结构化特征包括目标的类别、目标类别中的子属性和目标的类别身份特征；

查询模块303，用于根据待查询目标的结构化特征，查询视频数据库对应的目标特性数据库，确定视频数据库中、待查询目标的结构化特征对应的视频片段，其中，目标特性数据库是由视频数据库中的视频数据提取的结构化特征组成的。

参见图4，图4为本发明实施例提供的视频片段结构化查询装置的一种结构示意图，与图2所示的流程相对应，本发明图4所示实施例在图3所示实施例的基础上，增加检测模块304、第二提取模块305和建立模块306：

检测模块304，用于解码视频数据库中的视频，确定视频数据库中每一视频中每一采样视频帧包含的目标；

第二提取模块305，用于针对确定出的每个目标，提取目标的结构化特征，且结构化特征为基于深度学习算法确定的；

建立模块306，用于根据提取的各个目标的结构化特征，建立目标特性数据库。

具体的，查询模块为确定模块；

确定模块，用于在检测完毕视频数据库的视频中所有视频帧所包含的目标后，确定包含各个目标的视频帧，基于所确定出的包含各个目标的视频帧，确定各个目标对应的视频片段。

具体的，提取模块为第一确定模块；

第一确定模块，用于当输入数据为包含待查询目标的类别及其子属性的文本时，将文本中包括的待查询目标的类别及其子属性作为待查询目标的结构化特征。

具体的，提取模块，包括：

检测单元，用于当输入数据为图像时，检测图像包含的待查询目标；

提取单元，用于提取待查询目标的结构化特征；

查询模块，包括：

第一确定单元，用于利用待查询目标的结构化特征中包含的目标的类别和目标类别中的子属性，对视频数据库对应的目标特性数据库进行筛选，确定与待查询目标的类别和目标类别中的子属性均相同的目标；

第一搜索单元，用于利用待查询目标的结构化特征中包含的目标的类别身份特征，对所确定的目标进行搜索，得到与待查询目标的类别身份特征的相似度达到预设阈值的目标；

第二确定单元，用于从待查询视频数据库中，确定搜索得到的目标所对应的视频片段，作为待查询视频数据库中、待查询目标的结构化特征对应的视频片段。

具体的，提取模块为第二确定模块；

第二确定模块，用于当输入数据包括图像和文本时，将文本包括的待查询目标的类别及其子属性，以及提取的图像包含的待查询目标的类别身份特征，作为待查询目标的结构化特征；

查询模块，包括：

过滤单元，用于利用文本包含的待查询目标的类别及其子属性，对视频数据库对应的目标特性数据库进行过滤，确定与待查询目标的类别及其子属性均相同的目标；

第二搜索单元，用于利用图像包含的待查询目标的类别身份特征，对所确定的目标进行搜索，得到与类别身份特征的相似度达到预设阈值的目标；

第三确定单元，用于从待查询视频数据库中，确定搜索得到的目标所对应的视频片段，作为待查询视频数据库中、待查询目标的结构化特征对应的视频片段。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器51、通信接口52、存储器53和通信总线54，其中，处理器51，通信接口52，存储器53通过通信总线54完成相互间的通信，

存储器53，用于存放计算机程序；

处理器51，用于执行存储器53上所存放的程序时，实现如下步骤：

获取包含待查询目标的输入数据；

提取输入数据中待查询目标的结构化特征，其中，结构化特征包括目标的类别、目标类别中的子属性和目标的类别身份特征；

根据待查询目标的结构化特征，查询视频数据库对应的目标特性数据库，确定视频数据库中、待查询目标的结构化特征对应的视频片段，其中，目标特性数据库是由视频数据库中的视频数据提取的结构化特征组成的。

上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponentinterconnect，简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture，简称eisa)总线等。所述通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(randomaccessmemory，简称ram)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(centralprocessingunit，简称cpu)、gpu、网络处理器(networkprocessor，简称np)等；还可以是数字信号处理器(digitalsignalprocessing，简称dsp)、专用集成电路(applicationspecificintegratedcircuit，简称asic)、现场可编程门阵列(field－programmablegatearray，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

需要说明的是，本发明提供的电子设备，仅仅作为一种实现方式，并不构成对本发明提供的视频片段结构化查询方法的部署方式的限定。部署在云端、本地、单机部署或分布式架构部署的实现方式，以及其他能够实现该方法的部署方式，都落在本发明的保护范围之内。

需要强调的是，上述的视频片段结构化查询方法，优选可以基于云服务器部署实现。

云服务器(又称云计算服务器或云主机)提供一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务，其管理方式比物理服务器更简单高效。用户无需提前购买硬件，即可迅速创建或释放任意多台云服务器。

作为云计算服务的重要组成部分，云服务器是面向各类互联网用户提供综合业务能力的服务平台。该平台整合了传统意义上的互联网应用三大核心要素：计算、存储、网络，面向用户提供公用化的互联网基础设施服务。

并且，在实际应用中，可以根据用户的自身需求对云端环境进行配置，具体以可以实现本发明提供的视频片段结构化查询方法为准。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频片段结构化查询方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述的视频片段结构化查询方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，dvd)、或者半导体介质(例如固态硬盘solidstatedisk(ssd))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱才志;周晓
技术所有人：图麟信息科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。