基于内容的视频搜索调度系统的制作方法

文档序号:7970057阅读:181来源:国知局
专利名称:基于内容的视频搜索调度系统的制作方法
技术领域
本发明涉及一种基于内容的搜索调度方法,具体地说,涉及一种在多个存储着不同媒体内容的数据库中搜索出最符合用户期望的视频内容的搜索调度和结果排序算法。
背景技术
基于内容的视频搜索是近一段时间业界的研究热点。一个信息检索系统通常包括一个核心的检索数据库、一个搜索调度系统和服务器组。与普通的信息检索系统不同,视频搜索系统较为复杂,包含的模块也相对较多。传统的视频检索系统要通过人工注释得到视频节目的有关信息,并将这些信息存放在数据库中供此后的查询之用。这种方式带有很大的局限性。人工的注释不但耗费大量的人力和时间,而且往往带有很大的主观性,不能对视频节目内容做出准确、公正的刻画。为此,人们将图像分析、语音分析和字幕分析技术用于视频节目处理,以计算机为主要工具,自动得到与视频节目内容相关的特征信息,为基于内容的搜索提供了支持。
视频内容中的语音、字幕、图像、元数据(对视频内容的描述性信息,如导演,演员,发行单位等)被分别提取并存储在不同的数据库中。如何根据用户的输入条件,在多个数据库中检索出最接近用户期望的视频节目是在解决了视频内容的分解存储后需要解决的又一个重要问题。
用户端输入的搜索条件可以是四类视频内容中的任何一类,也可以是四类内容的任意组合。对于字幕和分类元数据(因为元数据可以被分成多种类型,比如按导演、演员、产地、简介等)用户端的输入就是纯文字信息。对于用户选择的作为搜索条件的图片则要经过用户端软件进行处理,提取出图片的特征数据作为实际的搜索条件。对于用户通过麦克风输入的语音也要经过客户端软件处理变成能在语音数据库中进行匹配查找的数据。
无论是单类条件的搜索还是多类条件组合的复合搜索,要得到最贴近用户期望的视频结果,就必须有一套规则定义出多媒体内容数据库中保存的数据和用户的输入条件间的匹配程度。字幕、图像、语音、元数据这四类视频内容在针对对应的搜索条件(字幕关键词、语音数据、图片或视频片段、元数据关键词)时,它们各自的匹配程度必须要有客观的定义,对于字幕和元数据这样的文本类型内容,它们的匹配程度可以采用同样的标准,对于用户输入的图片和数据库中图片的匹配程度往往采用计算两幅图片的特征数据间的距离来表征;对于用户输入的语音和语音数据库中的数据的匹配程度则采用相似概率来表征。
搜索调度系统在逻辑上位于客户端软件和多媒体数据库之间,对于客户端来说它只能和搜索调度系统通信,它并不知道多媒体数据库集群的存在;对于多媒体数据库来说,每种类型的数据库的查询接口都不相同,而搜索调度系统则拥有所有类型多媒体数据库的查询接口,单类多媒体数据库只需要接受搜索调度系统的查询请求。这样做使得整个检索系统更加灵活,无论是客户端还是数据库发生改变都只需升级搜索调度系统。
搜索调度系统完成的功能就是接受用户的查询条件,对查询条件进行分析,将用户发送过来的各种组合条件拆分出来,把用户发送的搜索请求转化为符合各类多媒体数据库查询接口要求的数据,再将这些条件数据转发到相应的多媒体数据库查询接口中。单类多媒体数据库会将近似符合查询条件的部分结果返回给搜索调度系统,如果这是一个单类条件的查询,搜索调度系统只需要将此结果进行评分、排序和补充元数据信息就可以返回给客户端了。如果这是一个多类条件的组合查询,除了要将各类数据库返回的结果进行评分和排序,还要对多个结果集合求并集和进行多次评分。
搜索调度系统要从数据库中查询到的结果中挑出最符合用户期望的结果来排在最终结果的前面,这个问题不仅涉及到底层数据库对搜索条件的匹配算法,还涉及到用户的心理习惯以及各类多媒体内容之间的关系等诸多问题,仍需要大量的研究才能达到比较满意的效果。本搜索调度系统就是致力于使搜索结果最贴近用户期望的结果,因此采用了很多实验性的评分算法,取得了比较好的效果。

发明内容
本发明的目的在于实现一个基于视频节目内容的搜索调度系统,它是用户端和多媒体数据库之间的接口,完成接受用户搜索请求,把搜索请求调度到不同种类的多媒体数据库上,并二次处理数据库返回的结果集,按照结果集和用户输入的搜索条件的匹配程度有序地将搜索结果返回给客户端。搜索调度系统和客户端以及多媒体数据库之间的关系如图1。
一个基于内容的视频搜索调度系统,包括一个网络模块;一个数据库查询接口模块;一个搜索条件解析模块;一个搜索条件分发模块;一个评分策略模块;一个单类条件搜索结果评分模块;一个多类条件组合查询结果融合、评分模块;一个搜索结果生成模块。
-所述的搜索条件解析模块,包含了对搜索请求的分析,并生成多媒体数据库接受的查询条件。
-所述的搜索条件分发模块,将不同种类搜索条件生成的多媒体数据库查询条件分发到相应的多媒体数据库查询接口。
-所述的评分策略模块,包含了计算元数据搜索结果评分时各类元数据域的预设权重值,计算场景结果评分时镜头重复结果的预设权重值,计算多类条件组合搜索的最终结果评分时各类媒体结果的预设权重值。
-所述的各类元数据域的预设权重值,包括了节目名称权重值、节目导演权重值、节目演员权重值、节目语种权重值、节目产地权重值、节目分类权重值、节目格式权重值、节目简介权重值;每个权重值为0到1之间的浮点数,全部权重值之和为1。
-所述的镜头重复结果的预设权重值,包括了图像镜头重复结果预设权重值、语音镜头重复结果预设权重值、字幕镜头重复结果预设权重值。
-所述的各类媒体结果的预设权重值,包括了图像结果预设权重值、语音结果预设权重值、字幕结果预设权重值、元数据结果预设权重值;每个权重值为0到1之间的浮点数,全部权重值之和为1。
-所述的单类条件搜索结果评分模块,包括图像搜索结果的评分算法、字幕搜索结果的评分算法、元数据搜索结果的评分算法、镜头重复结果的评分算法。
-所述的图像搜索结果的评分算法,包含了对条件图像和结果图像间的距离到结果评分的归一化转化,其转化时所用的图像间距离的上限槛值为可配置的浮点数。
-所述的字幕搜索结果的评分算法,包含了对从字幕数据库中实际取得的字幕片段的分词处理和两次评分。
-所述的两次评分中的首次评分,包括了搜索字幕片段中是否包含完整的搜索条件字符串,并进行出现频率的统计;出现频率越高结果评分也会越高。
-所述的两次评分中的第二次评分,包括了对搜索条件字符串的分词,然后从字幕分词串中搜索每个分割出的词,并统计每个词的词频,作为评分依据。
-所述的元数据搜索结果的评分算法,包括了对单类元数据的评分算法和对整个元数据搜索结果的评分算法;对单类元数据的评分算法采用了字幕评分算法中的两次评分算法,第三次评分的权重因子是由各类元数据域的预设权重值换算得出。
-所述的镜头重复结果的评分算法,包括了图像搜索镜头重复结果的评分算法、音频搜索镜头重复结果的评分算法、字幕搜索镜头重复结果的评分算法。
-所述的镜头重复结果的评分算法,包括了对搜索产生的镜头重复结果中最高评分的提取和根据重复的次数对评分的调整。
-所述的根据重复的次数对评分的调整,包括了根据各类镜头重复结果预设权重值适当提高最高评分。
-所述的多类条件组合查询结果融合、评分模块,包括了多类搜索结果的求并集和根据各类媒体结果的预设权重值在求并集时对结果项的评分进行加权求和。
-所述的对结果项的评分进行加权求和,采用先对单项结果集中的结果评分进行加权调整,再在求并集的时候对不同结果集中的相同结果进行评分求和。
-所述的对单项结果集中的结果评分进行加权调整,包括了对各类媒体结果的预设权重值的二次换算和对结果评分乘上换算后的权重因子。
-所述的对各类媒体结果的预设权重值的二次换算,是把各类媒体结果的预设权重值根据当前搜索中的媒体种类进行归一化处理。
-所述的搜索结果生成模块,包含了对最终结果按照评分的降序进行排序和元数据库中抽取节目的描述性信息来生成返回结果。
本发明的系统提供一种在多个存储着不同媒体内容的数据库中搜索出最符合用户期望的视频内容的搜索调度和结果排序算法。完成接收客户端搜索请求,解析和转发搜索请求到多媒体数据库并生成有序的查询结果。该系统包括搜索条件解析模块、搜索条件分发模块、评分策略模块、单类条件搜索结果评分模块、多类条件组合查询结果融合和评分模块、搜索结果生成模块。


图1为基于内容的视频搜索系统的示意图;图2为搜索调度系统各模块间关系的示意图。
具体实施例方式
参见图1、图21、网络模块客户端的搜索请求和查询所得的最终结果集都要通过网络模块来接收和发送,客户端和搜索调度系统之间定义了一套报文格式用于通信。
2、数据库查询接口模块视频内容会被分解成为字幕、语音、图像、元数据,每一种媒体内容被存储在不同的数据库中,它们分别称为字幕数据库、语音数据库、图像数据库、元数据数据库。每类数据库都是由多个计算机组成的数据库集群。每类数据库的数据组织结构、存储方法、查询接口都不相同。此模块封装了各类多媒体数据库的查询接口,并提供统一的接口给上层的调用模块。
3、搜索条件解析模块此模块位于搜索调度系统的最前端,接收用户的搜索请求,如果用户的搜索请求是单类条件,所有可能的输入为一张图片(称为图像搜索)、一段语音(称为语音搜索)、一段字幕字符串(称为字幕搜索)、一段视频片段(称为片段搜索)、某类元数据或者是多个类型元数据的组合(凡是只有元数据条件的都称为元数据搜索)。
对于图像搜索此模块收到的并不是图像数据而是经过客户端软件处理后的图像特征值,在分析出是图像的特征值后此模块要进一步对特征值进行处理,将特征值转化为图像数据库接受的数据结构。同理对于语音条件也采用这样的处理方式。对于字幕和元数据搜索条件,客户端是不做任何处理的,而是将用户在界面的输入直接发送到搜索调度系统。此模块在识别了是字幕搜索或者是元数据搜索后会对字幕和元数据进行分词处理,再生成适合字幕和元数据数据库查询接口的数据结构。对于片段搜索,客户端会抽取多个图片,再提取多个图片的特征值发送给搜索调度系统。搜索条件解析模块识别出是片段搜索后会按照图像搜索的流程进行处理。在此模块的处理过程中,一个片段搜索相当于多次图像搜索。
4、搜索条件分发模块此模块完成从用户条件到相应数据库接口的转发工作。对于图像搜索和片段搜索,条件数据被转发到图像数据库查询接口;对于语音搜索,条件数据被转发到语音数据库查询接口;对于字幕搜索,条件数据被转发到字幕数据库查询接口;对于元数据搜索,条件数据被转发到元数据库查询接口。
5、评分策略模块此模块保存了对结果进行评分时需要的各种参数和系统运行模式的各种参数,主要包括了4类参数。前3类是和评分相关的,第4类是和运行模式相关的。这些参数在系统启动的时候从配置文件中读入,这样做提高了系统的可配置性,在系统运行的过程中通过向系统发命令也可以改变运行参数。
1)各类元数据域的预设权重值包括了节目名称权重值、节目导演权重值、节目演员权重值、节目语种权重值、节目产地权重值、节目分类权重值、节目格式权重值、节目简介权重值。每个权重值为0到1之间的浮点数,全部权重值之和为1。
2)镜头重复结果预设权重值包括了图像镜头重复结果预设权重值、语音镜头重复结果预设权重值、字幕镜头重复结果预设权重值。
3)各类媒体结果的预设权重值包括了图像结果预设权重值、语音结果预设权重值、字幕结果预设权重值、元数据结果预设权重值。每个权重值为0到1之间的浮点数,全部权重值之和为1。
4)运行模式参数包括了各种单类搜索的线程模式,因为不同类型的搜索所消耗的时间不同,比如图像和语音搜索比较耗时,往往是秒级的;元数据和字幕搜索速度比较快,一般在10毫秒一下。所以要使组合查询的速度达到最快就必须让有些类的搜索并行处理。我们的做法是让图像搜索和语音搜索使用单独的线程,对元数据和字幕搜索采用串行处理。这样整个组合查询的总时间就约等于单类搜索中消耗的最大时间。
6、单类条件搜索结果评分模块1)图像搜索结果的评分算法用户输入的图像和图像数据库中存储的图像之间的相似程度是用两幅图像之间的距离来衡量的,距离值越小则表示两幅图像越相似。但这样的表示方式在处理多类条件组合查询的时候会很不方便,因为其他种类的搜索在表示条件和结果的相似程度的时候都采用了百分比表示法,因此必须将距离转化为以百分比表示的相似度。在转化时必须设置一个槛值,凡是大于这个槛值的记录都被过滤掉不返回给用户,然后以这个槛值为基准对距离值做归一化处理,再减1就成为以百分比表示的相似度。
2)字幕搜索结果的评分算法判断字幕数据库中的字幕片段所在的节目和用户希望搜到的节目之间的匹配程度的主要依据为A、字幕片段中是否包含完整的条件字幕串,条件字幕串在字幕片段中出现的频率为多少。
B、条件字幕串被分成多个词之后,多少个词出现在字幕片段中,每个词出现的频率为多少。
如果满足A则会得到很高的评分,完整的条件字幕串出现的频率越高则此项结果的评分也会越高,如果字幕片段中不包含完整的条件字幕串则主要考察字幕片段中包含多少个条件字幕串中的词,包含的越多则评分越高,条件字幕串中的词出现的频率越高则评分也会越高。但只要满足A标准的就肯定比满足B标准的评分高。
3)元数据搜索结果的评分算法元数据搜索是传统的搜索方式,虽然基于内容的搜索和元数据搜索有很大不同,但它们之间并不是完全孤立的两类搜索,相反如果对节目进行人工编目,元数据的搜索效率和精度都是非常高的。基于内容的搜索如果和元数据搜索相结合则会极大的提高基于内容搜索的性能。所以在构建基于内容的视频搜索系统时,我们也把元数据搜索纳入其中。元数据类型非常多,我们这里采用了一部分能提供搜索功能的元数据项,它们是节目的名字、节目的导演、节目的演员、节目的语种、节目的产地、节目的类型、节目的格式、节目的简介。用户针对元数据的搜索包括两类,一种是全库搜索用户输入的关键字会被用于搜索元数据库的所有元数据类型字段。这里我们采用的评分方式是首先计算针对每类元数据此结果项的评分,计算方法和字幕搜索结果的评分算法相同,在得到了针对每项元数据的评分后,我们会根据不同元数据的重要性程度对各项元数据评分加权求和,每类元数据会事先分配一个权重值(例如节目的名字对于视频搜索的重要性要高于节目的产地,节目名字的权重值当然会比产地的权重值高很多),它是一个0到1之间的浮点数。加权求和得到的就是此结果项的最终评分。
元数据搜索的第二种形式为多类元数据项的组合搜索,比如用户指定了搜索节目的导演包含张艺谋且演员包含李连杰的节目,这就是一个包含了两类元数据的组合搜索。这类元数据的评分方法为首先还是计算组合类型中针对每个类型元数据的评分,然后把针对单类元数据的评分加权求和,但此时选用的权重值不是原始的此类元数据的预设权重值,而要对此类元数据的预设权重值进行换算,换算的方法为以组合类型中的全部元数据类型的预设权重值的和为单位一,分别求出组合类型中每类元数据的预设权重值所占的百分比作为加权求和的权重因子。
4)语音搜索结果的评分对于语音搜索的评分则主要依赖于语音数据库查询接口返回的相似度,我们就使用此值作为结果的评分。
5)镜头重复结果的评分算法从数据库返回的结果中会有重复的结果的情况只存在于基于内容的搜索。之所以会产生这样的情形是由于视频内容的分解粒度和用户要求返回的视频片段粒度不一致。在构建图像、字幕、语音数据时,视频内容是以镜头为最小的单位分别存储于三类数据库中。而在客户端则要求返回的是视频场景,一个视频场景中可以包含多个视频镜头。在进行这三类搜索的时候用户的搜索条件在和数据库中的媒体数据进行匹配的时候都是以镜头为最小单位进行匹配查找。在返回给搜索调度系统时也都是以镜头为单位的结果。这就要求我们在面对同一场景的多个镜头结果时只生成一个场景结果。
场景结果的评分主要依赖于多个镜头结果评分中的最高分和同一场景中出现的镜头结果个数。我们会挑选出镜头结果中的最高分,并以它作为场景结果评分的基准再进一步调整。在调整的算法中属于同一个场景的镜头结果数越多场景结果的评分也会越高。我们会预先设定三个值,它们分别是图像镜头重复结果预设权重值、语音镜头重复结果预设权重值、字幕镜头重复结果预设权重值。调整算法对除了最高评分外的不同镜头结果评分乘上镜头重复结果的权重值,然后对这些值求和,最后再将这个和加上最高评分就得到了场景结果的最终评分。
7、多类条件组合查询结果融合、评分模块基于内容的视频搜索的最大特点就是根据多类媒体内容条件搜索视频内容,利用属于同一视频内容的多类媒体内容的内在联系以及不同媒体内容反映的信息量的不同可以极大的提高视频搜索的效率和精度。
所以在视频搜索的时候客户端会发送多种类型的组合检索条件到调度系统,图像、语音、字幕、元数据这几类媒体内容可以任意组合。为了能灵活的处理这样的情况,我们根据经验给每类媒体预设了一个权重值,所有的权重值相加得1,每个权重值为0到1的浮点数。很多时候搜索条件的类型不是包含所有的媒体类型,所以不能直接使用预设的权重值来计算最后结果的评分,必须再对预设的权重值做一次变换,目的是要体现本次搜索不同媒体类型对结果的影响。具体做法为将本次搜索包含的媒体条件的权重值做归一化处理,例如元数据的预设权重值为0.6,图像的预设权重值为0.2,则元数据的归一化权重为0.6/(0.6+0.2)=0.75,图像的归一化权重为0.25。
8、搜索结果生成模块在最终结果评分完成后要进行的工作就是对最终结果集按照评分的降序排序,对于图像、语音、字幕、部分元数据搜索由于多媒体数据库没能给出完整的节目介绍信息,所以还要根据节目ID再反查元数据库来生成最终的结果,这样用户才能完整的了解这个节目是不是他需要的。
权利要求
1.一个基于内容的视频搜索调度系统,其特征在于包括一个网络模块;一个数据库查询接口模块;一个搜索条件解析模块;一个搜索条件分发模块;一个评分策略模块;一个单类条件搜索结果评分模块;一个多类条件组合查询结果融合、评分模块;一个搜索结果生成模块。
2. 如权利要求1所述的基于内容的视频搜索调度系统,其特征在于搜索条件解析模块,包含了对搜索请求的分析,并生成多媒体数据库接受的查询条件。
3.如权利要求1所述的基于内容的视频搜索调度系统,其特征在于搜索条件分发模块,将不同种类搜索条件生成的多媒体数据库查询条件分发到相应的多媒体数据库查询接口。
4.如权利要求1所述的基于内容的视频搜索调度系统,其特征在于评分策略模块,包含了计算元数据搜索结果评分时各类元数据域的预设权重值,计算场景结果评分时镜头重复结果的预设权重值,计算多类条件组合搜索的最终结果评分时各类媒体结果的预设权重值。
5.如权利要求4所述的基于内容的视频搜索调度系统,其特征在于各类元数据域的预设权重值,包括了节目名称权重值、节目导演权重值、节目演员权重值、节目语种权重值、节目产地权重值、节目分类权重值、节目格式权重值、节目简介权重值;每个权重值为0到1之间的浮点数,全部权重值之和为1。
6.如权利要求4所述的基于内容的视频搜索调度系统,其特征在于镜头重复结果的预设权重值,包括了图像镜头重复结果预设权重值、语音镜头重复结果预设权重值、字幕镜头重复结果预设权重值。
7.如权利要求4所述的基于内容的视频搜索调度系统,其特征在于各类媒体结果的预设权重值包括了图像结果预设权重值、语音结果预设权重值、字幕结果预设权重值、元数据结果预设权重值;每个权重值为0到1之间的浮点数,全部权重值之和为1。
8.如权利要求1所述的基于内容的视频搜索调度系统,其特征在于单类条件搜索结果评分模块,包括图像搜索结果的评分算法、字幕搜索结果的评分算法、元数据搜索结果的评分算法、镜头重复结果的评分算法。
9.如权利要求8所述的基于内容的视频搜索调度系统,其特征在于图像搜索结果的评分算法,其中包含了对条件图像和结果图像间的距离到结果评分的归一化转化,其转化时所用的图像间距离的上限槛值为可配置的浮点数。
10.如权利要求8所述的基于内容的视频搜索调度系统,其特征在于字幕搜索结果的评分算法,其中包含了对从字幕数据库中实际取得的字幕片段的分词处理和两次评分。
11.如权利要求10所述的基于内容的视频搜索调度系统,其特征在于两次评分中的首次评分,包括了搜索字幕片段中是否包含完整的搜索条件字符串,并进行出现频率的统计;出现频率越高结果评分也会越高。
12.如权利要求10所述的基于内容的视频搜索调度系统,其特征在于两次评分中的第二次评分,包括了对搜索条件字符串的分词,然后从字幕分词串中搜索每个分割出的词,并统计每个词的词频,作为评分依据。
13.如权利要求8所述的基于内容的视频搜索调度系统,其特征在于元数据搜索结果的评分算法,包括了对单类元数据的评分算法和对整个元数据搜索结果的评分算法;对单类元数据的评分算法采用了字幕评分算法中的两次评分算法,第三次评分的权重因子是由各类元数据域的预设权重值换算得出。
14.如权利要求8所述的基于内容的视频搜索调度系统,其特征在于镜头重复结果的评分算法,包括了图像搜索镜头重复结果的评分算法、音频搜索镜头重复结果的评分算法、字幕搜索镜头重复结果的评分算法。
15.如权利要求8所述的基于内容的视频搜索调度系统,其特征在于镜头重复结果的评分算法,包括了对搜索产生的镜头重复结果中最高评分的提取和根据重复的次数对评分的调整。
16.如权利要求15所述的基于内容的视频搜索调度系统,其特征在于根据重复的次数对评分的调整,包括了根据各类镜头重复结果预设权重值适当提高最高评分。
17.如权利要求1所述的基于内容的视频搜索调度系统,其特征在于多类条件组合查询结果融合、评分模块,包括了多类搜索结果的求并集和根据各类媒体结果的预设权重值在求并集时对结果项的评分进行加权求和。
18.如权利要求17所述的基于内容的视频搜索调度系统,其特征在于对结果项的评分进行加权求和,采用先对单项结果集中的结果评分进行加权调整,再在求并集的时候对不同结果集中的相同结果进行评分求和。
19.如权利要求18所述的基于内容的视频搜索调度系统,其特征在于对单项结果集中的结果评分进行加权调整,包括了对各类媒体结果的预设权重值的二次换算和对结果评分乘上换算后的权重因子。
20.如权利要求19所述的基于内容的视频搜索调度系统,其特征在于对各类媒体结果的预设权重值的二次换算,是把各类媒体结果的预设权重值根据当前搜索中的媒体种类进行归一化处理。
21.如权利要求1所述的基于内容的视频搜索调度系统,其特征在于搜索结果生成模块,包含了对最终结果按照评分的降序进行排序和元数据库中抽取节目的描述性信息来生成返回结果。
全文摘要
本发明提供一种基于内容的视频搜索调度系统,完成接收客户端搜索请求,解析和转发搜索请求到多媒体数据库并生成有序的查询结果。该系统包括搜索条件解析模块、搜索条件分发模块、评分策略模块、单类条件搜索结果评分模块、多类条件组合查询结果融合和评分模块、搜索结果生成模块。
文档编号H04N5/262GK101021852SQ20061014049
公开日2007年8月22日 申请日期2006年10月10日 优先权日2006年10月10日
发明者何晓鹏, 苏磊, 鲍东山 申请人:鲍东山
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1