基于自然交互输入的视频搜索系统及方法和视频搜索服务器的制作方法

文档序号:6371506阅读:180来源:国知局
专利名称:基于自然交互输入的视频搜索系统及方法和视频搜索服务器的制作方法
技术领域
本发明涉及视频搜索技术领域,特别是关于基于自然交互输入(例如语音输入)的视频搜索系统及方法、以及视频搜索服务器。
背景技术
随着电子信息和网络技术的发展,具有网络接入功能的智能电视逐渐成为电视市场的主流。其中,视频则是智能电视用户最主要的需求。不用于个人计算机外围设备的鼠标和键盘,目前智能电视的人机交互仍然以传统的遥控器方式为主;然而,大量的按钮、复杂的使用模式和菜单、繁琐且令人困惑的界面元素,随着电视的复杂化和功能的不断增强,传统的人机交互方式也因此变得越来越不能满足用户的需求。近期以来,随着语音识别技术的发展,出现了以美国苹果(APPLE)公司推出的个人语音助理(Personalized Intelligent Assistant, SIRI)为代表的产品,其能够让用户通过自然语言与设备终端进行交互,并能够提供例如发短信、查天气等多项功能。目前,SIRI尚不能支持中文语音输入。近年来,国内相关行业也开始进行基于语音等自然交互方式的研究与应用并取得了一定的成果,但总得来看,基于语音等自然交互方式的产品应用仍难以满足用户的体验要求。

发明内容
本发明的发明目的之一在于提供一种基于自然交互输入的视频搜索系统,能实现对用户的视频目标任务的智能感知,提供更佳的用户体验。本发明的另一发明目的在于提供一种基于自然交互输入的视频搜索方法,能实现对用户的视频目标任务的智能感知,提供更佳的用户体验。本发明的再一发明目的在于提供一种视频搜索服务器,具有自然语言语义分析能力及智能的视频搜索能力。具体地,本发明实施例提供的一种基于自然交互输入的视频搜索系统,包括用户端和视频搜索服务器。其中,用户端包括语音采集模块和人机界面,语音采集模块采集用户的语音输入以生成用户语音数据并提供至人机界面。视频搜索服务器包括控制模块、语音识别模块、自然语言处理模块、视频关系数据库以及视频搜索模块;视频关系数据库储存视频语义空间以及视频文本数据在该视频语义空间的语义描述子集合。控制模块接收用户端的人机界面提供的用户语音数据并提供至语音识别模块以获取用户文本数据,将用户文本数据提供至自然语言处理模块以获取用户文本语义分析结果数据,并利用用户语义分析结果数据在该视频关系数据库中进行预搜索以获取视频预搜索结果。该视频预搜索结果包含与该用户文本语义分析结果数据匹配的相关视频文本数据于该视频语义空间的语义描述子集合。视频搜索模块接收控制模块提供的用户文本语义分析结果数据和视频预搜索结果、利用用户文本语义分析结果数据于视频语义空间的语义描述子与视频预搜索结果所包含的语义描述子集合分别进行相似度比较、并根据比较结果输出视频最终搜索结果至控制模块,再由控制模块提供至人机界面以呈现给用户。此外,本发明实施例提供的一种基于自然交互输入的视频搜索方法,其包括步骤(a)采集用户的自然交互输入以得到用户文本数据;(b)对用户文本数据进行自然语言语义分析得到用户文本语义分析结果数据;(C)利用用户文本语义分析结果数据进行预搜索得到视频预搜索结果,该视频预搜索结果包含与用户文本语义分析结果数据匹配的相关视频文本数据在一视频语义空间的语义描述子集合;(d)将用户文本语义分析结果数据投影到该视频语义空间后与视频预搜索结果所包含的语义描述子集合分别进行相似度比较并输出视频最终搜索结果;以及(e)将视频最终搜索结果呈现给用户。本发明另一实施例提供的一种基于语音输入的视频搜索方法,其包括步骤(I)利用对收集到的视频文本数据进行自然语言语义分析后而得到的视频文本语义分析结果数据进行量化并基于潜在语义索引进行训练学习得到视频语义空间、并取得收集到的视频文本数据在该视频语义空间的语义描述子集合;(2)采集用户的自然交互输入以得到用户 文本数据;(3)对用户文本数据进行自然语言语义分析得到用户文本语义分析结果数据;
(4)利用用户文本语义分析结果数据于该视频语义空间的语义描述子在至少部分收集到的视频文本数据于该视频语义空间的语义描述子集合中进行相似度比较以输出视频最终搜索结果;以及(5)将视频最终搜索结果呈现给用户。另外,本发明实施例提供的一种视频搜索服务器,包括视频关系数据库、自然语言处理模块、控制模块、以及视频搜索模块。其中,视频关系数据库储存视频语义空间以及视频文本数据在该视频语义空间的语义描述子集合;控制模块将代表用户视频需求的用户文本数据提供至自然语言处理模块以获取用户文本语义分析结果数据;视频搜索模块获取用户文本语义分析结果数据在该视频语义空间的语义描述子、并利用该语义描述子在至少部分视频文本数据于该视频语义空间的语义描述子集合中进行相似度比较以输出视频最终搜索结果至控制模块。本发明上述各个实施例中的基于自然交互输入的视频搜索系统及方法和视频搜索服务器至少具有以下优点中的一个或多个能够以用户的视频目标任务为导向,允许用户使用自然语言进行交互,通过自然语言处理技术,利用视频相关知识库进行推理运算,用户只需提供对视频内容的简单描述即可从数据库中快速获取相关视频,从而可实现对用户的视频目标任务的智能感知;此外,能够实现自然友好方便的人机交互方式和界面,具有不断学习升级的能力;因此,可有效提升用户的使用体验。上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。


图I为本发明实施例的一种基于自然交互输入(例如语音输入)的视频搜索系统架构示意图。图2为图I所示用户端的一种模块示意图。图3为图I所示视频搜索服务器的一种模块示意图。图4为本发明实施例的一种基于语音输入的视频搜索方法的流程图。
图5为本发明实施例的另一种基于语音输入的视频搜索方法的流程图。
具体实施例方式为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于自然交互输入的视频搜索系统及方法和视频搜索服务器其具体实施方式
、方法、步骤及功效,详细说明如后。有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式
的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。请参阅图1,其为本发明实施例的一种基于自然交互输入(例如语音输入)的视频搜索系统的架构示意图。如图I所示,本实施例的基于语音输入的视频搜索系统100包括 用户端10与视频搜索服务器30 ;用户端10接收用户语音输入并生成用户语音数据,由视频搜索服务器30根据用户语音数据进行视频搜索并返回视频最终搜索结果至用户端10以呈现给用户。需要说明的是,在本实施例的基于语音输入的视频搜索系统100中,一个视频搜索服务器30可以对应多个用户端10,从而可分别响应各个用户端10的用户语音数据并返回对应的视频最终搜索结果。请参阅图2,其为本发明实施例的用户端10的一种模块示意图。如图2所示,用户端10例如包括语音采集模块11与人机界面13。其中,语音采集模块11采集用户语音输入并生成用户语音数据,该用户语音数据通过人机界面13传送至视频搜索服务器30。人机界面13的任务例如包括人机交互、用户信息记录和用户认证等。在用户认证方面,可以为用户专门提供两种使用模式,例如公开模式和隐私模式;与此对应,视频搜索服务器30可以在启用或跳过用户认证两种方式下进行视频搜索,这样既可以对用户的个人信息进行保护,又可以对不同年龄范围的用户提供适合的视频搜索结果。在本实施例中,用户端10例如是带电视遥控器的智能电视(具有上网功能)、桌上型电脑、笔记本电脑、智能手机等电子产品;当用户端10为带电视遥控器的智能电视,则语音采集模块11可以是内置于电视遥控器的麦克风,人机界面13可以是运行在智能电视上(例如80端口)的超文本传输协议(Hyper Text Transport Protocol, HTTP)网站服务,其将麦克风输出的用户语音数据传送至视频搜索服务器30做视频搜索之用,并且后续还可显示视频最终搜索结果以呈现给用户;此外,可以理解的是,在传送用户语音数据至视频搜索服务器30之前可先对用户语音数据进行数据压缩。请参阅图3,其为本发明实施例的视频搜索服务器30的一种模块示意图。如图3所示,视频搜索服务器30包括控制模块31、语音识别模块33、自然语言处理模块35、视频数据收集模块36、视频关系数据库37、语义空间学习模块38、视频搜索模块39、以及服务器管理模块32。在此说明的是,视频搜索服务器30中的各个模块可以根据实际设计弹性的需要以硬件及/或软件的方式实现;此外,视频搜索服务器30可以是由单个服务器或者是多个服务器构成的群组、再加上必要的外围设备构成。另外,在本实施例中,视频搜索服务器30包括线上和线下两部分,线上部分主要由控制模块31、语音识别模块33、自然语言处理模块35和视频搜索模块39构成,线下部分主要由视频数据收集模块36、视频关系数据库37和语义空间学习模块38构成,并与线上部分共用自然语言处理模块35。具体地,控制模块31作为整个视频搜索服务器30的调度中心,其接收用户端10传送(例如以有线或无线网络连接方式传送)过来的用户语音数据并最终返回视频最终搜索结果作为输出给用户端10。在此,当用户端10的人机界面13设置有用户认证机制的情形下,控制模块31会先验证用户的身份,根据认证结果确定后续是否进行视频搜索及/或返回视频最终搜索结果之前是否需要先进行搜索结果过滤。语音识别模块33用于对语音数据进行语音识别以转换成对应的文本数据,其通常会连接至语音库(图3未示出)进行语音指令匹配操作。在本实施例中,语音识别模块33可以将控制模块31提供的用户语 音数据转换成代表用户视频需求的用户文本数据并返回给控制模块31。自然语言处理模块35适于对文本数据(例如用户文本数据、视频文本数据等)进行语义分析,例如可以完成中文语义分析包括分词、词性标注、命名实体分析等等。当然,可以理解的是,自然语言处理模块35也可对不同语言文本进行语义分析,并不限于中文,也可以是英文等等,只是需要提供不同语言的语义库来支持。在本实施例中,自然语言处理模块35可以对控制模块31提供的用户文本数据进行语义分析以返回用户文本语义分析结果数据至控制模块31。在此,用户文本语义分析结果数据可以理解为进行分词、词性标注等操作后的用户文本数据。视频数据收集模块36用于收集视频数据并提供视频文本数据,该视频文本数据可以是从网络(包括影视节目提供合作商)搜索到的电影、电视剧、歌曲、电视节目等文本数据,例如包括视频名、别名、导演名、演员名、视频制作年代、视频主题类型(例如战争片、喜剧片等)、视频地区(例如中国、美国等等)或语言(例如中文、英文等)类型、视频类别(例如电影、电视剧等)等等字段以及数据有效性标记等视频描述文本。视频数据收集模块36的工作方式可以是周期性自动收集或是人工触发收集。在本实施例中,视频数据收集模块36提供的视频文本数据会先传送至自然语言处理模块35进行自然语言语义分析形成视频文本语义分析结果数据后储存至视频关系数据库37 ;可以理解的是,视频数据收集模块36提供的视频文本数据也可先储存至视频关系数据库37,再由自然语言处理模块37对储存在视频关系数据库37中的视频文本数据进行分词、词性标注等(也即语义分析)操作。在此,视频文本语义分析结果数据可以理解为对视频文本数据进行分词、词性标注等操作后的结果数据。视频关系数据库37作为视频搜索服务器30执行视频搜索的数据源,其包括视频数据表、备份数据表、用户表及查询记录表等数据表。其中,视频数据表例如保存经过语义分析后的视频文本数据,备份数据表例如保存重复和剔除的数据,用户表例如保存用户数据,查询记录表例如保存用户的视频搜索记录。语义空间学习模块38是基于语音输入的视频搜索系统100的机器学习的主要部分,其主要负责将视频关系数据库37中的视频文本数据量化,然后基于潜在语义索引(Latent semantic indexing, LSI)对视频关系数据库37中主要的一些语义进行分析学习得到视频语义空间、并找到收集到的视频文本数据在该视频语义空间的语义描述子集合(也即在该视频语义空间的投影集合),并储存至视频关系数据库37中。视频语义空间的建立过程可以是语义空间学习模块38将储存在视频关系数据库37中经语义分析后的视频文本语义分析结果数据作为训练样本集,因此包含大量有用词汇的词表被建立,然后利用这个词表,每个视频文本数据(也即视频描述)都能够被数量化并最终由一个向量来表不;此时,向量中的每一个兀素将代表某一个词在某一个视频文本数据中出现的次数,该向量也即是视频文本数据的词频。之后,利用大量视频文本数据的词频向量,通过子空间机器学习的方法,在词频向量所属线性空间中可以计算出一些特殊的方向,表示这些特殊的方向的向量是一组标准正交的向量组,它们构成一个新的线性空间。这组向量的特殊物理意义是其中任一个向量都表示在特定语境下经常同时出现的某些词汇,每一种这样的特定语境便对应一个语义题目,即某些词汇的同时出现就表示一个语义。但是,构成新的线性空间的这组特殊向量中一般只有一部分具有非常高的语义区分度,因此被保留下来。这些被保留下来的向量最终构成视频语义空间。视频关系数据库37中的视频文本数据将在该视频语义空间中找到投影,也即视频文本数据在该视频语义空间中的语义描述子。视频搜索模块39连接至控制模块31与视频关系数据库37中,其可接收控制模块31提供的用户文本语义分析结果数据并可从视频关系数据库37获取视频语义空间(例如该语义空间的坐标轴等信息)、并将该用户文本语义分析结果数据投影在该视频语义空间 以得到用户文本数据在该视频语义空间的投影(也即语义描述子)。后续,视频搜索模块39就可以利用该语义描述子进行视频搜索操作。本发明实施例中视频搜索模块39的视频搜索操作可以为首先,让控制模块31利用用户文本语义分析结果数据(也即语义分析后的用户文本数据)在视频关系数据库37中进行视频预搜索,例如进行分类搜索也即视频导演名搜索、视频演员名搜索、视频制作年代搜索、视频主题类型搜索、视频地区或语言类型搜索、和视频类别搜索等等中的多个或全部;这样,就可以减小后续视频搜索模块39进行视频搜索的工作量,提高搜索效率。在此,视频预搜索结果例如包含与用户文本数据匹配的相关视频文本数据在视频语义空间的语义描述子的集合,该语义描述子集合会随同用户文本语义分析结果数据一同提供给视频搜索模块39。之后,视频搜索模块39将用户文本数据于视频语义空间的语义描述子和视频预搜索结果所包含的相关视频文本数据在该视频语义空间的语义描述子集合进行相似度比较搜索得到视频最终搜索结果并传送至控制模块31,再由控制模块31提供至用户端10 的人机界面13以呈现给用户。在此,相似度比较可以通过计算欧式距离来实现,但本发明并不以此为限,其他可以计算语义空间中投影之间的相似度的方法均可采用。另外,此处的视频最终搜索结果可以是按照相似度的分值高低排序的视频列表。需要说明的是,在本发明实施例中,并不限于前述利用用户文本数据于视频语义空间的语义描述子在部分的视频文本数据于该视频语义空间的语义描述子集合中进行语义空间搜索,在其他实施例中,也可不做视频预搜索,而直接利用用户文本数据于视频语义空间的语义描述子在全部视频文本数据于该视频语义空间的语义描述子集合中进行语义空间搜索得到视频最终搜索结果。另外,为提供管理和开发人员一个对视频搜索服务器进行调试、测试、部署、维护的界面,服务器管理模块32被配置在视频搜索服务器30中,其是作为非面向用户的一个模块。再者,本发明上述实施例的语音识别模块33也可整合于用户端10而非视频搜索服务器30,如此用户端10可以将用户语音数据先转换成用户文本数据后再传送给视频搜索服务器30中的控制模块31。下面将简述几种可应用上述实施例的基于自然交互输入例如语音输入的视频搜索系统100的基于语音输入的视频搜索方法。如图4所示,一种基于语音输入的视频搜索方法例如主要包括S40(TS410
S400 :采集用户的语音输入以生成用户语音数据;
S402 :对用户语音数据进行语音识别得到用户文本数据;
S404 :对用户文本数据进行自然语言语义分析得到用户文本语义分析结果数据;
S406 :利用用户文本语义分析结果数据进行预搜索(例如前述的分类搜索)得到视频 预搜索结果,该视频预搜索结果包含与用户文本语义分析结果数据匹配的相关视频文本数据在视频语义空间的语义描述子集合;
S408:将用户文本语义分析结果数据投影到视频语义空间后与视频预搜索结果所包含的语义描述子集合分别进行相似度比较以输出视频最终搜索结果(例如是按照相似度的分值高低排序的视频列表);以及
S410 :将视频最终搜索结果呈现给用户。如图5所示,另一种基于语音输入的视频搜索方法例如主要包括步骤S50(TS510 S500 :利用对收集到的视频文本数据进行自然语言语义分析后而得到的视频文本语义
分析结果数据进行量化并基于潜在语义索引进行训练学习得到视频语义空间、并取得收集到的视频文本数据在视频语义空间的语义描述子集合;
S502 :采集用户的语音输入并转换成用户文本数据;
S504 :对用户文本数据进行自然语言语义分析得到用户文本语义分析结果数据;
S506 :利用用户文本语义分析结果数据于视频语义空间的语义描述子在至少部分收集到的视频文本数据于视频语义空间的语义描述子集合中进行相似度比较以输出视频最终搜索结果;更具体地,在步骤S506中,其包含前述的先进行视频预搜索(例如前述的分类搜索)再进行语义空间搜索、与不做视频预搜索而直接进行语义空间搜索两种情形;以及S508 :将视频最终搜索结果呈现给用户。另外,本领域技术人员可以理解的是,自然交互输入方式并不限于语音输入,也可为直接的自然语言文本输入,甚至是手势输入;相应地,在上述各个实施例的视频搜索方法中,则不需要用户语音数据的文本转换步骤;而视频搜索系统中的模块设计也可相应地根据实际情形做适当地增减及/或变更。综上所述,本发明实施例提供的基于自然交互输入例如语音输入的视频搜索系统及方法以及视频搜索服务器至少具有以下优点中的一个或多个能够以用户的视频目标任务为导向,允许用户使用自然语言进行交互,通过自然语言处理技术,利用视频相关知识库进行推理运算,用户只需提供对视频内容的简单描述即可从数据库中快速获取相关视频,从而可实现对用户的视频目标任务的智能感知;此外,能够实现自然友好方便的人机交互方式和界面,具有不断学习升级的能力;因此,可有效提升用户的使用体验。以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任 何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
权利要求
1.一种基于自然交互输入的视频搜索系统,其特征在于,包括 用户端,包括语音采集模块和人机界面,该语音采集模块采集用户的语音输入以生成用户语音数据并提供至该人机界面;以及 视频搜索服务器,包括控制模块、语音识别模块、自然语言处理模块、视频关系数据库以及视频搜索模块,该视频关系数据库储存视频语义空间以及视频文本数据在该视频语义空间的语义描述子集合, 其中,该控制模块接收用户端的人机界面提供的用户语音数据并提供至语音识别模块以获取用户文本数据,将用户文本数据提供至自然语言处理模块以获取用户文本语义分析结果数据,并利用用户文本语义分析结果数据在视频关系数据库中进行预搜索以获取视频预搜索结果;该视频预搜索结果包含与用户文本语义分析结果数据匹配的相关视频文本数据在视频语义空间的语义描述子集合, 该视频搜索模块接收控制模块提供的用户文本语义分析结果数据和视频预搜索结果, 利用用户文本语义分析结果数据于视频语义空间的语义描述子与视频预搜索结果所包含的语义描述子集合分别进行相似度比较,并根据比较结果输出视频最终搜索结果至控制模块,再由控制模块提供至人机界面以呈现给用户。
2.如权利要求I所述的基于自然交互输入的视频搜索系统,其特征在于,该视频搜索服务器还包括 视频数据收集模块,收集视频数据以提供视频文本数据至该自然语言处理模块,由自然语言处理模块输出视频文本语义分析结果数据至视频关系数据库进行储存;以及 语义空间学习模块,利用视频关系数据库储存的视频文本语义分析结果数据进行训练学习得到视频语义空间并找到视频文本数据各自在视频语义空间的语义描述子后储存至视频关系数据库。
3.一种基于自然交互输入的视频搜索方法,其特征在于,包括步骤 采集用户的自然交互输入以得到用户文本数据; 对该用户文本数据进行自然语言语义分析得到用户文本语义分析结果数据; 利用该用户文本语义分析结果数据进行预搜索得到视频预搜索结果,该视频预搜索结果包含与该用户文本语义分析结果数据匹配的相关视频文本数据在一视频语义空间的语义描述子集合; 将该用户文本语义分析结果数据投影到该视频语义空间后与该视频预搜索结果所包含的语义描述子集合分别进行相似度比较以输出视频最终搜索结果;以及将该视频最终搜索结果呈现给用户。
4.如权利要求3所述的基于自然交互输入的视频搜索方法,其特征在于,还包括步骤 收集取得视频文本数据; 对所取得的该视频文本数据进行自然语言语义分析得到视频文本语义分析结果数据;以及 利用该视频文本语义分析结果数据进行训练学习得到该视频语义空间并找到所取得的该视频文本数据各自在该视频语义空间的语义描述子。
5.如权利要求3所述的基于自然交互输入的视频搜索方法,其特征在于,利用该用户文本语义分析结果数据进行预搜索得到视频预搜索结果的步骤包括利用该用户文本语义分析结果数据进行分类搜索,该分类搜索包括视频导演名搜索、视频演员名搜索、视频制作年代搜索、视频主题类型搜索、视频地区或语言类型搜索、和视频类别搜索中的多个或全部。
6.一种基于自然交互输入的视频搜索方法,其特征在于,包括步骤 利用对收集到的视频文本数据进行自然语言语义分析后而得到的视频文本语义分析结果数据进行量化并基于潜在语义索引进行训练学习得到视频语义空间,并取得收集到的视频文本数据在该视频语义空间的语义描述子集合; 采集用户的自然交互输入以得到用户文本数据; 对该用户文本数据进行自然语言语义分析得到用户文本语义分析结果数据; 利用该用户文本语义分析结果数据于该视频语义空间的语义描述子在至少部分收集到的视频文本数据于该视频语义空间的语义描述子集合中进行相似度比较以输出视频最终搜索结果;以及 将视频最终搜索结果呈现给用户。
7.一种视频搜索服务器,其特征在于,包括 视频关系数据库,储存视频语义空间以及视频文本数据在该视频语义空间的语义描述子集合; 自然语言处理模块; 控制模块,将代表用户视频需求的用户文本数据提供至该自然语言处理模块以获取用户文本语义分析结果数据;以及 视频搜索模块,获取该用户文本语义分析结果数据在该视频语义空间的语义描述子,并利用该语义描述子在至少部分视频文本数据于该视频语义空间的语义描述子集合中进行相似度比较以输出视频最终搜索结果至该控制模块。
8.如权利要求7所述的视频搜索服务器,其特征在于,该控制模块进一步利用该用户文本语义分析结果数据在该视频关系数据库中进行预搜索以得到视频预搜索结果,该视频预搜索结果包含与该用户文本语义分析结果匹配的相关视频文本数据于该视频语义空间的语义描述子集合;相应地,该视频搜索模块是利用与该用户文本语义分析结果数据对应的该语义描述子在视频预搜索结果包含的语义描述子集合中进行相似度比较以输出视频最终搜索结果至该控制模块。
9.如权利要求7所述的视频搜索服务器,其特征在于,还包括 语音识别模块,当控制模块接收用户语音数据后,经由该语音识别模块将该用户语音数据转换成该代表用户视频需求的用户文本数据。
10.如权利要求7、8或9所述的视频搜索服务器,其特征在于,还包括 视频数据收集模块,收集视频数据以提供视频文本数据至该自然语言处理模块,由该自然语言处理模块输出视频文本语义分析结果数据至该视频关系数据库进行储存;以及 语义空间学习模块,对该视频关系数据库储存的该视频文本语义分析结果数据进行量化和基于潜在语义索引进行训练学习得到该视频语义空间并找到视频文本数据各自在该视频语义空间的语义描述子后储存至该视频关系数据库。
全文摘要
本发明涉及视频搜索技术领域,并提供基于自然交互输入的视频搜索系统及方法和视频搜索服务器。视频搜索系统的用户端接受用户自然交互输入并提供至其视频搜索服务器进行视频搜索;视频搜索服务器可包括线上和线下两部分。线下部分对收集的视频信息进行语义分析建立视频语义空间及视频关系数据库。线上部分根据用户自然交互输入得到用户文本数据并进行语义分析,并以语义分析结果在关系数据库中做视频预搜索,再根据语义分析结果在视频语义空间中的语义描述子于视频预搜索结果包含的语义描述子集合中做比较搜索以输出视频最终搜索结果给用户。用户只需提供视频内容的简单描述即可从数据库快速获取相关视频,实现用户视频目标任务的智能感知。
文档编号G06F17/27GK102750366SQ201210199239
公开日2012年10月24日 申请日期2012年6月18日 优先权日2012年6月18日
发明者张瑞, 张钰林, 王勇进 申请人:海信集团有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1