视频搜索方法及系统的制作方法

文档序号:6339431阅读:340来源:国知局
专利名称:视频搜索方法及系统的制作方法
技术领域
本发明涉及搜索引擎技术,尤其涉及一种视频搜索方法及系统。
背景技术
随着互联网上信息的飞速增长,网络上充斥了越来越多的冗余信息,而对于在网 络上搜寻自己所需要信息的互联网用户而言,面对这些漫无边际的信息无疑像大海捞针。 搜索引擎的出现无疑在一定程度上为用户的搜索需求带来了很大便利。搜索引擎是一种在 网络上应用的软件系统,其以一定的策略在网络上搜集和发现信息,并在对信息进行处理 和组织后,为用户提供互联网上的信息搜索服务。通常,这种软件系统提供一个网页界面, 让用户在客户端通过浏览器软件提交搜索词,然后很快返回一个可能和用户输入的搜索内 容相关的信息列表。这个列表通常会包括上万个条目,每个条目代表一篇搜索到的相关网 页。过去十几年以来,相应地,众多的互联网搜索引擎及对应的网站应运而生,这中 间的佼佼者包括百度公司的百度搜索(WWW. baidu. com)和谷歌公司的谷歌搜索(www. google, cn)。随着网络技术的不断发展,用户对搜索引擎的要求已经不再满足于只是对文本的 搜索,很多用户还希望可以通过搜索引擎对网络视频进行搜索。然而,在目前的视频搜索 中,存在以下几个问题首先,用户在客户端通过浏览器软件提交搜索词后,其是通过该搜索词在视频标 题中进行搜索,并返回搜索结果,即是只能返回标题文本中包含所述搜索词的视频,例如 如图1所示,当用户在客户端通过浏览器软件提交“恐怖片”为搜索词后,通过搜索引擎的 搜索,返回只有标题文本中包含“恐怖片”的视频,搜索形式单一;其次,在现有技术中,用户在客户端通过浏览器软件提交搜索词后,搜索引擎会将 各大视频网站的不同上传者的不同版本进行搜索并返回给用户,并不是以作品为单位去组 织搜索结果,这样,会导致返回的搜索结果重复地、无序地出现,影响视觉。另外,在现有技术中,对于视频的搜索结果,一般地只是展示出视频链接和视频图 片,展现形式较为单一,不能使用户全方位的了解搜索结果的质量。

发明内容
本发明的目的在于提供一种改进的视频搜索方法,其不仅可以在标题文本信息中 搜索视频,还可在视频作品信息中搜索视频,同时,本发明的视频搜索方法还可无重复地、 有序地将视频搜索结果展示给用户。本发明的目的还在于提供一种实现上述视频搜索方法的视频搜索系统。为实现上述发明目的之一,本发明的一种视频搜索方法,包括以下步骤作品信息建构步骤获取作品信息,并建立作品信息数据库;视频对象分类步骤将视频对象和作品ID进行映射;
索引生成步骤将所述作品信息数据库中的作品信息生成索引;接收搜索词步骤接收搜索词;搜索步骤将所述搜索词在所述索引中进行搜索,并得到搜索结果;搜索结果输出步骤输出所述搜索结果。作为本发明的进一步改进,所述作品信息建构步骤包括获取作品信息步骤获取作品信息;保存作品信息步骤将所述作品信息存入所述作品信息数据库。作为本发明的进一步改进,在所述获取作品信息步骤中是通过SPIDER定向从网 络抓取所述作品信息。作为本发明的进一步改进,所述视频对象分类步骤包括识别视频对象类型步骤识别一个视频对象的类型;提取作品名步骤提取与所述视频对象对应的作品名;匹配步骤将所述视频对象通过所述作品名与所述作品信息数据库中的视频进行 匹配,获取作品ID,完成所述视频对象与所述作品ID的映射。作为本发明的进一步改进,一个所述作品ID可映射到多个所述视频对象。作为本发明的进一步改进,所述接收搜索词步骤包括接收用户输入的搜索词;判断所述搜索词是否属于概括词;若该搜索词为概括词,则进入搜索步骤。作为本发明的进一步改进,所述接收搜索词步骤还包括若该搜索词为未概括词,则直接搜索视频对象。作为本发明的进一步改进,所述搜索步骤包括去重步骤将所述作品ID重复的视频对象统一为一部视频;排序步骤根据所述作品ID的属性进行排序。作为本发明的进一步改进,所述作品ID的属性包括所述作品ID的类型、时间、用 户欢迎程度。作为本发明的进一步改进,所述排序步骤还包括判断搜索词中是否包括含有时间定义的关键字;若含有时间定义的关键字,则按照时间维度进行排序。作为本发明的进一步改进,所述排序步骤还包括判断搜索词中是否包括含有时间定义的关键字;若未含有时间定义的关键字,则按照类型进行排序。作为本发明的进一步改进,在按照类型进行排序后,对同类型的视频,按照用户欢 迎程度进行排序。作为本发明的进一步改进,所述搜索结果输出步骤包括输出第一结果页面,在所述第一结果页面中包括至少一个视频集合;接收到用户点击所述视频集合的信息;输出第二结果页面。作为本发明的进一步改进,所述第二结果页面包括至少一个与所述视频集合相关的视频对象。作为本发明的进一步改进,在第一结果页面中,可接收和展示用户对所述视频集 合的评分信息。作为本发明的进一步改进,所述作品信息数据库包含了作品ID与作品信息的对 应关系。作为本发明的进一步改进,所述作品信息包括作品的类型、用户对作品的评分、 时间、作品的导演、演员。相应地,作为实现上述另一目的,本发明的一种视频搜索系统包括作品信息建构模块用于获取作品信息,并建立作品信息数据库;视频对象分类模块用于将视频对象和作品ID进行映射;索引生成模块用于将所述作品信息数据库中的作品信息生成索引;搜索模块用于将搜索词在所述索引中进行搜索,并得到搜索结果;数据交互模块用于接收所述搜索词,以及输出所述搜索结果。作为本发明的进一步改进,所述作品信息建构模块包括获取作品信息单元用于获取作品信息;作品信息数据库用于储存所述作品信息。作为本发明的进一步改进,在所述获取作品信息单元中是通过SPIDER定向从网 络抓取所述作品信息。作为本发明的进一步改进,所述视频对象分类模块包括识别视频对象类型单元用于识别一个视频对象的类型;提取作品名单元用于提取与所述视频对象对应的作品名;匹配单元用于将所述视频对象通过所述作品名与所述作品信息数据库中的视频 进行匹配,获取作品ID,完成所述视频对象与所述作品ID的映射。作为本发明的进一步改进,一个所述作品ID可映射到多个所述视频对象。作为本发明的进一步改进,所述数据交互模块包括搜索词分析单元用于接收搜索词;搜索结果输出单元用于输出所述搜索结果;用户评分单元用于接收用户对所述搜索结果的评分。作为本发明的进一步改进,所述视频搜索系统还包括一评分数据库用于存储用 户对所述搜索结果的评分。作为本发明的进一步改进,所述搜索结果输出单元还包括第一结果页面输出子单元输出第一结果页面,在所述第一结果页面中包括至少 一个视频集合;第二结果页面输出子单元在接收到用户点击所述视频集合的信息后,输出第二 结果页面。作为本发明的进一步改进,所述第二结果页面包括至少一个与所述视频集合相关 的视频对象。作为本发明的进一步改进,所述搜索模块包括去重模块用于将所述作品ID重复的视频对象统一为一部视频;
排序模块用于根据所述作品ID的属性进行排序。作为本发明的进一步改进,所述作品ID的属性包括所述作品ID的类型、时间、用 户欢迎程度。作为本发明的进一步改进,所述作品信息数据库包含了作品ID与作品信息的对 应关系。作为本发明的进一步改进,所述作品信息包括作品的类型、用户对作品的评分、 时间、作品的导演、演员。 与现有技术相比,本发明的有益效果是视频搜索方法或视频搜索系统,不仅可以 在标题文本信息中搜索视频,还可在该视频的其他信息中进行搜索,搜索形式多样,搜索结 果更易满足用户需求;同时,本发明还可无重复地、有序地将视频搜索结果通过结果中间页 的形式展示给用户,提升搜索界面美感、提高用户搜索效率,另外,本发明在结果中间页中 的搜索结果,还同时可以提供用户评分,以便用户快速了解该搜索结果的质量。


图1是现有技术中视频搜索结果页面;
图2是本发明视频搜索系统与客户端实现互动的工作原理图
图3是本发明视频搜索系统一实施方式的模块图4是本发明作品信息建构模块包括的单元图5是本发明视频对象分类模块包括的单元图6是本发明数据交互模块包括的单元图7是本发明搜索结果输出单元包括的子单元图8是本发明搜索结果中间页的网页示意图9是本发明搜索结果最终页的网页示意图10是本发明搜索模块包括的单元图11是本发明视频搜索方法一实施方式的流程图12是本发明作品信息建构步骤的流程图13是本发明视频对象分类步骤的流程图14是本发明接收搜索词步骤的流程图15是本发明搜索步骤的流程图16是本发明搜索结果输出步骤的流程图。
具体实施例方式以下将结合附图所示的各实施方式对本发明进行详细描述。但这些实施方式并不 限制本发明,本领域的普通技术人员根据这些实施方式所轻易做出的结构、方法、或功能上 的变换均包含在本发明的保护范围内。图2所示的本发明的视频搜索系统10与客户端20实现互动的工作原理图。本实 施方式中,该客户端20包括一人机界面(UI) 201,客户可通过该人机界面输入待搜索信息, 一般的,该人机界面为一打开搜索引擎网页的浏览器,该输入的待搜索信息为文本信息,当 然,该待搜索信息还可以为图片信息、视频信息等等。所述视频搜索系统10通过该人机界面201接收客户输入的待搜索信息,并对该待搜索信息进行搜索后,将搜索结果返回至该 人机界面201。其中,该视频搜索系统10可以包括一台或多台服务器,该客户端20可以包 括一个或多个用户终端设备,如个人计算机、笔记本电脑、无线电话、个人数字处理(PDA)、 或其它计算机系统和通信系统。这些服务器和终端设备在架构上都包含一些基本组件,如总线、处理系统、存储系 统、一个或多个输入/输出系统、和通信接口等。总线可以包括一个或多个导线,用来实现 服务器或终端设备各组件之间的通信。处理系统包括各类型的用来执行指令、处理进程或 线程的处理器或微处理器。存储系统可以包括存储动态信息的随机访问存储器(RAM)等动 态存储器,和存储静态信息的只读存储器(ROM)等静态存储器,以及包括磁或光学记录介 质与相应驱动的大容量存储器。输入系统供用户输入信息到服务器或终端设备,如键盘、鼠 标、手写笔、声音识别系统、或生物测定系统等。输出系统包括用来输出信息的显示器、打印 机、扬声器等。通信接口用来使服务器或终端设备与其它系统或系统进行通信。通信接口 之间可通过有线连接、无线连接、或光连接连接到网络中,使视频搜索系统10、客户端20间 能够通过网络实现相互间的通信。网络可以包括局域网(LAN)、广域网(WAN)、电话网络如 公共交换电话网(PSTN)、企业内部的互联网、因特网、或上述这些网络的结合等。服务器和终端设备上均包含有用来管理系统资源、控制其它程序运行的操作系统 软件,以及用来实现特定功能模块的应用软件。如图3所示,所述视频搜索系统10包括作品 信息建构模块101、视频对象(OBJ)分类模块103、索引生成模块105、、数据交互模块107、 评分数据库108、搜索模块109。作品信息建构模块101,用于获取作品信息,并建立作品信息数据库。如图4所示, 该作品信息建构模块101包括一作品信息获取单元1011和一作品信息数据库1012。该作 品信息获取单元1011即可通过SPIDER定向从网络抓取,也可以从内部服务器中获取作品
信息,所述作品信息包括作品的类型(恐怖片,喜剧片......)用户对作品的评分、用户
点击次数、时间、作品的导演、演员等。在获取该作品信息后,将其存入所述作品信息数据库 1012。视频对象分类模块103是用于将视频对象和作品ID进行映射。一般地,一个作品 ID对应到的视频应该是唯一的一部作品,通过作品ID可以在所述作品信息数据库1012中 查询到该作品的详细信息。值得一提的是一个作品ID可映射到多个视频对象,因为每个 作品都有可能对应到多个站点的多个版本,即多个视频对象,在这些版本中,虽然视频对象 不同,但其视频实质内容是相同的,这样做的目的是可用作品ID统一多个站点中的多个版 本的作品,以便在接下来的搜索模块109和数据交互模块107中搜索和输出时,可过滤掉内 容相同而视频对象不同的视频,以作品ID的形式进行搜索并输出。需要说明的是视频对 象是视频搜索系统索引到的一个视频播放页面的对象,如通过搜索词搜索到每一个可以点 击播放的视频结果都是一个视频对象,其可以用一个播放URL来代表。如图5所示,所述视频对象分类模块103还包括以下单元识别视频类型单元1031 用于识别一个视频对象的类型。该类型可包括电影、歌 曲、电视剧、电视节目等,其识别的主要手段是通过利用视频对象的各种信息特征,如文本 特征(title、tag、comment、播放页上的导航、频道信息灯等)、视频的属性特征(时长等) 来进行识别。具体的讲,可先选定每个类型的样本,再提取这些样本的各种信息特征来训练
9一个支持向量机(SVM)分类模型(该支持向量机具体可参百度百科http:/Aaike. baidu. com/view/960509. htm,在此不再赘述),最后通过这个分类模型对每个输入的视频对象进 行分类,从而得到视频对象的类型,其中支持向量机分类模型的训练方法,本领域的普通技 术人员已可通过现有技术熟练掌握,在此不再赘述。提取作品名单元1032 用于提取与所述视频对象对应的作品名。在本发明最佳实 施方式中,该提取作品名单元1032主要是对电影、电视剧等类型的数据,尝试去提取其作 品名。作品名的提取,要依赖于作品信息数据库中提供的各种作品名,是一个在视频title 中进行直接子串查找的过程。为了提高作品名提取的准确率,会应用作品名在title中的 长度比不能过小,出现多个作品名则提取失败等等策略,在本发明中不再赘述。匹配单元1033 用于在有视频对象对应的作品名之后,直接和作品信息数据库中 的视频进行匹配,获取作品ID,这样即可完成视频对象到作品ID的映射。索引生成模块105用于将所述作品信息数据库中的作品信息生成倒排索引。其 中,通过作品信息生成的索引可不单单只是针对视频的标题,而包括了作品类型、用户对作 品的评分、时间、作品导演、演员等多维度的信息,在用户通过搜索词对该索引进行搜索时, 该搜索词可在所述的作品信息进行搜索,只要该作品信息中包括了该搜索词的视频,均可 作为搜索结果向用户展示,以丰富用户搜索形式,满足用户需求。需要说明的是作品信息 数据库中的内容,可以每隔一段时间dump出来一份完整的数据。需要使用作品信息数据的 应用方,直接下载该数据后,以字典的方式直接加载到内存中进行使用。该作品信息数据库 的利用方法,本领域的普通技术人员已可通过现有技术熟练掌握,在此不再赘述。数据交互模块107用于接收用户在客户端20的人机界面中输入的搜索词,并在下 述搜索模块109中对该搜索词搜索完成后,将搜索结果发送至客户端20的人机界面201。 其中,如图6所示,所述数据交互模块107包括搜索词分析单元1071、用户评分单元1072、 搜索结果输出单元1073。搜索词分析单元1071可接收用户输入的搜索词,并对该搜索词进行分析,判断该 搜索词是否属于概括词。其中,在本发明一实施方式中,判断该搜索词是否属于概括词,是 通过查表方式首先,数据库中存储有“电影、电视剧、美剧”等影视作品的需求词表,以及 “具体的电影名或者电视剧名”的名称表;其次,判断该搜索词是否包含“电影、电视剧、美 剧”等影视作品的需求词,若包含,则判断该搜索词中是否包含具体的电影名或者电视剧 名,如果不包含,即判断这个词是概括词。举例说明若该搜索词为“赌圣”,则判断该搜索词 并非概括词,所该搜索词为“喜剧片”则判断该搜索词为概括词,若该搜索词为概括词,则以 本发明作品ID的形式进行搜索;若该搜索词为未概括词,则直接以现有技术中针对视频对 象的形式进行搜索,对于现有技术中针对视频对象的形式进行搜索的方法及系统,本领域 普通技术人员已可通过现有技术数量掌握,在此不再赘述。用户评分单元1072可接收用于在客户端20人机界面201上对搜索结果中作品ID 的评分,该用户评分单元1072连接一评分数据库108,并将用户对作品ID的评分存储至评 分数据库108中,以供在下述搜索模块109对搜索结果进行排序时使用。搜索结果输出单元1073用于将搜索结果发送至客户端20的人机界面201上,供 用户查看。其中,如图7所示,该搜索结果输出单元1073还包括第一结果页面输出子单元 10731和第二结果页面输出子单元10732。所述第一结果页面输出子单元10731向客户端20的人机界面201输出一搜索结果中间页,举例说明如图8所示,在人机界面201中输入 “喜剧片”这种概括词,则先返回搜索结果中间页,该搜索结果中间页包括一个或多个与用 户搜索相关的视频集合107311,即是以作品ID为形式的集合,当用户在客户端20人机界 面201中点击该视频集合107311后,即是所述搜索结果输出单元1073接收到用户指令,例 如点击“赌圣”后,如图9所示,所述第二结果页面输出子单元10732即向客户端20的人机 界面201输出搜索结果最终页,该搜索结果最终页包括了一个或多个与该视频集合107311 相关的视频对象107321,需要说明的是当点击视频集合107311后,即会将所述视频集合 107311的名称作为搜索词对视频对象进行搜索,该搜索方法是本领域普通技术人员根据现 有技术可熟练掌握的,在此不再赘述。值得一提的是该用户评分单元1072是对作品ID进行评分,即是对第一结果页 面输出子单元10731中输出的视频集合107311结果进行评分,该第一结果页面输出子单元 10731输出的第一结果页面也会将所述评分展示。搜索模块109用于将用户的搜索词在所述索引生成模块105中生成的倒排索引进 行搜索,并将该搜索结果发送至数据交互模块107,以便通过该数据交互模块107将该搜索 结果发送至客户端20的人机界面201。所述搜索模块109还包括一去重单元1091和一排 序单元1093。如图10所示,该去重单元1091是用于将作品ID重复的视频对象统一为一部作 品,通过所述去重单元1091可无重复地、有序地将视频搜索结果通过结果中间页的形式展 示给用户,提升搜索界面美感、提高用户搜索效率;该排序单元1053是用于根据作品ID的 类型、时间、用户欢迎程度等进行排序并展示。其中,用户欢迎程度可通过在上述评分数据 库108中获取。需要说明的是对于作品ID的类型、时间、用户欢迎程度等进行排序时,时 间维度相对特殊,如果用户的搜索词中包含“最新”、“2009”等可对时间定义的关键词,则会 优先按时间维度进行排序,否则则以类型和用户欢迎程度优先进行排序,该排序方法会在 下述中结合附图详细说明。如图11所示,在本发明的视频搜索方法一实施方式中,包括以下步骤作品信息建构步骤Si,获取作品信息,并建立作品信息数据库。视频对象分类步骤S2 将视频对象和作品ID进行映射。一般地,一个作品ID对应 到的视频应该是唯一的一部作品,通过作品ID可以在所述作品信息数据库1012中查询到 该作品的详细信息。值得一提的是一个作品ID可映射到多个视频对象,因为每个作品都 有可能对应到多个站点的多个版本,即多个视频对象,在这些版本中,虽然视频对象不同, 但其视频实质内容是相同的,这样做的目的是可用作品ID统一多个站点中的多个版本的 作品,以便在接下来的搜索步骤和数据交互模块步骤中搜索和输出时,可过滤掉内容相同 而视频对象不同的视频,以作品ID的形式进行搜索并输出。需要说明的是视频对象是视 频搜索系统索引到的一个视频播放页面的对象,如通过搜索词搜索到每一个可以点击播放 的视频结果都是一个视频对象,其可以用一个播放URL来代表。索引生成步骤S3 将所述作品信息数据库中的作品信息生成倒排索引。其中,通 过作品信息生成的索引可不单单只是针对视频的标题,而包括了作品类型、用户对作品的 评分、时间、作品导演、演员等多维度的信息,在用户通过搜索词对该索引进行搜索时,该搜 索词可在所述的作品信息进行搜索,只要该作品信息中包括了该搜索词的视频,均可作为搜索结果向用户展示,以丰富用户搜索形式,满足用户需求。需要说明的是作品信息数据 库中的内容,可以每隔一段时间dump出来一份完整的数据。需要使用作品信息数据的应用 方,直接下载该数据后,以字典的方式直接加载到内存中进行使用。该作品信息数据库的利 用方法,本领域的普通技术人员已可通过现有技术熟练掌握,在此不再赘述。接收搜索词步骤S4 接收用户在客户端20的人机界面201中输入的搜索词。搜索步骤S5 用于将用户的搜索词在所述倒排索引进行搜索,得到搜索结果。搜索结果输出步骤S6 将搜索结果发送至客户端20的人机界面201。如图12所示,在本发明中,所述作品信息建构步骤Sl包括获取作品信息步骤S11、通过SPIDER定向从网络抓取,或直接从内部服务器中获
取所述作品信息,所述作品信息包括作品的类型(恐怖片,喜剧片......)用户对作品的
评分、用户点击次数、时间、作品的导演、演员等。保存作品信息步骤S12、将所述作品信息存入所述作品信息数据库。如图13所示,在本发明中,所述视频对象分类步骤S2包括识别视频对象类型步骤S21 识别一个视频对象的类型。该类型可包括电影、歌 曲、电视剧、电视节目等,其识别的主要手段是通过利用视频对象的各种信息特征,如文本 特征(title、tag、comment、播放页上的导航、频道信息灯等)、视频的属性特征(时长等) 来进行识别。具体的讲,可先选定每个类型的样本,再提取这些样本的各种信息特征来训练 一个支持向量机(SVM)分类模型(该支持向量机具体可参百度百科http://baike.baidU. com/view/960509. htm,在此不再赘述),最后通过这个分类模型对每个输入的视频对象进 行分类,从而得到视频对象的类型,其中支持向量机分类模型的训练方法,本领域的普通技 术人员已可通过现有技术熟练掌握,在此不再赘述。提取作品名步骤S22 提取与所述视频对象对应的作品名。在本发明最佳实施方 式中,该提取作品名单元1032主要是对电影、电视剧等类型的数据,尝试去提取其作品名。 作品名的提取,要依赖于作品信息数据库中提供的各种作品名,是一个在视频title中进 行直接子串查找的过程。为了提高作品名提取的准确率,会应用作品名在title中的长度 比不能过小,出现多个作品名则提取失败等等策略,在本发明中不再赘述。匹配步骤S23 在有视频对象对应的作品名之后,直接和作品信息数据库中的视 频进行匹配,获取作品ID,这样即可完成视频对象到作品ID的映射。如图14所示,在本发明中,所述接收搜索词步骤S4包括S41、接收用户输入的搜索词;S42、对该搜索词进行分析,判断该搜索词是否属于概括词,其中,在本发明一实施 方式中,判断该搜索词是否属于概括词,是通过查表方式首先,数据库中存储有“电影、电 视剧、美剧”等影视作品的需求词表,以及“具体的电影名或者电视剧名”的名称表;其次,判 断该搜索词是否包含“电影、电视剧、美剧”等影视作品的需求词,若包含,则判断该搜索词 中是否包含具体的电影名或者电视剧名,如果不包含,即判断这个词是概括词,举例说明 若该搜索词为“赌圣”,则判断该搜索词并非概括词,所该搜索词为“喜剧片,,则判断该搜索 词为概括词;若该搜索词为概括词,则进入搜索步骤S5,搜索作品ID ;若该搜索词为未概括词,则直接以现有技术中针对视频对象的形式,搜索视频对象 S43。如图15所示,在本发明中,所述搜索步骤S5还包括以下步骤去重步骤S51 将作品ID重复的视频对象统一为一部视频;排序步骤S52 根据作品ID的类型、时间、用户欢迎程度等进行排序。需要说明的是在所述排序步骤S52中还包括S521、判断搜索词中是否包括含有时间定义的关键字,如“最近”、“2009”等含有时 间定义的关键字;若含有时间定义的关键字,则执行S522、S523、S5M步骤;若未含有时间定义的关 键字,则执行S523、S524步骤;S522、按照时间维度进行排序,S523、按照类型进行排序;S524、在同类型中,按照用户欢迎程度进行排序。如图16所示,在本发明中,所述搜索结果输出步骤S6包括S61、输出第一结果页面,在所述第一结果页面中包括至少一个视频集合;S62、接收到用户点击所述视频集合的信息;S63、输出第二结果页面,所述第二结果页面包括至少一个与所述视频集合相关的 视频对象。应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一 个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说 明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以 理解的其他实施方式。上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说 明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式 或变更均应包含在本发明的保护范围之内。
权利要求
1.一种视频搜索方法,其特征在于,所述视频搜索方法包括以下步骤 作品信息建构步骤获取作品信息,并建立作品信息数据库;视频对象分类步骤将视频对象和作品ID进行映射; 索引生成步骤将所述作品信息数据库中的作品信息生成索引; 接收搜索词步骤接收搜索词;搜索步骤将所述搜索词在所述索引中进行搜索,并得到搜索结果; 搜索结果输出步骤输出所述搜索结果。
2.根据权利要求1所述的视频搜索方法,其特征在于,所述作品信息建构步骤包括 获取作品信息步骤获取作品信息;保存作品信息步骤将所述作品信息存入所述作品信息数据库。
3.根据权利要求2所述的视频搜索方法,其特征在于,在所述获取作品信息步骤中是 通过SPIDER定向从网络抓取所述作品信息。
4.根据权利要求1所述的视频搜索方法,其特征在于,所述视频对象分类步骤包括 识别视频对象类型步骤识别一个视频对象的类型;提取作品名步骤提取与所述视频对象对应的作品名;匹配步骤将所述视频对象通过所述作品名与所述作品信息数据库中的视频进行匹 配,获取作品ID,完成所述视频对象与所述作品ID的映射。
5.根据权利要求4所述的视频搜索方法,其特征在于,一个所述作品ID可映射到多个 所述视频对象。
6.根据权利要求1所述的视频搜索方法,其特征在于,所述接收搜索词步骤包括 接收用户输入的搜索词;判断所述搜索词是否属于概括词; 若该搜索词为概括词,则进入搜索步骤。
7.根据权利要求6所述的视频搜索方法,其特征在于,所述接收搜索词步骤还包括 若该搜索词为未概括词,则直接搜索视频对象。
8.根据权利要求1所述的视频搜索方法,其特征在于,所述搜索步骤包括 去重步骤将所述作品ID重复的视频对象统一为一部视频;排序步骤根据所述作品ID的属性进行排序。
9.根据权利要求8所述的视频搜索方法,其特征在于,所述作品ID的属性包括所述 作品ID的类型、时间、用户欢迎程度。
10.根据权利要求8所述的视频搜索方法,其特征在于,所述排序步骤还包括 判断搜索词中是否包括含有时间定义的关键字;若含有时间定义的关键字,则按照时间维度进行排序。
11.根据权利要求8或10所述的视频搜索方法,其特征在于,所述排序步骤还包括 判断搜索词中是否包括含有时间定义的关键字;若未含有时间定义的关键字,则按照类型进行排序。
12.根据权利要求11所述的视频搜索方法,其特征在于,在按照类型进行排序后,对同 类型的视频,按照用户欢迎程度进行排序。
13.根据权利要求1所述的视频搜索方法,其特征在于,所述搜索结果输出步骤包括输出第一结果页面,在所述第一结果页面中包括至少一个视频集合; 接收到用户点击所述视频集合的信息; 输出第二结果页面。
14.根据权利要求13所述的视频搜索方法,其特征在于,所述第二结果页面包括至少 一个与所述视频集合相关的视频对象。
15.根据权利要求13所述的视频搜索方法,其特征在于,在第一结果页面中,可接收和 展示用户对所述视频集合的评分信息。
16.根据权利要求1所述的视频搜索方法,其特征在于,所述作品信息数据库包含了作 品ID与作品信息的对应关系。
17.根据权利要求16所述的视频搜索方法,其特征在于,所述作品信息包括作品的类 型、用户对作品的评分、时间、作品的导演、演员。
18.—种视频搜索系统,其特征在于,所述视频搜索系统包括 作品信息建构模块用于获取作品信息,并建立作品信息数据库; 视频对象分类模块用于将视频对象和作品ID进行映射;索引生成模块用于将所述作品信息数据库中的作品信息生成索引; 搜索模块用于将搜索词在所述索引中进行搜索,并得到搜索结果; 数据交互模块用于接收所述搜索词,以及输出所述搜索结果。
19.根据权利要求18所述的视频搜索系统,其特征在于,所述作品信息建构模块包括 获取作品信息单元用于获取作品信息;作品信息数据库用于储存所述作品信息。
20.根据权利要求19所述的视频搜索系统,其特征在于,在所述获取作品信息单元中 是通过SPIDER定向从网络抓取所述作品信息。
21.根据权利要求18所述的视频搜索系统,其特征在于,所述视频对象分类模块包括 识别视频对象类型单元用于识别一个视频对象的类型;提取作品名单元用于提取与所述视频对象对应的作品名;匹配单元用于将所述视频对象通过所述作品名与所述作品信息数据库中的视频进行 匹配,获取作品ID,完成所述视频对象与所述作品ID的映射。
22.根据权利要求21所述的视频搜索系统,其特征在于,一个所述作品ID可映射到多 个所述视频对象。
23.根据权利要求18所述的视频搜索系统,其特征在于,所述数据交互模块包括 搜索词分析单元用于接收搜索词;搜索结果输出单元用于输出所述搜索结果; 用户评分单元用于接收用户对所述搜索结果的评分。
24.根据权利要求23所述的视频搜索系统,其特征在于,所述视频搜索系统还包括一 评分数据库用于存储用户对所述搜索结果的评分。
25.根据权利要求23所述的视频搜索系统,其特征在于,所述搜索结果输出单元还包括第一结果页面输出子单元输出第一结果页面,在所述第一结果页面中包括至少一个 视频集合;第二结果页面输出子单元在接收到用户点击所述视频集合的信息后,输出第二结果 页面。
26.根据权利要求25所述的视频搜索系统,其特征在于,所述第二结果页面包括至少 一个与所述视频集合相关的视频对象。
27.根据权利要求18所述的视频搜索系统,其特征在于,所述搜索模块包括 去重模块用于将所述作品ID重复的视频对象统一为一部视频;排序模块用于根据所述作品ID的属性进行排序。
28.根据权利要求27所述的视频搜索系统,其特征在于,所述作品ID的属性包括所 述作品ID的类型、时间、用户欢迎程度。
29.根据权利要求18所述的视频搜索系统,其特征在于,所述作品信息数据库包含了 作品ID与作品信息的对应关系。
30.根据权利要求四所述的视频搜索系统,其特征在于,所述作品信息包括作品的类 型、用户对作品的评分、时间、作品的导演、演员。
全文摘要
本发明提供一种视频搜索方法包括获取作品信息,并建立作品信息数据库;将视频对象和作品ID进行映射;将所述作品信息数据库中的作品信息生成索引;接收搜索词;将所述搜索词在所述索引中进行搜索,并得到搜索结果;输出所述搜索结果。本发明的有益效果是视频搜索方法或视频搜索系统,不仅可以在标题文本信息中搜索视频,还可在该视频的其他信息中进行搜索,搜索形式多样,搜索结果更易满足用户需求;同时,本发明还可无重复地、有序地将视频搜索结果通过结果中间页的形式展示给用户,提升搜索界面美感、提高用户搜索效率,另外,本发明在结果中间页中的搜索结果,还同时可以提供用户评分,以便用户快速了解该搜索结果的质量。
文档编号G06F17/30GK102063476SQ201010600040
公开日2011年5月18日 申请日期2010年12月13日 优先权日2010年12月13日
发明者陈海坤 申请人:百度时代网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1