一种搜索系列性数据的方法、装置及一种搜索引擎系统的制作方法

文档序号:6464691阅读:117来源:国知局

专利名称::一种搜索系列性数据的方法、装置及一种搜索引擎系统的制作方法
技术领域
:本发明涉及搜索引擎
技术领域
,特别是涉及一种搜索系列性数据的方法、装置及一种搜索引擎系统。
背景技术
:系列性数据是指数据之间具有关联关系的数据,如连续剧视频文件,每个连续剧可以包含多个部或季,每个部或季又常常包含多集,每一集又常常区分为几个视频段落,但是系列性数据不限于连续剧视频文件。目前,在搜索引擎中搜索系列性数据的方法是基于用户的搜索关键词,在搜索引擎系统中查找匹配包含该搜索关键词的相关数据,即基于一种"完全匹配"的搜索方法。以连续剧视频搜索为例,"连续剧搜索请求"一般由两部分组成"连续剧名"和"剧集信息"。"连续剧名"表示用户需要哪个连续剧,"剧集信息"表示用户需要连续剧的哪一部分。例如,搜索请求是"还珠格格第一部第三集,,,其中"还珠格格,,为"连续剧名,,,"第一部第三集,,为"剧集信息"。当然,"连续剧搜索请求,,可能只包含"连续剧名"如"越狱",然而形如"连续剧名+剧集信息,,的搜索请求更为典型。但是,由于目前的网络资源丰富而繁乱,使得连续剧的"剧集信息"表达形式很不规范,大大影响了连续剧查询的搜索质量。例如,"第二部第三集"、"第2部第3集"、"第二季第3集"、"2-3"、"II-3"都表示连续剧的同一部分内容,但是表达形式差别很大。当用户输入"连续剧名剧集信息"的搜索请求后,视频搜索引擎的"完全匹配方法"只能返回给用户具有"特定剧集信息形式"的搜索结果,而无法给出"其他形式"的连续剧。如输入查询词"还珠格格第二部第三集,,,只能返回与"还珠格格,,和"第二部第三集,,精确匹配的结果,而不能返回"还珠格格2-3"、"还珠格格第2部第3集"等形式的视频。因此,所述"完全匹配方法"导致搜索结果的查全率不高。
发明内容本发明所要解决的技术问题是提供一种搜索系列性数据的方法、装置及一种搜索引擎系统,以解决目前的搜索引擎基于"完全匹配方法"导致搜索结果的查全率不高的问题。为解决上述技术问题,根据本发明提供的具体实施例,本发明公开了以下技术方案一种搜索系列性数据的方法,包括接收搜索请求;分析所述搜索请求,提取出表示系列性数据的请求参数;根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。其中,所述预置具体包括预先分析待搜索数据,提取出系列性数据参数。其中,所述查找具体包括将所述请求参数与所述系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。优选的,当所述请求参数包括请求的系列性数据名称和请求的系列性数据标识参数时,所述查找具体包括对请求参数中的系列性数据名称进行分词;将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合;将请求参数中的系列性数据标识参数与候选集合中的系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。优选的,查找与所述搜索请求相匹配的系列性数据之后,还包括对查找到的系列性数据进行相关性排序后输出。优选的,所述提取出系列性数据参数/表示系列性数据的请求参数之前,还包括根据预置的系列性数据映射表,判断所述待搜索数据是否为系列性数据,如果是,则执行提取出系列性数据参数的步骤;或者,根据预置的系列性数据映射表,判断所述搜索请求是否为搜索系列性数据的请求,如果是,则执行提取出表示系列性数据的请求参数的步骤;其中,所述系列性数据映射表记录了所有系列性凄t据的相关信息。其中,所述判断具体包括将所述待搜索数据/搜索请求的描述信息转换为字符串;对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述待搜索数据为系列性数据,或者所述搜索请求为搜索系列性数据的请求。优选的,所述提取出系列性数据参数/表示系列性数据的请求参数,具体包括将待搜索数据/搜索请求的描述信息输入状态机;根据状态机中预置的由当前状态和当前输入转换到下一状态的转换映射关系,在各个状态间跳转;当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数/表示系列性数据的请求参数提取出。优选的,所述提取出系列性数据参数/表示系列性数据的请求参数,具体包括使用状态机对所述字符串进行逐字扫描;根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数/表示系列性数据的请求参数提取出。其中,所述系列性数据为连续剧视频文件,则所述系列性数据参数包括视频文件的连续剧编号、和/或视频文件的连续剧部序号、和/或视频文件的连续剧集序号,所述表示系列性数据的请求参数包括请求的连续剧名称、和/或请求的连续剧编号、和/或请求的连续剧部序号、和/或请求的连续剧集序号。其中,所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息。一种搜索系列性数据的装置,包括接收单元,用于接收搜索请求;在线识别单元,用于分析所述搜索请求,提取出表示系列性数据的请求参数;智能匹配单元,用于根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。优选的,所述装置还包括离线数据处理单元,用于预先分析待搜索数据,提取出系列性数据参数。优选的,当所述请求参数包括请求的系列性数据名称和请求的系列性数据标识参数时,所述智能匹配单元具体包括分词子单元,用于对请求参数中的系列性数据名称进行分词;一次匹配子单元,用于将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合;二次匹配子单元,用于将请求参数中的系列性数据标识参数与候选集合中的系列性数据参数进行匹配,并将匹配到的系列性凄t据作为查找结果。优选的,所述装置还包括输出单元,用于对查找到的系列性数据进行相关性排序后输出。优选的,所述离线数据处理单元具体包括离线预处理模块,用于将待搜索数据的描述信息转换为字符串。优选的,所述离线数据处理单元还包括离线扫描模块,用于使用状态机对所述字符串进行逐字扫描;离线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;离线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数提取出。优选的,所述离线数据处理单元还包括离线判断模块,用于根据预置的系列性数据映射表,判断所述待搜索数据是否为系列性数据,如果是,则触发所述离线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关4言息。其中,所述离线判断模块通过以下方式进行判断对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述待搜索数据为系列性数据。优选的,所述在线识别单元具体包括在线预处理模块,用于将搜索请求的描述信息转换为字符串。优选的,所述在线识别单元还包括在线扫描模块,用于使用状态机对所述字符串进行逐字扫描;在线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;在线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的表示系列性数据的请求参数提取出。优选的,所述在线识别单元还包括在线判断模块,用于根据预置的系列性数据映射表,判断所述搜索请求是否为搜索系列性数据的请求,如果是,则触发所述在线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。其中,所述在线判断模块通过以下方式进行判断对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述搜索请求为搜索系列性数据的请求。其中,所述系列性数据为连续剧视频文件,则所述系列性数据参数包括视频文件的连续剧编号、和/或视频文件的连续剧部序号、和/或视频文件的连续剧集序号,所述表示系列性数据的请求参数包括请求的连续剧名称、和/或请求的连续剧编号、和/或请求的连续剧部序号、和/或请求的连续剧集序号。其中,所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息。本发明还提供了一种搜索引擎系统,包括上述任一装置实施例所提供的装置。才艮据本发明提供的具体实施例,本发明具有以下技术效果本发明在离线状态下对搜索引擎数据库中的所有系列性数据进行了处理,提取出系列性数据参数,当用户查询其中的某个数据时,本发明还会对用户的搜索请求进行在线识别处理,提取出表示系列性数据的请求参数,然后根据所述请求参数与所述系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。这样得到的搜索结果,包括各种描述方式的系列性数据,不同于现有技术搜索到的仅包含查询词的结果。因此,本发明显著提高了搜索的查全率,提高了搜索引擎的搜索性能。例如,对于连续剧查询,本发明提取出连续剧视频的标准剧集信息,然后根据标准的剧集信息建立视频索引链接(可使用倒排索引技术)。当用户查询某一连续剧视频,输入"连续剧名+剧集信息"的搜索请求时,通过对所述请求进行在线识别和智能匹配,可以直接向用户返回具有相同标准剧集信息的视频("剧集信息,,的表达形式可能与用户的输入不同)。这种基于"模糊匹配方法"的搜索,克服了现有技术中"完全匹配方法"必须精确匹配搜索请求的缺点,有效提高了连续剧查询的查全率和结果数,同时显著提升了用户体验。图1是本发明实施例一所述一种搜索系列性数据的方法流程图;图2是本发明实施例二所述一种搜索连续剧视频的方法流程图;图3是本发明实施例二的处理示意图4是本发明实施例三所述一种提取连续剧视频参数的方法流程图5是本发明实施例三中状态机的一种基本结构示意图6是本发明实施例三所述一种提取搜索请求参数的方法流程图7U)和图8(a)是现有技术的完全匹配效果图7(b)和图8(b)是本发明智能匹配的效果图9是本发明实施例所述一种搜索系列性数据的装置结构图。具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。实施例一参照图1,是本发明实施例一所述一种搜索系列性数据的方法流程图。其中,所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息等。5101,预置系列性数据参数;预置的方式可以为预先分析待搜索数据,提取出系列性数据参数。但预置方式不限于此。所述系列性数据参数用于表示数据的系列性特性,可以包括多个参数。通过对系列性数据中的每个数据进行分析,提取出该数据的参数后,就可以确定该数据是系列性数据中的哪一个。具体的提取方法在实施例三中进行详细介绍。5102,接收搜索请求;5103,分析所述搜索请求,提取出表示系列性数据的请求参数;通过与S101相同的提取方法,在线提取请求参数。同样,该请求参数也用于表示数据的系列性特性,该请求表示用户需要搜索系列性数据中的哪些数据。5104,根据所述请求参数与所述系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据;根据提取的参数情况,可以有两种查找方式一种是S101提取的参数与S103提取的参数相对应,则查找时,可以直接将所述请求参数与所述系列性数据参数进行匹配,如果存在相匹配的系列性数据参数,则将对应的系列性数据作为查找结果。还有一种更优选的方式前提是在S103中不仅提取出上述第一种查找方式需要的参数(在此称为系列性数据标识参数),同时还提取出请求的系列性数据名称。查找过程为对请求参数中的系列性数据名称进行分词,并将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合,即从所有的系列性数据中筛选出第一次匹配的结果;然后,在所述候选集合中,将请求参数中的系列性数据标识与候选集合中的系列性数据参数进行匹配,如果存在相匹配的系列性数据参数,则将匹配到的系列性数据作为查找结果,完成第二次匹配。这种二次匹配的方式可以在第一次匹配时滤除大量不相关的数据,从而提高查找效率。5105,是优选步骤,对查找到的系列性数据进行相关性排序后输出,提供给用户。与现有技术相比,现有技术中搜索引擎系统是根据系列性数据描述文本的关键词,对系列性数据建立索引,当用户查询其中的某个数据时,系统会直接返回关4囊词索引的查询结果,即只返回包含查询词的查询结果。而对于其他相关数据,由于不包含该查询词,所有没有被检索到。但本发明由于对离线的所有系列性数据进行了处理,提取出了系列性数据参数,这样在查询时,根据在线识别搜索请求得到的请求参数,就可以查找到与请求参数相匹配的系列性数据参数,从而将对应该系列性数据参数的所有系列性数据(可能不包含查询词)作为查询结果提供给用户。因此,本发明显著提高了搜索的查全率,提高了搜索引擎的搜索性能。下面结合优选实施例进行详细说明,参照实施例二,以系列性数据为连续剧视频文件为例进行说明。实施例二参照图2,是本发明实施例二所述一种搜索连续剧视频的方法流程图。其中,实施例一所述的系列性数据参数在本实施例中包括搜索引擎数据库中连续剧视频的连续剧编号、连续剧部序号、连续剧集序号,所述请求参数包括请求的连续剧名称、请求的连续剧编号、请求的连续剧部序号、请求的连续剧集序号。5201,离线处理搜索引擎数据库中的所有视频数据;离线处理数据中所有视频的描述文本(如视频标题),找出视频数据库中属于连续剧的视频,为每个连续剧视频写入三个参数字段TelelD—video,Season—video和Episode—video。其中,TelelD—video是连续剧编号,表明这段视频属于哪个连续剧;Season—video是连续剧部序号,Episode—video是连续剧集序号,Season—video和Episode_video分别表示该视频是连续剧的第几部和第几集。对于非连续剧视频,上述三个参数字段全部置0。通过离线处理所有视频数据,获得"带连续剧参数的视频数据"供在线智能匹配使用。5202,接收用户的搜索请求;用户可能输入形如"连续剧名"的搜索请求,但更典型的应用是输入形如"连续剧名+剧集信息,,的搜索请求,下面的匹配过程以后面一种典型应用的搜索请求为例进行说明。5203,在线识别所述搜索请求;采用与S201相同的参数提取方法,在线识别用户输入的搜索请求。对于连续剧搜索请求,不仅提取出请求的连续剧编号、请求的连续剧部序号、请求的连续剧集序号三个参数,同时还提取出请求的连续剧名称,并进行以下操作将请求的连续剧编号、请求的连续剧部序号、请求的连续剧集序号分别填入搜索请求对应的三个参数字段TelelD—query、Season—query和Episode—query;将请求的连续剧名称代替原连续剧搜索请求,进行后续的分词和求交操作。对于非连续剧搜索请求,上述三个参数字段全部置0,但搜索请求不变。S204,进行连续剧智能匹配;对于连续剧搜索请求,进行二次匹配第一次匹配过程是将请求的连续剧名称进行分词,并使用分词结果在连续剧视频的倒排索引数据中求交,获得候选视频集合。该候选视频集合为符合所述请求的连续剧名称的视频集合,不受部集信息形式的限制。其中,所述连续剧视频的倒排索引数据是指对经过S201处理后的连续剧视频进行倒排索引的数据;第二次匹配过程是将连续剧搜索请求的参数字段(TelelD—query、Season—query和Episode—query)分别与各个候选视频对象的参数字段(TelelD—video、Season—video和Episode—video)进4亍匹配。如果三个字孚史都正确匹配,则表示该候选视频的视频名称和部集信息全部满足用户的需求(其中部集形式可能与用户输入有所不同)。滤除不匹配的视频对象,获得结果集合。当然,也可以釆用一次匹配的方法,此时在线识别时仅提耳又出TelelD—query、Season—query和Episode—query,即可直接与TelelD—video、Season—video和Episode—video进行匹配,但这种方式耗费的时间和系统资源较多。S205,将匹配结果排序输出。最后对结果集合进行相关性排序后返回给用户。需要说明的是,如果搜索请求为"连续剧名"的形式,则向用户提示该连续剧的所有部、集的链接;当用户点击某一链接时,将该索引项的所有视频作为结果返回。如果搜索请求为"连续剧名剧集信息"的形式,由于对该请求进行了在线识别,所以用户点击一次搜索按钮,就可以直接返回具有相同参数(TelelD—video、Season—video和Episode—video)的所有连续居'J视频(其中部集形式可能与用户输入有所不同)。上述流程还可参照图3的示意图。本发明实施例所述连续剧查询方法,通过提取出连续剧视频的标准剧集信息,然后根据标准的剧集信息建立视频索引链接(可使用倒排索引技术)。基于这种索引的搜索是一种"模糊匹配方法"的搜索,克服了现有技术中"完全匹配方法,,必须精确匹配搜索请求的缺点,有效提高了连续剧查询的查全率和结果数,同时显著提升了用户体验。而现有搜索引擎是将连续剧视频作为普通视频处理,没有提取标准的剧集信息而直接根据描述文本中的关键词对其进行索引;当用户查询连续剧时,只能直接返回连续剧名索引的视频数据,而不能按照该连续剧的剧集信息向用户提示索引链接。上述实施例一和实施例二中涉及到提取参数的方法,下面通过实施例三进行说明。实施例三以连续剧视频查询为例,在离线处理数据库中的所有视频时,需要提取出TelelD—video,Season—video和Episode—video三个参数字段的数值;当在线识别搜索请求时,也需要提耳又出TelelD—query、Season—query和Episode—query三个参数字段的数值以及请求的连续剧名称。所述两种情况下,使用相同的方法提取参数。下面将以提取连续剧视频参数TelelD—video,Season—video和Episode—video为例进4亍详细i兌明。参照图4,是本发明实施例三所述一种提取连续剧视频参数的方法流程图。S401,读取连续剧信息文件;连续剧信息文件为人工编辑的文本文件,(编辑人员通过分析凝:据库中的连续剧数据,得到库中所包含的连续剧的名称及其别名、部数和集数等信息,人工编辑得到连续剧信息文本),记录了视频数据库中包含的所有连续剧视频的信息。当然,对于所属领域的技术人员而言,可以明白,连续剧信息文件也可以通过软件自动提取数据库中的连续剧数据的方式来自动生成。所述连续剧信息可以包括连续剧的名称、别名、部数和集数等。S402,生成连续剧信息映射表;通过将接收到的所述连续剧信息文件进行读取分析,就能够生成连续剧信息映射表Videolnfo,供后续使用。映射表Videolnfo可以由"Key-Value"对组成,其中Key为连续剧名称,Value为该连续剧的相关信息(别名数、部数、集数等),同一连续剧的不同别名单独为Key。即将输入的连续剧信息文本文件,生成为连续剧信息映射表。连续剧信息映射表实现了将连续剧名称与连续剧信息的对应关系,实现了将经由连续剧名称来查询连续剧所包含的多种信台S403,进行视频描述文本的预处理,输出标准字符串;视频描述文本是用来表示视频文件的有关信息的载体,视频描述文本预处理是将描述文本转换为符合规范的标准字符串,以方便后续分析处理,具体过程分为格式转换和信息过滤。首先,将描述文本全部转换为"全角小写"格式;然后过滤描述文本中的网站来源等无关信息,如"_56"、"-Mobile"、"-视频"、"-六间房"、"酷6"等。本步骤输入视频描述文本,滤除部分无关信息的全角小写标准字符串,输出为标准字符串,供后续流程分析识别。5404,根据处理后生成的标准字符串以及连续剧信息映射表,判断该视频是否属于连续剧;通过分析前述流程处理后生成的标准字符串,判断描述文本是否描述了连续剧信息,该视频是否是连续剧视频,并决定后续的处理过程。判断方法是对标准字符串进行逐字扫描,同时搜索连续剧映射表中是否存在名为当前子字符串的连续剧。如果标准字符串中包含映射表内的连续剧名,则此标准字符串为用来描述连续剧信息,而且数据库中也存储了相应的连续剧视频文件,则进入S405,继续后续操作;否则,作为非连续剧直接返回。5405,使用"状态机算法",提取连续剧视频的标准剧集信息。状态机是由不同状态组成的集合系统,其中包括一个初态,若干个中间态和若干个终态,各个状态之间由"转换关系"相连接。状态机从初态开始,当特定事件发生时,根据相应的转换关系从当前状态跳转到新的状态,直到到达某终态后退出。状态机可分为"有限状态机"和"无限状态机"。有限状态机由状态集(包括初态、中间态和终态)、输入符号集、转换关系模型组成。其中,转换关系模型表示由输入符号和当前状态到下一状态的转换映射关系。当输入符号串时,状态机进入初始状态开始运行,随后根据输入符号、当前状态和转换关系才莫型决定下一个状态,直至运行到终态结束。状态机算法在人工智能技术、数字电路设计、编译原理等多领域得到了广泛应用。本发明实施例中使用"有限状态机"对描述连续剧视频的标准字符串进行逐字扫描,当扫描到特定字符时进行状态跳转。通过不同状态间的跳转来处理剧集信息不同的表达形式,最后根据状态机的终态,可以获得包括连续剧剧集信息在内的连续剧信息(即TelelD—video,Season—video和Episode—video三个参数字段的数值)。引发状态跳转的特定字符包括连续剧名称、数字、关键字"第"、"部"、"集"等,具体跳转字符见下表l。表1<table>tableseeoriginaldocumentpage18</column></row><table>根据上述表l,以及实际的可能需要,设计了图5所示的本发明中状态机的一种基本设计结构示意图,具体实现时,可以将其他更为复杂的跳转关系也设计进去。这种根据各个状态的跳转来进行连续剧信息的匹配设计,没有超出本发明的保护范围。参照图5,该状态机的输入为描述连续剧视频的标准字符串,输出为该视频的标准剧集信息。当输入标准字符串时,状态机处于初态A,随后对字符串进行逐字扫描,根据跳转条件运行状态机;G、D、F、H、I等状态可作为终态,且一段视频只能到达一个终态。如图所示,A状态扫描到具体连续剧名后跳到B状态;B状态具有三个跳转分支扫描到"第"跳到C状态,扫描到"season"+数字跳到D状态,扫描到数字到G状态;C状态扫描到数字+部信息跳到D状态,扫描到数字+集信息跳到F状态;D状态表示视频的标准字符串具有"部"层次的剧集信息,随后扫描到"第"跳到E状态,扫描到数字或"ep,,+数字跳到F状态;F状态表示视频具有"集"层次的剧集信息,继续扫描到数字跳到I状态,扫描到"段"信息跳到H状态;I状态和H状态表式视频具有"段"层次的剧集信息;G状态表示连续剧名之后最近的相关字符为数字,该状态可跳到E、F、H状态。通过上述"状态机"算法,提取出了每个连续剧视频的连续剧编号、连续剧部序号和连续剧集序号。更进一步,还可以使用所述标准剧集信息,建立索引。在视频搜索引擎中,根据状态机输出的连续剧视频剧集信息,以剧集信息为Key建立索引(可使用倒排索引等通用技术);当用户查询连续剧时,搜索引擎将向用户展现该连续剧的基本信息及所有剧集信息的索引链接,方便用户点击查询。这样可以有效的优化搜索性能,显著的提升用户体验。类似的,针对搜索请求中的参数提取,也釆用同样的方法。参照图6,是所述提取搜索请求参数的方法流程图。S601,读取连续剧信息文件;S602,生成连续剧信息映射表;S603,进行搜索请求的预处理,输出标准字符串;请求是否为搜索连续剧视频的请求;如果是,则继续S605;如果否,则作为非连续剧请求进行处理;S605,使用"状态机算法",提取连续剧搜索请求参数,具体包括请求的连续剧名称、请求的连续剧编号、请求的连续剧部序号、请求的连续剧集序号。图4和图6处理流程的不同之处在于第一,使用环境不同离线识别是在线下定期的对视频数据进行识别;在线识别是在搜索引擎线上进行的实时识别;第二,识别对象不同离线识别的对象是数据库中的全部数据;在线识别的对象是用户输入的搜索请求;第三,输出结果不同离线识别对每条连续剧视频输出三个参数-TelelD—video、Season—video和Episode—video;在线识别对每条连续剧搜索请求输出四个参数-TelelD—query、Season—query、Episode—query和连续剧名称,其中前三个参数用于和离线输出的三个参数进行匹配,连续剧名称用于代替原"连续剧搜索请求",进行后续的分词和求交才喿作,获得候选视频集合。采用本发明上述方法的效果图可参照图7和图8所示。图7(a)和图7(b)分别为"刘老根第二部第二集"的完全匹配效果和智能匹配效果。如图7(a)所示,完全匹配的结果彩:仅为3。图7(b)智能匹配效果除了精确匹配上的视频"刘老根第二部第二集,,夕卜,还检索出"刘老根11-02上"、"[刘老根第二部].2"等视频,使结果数增加到42。在本例中,智能匹配方法使结果数大大增加,显著提升了查全率和用户体验。图8(a)和图8(b)分别为"还珠格格第二部第三集,,的完全匹配效果和智能匹配效果。如图8(a)所示,完全匹配的结果数为0。图8(b)智能匹配检索出"还珠格格第二部03"、"还珠格格II03A"等相关视频,使结果数增加到83。在本例中,智能匹配方法使结果数从O增加到83,显著提升了查全率和用户体验。针对上述搜索系列性数据的方法,本发明还提供了一种搜索系列性数据的装置实施例。参照图9,是实施例所述一种搜索系列性数据的装置结构图。所述装置主要包括接收单元U92,用于接收搜索请求;在线识别单元U93,用于分析所述搜索请求,提取出表示系列性数据的请求参数;智能匹配单元U94,用于根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。优选的,所述装置还包括离线数据处理单元U91,用于预置所述系列性数据参数,预置的方式可以为预先分析待搜索数据,提取出系列性数据参数,但不限于此。其中,所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息。当所述系列性数据为连续剧视频文件时,所述系列性数据参数包括视频文件的连续剧编号、和/或视频文件的连续剧部序号、和/或视频文件的连续剧集序号,所述表示系列性数据的请求参数包括请求的连续剧名称、和/或请求的连续剧编号、和/或请求的连续剧部序号、和/或请求的连续剧集序号。本发明由于对离线的所有系列性数据进行了处理,提取出了系列性数据参数,这样在查询时,根据在线识别搜索请求得到的请求参数,就可以查找到与请求参数相匹配的系列性数据参数,从而将对应该系列性数据参数的所有系列性数据(可能不包含查询词)作为查询结果提供给用户。因此,本发明显著提高了搜索的查全率,提高了搜索引擎的搜索性能。例如,搜索请求为"还珠格格第二部第三集,,,则搜索引擎返回的结果是"还珠格格第二部03"、"还珠格格II03A"等更多的相关视频。优选的,当所述请求参数包括请求的系列性数据名称和请求的系列性数据标识参数(如请求的连续剧编号、请求的连续剧部序号、请求的连续剧集序号)时,所述智能匹配单元U94具体包括分词子单元,用于对请求参数中的系列性数据名称进行分词;一次匹配子单元,用于将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合;二次匹配子单元,用于将请求参数中的系列性数据标识参数与候选集合中的系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。优选的,所述装置还包括输出单元U95,用于对查找到的系列性数据进行相关性排序后输出。优选的,所述离线数据处理单元U91具体包括离线预处理模块,用于将待搜索数据的描述信息转换为字符串。所述离线婆:据处理单元U91还包括离线扫描模块,用于使用状态机对所述字符串进行逐字扫描;离线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;离线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数提取出。所述离线数据处理单元U91还包括离线判断模块,用于根据预置的系列性数据映射表,判断所述待搜索数据是否为系列性数据,如果是,则触发所述离线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关"息。其中,所述离线判断模块通过以下方式进行判断对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述待搜索数据为系列性数据。优选的,所述在线识别单元U93具体包括在线预处理模块,用于将搜索请求的描述信息转换为字符串。所述在线识别单元U93还包括在线扫描模块,用于使用状态机对所述字符串进行逐字扫描;在线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;在线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的表示系列性数据的请求参数提取出。所述在线识别单元U93还包括在线判断模块,用于根据预置的系列性数据映射表,判断所述搜索请求是否为搜索系列性数据的请求,如果是,则触发所述在线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。其中,所述在线判断模块通过以下方式进行判断对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述搜索请求为搜索系列性数据的请求。图9所示装置中未详述的部分可以参见图l一图6所示方法的相关部分,为了篇幅考虑,在此不再详述。在实际应用中,上述实施例所提供的搜索系列性数据的装置更多的是应用到搜索引擎系统中,进行连续剧、连载小说等系列性数据的搜索。因此,本发明还4是供了一种搜索引擎系统的实施例,该系统实施例包括图9所示任一装置实施例所提供的装置。当然,所述搜索引擎系统还包括完成搜索功能的其他功能模块,再次不再详述。以上对本发明所提供的一种搜索系列性数据的方法、装置及一种搜索引擎行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。权利要求1、一种搜索系列性数据的方法,其特征在于,包括接收搜索请求;分析所述搜索请求,提取出表示系列性数据的请求参数;根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。2、根据权利要求1所述的方法,其特征在于,所述预置具体包括预先分析待搜索数据,提取出系列性数据参数。3、根据权利要求1所述的方法,其特征在于,所述查找具体包括将所述请求参数与所述系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。4、根据权利要求1所述的方法,其特征在于,当所述请求参数包括请求的系列性数据名称和请求的系列性数据标识参数时,所述查找具体包括对请求参数中的系列性数据名称进行分词;将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合;将请求参数中的系列性数据标识参数与候选集合中的系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。5、根据权利要求1所述的方法,其特征在于,查找与所述搜索请求相匹配的系列性数据之后,还包括对查找到的系列性数据进行相关性排序后输出。6、根据权利要求1或2所述的方法,其特征在于,所述提取出系列性数据参数/表示系列性数据的请求参数之前,还包括根据预置的系列性数据映射表,判断所述待搜索数据是否为系列性数据,如果是,则执行提取出系列性数据参数的步骤;或者,根据预置的系列性数据映射表,判断所述搜索请求是否为搜索系列性数据的请求,如果是,则执行提取出表示系列性数据的请求参数的步骤;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。7、根据权利要求6所述的方法,其特征在于,所述判断具体包括将所述待搜索数据/搜索请求的描述信息转换为字符串;对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述待搜索数据为系列性数据,或者所述搜索请求为搜索系列性数据的请求。8、根据权利要求1或2所述的方法,其特征在于,所述提取出系列性数据参数/表示系列性数据的请求参数,具体包括将待搜索数据/搜索请求的描述信息输入状态机;根据状态机中预置的由当前状态和当前输入转换到下一状态的转换映射关系,在各个状态间跳转;当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数/表示系列性数据的请求参数提取出。9、根据权利要求7所述的方法,其特征在于,所述提取出系列性数据参凄^/表示系列性数据的请求参数,具体包括使用状态机对所述字符串进行逐字扫描;根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数/表示系列性数据的请求参数提取出。10、根据权利要求1所述的方法,其特征在于所述系列性数据为连续剧浮见频文件,则所述系列性数据参数包括视频文件的连续剧编号、和/或视频文件的连续剧部序号、和/或视频文件的连续剧集序号,所述表示系列性数据的请求参^:包括请求的连续剧名称、和/或请求的连续剧编号、和/或请求的连续剧部序号、和/或请求的连续剧集序号。11、根据权利要求1所述的方法,其特征在于所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息。12、一种搜索系列性数据的装置,其特征在于,包括接收单元,用于接收搜索请求;在线识别单元,用于分析所述搜索请求,提取出表示系列性数据的请求参数;智能匹配单元,用于根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。13、根据权利要求12所述的装置,其特征在于,所述装置还包括离线数据处理单元,用于预先分析待搜索数据,提取出系列性数据参数。14、根据权利要求12所述的装置,其特征在于,当所述请求参数包括请求的系列性数据名称和请求的系列性数据标识参数时,所述智能匹配单元具体包括分词子单元,用于对请求参数中的系列性数据名称进行分词;一次匹配子单元,用于将所述分词结果与系列性数据的倒排索引结果进行求交,获得候选集合;二次匹配子单元,用于将请求参数中的系列性数据标识参数与候选集合中的系列性数据参数进行匹配,并将匹配到的系列性数据作为查找结果。15、才艮据权利要求12所述的装置,其特征在于,所述装置还包括输出单元,用于对查找到的系列性数据进行相关性排序后输出。16、根据权利要求13所述的装置,其特征在于,所述离线数据处理单元具体包括离线预处理模块,用于将待搜索数据的描述信息转换为字符串。17、根据权利要求16所述的装置,其特征在于,所述离线数据处理单元还包括离线扫描模块,用于使用状态机对所述字符串进行逐字扫描;离线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;离线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的系列性数据参数提取出。18、根据权利要求17所述的装置,其特征在于,所述离线数据处理单元还包括离线判断模块,用于根据预置的系列性数据映射表,判断所述待搜索数据是否为系列性数据,如果是,则触发所述离线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。19、根据权利要求18所述的装置,其特征在于,所述离线判断模块通过以下方式进行判断对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述待搜索数据为系列性数据。20、根据权利要求12所述的装置,其特征在于,所述在线识别单元具体包括在线预处理模块,用于将搜索请求的描述信息转换为字符串。21、根据权利要求20所述的装置,其特征在于,所述在线识别单元还包括在线扫描模块,用于使用状态机对所述字符串进行逐字扫描;在线跳转模块,用于根据状态机中预置的由输入字符和当前状态转换到下一状态的转换映射关系,当扫描到转换映射关系定义的特定字符时进行状态跳转;在线提取模块,用于当跳转到状态机的最终状态时,将所述最终状态对应的表示系列性数据的请求参数提^^出。22、根据权利要求21所述的装置,其特征在于,所述在线识别单元还包括在线判断模块,用于根据预置的系列性数据映射表,判断所述搜索请求是否为搜索系列性数据的请求,如果是,则触发所述在线扫描模块;其中,所述系列性数据映射表记录了所有系列性数据的相关信息。23、根据权利要求22所述的装置,其特征在于,所述在线判断模块通过以下方式进^"判断对所述字符串进行逐字扫描,并搜索所述系列性数据映射表中是否存在与当前字符串相匹配的系列性数据相关信息,如果存在,则所述搜索请求为搜索系列性数据的请求。24、根据权利要求12所述的装置,其特征在于所述系列性数据为连续剧视频文件,则所述系列性数据参数包括视频文件的连续剧编号、和/或视频文件的连续剧部序号、和/或视频文件的连续剧集序号,所述表示系列性数据的请求参数包括请求的连续剧名称、和/或请求的连续剧编号、和/或请求的连续剧部序号、和/或请求的连续剧集序号。25、根据权利要求12所述的装置,其特征在于所述系列性数据为连续网络资源信息,所述连续网络资源信息包括连续剧信息、连续讲座信息、连续音频信息、连续视频信息、连续多媒体信息、连续电子书信息。26、一种搜索引擎系统,其特征在于包括权利要求12至25任一权利要求所述的装置。全文摘要本发明公开了一种搜索系列性数据的方法、装置及一种搜索引擎系统,以解决目前的搜索引擎基于“完全匹配方法”导致搜索结果的查全率不高的问题。所述方法包括接收搜索请求;分析所述搜索请求,提取出表示系列性数据的请求参数;根据所述请求参数与预置的系列性数据参数的对应关系,查找与所述搜索请求相匹配的系列性数据。本发明得到的搜索结果,包括各种描述方式的系列性数据,不同于现有技术搜索到的仅包含查询词的结果。因此,本发明显著提高了搜索的查全率,提高了搜索引擎的搜索性能。文档编号G06F17/30GK101339560SQ20081011808公开日2009年1月7日申请日期2008年8月11日优先权日2008年8月11日发明者阔张,李华北申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1