一种数据搜索的装置及其方法

文档序号:6626993阅读:174来源:国知局
一种数据搜索的装置及其方法
【专利摘要】本发明提供一种数据搜索的装置及其方法,所述装置包括:分词处理模块,用于对接收的搜索关键词进行分词处理,获得所述搜索关键词的分词词语;分数获取模块,用于获取至少一个所述搜索关键词的分词词语的领域分数,并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数;匹配计算模块,用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度;搜索排序模块,用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。本发明能够根据搜索关键词,提供更加符合搜索需求的搜索结果。
【专利说明】一种数据搜索的装置及其方法

【技术领域】
[0001] 本发明涉及互联网【技术领域】,尤其涉及一种数据搜索的装置及其方法。

【背景技术】
[0002] 随着互联网技术的发展,网络信息数据量也越来越大,比如视频网站中大量的视 频信息,网站论坛中大量用户的发布信息,以及用户的历史海量日志。为了实现某一操作目 的,需要在大数据量的网络信息中获得满足需求的数据。
[0003] 现有的数据搜索技术多采用基于搜索关键词(query)进行搜索,由搜索引擎服务 器根据输入的搜索关键词,将与所述搜索关键词匹配的页面包含搜索结果进行反馈。并且, 在搜索结果中进行排序,将和搜索关键词相关度最高的页面排在最前面。
[0004] 但是,现有的数据搜索技术通常对搜索关键词的文本进行分词,仅仅计算各页面 在文本上与搜索关键词的相关度,并不考虑该搜索关键词的需求,导致搜索出来的页面并 非该搜索关键词真正想要的页面。比如,输入搜索关键词"最新恐怖片",现有的数据搜索技 术会基于词频和位置等文本内容进行搜索。因此,搜索出来的页面为包含"最新恐怖片"这 一文本内容的页面,而输入该搜索关键词真正想要的页面为最新的恐怖片视频观看页面。
[0005] 因此,如何根据搜索关键词提供更加符合搜索需求的搜索结果成为数据搜索技术 中亟待解决的技术问题。


【发明内容】

[0006] 有鉴于此,本发明提供一种数据搜索的装置及其方法,其能够根据搜索关键词,提 供更加符合搜索需求的搜索结果。
[0007] 本发明提供一种数据搜索的装置,包括:
[0008] 分词处理模块,用于对接收的搜索关键词进行分词处理,获得所述搜索关键词的 全部分词词语。
[0009] 分数获取模块,用于获取至少一个所述搜索关键词的分词词语的领域分数,并根 据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数。
[0010] 匹配计算模块,用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词 搜索出的所有文档的领域分数的匹配度。
[0011] 搜索排序模块,用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排 序。
[0012] 进一步,本发明还包括:
[0013] 词库识别模块,用于根据预先设立的词库对所述搜索关键词的每个分词词语进行 词库识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分 词词语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的 文档中根据非特征分词词语进行搜索。
[0014] 进一步,本发明所述词库识别模块还如果特征分词词语为预定义的特征分词词 语,则将所述分词词语从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不 再对所述删除的分词词语进行领域分数获取。
[0015] 进一步,本发明还包括:
[0016] 描述处理模块,用于分别对所有文档的文字描述计算领域分数,并将计算出的领 域分数设定为相应文档的领域分数。
[0017] 进一步,本发明所述搜索排序模块还用于判断所述搜索关键词的分词词语是否包 括排序分词词语,如果包括,则按照所述排序分词词语对所述根据搜索关键词搜索出的文 档进行排序。
[0018] 对应于上述装置,本发明还提供一种数据搜索的方法,包括:
[0019] 对接收的搜索关键词进行分词处理,获得所述搜索关键词的全部分词词语;
[0020] 获取所述搜索关键词的至少一个分词词语的领域分数,并根据所述至少一个分词 词语的领域分数计算出所述搜索关键词的领域分数;
[0021] 分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档 的领域分数的匹配度;
[0022] 依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
[0023] 进一步,本发明所述方法还包括:
[0024] 根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分 词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述 分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分 词词语进行搜索。
[0025] 进一步,本发明所述根据预先设立的词库对所述搜索关键词的每个分词词语进行 词库识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分 词词语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的 文档中根据非特征分词词语进行搜索还包括:
[0026] 如果特征分词词语为预定义的特征分词词语,则将所述分词词语从所述搜索关键 词的分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获 取。
[0027] 进一步,本发明还包括:
[0028] 分别对所有文档的文字描述计算领域分数,并将计算出的领域分数设定为文档的 领域分数。
[0029] 进一步,本发明所述依据所述匹配度对所述根据搜索关键词搜索出的文档进行排 序还包括:
[0030] 判断所述搜索关键词的分词词语是否包括排序分词词语,如果包括,则按照所述 排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
[0031] 由以上技术方案可见,本发明对接收的搜索关键词进行分词处理,获得所述搜索 关键词的分词词语的领域分数,从而得到所述搜索关键词的领域分数;本发明所进行的数 据搜索,根据搜索关键词的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排 序,令显示的搜索结果更加符合搜索的真实需求,提升了搜索的效果。并且,本发明计算简 单,操作方便,提高了搜索效率。

【专利附图】

【附图说明】
[0032] 图1是本发明数据搜索的装置的结构框图;
[0033] 图2是本发明数据搜索装置一具体实施例的结构框图;
[0034] 图3是本发明数据搜索方法的一个实施例的流程图;
[0035] 图4是本发明数据搜索方法的另一个实施例的流程图;
[0036] 图5是本发明数据搜索方法中步骤S5的流程图。

【具体实施方式】
[0037] 由于现有的数据搜索技术会基于搜索关键词的分词词语的词频和位置等文本内 容进行搜索,但这种搜索往往忽略了搜索的需求信息,得到错误的搜索结果。通常考虑到搜 索需求的数据搜索方法需要先统计搜索日志中的搜索关键词及其分词词语的需求概率,建 立一需求概率模型。而在根据搜索关键词进行搜索时,根据该概率模型确定搜索关键词及 其分词词语的搜索需求。而后还需要计算各种需求与搜索页面的相关度得到搜索关键词的 需求与搜索得到的页面的相关度,并根据该相关度显示搜索得到的页面。但是,这种搜索方 法需要先根据日志建立概率模型,而且根据概率模型确定的搜索需求计算复杂,影响搜索 的效率。
[0038] 本发明对接收的搜索关键词进行分词处理,获得所述搜索关键词的分词词语的领 域分数,从而得到所述搜索关键词的领域分数。本发明所进行的数据搜索,根据搜索关键词 的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排序,令显示的搜索结果更 加符合搜索的真实需求,提升了搜索的效果。并且,本发明计算简单,操作方便,提高了搜索 效率。
[0039] 下面结合本发明附图进一步说明本发明具体实现。
[0040] 参见图1,本发明提供一种数据搜索的装置可以用来搜索网站论坛中大量用户的 发布信息,服务器中的视频文件以及用户的历史海量日志等大数据量信息。本发明装置中 的各数据库可以存储在数据库服务器中,各功能模块可以存储在控制服务器中。当然,本发 明各功能模块以及数据库可以分别存储在相同的或者不同的服务器中,由本领域技术人员 根据需求进行选择设置。
[0041] 参见图1,本发明装置包括:
[0042] 分词处理模块11,用于对接收的搜索关键词进行分词处理,获得所述搜索关键词 的全部分词词语。
[0043] 分数获取模块12,用于获取所述搜索关键词的至少一个分词词语的领域分数,并 根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数。
[0044] 匹配计算模块13,用于分别计算所述搜索关键词的领域分数和根据所述搜索关键 词搜索出的所有文档的领域分数的匹配度。
[0045] 搜索排序模块14,用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行 排序。
[0046] 本发明所进行的数据搜索,根据搜索关键词的领域分数与搜索出文档的领域分数 的匹配度对搜索结果进行排序,令显示的搜索结果更加符合搜索的真实需求,提升了搜索 的准确率。并且,本发明计算简单,操作方便,提高了搜索效率。
[0047] 在本发明具体实现中,数据库服务器或者其他服务器中还包括预先设立的词库。 所述预先设立的词库包括明星词库、版本词库、类型词库、地点词库、排序词库等中至少一 个。
[0048] 具体地,明星词库多指明星的姓名或者艺名,比如刘德华、张曼玉等;版本词库多 指语言类型,比如国语版、日语版等;类型词库多指视频的类型,比如恐怖片、色情片等;地 点词库多指影片的拍摄国家,比如北京、日本,韩国;而排序词库多指排序依据,比如最新、 最好看、最恐怖等。
[0049] 上述词库可以采用手工设立,或者通过机器语言总结现有日志中的信息进行设 立。为了便于搜索,在大数据量的信息存储中通常对存储的文档设置分类标签,所述分类标 签标明所述文档的分类信息,如涉及明星、语言类型、视频类型、拍摄地点、搜索历史等。文 档的分类标签可以记录在文档的文字描述中,亦可以作为单独的分类标签存在。
[0050] 在本发明一具体的实施例中,参看图2,本发明装置还包括词库识别模块15,用于 根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分词词语命 中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述分词词语 设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分词词语进 行搜索。
[0051] 此外,所述词库识别模块15还用于如果特征分词词语为预定义的特征分词词语, 则将所述特征分词词语从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不 再对所述删除的分词词语进行领域分数获取。
[0052] 所述预定义的特征分词词语由本领域技术人员根据搜索系统的需要进行设定。通 常将表示版本信息(如:香港版、大陆版)、类型信息(如:动漫、武侠)、地点信息(如:美 国、中国)等信息的词语设定为预定义的特征分词词语。如果搜索关键词的全部分词词语 中存在预定义的特征分词词语,则将该分词词语从搜索关键词的全部分词词语中去除。在 分数获取模块12中即不再对所述删除的分词词语进行领域分数获取。
[0053] 因此,本发明词库识别模块15在所述搜索关键词的分词词语中去除了预定义的 特征分词词语,避免了由于这些分词词语造成的对搜索需求信息的误导。比如,搜索关键词 分词词语里面包含"美国"这一预定义的特征分词词语,搜索需求是为了搜索出美国电影, 如果不去除"美国"这个分词词语,则会将包含"美国"这个文本含义的电影搜索出来,比如 电影"美国往事"。
[0054] 下面以一些具体实现来说明本发明词库识别模块15的操作。
[0055] 具体地,预先设立了明星词库,如果搜索关键词中的分词词语包含的明星姓名命 中明星词库中保存的明星姓名,将该明星姓名设定为特征分词词语。在分类标签和特征分 词词语匹配的文档中根据非特征分词词语进行搜索,即在该明星涉及的文档中根据非特征 分词词语进行搜索。
[0056] 如,搜索关键词为"刘德华电影",进行分词处理后的分词词语包含"刘德华"、 "电影",分词词语"刘德华"命中明星词库中存储的"刘德华",将分词词语"刘德华"设定为 特征分词词语,将"电影"设定为非特征分词词语。在"刘德华"匹配的视频文件中根据"电 影"进行搜索。
[0057] 具体地,预先设立了版本词库,如果搜索关键词中的分词词语包含的版本信息命 中版本词库中保存的版本信息,将该版本信息设定为特征分词词语。在分类标签和特征分 词词语匹配的文档中根据非特征分词词语进行搜索,即在该版本信息涉及的文档中根据非 特征分词词语进行搜索。并且,特征分词词语版本信息为预定义的特征分词词语,则将所述 版本信息从所述搜索关键词的全部分词词语中删除,令所述分数获取模块不再对所述删除 的分词词语进行领域分数获取。
[0058] 如,搜索关键词为"粤语版电影",进行分词处理后的分词词语包含"电影"、"粤 语版",分词词语"粤语版"命中版本词库的版本信息,设定"粤语版"作为特征分词词语,"电 影"为非特征分词词语。在粤语版的视频文件中根据"电影"进行搜索。并且"粤语版"为 预定义的特征分词词语,则将所述"粤语版"从所述搜索关键词的全部分词词语中删除,令 所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0059] 具体地,预先设立了类型词库,如果搜索关键词中的分词词语包含影片类型,则命 中类型词库中保存的影片类型,将该分词词语包含影片类型设定为特征分词词语。在分类 标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索,即在该影片类型涉及的 文档中根据非特征分词词语进行搜索。并且,特征分词词语影片类型为预定义的特征分词 词语,则将所述影片类型从所述搜索关键词的全部分词词语中删除,令所述分数获取模块 不再对所述删除的分词词语进行领域分数获取。
[0060] 如,搜索关键词为"喜剧火车",进行分词处理后的分词词语包含"喜剧"、"火 车",分词词语"喜剧"命中类型词库中保存的影片类型,将分词词语"喜剧"设定为特征分 词词语,"火车"设定为非特征分词词语。在喜剧的视频文件中根据"火车"进行搜索。并且 "喜剧"为预定义的特征分词词语,则将"喜剧"从所述搜索关键词的全部分词词语中删除, 令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0061] 具体地,预先设立了地点词库,如果搜索关键词中的分词词语包含地点类型,则命 中地点词库中保存的地点类型,将该分词词语包含地点类型设定为特征分词词语。在分类 标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索,即在该地点类型涉及的 文档中根据非特征分词词语进行搜索。并且,特征分词词语地点类型为预定义的特征分词 词语,则将所述地点类型从所述搜索关键词的全部分词词语中删除,令所述分数获取模块 不再对所述删除的分词词语进行领域分数获取。
[0062] 如,搜索关键词为"美国朋友",进行分词处理后的分词词语包含"美国"、"朋 友",分词词语"美国"命中地点词库中保存的地点类型,将分词词语"美国"设定为特征分 词词语,"朋友"设定为非特征分词词语。在美国的视频文件中根据非特征分词词语"朋友" 进行搜索。并且"美国"为预定义的特征分词词语,则将"美国"从所述搜索关键词的全部 分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。 [0063] 当然,本发明亦可同时预先设置明星词库、版本词库、类型词库、地点词库、排序词 库等中的多个词库。
[0064] 比如,预设了明星词库和类型词库时,搜索关键词为"刘德华喜剧电影贺岁",进行 分词处理后的分词词语包含"刘德华"、"喜剧"、"电影"、"贺岁",分词词语"刘德华"命中明 星词库中的"刘德华",分词词语"喜剧"命中类型词库中的"喜剧"。将"刘德华"和"喜剧" 设定为特征分词词语,将"电影"、"贺岁"设定为非特征分词词语。在刘德华的喜剧电影的视 频文件中根据"电影"、"贺岁"进行搜索。特征分词词语"喜剧"为自定义的特征分词词语, 则将搜索关键词中的分词词语中的"喜剧"删除,令所述分数获取模块不再对所述删除的分 词词语进行领域分数获取。
[0065] 本发明预先设置其他词库的操作和上述相同,故在此不再赘述。
[0066] 具体地,本发明分词处理模块11对搜索关键词进行分词处理可以采用现有的分 词处理方法,比如,基于字符串的分词方法,基于理解的分词方法,基于统计的分词方法或 者基于语义的分词方法,由于其为现有技术,故不再赘述。
[0067] 在本发明的优选实施例中,对搜索关键词进行分词处理还过滤掉预设的停用词表 所包含的词语及/或非独立表意的词语(如,的)等。
[0068] 在本发明的具体实现中,本发明装置运行之初,还可以包括:描述处理模块16。 [0069] 描述处理模块16,用于分别对所有文档的文字描述(包括名称)计算领域分数,并 将计算出的领域分数设定为相应文档的领域分数。
[0070] 其中,领域是指每个文档所涉及的内容的类别,比如新闻、综艺、电影、体育等。
[0071] 所述对所有文档的文字描述计算领域分数采用空间向量相似度的方法,具体的公 式为:
[0072]

【权利要求】
1. 一种数据搜索的装置,其特征在于,包括: 分词处理模块,用于对接收的搜索关键词进行分词处理,获得所述搜索关键词的全部 分词词语; 分数获取模块,用于获取至少一个所述搜索关键词的分词词语的领域分数,并根据所 述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数; 匹配计算模块,用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索 出的所有文档的领域分数的匹配度; 搜索排序模块,用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
2. 根据权利要求1所述的装置,其特征在于,还包括: 词库识别模块,用于根据预先设立的词库对所述搜索关键词的每个分词词语进行词库 识别,如所述分词词语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词 语,否则,将所述分词词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档 中根据非特征分词词语进行搜索。
3. 根据权利要求2所述的装置,其特征在于,所述词库识别模块还用于如果特征分词 词语为预定义的特征分词词语,则将所述特征分词词语从所述搜索关键词的全部分词词语 中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
4. 根据权利要求1所述的装置,其特征在于,还包括: 描述处理模块,用于分别对所有文档的文字描述计算领域分数,并将计算出的领域分 数设定为相应文档的领域分数。
5. 根据权利要求1所述的装置,其特征在于,所述搜索排序模块还用于判断所述搜索 关键词的分词词语是否包括排序分词词语,如果包括,则按照所述排序分词词语对所述根 据搜索关键词搜索出的文档进行排序。
6. -种数据搜索的方法,其特征在于,包括: 对接收的搜索关键词进行分词处理,获得所述搜索关键词的全部分词词语; 获取所述搜索关键词的至少一个分词词语的领域分数,并根据所述至少一个分词词语 的领域分数计算出所述搜索关键词的领域分数; 分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领 域分数的匹配度; 依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
7. 根据权利要求6所述的方法,其特征在于,所述方法还包括: 根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别,如所述分词词 语命中所述词库中存储的词语,则将所述分词词语设定为特征分词词语,否则,将所述分词 词语设定为非特征分词词语,在分类标签和特征分词词语匹配的文档中根据非特征分词词 语进行搜索。
8. 根据权利要求7所述的方法,其特征在于,所述根据预先设立的词库对所述搜索关 键词的每个分词词语进行词库识别,如所述分词词语命中所述词库中存储的词语,则将所 述分词词语设定为特征分词词语,否则,将所述分词词语设定为非特征分词词语,在分类标 签和特征分词词语匹配的文档中根据非特征分词词语进行搜索还包括: 如果特征分词词语为预定义的特征分词词语,则将所述分词词语从所述搜索关键词的 分词词语中删除,令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
9. 根据权利要求6所述的方法,其特征在于,还包括: 分别对所有文档的文字描述计算领域分数,并将计算出的领域分数设定为相应文档的 领域分数。
10. 根据权利要求6所述的方法,其特征在于,所述依据所述匹配度对所述根据搜索关 键词搜索出的文档进行排序还包括: 判断所述搜索关键词的分词词语是否包括排序分词词语,如果包括,则按照所述排序 分词词语对所述根据搜索关键词搜索出的文档进行排序。
【文档编号】G06F17/27GK104268175SQ201410469923
【公开日】2015年1月7日 申请日期:2014年9月15日 优先权日:2014年9月15日
【发明者】关涛, 于立柱 申请人:乐视网信息技术(北京)股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1