一种数据搜索的装置及其方法

文档序号：6626993阅读：174来源：国知局

一种数据搜索的装置及其方法
【专利摘要】本发明提供一种数据搜索的装置及其方法，所述装置包括：分词处理模块，用于对接收的搜索关键词进行分词处理，获得所述搜索关键词的分词词语；分数获取模块，用于获取至少一个所述搜索关键词的分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数；匹配计算模块，用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度；搜索排序模块，用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。本发明能够根据搜索关键词，提供更加符合搜索需求的搜索结果。
【专利说明】一种数据搜索的装置及其方法

【技术领域】
[0001] 本发明涉及互联网【技术领域】，尤其涉及一种数据搜索的装置及其方法。

【背景技术】
[0002] 随着互联网技术的发展，网络信息数据量也越来越大，比如视频网站中大量的视频信息，网站论坛中大量用户的发布信息，以及用户的历史海量日志。为了实现某一操作目的，需要在大数据量的网络信息中获得满足需求的数据。
[0003] 现有的数据搜索技术多采用基于搜索关键词（query)进行搜索，由搜索引擎服务器根据输入的搜索关键词，将与所述搜索关键词匹配的页面包含搜索结果进行反馈。并且，在搜索结果中进行排序，将和搜索关键词相关度最高的页面排在最前面。
[0004] 但是，现有的数据搜索技术通常对搜索关键词的文本进行分词，仅仅计算各页面在文本上与搜索关键词的相关度，并不考虑该搜索关键词的需求，导致搜索出来的页面并非该搜索关键词真正想要的页面。比如，输入搜索关键词"最新恐怖片"，现有的数据搜索技术会基于词频和位置等文本内容进行搜索。因此，搜索出来的页面为包含"最新恐怖片"这一文本内容的页面，而输入该搜索关键词真正想要的页面为最新的恐怖片视频观看页面。
[0005] 因此，如何根据搜索关键词提供更加符合搜索需求的搜索结果成为数据搜索技术中亟待解决的技术问题。

【发明内容】

[0006] 有鉴于此，本发明提供一种数据搜索的装置及其方法，其能够根据搜索关键词，提供更加符合搜索需求的搜索结果。
[0007] 本发明提供一种数据搜索的装置，包括：
[0008] 分词处理模块，用于对接收的搜索关键词进行分词处理，获得所述搜索关键词的全部分词词语。
[0009] 分数获取模块，用于获取至少一个所述搜索关键词的分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数。
[0010] 匹配计算模块，用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度。
[0011] 搜索排序模块，用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
[0012] 进一步，本发明还包括：
[0013] 词库识别模块，用于根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。
[0014] 进一步，本发明所述词库识别模块还如果特征分词词语为预定义的特征分词词语，则将所述分词词语从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0015] 进一步，本发明还包括：
[0016] 描述处理模块，用于分别对所有文档的文字描述计算领域分数，并将计算出的领域分数设定为相应文档的领域分数。
[0017] 进一步，本发明所述搜索排序模块还用于判断所述搜索关键词的分词词语是否包括排序分词词语，如果包括，则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
[0018] 对应于上述装置，本发明还提供一种数据搜索的方法，包括：
[0019] 对接收的搜索关键词进行分词处理，获得所述搜索关键词的全部分词词语；
[0020] 获取所述搜索关键词的至少一个分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数；
[0021] 分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度；
[0022] 依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
[0023] 进一步，本发明所述方法还包括：
[0024] 根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。
[0025] 进一步，本发明所述根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索还包括：
[0026] 如果特征分词词语为预定义的特征分词词语，则将所述分词词语从所述搜索关键词的分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0027] 进一步，本发明还包括：
[0028] 分别对所有文档的文字描述计算领域分数，并将计算出的领域分数设定为文档的领域分数。
[0029] 进一步，本发明所述依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序还包括：
[0030] 判断所述搜索关键词的分词词语是否包括排序分词词语，如果包括，则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
[0031] 由以上技术方案可见，本发明对接收的搜索关键词进行分词处理，获得所述搜索关键词的分词词语的领域分数，从而得到所述搜索关键词的领域分数；本发明所进行的数据搜索，根据搜索关键词的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排序，令显示的搜索结果更加符合搜索的真实需求，提升了搜索的效果。并且，本发明计算简单，操作方便，提高了搜索效率。

【专利附图】

【附图说明】
[0032] 图1是本发明数据搜索的装置的结构框图；
[0033] 图2是本发明数据搜索装置一具体实施例的结构框图；
[0034] 图3是本发明数据搜索方法的一个实施例的流程图；
[0035] 图4是本发明数据搜索方法的另一个实施例的流程图；
[0036] 图5是本发明数据搜索方法中步骤S5的流程图。

【具体实施方式】
[0037] 由于现有的数据搜索技术会基于搜索关键词的分词词语的词频和位置等文本内容进行搜索，但这种搜索往往忽略了搜索的需求信息，得到错误的搜索结果。通常考虑到搜索需求的数据搜索方法需要先统计搜索日志中的搜索关键词及其分词词语的需求概率，建立一需求概率模型。而在根据搜索关键词进行搜索时，根据该概率模型确定搜索关键词及其分词词语的搜索需求。而后还需要计算各种需求与搜索页面的相关度得到搜索关键词的需求与搜索得到的页面的相关度，并根据该相关度显示搜索得到的页面。但是，这种搜索方法需要先根据日志建立概率模型，而且根据概率模型确定的搜索需求计算复杂，影响搜索的效率。
[0038] 本发明对接收的搜索关键词进行分词处理，获得所述搜索关键词的分词词语的领域分数，从而得到所述搜索关键词的领域分数。本发明所进行的数据搜索，根据搜索关键词的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排序，令显示的搜索结果更加符合搜索的真实需求，提升了搜索的效果。并且，本发明计算简单，操作方便，提高了搜索效率。
[0039] 下面结合本发明附图进一步说明本发明具体实现。
[0040] 参见图1，本发明提供一种数据搜索的装置可以用来搜索网站论坛中大量用户的发布信息，服务器中的视频文件以及用户的历史海量日志等大数据量信息。本发明装置中的各数据库可以存储在数据库服务器中，各功能模块可以存储在控制服务器中。当然，本发明各功能模块以及数据库可以分别存储在相同的或者不同的服务器中，由本领域技术人员根据需求进行选择设置。
[0041] 参见图1，本发明装置包括：
[0042] 分词处理模块11，用于对接收的搜索关键词进行分词处理，获得所述搜索关键词的全部分词词语。
[0043] 分数获取模块12,用于获取所述搜索关键词的至少一个分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数。
[0044] 匹配计算模块13,用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度。
[0045] 搜索排序模块14,用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
[0046] 本发明所进行的数据搜索，根据搜索关键词的领域分数与搜索出文档的领域分数的匹配度对搜索结果进行排序，令显示的搜索结果更加符合搜索的真实需求，提升了搜索的准确率。并且，本发明计算简单，操作方便，提高了搜索效率。
[0047] 在本发明具体实现中，数据库服务器或者其他服务器中还包括预先设立的词库。所述预先设立的词库包括明星词库、版本词库、类型词库、地点词库、排序词库等中至少一个。
[0048] 具体地，明星词库多指明星的姓名或者艺名，比如刘德华、张曼玉等；版本词库多指语言类型，比如国语版、日语版等；类型词库多指视频的类型，比如恐怖片、色情片等；地点词库多指影片的拍摄国家，比如北京、日本，韩国；而排序词库多指排序依据，比如最新、最好看、最恐怖等。
[0049] 上述词库可以采用手工设立，或者通过机器语言总结现有日志中的信息进行设立。为了便于搜索，在大数据量的信息存储中通常对存储的文档设置分类标签，所述分类标签标明所述文档的分类信息，如涉及明星、语言类型、视频类型、拍摄地点、搜索历史等。文档的分类标签可以记录在文档的文字描述中，亦可以作为单独的分类标签存在。
[0050] 在本发明一具体的实施例中，参看图2,本发明装置还包括词库识别模块15,用于根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。
[0051] 此外，所述词库识别模块15还用于如果特征分词词语为预定义的特征分词词语，则将所述特征分词词语从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0052] 所述预定义的特征分词词语由本领域技术人员根据搜索系统的需要进行设定。通常将表示版本信息（如：香港版、大陆版）、类型信息（如：动漫、武侠）、地点信息（如：美国、中国）等信息的词语设定为预定义的特征分词词语。如果搜索关键词的全部分词词语中存在预定义的特征分词词语，则将该分词词语从搜索关键词的全部分词词语中去除。在分数获取模块12中即不再对所述删除的分词词语进行领域分数获取。
[0053] 因此，本发明词库识别模块15在所述搜索关键词的分词词语中去除了预定义的特征分词词语，避免了由于这些分词词语造成的对搜索需求信息的误导。比如，搜索关键词分词词语里面包含"美国"这一预定义的特征分词词语，搜索需求是为了搜索出美国电影，如果不去除"美国"这个分词词语，则会将包含"美国"这个文本含义的电影搜索出来，比如电影"美国往事"。
[0054] 下面以一些具体实现来说明本发明词库识别模块15的操作。
[0055] 具体地，预先设立了明星词库，如果搜索关键词中的分词词语包含的明星姓名命中明星词库中保存的明星姓名，将该明星姓名设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索，即在该明星涉及的文档中根据非特征分词词语进行搜索。
[0056] 如，搜索关键词为"刘德华电影"，进行分词处理后的分词词语包含"刘德华"、 "电影"，分词词语"刘德华"命中明星词库中存储的"刘德华"，将分词词语"刘德华"设定为特征分词词语，将"电影"设定为非特征分词词语。在"刘德华"匹配的视频文件中根据"电影"进行搜索。
[0057] 具体地，预先设立了版本词库，如果搜索关键词中的分词词语包含的版本信息命中版本词库中保存的版本信息，将该版本信息设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索，即在该版本信息涉及的文档中根据非特征分词词语进行搜索。并且，特征分词词语版本信息为预定义的特征分词词语，则将所述版本信息从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0058] 如，搜索关键词为"粤语版电影"，进行分词处理后的分词词语包含"电影"、"粤语版"，分词词语"粤语版"命中版本词库的版本信息，设定"粤语版"作为特征分词词语，"电影"为非特征分词词语。在粤语版的视频文件中根据"电影"进行搜索。并且"粤语版"为预定义的特征分词词语，则将所述"粤语版"从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0059] 具体地，预先设立了类型词库，如果搜索关键词中的分词词语包含影片类型，则命中类型词库中保存的影片类型，将该分词词语包含影片类型设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索，即在该影片类型涉及的文档中根据非特征分词词语进行搜索。并且，特征分词词语影片类型为预定义的特征分词词语，则将所述影片类型从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0060] 如，搜索关键词为"喜剧火车"，进行分词处理后的分词词语包含"喜剧"、"火车"，分词词语"喜剧"命中类型词库中保存的影片类型，将分词词语"喜剧"设定为特征分词词语，"火车"设定为非特征分词词语。在喜剧的视频文件中根据"火车"进行搜索。并且 "喜剧"为预定义的特征分词词语，则将"喜剧"从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0061] 具体地，预先设立了地点词库，如果搜索关键词中的分词词语包含地点类型，则命中地点词库中保存的地点类型，将该分词词语包含地点类型设定为特征分词词语。在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索，即在该地点类型涉及的文档中根据非特征分词词语进行搜索。并且，特征分词词语地点类型为预定义的特征分词词语，则将所述地点类型从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0062] 如，搜索关键词为"美国朋友"，进行分词处理后的分词词语包含"美国"、"朋友"，分词词语"美国"命中地点词库中保存的地点类型，将分词词语"美国"设定为特征分词词语，"朋友"设定为非特征分词词语。在美国的视频文件中根据非特征分词词语"朋友" 进行搜索。并且"美国"为预定义的特征分词词语，则将"美国"从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。 [0063] 当然，本发明亦可同时预先设置明星词库、版本词库、类型词库、地点词库、排序词库等中的多个词库。
[0064] 比如，预设了明星词库和类型词库时，搜索关键词为"刘德华喜剧电影贺岁"，进行分词处理后的分词词语包含"刘德华"、"喜剧"、"电影"、"贺岁"，分词词语"刘德华"命中明星词库中的"刘德华"，分词词语"喜剧"命中类型词库中的"喜剧"。将"刘德华"和"喜剧" 设定为特征分词词语，将"电影"、"贺岁"设定为非特征分词词语。在刘德华的喜剧电影的视频文件中根据"电影"、"贺岁"进行搜索。特征分词词语"喜剧"为自定义的特征分词词语，则将搜索关键词中的分词词语中的"喜剧"删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
[0065] 本发明预先设置其他词库的操作和上述相同，故在此不再赘述。
[0066] 具体地，本发明分词处理模块11对搜索关键词进行分词处理可以采用现有的分词处理方法，比如，基于字符串的分词方法，基于理解的分词方法，基于统计的分词方法或者基于语义的分词方法，由于其为现有技术，故不再赘述。
[0067] 在本发明的优选实施例中，对搜索关键词进行分词处理还过滤掉预设的停用词表所包含的词语及/或非独立表意的词语（如，的）等。
[0068] 在本发明的具体实现中，本发明装置运行之初，还可以包括：描述处理模块16。 [0069] 描述处理模块16,用于分别对所有文档的文字描述（包括名称）计算领域分数，并将计算出的领域分数设定为相应文档的领域分数。
[0070] 其中，领域是指每个文档所涉及的内容的类别，比如新闻、综艺、电影、体育等。
[0071] 所述对所有文档的文字描述计算领域分数采用空间向量相似度的方法，具体的公式为：
[0072]

【权利要求】
1. 一种数据搜索的装置，其特征在于，包括：分词处理模块，用于对接收的搜索关键词进行分词处理，获得所述搜索关键词的全部分词词语；分数获取模块，用于获取至少一个所述搜索关键词的分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数；匹配计算模块，用于分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度；搜索排序模块，用于依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
2. 根据权利要求1所述的装置，其特征在于，还包括：词库识别模块，用于根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。
3. 根据权利要求2所述的装置，其特征在于，所述词库识别模块还用于如果特征分词词语为预定义的特征分词词语，则将所述特征分词词语从所述搜索关键词的全部分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
4. 根据权利要求1所述的装置，其特征在于，还包括：描述处理模块，用于分别对所有文档的文字描述计算领域分数，并将计算出的领域分数设定为相应文档的领域分数。
5. 根据权利要求1所述的装置，其特征在于，所述搜索排序模块还用于判断所述搜索关键词的分词词语是否包括排序分词词语，如果包括，则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
6. -种数据搜索的方法，其特征在于，包括：对接收的搜索关键词进行分词处理，获得所述搜索关键词的全部分词词语；获取所述搜索关键词的至少一个分词词语的领域分数，并根据所述至少一个分词词语的领域分数计算出所述搜索关键词的领域分数；分别计算所述搜索关键词的领域分数和根据所述搜索关键词搜索出的所有文档的领域分数的匹配度；依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序。
7. 根据权利要求6所述的方法，其特征在于，所述方法还包括：根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索。
8. 根据权利要求7所述的方法，其特征在于，所述根据预先设立的词库对所述搜索关键词的每个分词词语进行词库识别，如所述分词词语命中所述词库中存储的词语，则将所述分词词语设定为特征分词词语，否则，将所述分词词语设定为非特征分词词语，在分类标签和特征分词词语匹配的文档中根据非特征分词词语进行搜索还包括：如果特征分词词语为预定义的特征分词词语，则将所述分词词语从所述搜索关键词的分词词语中删除，令所述分数获取模块不再对所述删除的分词词语进行领域分数获取。
9. 根据权利要求6所述的方法，其特征在于，还包括：分别对所有文档的文字描述计算领域分数，并将计算出的领域分数设定为相应文档的领域分数。
10. 根据权利要求6所述的方法，其特征在于，所述依据所述匹配度对所述根据搜索关键词搜索出的文档进行排序还包括：判断所述搜索关键词的分词词语是否包括排序分词词语，如果包括，则按照所述排序分词词语对所述根据搜索关键词搜索出的文档进行排序。
【文档编号】G06F17/27GK104268175SQ201410469923
【公开日】2015年1月7日申请日期:2014年9月15日优先权日:2014年9月15日
【发明者】关涛, 于立柱申请人:乐视网信息技术（北京）股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：关涛;于立柱
技术所有人：乐视网信息技术（北京）股份有限公司
我是此专利的发明人

上一篇：电子设备防入侵的方法与防入侵的电子设备的制作方法
上一篇：一种风机叶片裂纹位置确定方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。