一种信息搜索方法及装置的制造方法

文档序号:10570069阅读:307来源:国知局
一种信息搜索方法及装置的制造方法
【专利摘要】本发明提供一种信息搜索方法及装置。该方法包括:根据接收到的关键词组,获取关键词组对应的信息搜索结果;根据该信息搜索结果的质量信息,判断是否满足重新搜索条件;当判断满足重新搜索条件时,对该关键词组中关键词的类型进行矫正,获取矫正后的关键词组对应的信息搜索结果。本发明根据首次获取的信息搜索结果判断是否满足重新搜索条件,当满足时对用户输入的关键词组进行矫正,大大减少了拼写错误或与用户搜索意图不相关的词在信息搜索中的参考性,使得矫正后的关键词组更加符合用户的搜索意图。根据矫正后的关键词组重新进行信息搜索,大大增加了搜索到的信息的数量,提高了搜索到用户真正需要的信息的几率,提高了信息搜索的准确性。
【专利说明】
一种信息搜索方法及装置
技术领域
[0001]本发明涉及互联网通信技术领域,具体而言,涉及一种信息搜索方法及装置。
【背景技术】
[0002]目前,用户经常通过搜索引擎进行信息搜素,当用户在搜索引擎中输入待搜索的关键词组时,搜索引擎需要根据用户输入的关键词组搜索用户需要的信息。
[0003]当前,相关技术中提供了一种信息搜索方法,包括:根据用户输入的关键词组,查询并获取与关键词组匹配的信息,得到信息搜索结果。计算信息搜索结果中每个信息与关键词组的相关度,根据每个信息对应的相关度对信息搜索结果中的所有信息进行排序,将排序后的信息搜索结果发送给用户。
[0004]但当用户输入的关键词组中存在拼写错误,或者存在与用户搜索意图不相关的词时,根据用户输入的关键词组进行信息搜索,导致获取的信息的数量很少,极有可能搜索不到用户真正需要的信息,导致信息搜索的准确性很低。

【发明内容】

[0005]有鉴于此,本发明实施例的目的在于提供一种信息搜索方法及装置,实现在获取的信息的数量很少时,对用户输入的关键词组中关键词的类型进行矫正,并根据矫正后的关键词组重新进行信息搜索,减少拼写错误或与用户搜索意图不相关的词在信息搜索中的参考性,使得矫正后的关键词组更加符合用户的搜索意图,增加搜索到的信息的数量,提高信息搜索的准确性。
[0006]第一方面,本发明实施例提供了一种信息搜索方法,所述方法包括:
[0007]根据接收到的关键词组,获取所述关键词组对应的信息搜索结果;
[0008]根据所述信息搜索结果的质量信息,判断是否满足重新搜索条件;
[0009]当判断满足所述重新搜索条件时,对所述关键词组中关键词的类型进行矫正,并获取矫正后的关键词组对应的信息搜索结果。
[0010]结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,所述质量信息包括所述信息搜索结果包含的信息的数目及每个信息与所述关键词组之间的匹配度;根据所述信息搜索结果的质量信息,判断是否满足重新搜索条件,包括:
[0011 ]统计所述信息搜索结果包括的信息的数目;
[0012]分别计算所述信息搜索结果中每个信息与所述关键词组之间的匹配度;
[0013]确定所述信息的数目是否大于预设数值,及根据所述每个信息对应的匹配度,确定所述信息搜索结果中是否包含匹配度大于预设阈值的信息;
[0014]当确定所述信息的数目小于或等于所述预设数值,或确定所述信息搜索结果中不包含匹配度大于所述预设阈值的信息时,判断满足重新搜索条件,否则,判断不满足所述重新搜索条件。
[0015]结合第一方面,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,所述对所述关键词组中关键词的类型进行矫正,包括:
[0016]根据所述关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件;
[0017]对所述关键词组进行文本分析,确定所述关键词组中包括的每个关键词的类型,关键词的类型包括必要类型和非必要类型;
[0018]根据所述符合搜索意图条件的信息事件,确定必要类型的关键词对应的必要系数;
[0019]根据必要类型的关键词对应的必要系数,对所述关键词组中关键词的类型进行矫正。
[0020]结合第一方面的第二种可能的实现方式,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,所述根据所述关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件,包括:
[0021]根据所述关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件;
[0022]分别计算获取的每个信息事件与所述关键词组之间的相关度;
[0023]将与所述关键词组之间的相关度大于预设相关度的信息事件确定为符合搜索意图条件的信息事件。
[0024]结合第一方面第三种可能的实现方式,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,所述分别计算获取的每个信息事件与所述关键词组之间的相关度,包括:
[0025]根据所述关键词组包括的每个关键词,确定所述关键词组对应的词组向量;
[0026]根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量;
[0027]分别计算每个信息事件对应的事件向量与所述关键词组对应的词组向量之间的夹角余弦值,得到所述每个信息事件与所述关键词组之间的相关度。
[0028]结合第一方面的第二种可能的实现方式,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中,所述根据所述关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件,包括:
[0029]根据所述关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件;
[0030]计算获取的每个信息事件中任意两个信息事件之间的相关度;
[0031]若两个信息事件之间的相关度大于预设相关度,则将所述两个信息事件确定为符合搜索意图条件的信息事件。
[0032]结合第一方面的第五种可能的实现方式,本发明实施例提供了上述第一方面的第六种可能的实现方式,其中,所述计算获取的每个信息事件中任意两个信息事件之间的相关度,包括:
[0033]根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量;
[0034]分别计算每个信息事件中任意两个信息事件对应的事件向量之间的夹角余弦值,得到所述每个信息事件中任意两个信息事件之间的相关度。
[0035]结合第一方面的第二种可能的实现方式,本发明实施例提供了上述第一方面的第七种可能的实现方式,其中,所述根据所述符合搜索意图条件的信息事件,确定必要类型的关键词对应的必要系数,包括:
[0036]从所述符合搜索意图条件的信息事件中,确定出与必要类型的关键词匹配的信息事件;
[0037]根据确定的所述信息事件包含的文档数量,计算必要类型的关键词对应的必要系数。
[0038]结合第一方面的第二种可能的实现方式,本发明实施例提供了上述第一方面的第八种可能的实现方式,其中,所述根据必要类型的关键词对应的必要系数,对所述关键词组中关键词的类型进行矫正,包括:
[0039]分别判断所述关键词组包括的每个必要类型的关键词对应的必要系数是否小于预设必要阈值;
[0040]将必要系数小于所述预设必要阈值的关键词添加到非必要词集合中;
[0041 ]判断所述非必要词集合中是否包含所述关键词组的所有必要类型的关键词;
[0042]如果否,则将所述非必要词集合中的关键词的类型矫正为非必要类型,如果是,则停止对所述关键词组中关键词的类型的矫正。
[0043]结合第一方面,本发明实施例提供了上述第一方面的第九种可能的实现方式,其中,所述根据所述关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件之前,还包括:
[0044]通过网络爬虫抓取信息文档;
[0045]提取每个信息文档中的事件关键词,并确定所述事件关键词对应的权重;
[0046]根据每个信息文档对应的事件关键词及事件关键词对应的权重,将抓取的信息文档聚类为多个信息事件;
[0047]根据所述多个信息事件、每个信息事件对应的事件关键词及事件关键词对应的权重,建立信息事件库。
[0048]结合第一方面的第三种可能的实现方式,本发明实施例提供了上述第一方面的第十种可能的实现方式,其中,所述根据所述关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件,包括:
[0049]判断所述关键词组包括的关键词的数目是否小于预设数目;
[0050]如果是,则从预先建立的信息事件库中,获取对应的事件关键词中包含所述关键词组中所有关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件;
[0051 ]如果否,则根据所述关键词的数目计算匹配词数,从预先建立的信息事件库中,获取对应的事件关键词中至少包含所述匹配词数个所述关键词组中的关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件。
[0052]第二方面,本发明实施例提供了一种信息搜索装置,所述装置包括:
[0053]获取模块,用于根据接收到的关键词组,获取所述关键词组对应的信息搜索结果;
[0054]判断模块,用于根据所述信息搜索结果的质量信息,判断是否满足重新搜索条件;
[0055]矫正模块,用于当所述判断模块判断满足所述重新搜索条件时,对所述关键词组中关键词的类型进行矫正,并获取矫正后的关键词组对应的信息搜索结果。
[0056]结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其中,所述质量信息包括所述信息搜索结果包含的信息的数目及每个信息与所述关键词组之间的匹配度;所述判断模块包括:
[0057]统计单元,用于统计所述信息搜索结果包括的信息的数目;
[0058]计算单元,用于分别计算所述信息搜索结果中每个信息与所述关键词组之间的匹配度;
[0059]确定单元,用于确定所述信息的数目是否大于预设数值,及根据所述每个信息对应的匹配度,确定所述信息搜索结果中是否包含匹配度大于预设阈值的信息;
[0060]判断单元,用于当确定所述信息的数目小于或等于所述预设数值,或确定所述信息搜索结果中不包含匹配度大于所述预设阈值的信息时,判断满足重新搜索条件,否则,判断不满足所述重新搜索条件。
[0061]结合第二方面,本发明实施例提供了上述第二方面的第二种可能的实现方式,其中,所述矫正模块包括:
[0062]获取单元,用于根据所述关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件;
[0063]第一确定单元,用于对所述关键词组进行文本分析,确定所述关键词组中包括的每个关键词的类型,关键词的类型包括必要类型和非必要类;
[0064]第二确定单元,用于根据所述符合搜索意图条件的信息事件,确定必要类型的关键词对应的必要系数;
[0065]矫正单元,用于根据必要类型的关键词对应的必要系数,对所述关键词组中关键词的类型进行矫正。
[0066]结合第二方面的第二种可能的实现方式,本发明实施例提供了上述第二方面的第三种可能的实现方式,其中,所述获取单元包括:
[0067]第一获取子单元,用于根据所述关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件;
[0068]第一计算子单元,用于分别计算获取的每个信息事件与所述关键词组之间的相关度;
[0069]第一确定子单元,用于将与所述关键词组之间的相关度大于预设相关度的信息事件确定为符合搜索意图条件的信息事件。
[0070]结合第二方面的第三种可能的实现方式,本发明实施例提供了上述第二方面的第四种可能的实现方式,其中,所述第一计算子单元,用于根据所述关键词组包括的每个关键词,确定所述关键词组对应的词组向量;根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量;分别计算每个信息事件对应的事件向量与所述关键词组对应的词组向量之间的夹角余弦值,得到所述每个信息事件与所述关键词组之间的相关度。
[0071]结合第二方面的第二种可能的实现方式,本发明实施例提供了上述第二方面的第五种可能的实现方式,其中,所述获取单元包括:
[0072]第二获取子单元,用于根据所述关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件;
[0073]第二计算子单元,用于计算获取的每个信息事件中任意两个信息事件之间的相关度;
[0074]第二确定子单元,用于若两个信息事件之间的相关度大于预设相关度,则将所述两个信息事件确定为符合搜索意图条件的信息事件。
[0075]结合第二方面的第五种可能的实现方式,本发明实施例提供了上述第二方面的第六种可能的实现方式,其中,所述第二计算子单元,用于根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量;分别计算每个信息事件中任意两个信息事件对应的事件向量之间的夹角余弦值,得到所述每个信息事件中任意两个信息事件之间的相关度。
[0076]结合第二方面的第二种可能的实现方式,本发明实施例提供了上述第二方面的第七种可能的实现方式,其中,所述第二确定单元包括:
[0077]第三确定子单元,用于从所述符合搜索意图条件的信息事件中,确定出与必要类型的关键词匹配的信息事件;
[0078]第三计算子单元,用于根据确定的所述信息事件包含的文档数量,计算必要类型的关键词对应的必要系数。
[0079]结合第二方面的第二种可能的实现方式,本发明实施例提供了上述第二方面的第八种可能的实现方式,其中,所述矫正单元包括:
[0080]第一判断子单元,用于分别判断所述关键词组包括的每个必要类型的关键词对应的必要系数是否小于预设必要阈值;
[0081]添加子单元,用于将必要系数小于所述预设必要阈值的必要关键词添加到非必要词集合中;
[0082]第二判断子单元,用于判断所述非必要词集合中是否包含所述关键词组的所有必要类型的关键词;
[0083]矫正子单元,用于如果否,则将所述非必要词集合中的关键词的类型矫正为非必要类型,如果是,则停止对所述关键词组中关键词的类型的矫正。
[0084]结合第二方面,本发明实施例提供了上述第二方面的第九种可能的实现方式,其中,所述装置还包括:
[0085]信息事件库建立模块,用于通过网络爬虫抓取信息文档;提取每个信息文档中的事件关键词,并确定所述事件关键词对应的权重;根据每个信息文档对应的事件关键词及事件关键词对应的权重,将抓取的信息文档聚类为多个信息事件;根据所述多个信息事件、每个信息事件对应的事件关键词及事件关键词对应的权重,建立信息事件库。
[0086]结合第二方面的第三种可能的实现方式,本发明实施例提供了上述第二方面的第十种可能的实现方式,其中,所述第一获取子单元,用于判断所述关键词组包括的关键词的数目是否小于预设数目;如果是,则从预先建立的信息事件库中,获取对应的事件关键词中包含所述关键词组中所有关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件;如果否,则根据所述关键词的数目计算匹配词数,从预先建立的信息事件库中,获取对应的事件关键词中至少包含所述匹配词数个所述关键词组中的关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件。
[0087]第三方面,本发明实施例提供了一种信息搜索装置,所述装置包括:处理器、存储器、总线和通信接口,所述处理器、所述通信接口和所述存储器通过所述总线连接;
[0088]所述存储器用于存储程序;
[0089]所述处理器,用于通过所述总线调用存储在所述存储器中的程序,执行所述权利要求1-11任一项所述的方法。
[0090]在本发明实施例提供的方法及装置中,根据接收到的关键词组,获取关键词组对应的信息搜索结果;根据该信息搜索结果的质量信息,判断是否满足重新搜索条件;当判断满足重新搜索条件时,对该关键词组中关键词的类型进行矫正,获取矫正后的关键词组对应的信息搜索结果。本发明根据首次获取的信息搜索结果判断是否满足重新搜索条件,当满足时对用户输入的关键词组中关键词的类型进行矫正,大大减少了拼写错误或与用户搜索意图不相关的词在信息搜索中的参考性,使得矫正后的关键词组更加符合用户的搜索意图。根据矫正后的关键词组重新进行信息搜索,大大增加了搜索到的信息的数量,提高了搜索到用户真正需要的信息的几率,提高了信息搜索的准确性。
[0091]为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
【附图说明】
[0092]为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
[0093]图1A示出了本发明实施例1所提供的一种信息搜索方法的流程图;
[0094]图1B示出了本发明实施例1所提供的一种矫正关键词组的流程示意图;
[0095]图2示出了本发明实施例2所提供的一种信息搜索装置的结构示意图;
[0096]图3示出了本发明实施例3所提供的一种信息搜索装置的结构示意图。
【具体实施方式】
[0097]下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0098]在用户通过搜索引擎进行信息搜索时,用户在搜索引擎中输入的关键词组中可能存在拼写错误,或者存在与用户搜索意图不相关的词,但相关技术中只根据用户输入的关键词组进行信息搜索,导致获取的信息的数量很少,极有可能搜索不到用户真正需要的信息,导致信息搜索的准确性很低。基于此,本发明实施例提供了一种信息搜索方法及装置。下面通过实施例进行描述。
[0099]实施例1
[0100]参见图1A,本发明实施例提供了一种信息搜索方法。该方法具体包括以下步骤:
[0101]步骤101:根据接收到的关键词组,获取关键词组对应的信息搜索结果。
[0102]本发明实施例的执行主体可以为搜索引擎的服务器。当用户通过搜索引擎进行信息搜索时,用户通过终端向服务器提交用于表达用户搜索意图的关键词组,该关键词组中包括一个或多个关键词。服务器接收到用户提交的关键词组后,对该关键词组进行文本分析,对关键词组进行分词处理,确定出关键词组中包括的各个关键词,根据各个关键词的词性及词义确定关键词组中每个关键词的类型,关键词的类型包括必要类型、可选类型和非必要类型三种类型。
[0103]必要类型的关键词也称为AND逻辑词,是搜索的信息中需要包含的词,如关键词组为“山东工业”,则“山东”和“工业”两个关键词都很重要,都为AND逻辑词,搜索的信息中需要同时包含这两个关键词。
[0104]可选类型的关键词也称为OR逻辑词,是对某些关键词的扩充,搜索的信息中只需包含OR逻辑词中的一个即可,如关键词组为“黄晓明和杨颖”,对关键词“杨颖”进行扩充,得到关键词“Angelababy”,关键词“杨颖”和“Angelababy”即为OR逻辑词,搜索的信息中可仅包含关键词“杨颖”,或仅包含关键词“Angelababy”。
[0105]非必要类型的关键词也可称为RANK逻辑词,是搜索的信息中不必须包含的词,如关键词组为“北京国安对战天津泰达”,则关键词“对战”即为RANK逻辑词,搜索的信息中可以不包含关键词“对战”。
[0106]上述服务器确定每个关键词的类型后,根据用户提交的关键词组中包括的关键词,在互联网中查询与该关键词组匹配的信息,与该关键词组匹配的信息中应至少包含该关键词组中的每个必要类型的关键词及可选类型的关键词中的一个关键词。服务器将查询到的信息获取到服务器本地,将获取的所有信息作为该关键词组对应的信息搜索结果。
[0107]通过上述方式得到关键词组对应的信息搜索结果后,通过如下步骤102的操作来判断是否需要重新进行搜索,以防止步骤101中获取到的信息搜索结果包括的信息的数量过少,而导致缺少用户真正需要的信息。
[0108]步骤102:根据该信息搜索结果的质量信息,判断是否满足重新搜索条件,如果是,则执行步骤103,如果否,则将获取的信息搜索结果发送给用户的终端,结束操作。
[0109]上述质量信息包括信息搜索结果包含的信息的数目及每个信息与关键词组之间的匹配度。具体判断是否满足重新搜索条件的过程包括:
[0110]统计信息搜索结果包括的信息的数目;分别计算信息搜索结果中每个信息与关键词组之间的匹配度;确定信息的数目是否大于预设数值,及根据每个信息对应的匹配度,确定信息搜索结果中是否包含匹配度大于预设阈值的信息;当确定信息的数目小于或等于预设数值,或确定信息搜索结果中不包含匹配度大于预设阈值的信息时,判断满足重新搜索条件,否则,判断不满足重新搜索条件。
[0111]上述信息与关键词组之间的匹配度用于表示信息的内容与关键词组中包括的关键词之间的相关性程度。上述预设数值可以为O或5等,上述预设阈值可以为3或4等,本发明实施例并不具体限定上述预设数值及预设阈值的具体取值,在实际应用中可根据具体需求进行设置。
[0112]在本发明实施例中,信息搜索结果的质量信息还可以包括每个信息对应的质量分值,信息对应的质量分值可根据信息与关键词组的匹配度以及信息内容的长度和完整度来计算。在判断是否满足重新搜索条件时,确定信息搜索结果中质量分值小于预设分值的信息的数目,若确定的信息的数目大于预设个数,则判断满足重新搜索条件,否则,判断不满足重新搜索条件。
[0113]当判断满足重新搜索条件时,认为步骤101中获取的信息搜索结果中包含的信息的数目过少,或者认为获取的信息搜索结果中包含的信息的质量很差,无法满足用户的搜索需求,因此需要通过如下步骤103的操作来重新进行信息搜索。而当判断获取的信息搜索结果中包含的信息的数目大于预设数值,且该信息搜索结果中包含匹配度大于预设阈值的信息时,认为步骤101中获取的信息搜索结果的质量很高,能够满足用户的搜索需求,因此不再重新进行信息搜索,直接将获取的信息搜索结果发送给用户的终端,结束操作。
[0?14] 步骤103:对关键词组中关键词的类型进彳丁矫正,并获取矫正后的关键词组对应的信息搜索结果。
[0115]当判断出满足重新搜索条件时,认为用户输入的关键词组中包含拼写错误,或者包含与用户的搜索意图不相关的词,导致直接根据用户提交的关键词获取的信息搜索结果不满足重新搜索条件。因此需要对用户提交的关键词组中关键词的类型进行矫正,以消除拼写错误或与用户的搜索意图不相关的词的不利影响。
[0116]本发明实施例中,在对关键词组中关键词的类型进行矫正之前,建立用于信息查询搜索的信息事件库,具体建立过程包括:
[0117]通过网络爬虫抓取信息文档;提取每个信息文档中的事件关键词,并确定事件关键词对应的权重;根据每个信息文档对应的事件关键词及事件关键词对应的权重,将抓取的信息文档聚类为多个信息事件;根据多个信息事件、每个信息事件对应的事件关键词及事件关键词对应的权重,建立信息事件库。
[0118]上述事件关键词为信息文档中出现频次高于预设频次的词,事件关键词对应的权重可根据事件关键词出现的频次及在信息文档中出现的位置来确定。将包含同样的事件关键词的信息文档聚类为一个文档集合,该文档集合即为上述信息事件。通过上述方式聚类得到多个信息事件后,对于每个信息事件,建立信息事件、该信息事件对应的事件关键词及每个事件关键词对应的权重之间的映射关系,将建立的每个信息事件对应的映射关系存储在信息事件库中。
[0119]如图1B所示,通过上述方式预先建立信息事件库之后,具体通过如下步骤Sl-S^t关键词组中关键词的类型进行矫正:
[0120]S1:根据关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件。
[0121]上述搜索意图条件用于判定获取的信息事件是否符合关键词组所表达的用户的搜索意图。本发明实施例中,可以通过预设关键词覆盖条件及信息事件与关键词组之间的相关度来体现上述搜索意图条件,预设关键词覆盖条件限定了获取的信息事件对应的事件关键词中至少应包含的关键词组中关键词的数量,当信息事件符合预设关键词覆盖条件后信息事件与关键词组之间的相关度还要大于预设相关度,才能认为该信息事件符合上述搜索意图条件。
[0122]上述获取符合搜索意图条件的信息事件的具体过程包括:
[0123]根据关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件;分别计算获取的每个信息事件与关键词组之间的相关度;将与关键词组之间的相关度大于预设相关度的信息事件确定为符合搜索意图条件的信息事件。
[0124]上述预设关键词覆盖条件与关键词组包含的关键词的数量相关,当关键词组包含的关键词的数量很少时,为了尽量全面准确地匹配用户的搜索意图,所以获取的信息事件需要有较高的关键词覆盖率,即信息事件对应的事件关键词应尽可能覆盖关键词组中的所有关键词。当关键词组包含的关键词的数量很多时,则关键词组中出现冗余信息的可能性很高,存在用户拼写错误的可能性也很高,因此可以适当降低关键词的覆盖率,即获取的信息事件对应的事件关键词可以只覆盖关键词组中的部分关键词。
[0125]本发明实施例中,设置预设数目,该预设数目可以为I或3等。当关键词组包含的关键词的数量小于该预设数目时,认为关键词组包含的关键词的数量很少,需要较高的关键词覆盖率。当关键词组包含的关键词的数量大于或等于该预设数目时,认为关键词组包含的关键词的数量很多,因此降低关键词的覆盖率。
[0126]上述从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件,具体包括:
[0127]判断关键词组包括的关键词的数目是否小于预设数目;如果是,则从预先建立的信息事件库中,获取对应的事件关键词中包含关键词组中所有关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件;如果否,则根据关键词的数目计算匹配词数,从预先建立的信息事件库中,获取对应的事件关键词中至少包含匹配词数个关键词组中的关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件。
[0128]本发明实施例中,定义了上述匹配词数的计算方式,即匹配词数=(关键词的数目+匹配系数)/匹配系数,该匹配系数为预先设置的常量,如4或5等。例如,假设关键词组中关键词的数目为10,该匹配系数为5,则计算得到的匹配词数为3,即符合该预设关键词覆盖条件的信息事件对应的事件关键词中应至少包含关键词组中的3个关键词。
[0129]上述获取到符合预设关键词覆盖条件的信息事件后,通过如下方式计算获取的每个信息事件与关键词组之间的相关度,包括:
[0130]根据关键词组包括的每个关键词,确定关键词组对应的词组向量;根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量;分别计算每个信息事件对应的事件向量与关键词组对应的词组向量之间的夹角余弦值,得到每个信息事件与关键词组之间的相关度。
[0131]上述确定关键词组对应的词组向量时,将关键词组包含的关键词数量确定为词组向量的维度数量,每个维度上的元素值为维度对应的关键词的权重,关键词的权重可根据该关键词的类型来确定。例如,假设必要关键词对应的权重为2、可选关键词对应的权重为I,非必要关键词对应的权重为O,假设关键词组为“山东工业”,“山东”和“工业”均为必要关键词,则关键词组“山东工业”对应的词组向量Vl = [ 2,2]。
[0132]同样地,上述信息事件对应的事件向量,是将信息事件对应的事件关键词的数量确定为事件向量的维度数量,每个维度上的元素之为维度对应的事件关键词的权重。假设关键词组对应的词组向量为VI,信息事件对应的事件向量为V2,则信息事件与关键词组之间的相关度= cos(Vl和V2的夹角)=V1*V2/ I Vl | * | V2 |。
[0133]本发明实施例中,除通过上述信息事件与关键词组之间的相关度来确定符合搜索意图条件的信息事件以外,还可以通过符合预设关键词覆盖条件的信息事件中任意两个信息事件之间的相关度大于预设相关度来确定,具体确定过程包括:
[0134]根据关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件;计算获取的每个信息事件中任意两个信息事件之间的相关度;若两个信息事件之间的相关度大于预设相关度,则将两个信息事件确定为符合搜索意图条件的信息事件。
[0135]获取符合预设关键词覆盖条件的信息事件的获取过程前文已作介绍,在此不再赘述。上述计算任意两个信息事件之间的相关度的过程如下:
[0136]根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量;分别计算每个信息事件中任意两个信息事件对应的事件向量之间的夹角余弦值,得到每个信息事件中任意两个信息事件之间的相关度。
[0137]确定信息事件对应的事件向量的过程及夹角余弦值的计算方式前文均已作介绍,在此不再赘述。
[0138]通过步骤SI获取到符合搜索意图条件的信息事件后,通过如下步骤S2-S4对用户提交的关键词组中关键词的类型进行矫正。
[0139]S2:对关键词组进行文本分析,确定关键词组中包括的必要类型的关键词。
[0140]对关键词组进行分词处理,得到关键词组包括的各个关键词,确定各个关键词的词性及词义,词性包括名词、动词或形容词等,词义为关键词的具体含义。根据各个关键词的词性及词义,确定出关键词组中包括的必要类型的关键词,必要类型的关键词的词性通常为名词。
[0141]S3:根据符合搜索意图条件的信息事件,确定必要类型的关键词对应的必要系数。
[0142]上述必要系数为根据符合搜索意图条件的每个信息事件分别对必要类型的关键词进行评分,得到的总分数。具体确定必要类型的关键词对应的必要系数的过程包括:
[0143]从符合搜索意图条件的信息事件中,确定出与必要类型的关键词匹配的信息事件;根据确定的信息事件包含的文档数量,计算必要类型的关键词对应的必要系数。
[0144]与必要类型的关键词匹配的信息事件为对应的事件关键词中包含该必要类型的关键词的信息事件。当与必要类型的关键词匹配的信息事件中包含的文档数量大于预设文档数量时,为该必要类型的关键词进行评分的分数为第一预设值,当信息事件中包含的文档数量小于或等于预设文档数量时,为该必要类型的关键词进行评分的分数为第二预设值。通过与必要类型的关键词匹配的每个信息事件完成对该必要类型的关键词的评分后,累计得到的总分数即为该必要类型的关键词对应的必要系数。
[0145]对于关键词组中包括的每个必要类型的关键词,都可以按照上述方式分别确定每个必要类型的关键词对应的必要系数。
[0146]S4:根据必要类型的关键词对应的必要系数,对关键词组中关键词的类型进行矫正。
[0147]上述对关键词组中关键词的类型进行矫正的具体过程包括:
[0148]分别判断关键词组包括的每个必要类型的关键词对应的必要系数是否小于预设必要阈值;将必要系数小于预设必要阈值的必要类型的关键词添加到非必要词集合中;判断非必要词集合中是否包含关键词组的所有必要类型的关键词;如果否,则将非必要词集合中的关键词的类型矫正为非必要类型,如果是,则停止对关键词组中关键词的类型的矫正。
[0149]对于必要系数小于预设必要阈值的必要类型的关键词,认为该必要类型的关键词对于表达用户的搜索意图的贡献很低,则将其添加到非必要词集合中。完成对所有必要类型的关键词的判断后,确定非必要词集合中是否包含了关键词组中所有的必要类型的关键词,如果是,则认为关键词组中所有必要类型的关键词对表达用户的搜索意图的贡献都很低,即用户提交的关键词组本身不明确,不足以表达用户的搜索意图,因此停止对关键词组中关键词的类型的矫正,结束操作。
[0150]另外,本发明实施例中,非必要词集合中包含关键词组中所有的必要类型的关键词时,服务器还可以发送重新输入关键词组的提示信息给用户的终端,以提示用户重新输入更能表达其搜索意图的关键词组。
[0151]如果非必要词集合中仅包含关键词组中的部分必要类型的关键词,则将这部分必要类型的关键词的类型修改为非必要类型。如此在根据矫正后的关键词组重新进行信息搜索时,不再要求获取的信息中必须包含这部分必要类型的关键词,这样减少了获取的信息中必须包含的关键词的数目,因此获取的符合用户搜索意图的信息的数量会相应增加,消除了关键词组中一些无关或拼写错误的关键词对搜索结果的负面影响。
[0152]如图1A所示,本发明实施例中,根据矫正后的关键词组重新进行搜索后,还将重新搜索得到的信息搜索结果发送给用户的终端,以使用户浏览到其真正需要的信息。
[0153]在本发明实施例中,根据接收到的关键词组,获取关键词组对应的信息搜索结果;根据该信息搜索结果的质量信息,判断是否满足重新搜索条件;当判断满足重新搜索条件时,对该关键词组中关键词的类型进行矫正,获取矫正后的关键词组对应的信息搜索结果。本发明根据首次获取的信息搜索结果判断是否满足重新搜索条件,当满足时对用户输入的关键词组中关键词的类型进行矫正,大大减少了拼写错误或与用户搜索意图不相关的词在信息搜索中的参考性,使得矫正后的关键词组更加符合用户的搜索意图。根据矫正后的关键词组重新进行信息搜索,大大增加了搜索到的信息的数量,提高了搜索到用户真正需要的信息的几率,提高了信息搜索的准确性。
[0154]实施例2
[0155]参见图2,本发明实施例提供了一种信息搜索装置,该装置用于执行上述实施例1提供的信息搜索方法。该装置具体包括:
[0156]获取模块201,用于根据接收到的关键词组,获取关键词组对应的信息搜索结果;
[0157]判断模块202,用于根据信息搜索结果的质量信息,判断是否满足重新搜索条件;
[0158]矫正模块203,用于当判断模块202判断满足重新搜索条件时,对关键词组中关键词的类型进行矫正,并获取矫正后的关键词组对应的信息搜索结果。
[0159]当判断模块202判断出不满足重新搜索条件时,认为获取模块201获取的信息搜索结果的质量很高,能够满足用户的搜索需求,因此不再重新进行信息搜索,直接将获取的信息搜索结果发送给用户的终端,结束操作。
[0160]在本发明实施例中,质量信息包括信息搜索结果包含的信息的数目及每个信息与关键词组之间的匹配度;判断模块202通过如下统计单元、计算单元、确定单元和判断单元来判断是否满足重新搜索条件。
[0161]统计单元,用于统计信息搜索结果包括的信息的数目;计算单元,用于分别计算信息搜索结果中每个信息与关键词组之间的匹配度;确定单元,用于确定信息的数目是否大于预设数值,及根据每个信息对应的匹配度,确定信息搜索结果中是否包含匹配度大于预设阈值的信息;判断单元,用于当确定信息的数目小于或等于预设数值,或确定信息搜索结果中不包含匹配度大于预设阈值的信息时,判断满足重新搜索条件,否则,判断不满足重新搜索条件。
[0162]矫正模块203通过如下获取单元、第一确定单元、第二确定单元和矫正单元来矫正用户提交的关键词组。
[0163]获取单元,用于根据关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件;第一确定单元,用于对关键词组进行文本分析,确定关键词组中包括的必要类型的关键词;第二确定单元,用于根据符合搜索意图条件的信息事件,确定必要类型的关键词对应的必要系数;矫正单元,用于根据必要类型的关键词对应的必要系数,对关键词组中关键词的类型进行矫正。
[0164]上述获取单元通过第一获取子单元、第一计算子单元和第一确定子单元来确定符合搜索意图条件的信息事件。
[0165]第一获取子单元,用于根据关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件;第一计算子单元,用于分别计算获取的每个信息事件与关键词组之间的相关度;第一确定子单元,用于将与关键词组之间的相关度大于预设相关度的信息事件确定为符合搜索意图条件的信息事件。
[0166]上述第一计算子单元,用于根据关键词组包括的每个关键词,确定关键词组对应的词组向量;根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量;分别计算每个信息事件对应的事件向量与关键词组对应的词组向量之间的夹角余弦值,得到每个信息事件与关键词组之间的相关度。
[0167]本发明实施例中,获取单元还可以通过如下第二获取子单元、第二计算子单元和第二确定子单元来确定符合搜索意图条件的信息事件。
[0168]第二获取子单元,用于根据关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件;第二计算子单元,用于计算获取的每个信息事件中任意两个信息事件之间的相关度;第二确定子单元,用于若两个信息事件之间的相关度大于预设相关度,则将两个信息事件确定为符合搜索意图条件的信息事件。
[0169]上述第二计算子单元,用于根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量;分别计算每个信息事件中任意两个信息事件对应的事件向量之间的夹角余弦值,得到每个信息事件中任意两个信息事件之间的相关度。
[0170]在本发明实施例中,第二确定单元通过如下第三确定子单元和第三计算子单元来得到必要类型的关键词对应的必要系数。
[0171]第三确定子单元,用于从符合搜索意图条件的信息事件中,确定出与必要类型的关键词匹配的信息事件;第三计算子单元,用于根据确定的信息事件包含的文档数量,计算必要类型的关键词对应的必要系数。
[0172]矫正单元通过如下第一判断子单元、添加子单元、第二判断子单元和矫正子单元来矫正用户提交的关键词组中关键词的类型。
[0173]第一判断子单元,用于分别判断关键词组包括的每个必要类型的关键词对应的必要系数是否小于预设必要阈值;添加子单元,用于将必要系数小于预设必要阈值的必要类型的关键词添加到非必要词集合中;第二判断子单元,用于判断非必要词集合中是否包含关键词组的所有必要类型的关键词;矫正子单元,用于如果否,则将非必要词集合中的关键词的类型矫正为非必要类型,如果是,则停止对关键词组中关键词的类型的矫正。
[0174]本发明实施例中,在通过矫正模块203矫正用户提交的关键词组中关键词的类型之前,该装置还通过如下信息事件库建立模块来预先建立信息事件库。
[0175]信息事件库建立模块,用于通过网络爬虫抓取信息文档;提取每个信息文档中的事件关键词,并确定事件关键词对应的权重;根据每个信息文档对应的事件关键词及事件关键词对应的权重,将抓取的信息文档聚类为多个信息事件;根据多个信息事件、每个信息事件对应的事件关键词及事件关键词对应的权重,建立信息事件库。
[0176]在本发明实施例中,第一获取子单元,用于判断关键词组包括的关键词的数目是否小于预设数目;如果是,则从预先建立的信息事件库中,获取对应的事件关键词中包含关键词组中所有关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件;如果否,则根据关键词的数目计算匹配词数,从预先建立的信息事件库中,获取对应的事件关键词中至少包含匹配词数个关键词组中的关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件。
[0177]在本发明实施例中,根据接收到的关键词组,获取关键词组对应的信息搜索结果;根据该信息搜索结果的质量信息,判断是否满足重新搜索条件;当判断满足重新搜索条件时,对该关键词组中关键词的类型进行矫正,获取矫正后的关键词组对应的信息搜索结果。本发明根据首次获取的信息搜索结果判断是否满足重新搜索条件,当满足时对用户输入的关键词组中关键词的类型进行矫正,大大减少了拼写错误或与用户搜索意图不相关的词在信息搜索中的参考性,使得矫正后的关键词组更加符合用户的搜索意图。根据矫正后的关键词组重新进行信息搜索,大大增加了搜索到的信息的数量,提高了搜索到用户真正需要的信息的几率,提高了信息搜索的准确性。
[0178]实施例3
[0179]参见图3,本发明实施例提供了一种信息搜索装置,该装置用于执行上述实施例1提供的信息搜索方法。该装置具体包括:处理器301、存储器302、总线303和通信接口 304,处理器301、通信接口 304和存储器302通过总线303连接;
[0180]存储器302用于存储程序;
[0181]处理器301,用于通过总线303调用存储在存储器302中的程序,执行实施例1提供的信息搜索方法。
[0182]处理器301在执行实施例1提供的信息搜索方法时,根据接收到的关键词组,获取关键词组对应的信息搜索结果;根据该信息搜索结果的质量信息,判断是否满足重新搜索条件;当判断满足重新搜索条件时,对该关键词组中关键词的类型进行矫正,并获取矫正后的关键词组对应的信息搜索结果。
[0183]处理器301执行实施例1提供的方法的执行细节与实施例1中描述的内容相同,在此不再赘述。
[0184]在本发明实施例中,根据接收到的关键词组,获取关键词组对应的信息搜索结果;根据该信息搜索结果的质量信息,判断是否满足重新搜索条件;当判断满足重新搜索条件时,对该关键词组中关键词的类型进行矫正,获取矫正后的关键词组对应的信息搜索结果。本发明根据首次获取的信息搜索结果判断是否满足重新搜索条件,当满足时对用户输入的关键词组中关键词的类型进行矫正,大大减少了拼写错误或与用户搜索意图不相关的词在信息搜索中的参考性,使得矫正后的关键词组更加符合用户的搜索意图。根据矫正后的关键词组重新进行信息搜索,大大增加了搜索到的信息的数量,提高了搜索到用户真正需要的信息的几率,提高了信息搜索的准确性。
[0185]本发明实施例所提供的信息搜索装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程。
[0186]在本申请所提供的几个实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0187]所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0188]另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0189]所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(R0M,Read-0nly Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0190]以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
【主权项】
1.一种信息搜索方法,其特征在于,所述方法包括: 根据接收到的关键词组,获取所述关键词组对应的信息搜索结果; 根据所述信息搜索结果的质量信息,判断是否满足重新搜索条件; 当判断满足所述重新搜索条件时,对所述关键词组中关键词的类型进行矫正,并获取矫正后的关键词组对应的信息搜索结果。2.根据权利要求1所述的方法,其特征在于,所述质量信息包括所述信息搜索结果包含的信息的数目及每个信息与所述关键词组之间的匹配度; 根据所述信息搜索结果的质量信息,判断是否满足重新搜索条件,包括: 统计所述信息搜索结果包括的信息的数目; 分别计算所述信息搜索结果中每个信息与所述关键词组之间的匹配度; 确定所述信息的数目是否大于预设数值,及根据所述每个信息对应的匹配度,确定所述信息搜索结果中是否包含匹配度大于预设阈值的信息; 当确定所述信息的数目小于或等于所述预设数值,或确定所述信息搜索结果中不包含匹配度大于所述预设阈值的信息时,判断满足重新搜索条件,否则,判断不满足所述重新搜索条件。3.根据权利要求1所述的方法,其特征在于,所述对所述关键词组中关键词的类型进行矫正,包括: 根据所述关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件; 对所述关键词组进行文本分析,确定所述关键词组中包括的每个关键词的类型,关键词的类型包括必要类型和非必要类型; 根据所述符合搜索意图条件的信息事件,确定必要类型的关键词对应的必要系数; 根据必要类型的关键词对应的必要系数,对所述关键词组中关键词的类型进行矫正。4.根据权利要求3所述的方法,其特征在于,所述根据所述关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件,包括: 根据所述关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件; 分别计算获取的每个信息事件与所述关键词组之间的相关度; 将与所述关键词组之间的相关度大于预设相关度的信息事件确定为符合搜索意图条件的信息事件。5.根据权利要求4所述的方法,其特征在于,所述分别计算获取的每个信息事件与所述关键词组之间的相关度,包括: 根据所述关键词组包括的每个关键词,确定所述关键词组对应的词组向量; 根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量; 分别计算每个信息事件对应的事件向量与所述关键词组对应的词组向量之间的夹角余弦值,得到所述每个信息事件与所述关键词组之间的相关度。6.根据权利要求3所述的方法,其特征在于,所述根据所述关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件,包括: 根据所述关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件; 计算获取的每个信息事件中任意两个信息事件之间的相关度; 若两个信息事件之间的相关度大于预设相关度,则将所述两个信息事件确定为符合搜索意图条件的信息事件。7.根据权利要求6所述的方法,其特征在于,所述计算获取的每个信息事件中任意两个信息事件之间的相关度,包括: 根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量; 分别计算每个信息事件中任意两个信息事件对应的事件向量之间的夹角余弦值,得到所述每个信息事件中任意两个信息事件之间的相关度。8.根据权利要求3所述的方法,其特征在于,所述根据所述符合搜索意图条件的信息事件,确定必要类型的关键词对应的必要系数,包括: 从所述符合搜索意图条件的信息事件中,确定出与必要类型的关键词匹配的信息事件; 根据确定的所述信息事件包含的文档数量,计算必要类型的关键词对应的必要系数。9.根据权利要求3所述的方法,其特征在于,所述根据必要类型的关键词对应的必要系数,对所述关键词组中关键词的类型进行矫正,包括: 分别判断所述关键词组包括的每个必要类型的关键词对应的必要系数是否小于预设必要阈值; 将必要系数小于所述预设必要阈值的关键词添加到非必要词集合中; 判断所述非必要词集合中是否包含所述关键词组的所有必要类型的关键词; 如果否,则将所述非必要词集合中的关键词的类型矫正为非必要类型,如果是,则停止对所述关键词组中关键词的类型的矫正。10.根据权利要求3-9任一项所述的方法,其特征在于,所述根据所述关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件之前,还包括: 通过网络爬虫抓取信息文档; 提取每个信息文档中的事件关键词,并确定所述事件关键词对应的权重; 根据每个信息文档对应的事件关键词及事件关键词对应的权重,将抓取的信息文档聚类为多个信息事件; 根据所述多个信息事件、每个信息事件对应的事件关键词及事件关键词对应的权重,建立信息事件库。11.根据权利要求4所述的方法,其特征在于,所述根据所述关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件,包括: 判断所述关键词组包括的关键词的数目是否小于预设数目; 如果是,则从预先建立的信息事件库中,获取对应的事件关键词中包含所述关键词组中所有关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件; 如果否,则根据所述关键词的数目计算匹配词数,从预先建立的信息事件库中,获取对应的事件关键词中至少包含所述匹配词数个所述关键词组中的关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件。12.一种信息搜索装置,其特征在于,所述装置包括: 获取模块,用于根据接收到的关键词组,获取所述关键词组对应的信息搜索结果; 判断模块,用于根据所述信息搜索结果的质量信息,判断是否满足重新搜索条件; 矫正模块,用于当所述判断模块判断满足所述重新搜索条件时,对所述关键词组中关键词的类型进行矫正,并获取矫正后的关键词组对应的信息搜索结果。13.根据权利要求12所述的装置,其特征在于,所述质量信息包括所述信息搜索结果包含的信息的数目及每个信息与所述关键词组之间的匹配度;所述判断模块包括: 统计单元,用于统计所述信息搜索结果包括的信息的数目; 计算单元,用于分别计算所述信息搜索结果中每个信息与所述关键词组之间的匹配度; 确定单元,用于确定所述信息的数目是否大于预设数值,及根据所述每个信息对应的匹配度,确定所述信息搜索结果中是否包含匹配度大于预设阈值的信息; 判断单元,用于当确定所述信息的数目小于或等于所述预设数值,或确定所述信息搜索结果中不包含匹配度大于所述预设阈值的信息时,判断满足重新搜索条件,否则,判断不满足所述重新搜索条件。14.根据权利要求12所述的装置,其特征在于,所述矫正模块包括: 获取单元,用于根据所述关键词组,从预先建立的信息事件库中获取符合搜索意图条件的信息事件; 第一确定单元,用于对所述关键词组进行文本分析,确定所述关键词组中包括的每个关键词的类型,关键词的类型包括必要类型和非必要类; 第二确定单元,用于根据所述符合搜索意图条件的信息事件,确定必要类型的关键词对应的必要系数; 矫正单元,用于根据必要类型的关键词对应的必要系数,对所述关键词组中关键词的类型进行矫正。15.根据权利要求14所述的装置,其特征在于,所述获取单元包括: 第一获取子单元,用于根据所述关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件; 第一计算子单元,用于分别计算获取的每个信息事件与所述关键词组之间的相关度; 第一确定子单元,用于将与所述关键词组之间的相关度大于预设相关度的信息事件确定为符合搜索意图条件的信息事件。16.根据权利要求15所述的装置,其特征在于,所述第一计算子单元,用于根据所述关键词组包括的每个关键词,确定所述关键词组对应的词组向量;根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量;分别计算每个信息事件对应的事件向量与所述关键词组对应的词组向量之间的夹角余弦值,得到所述每个信息事件与所述关键词组之间的相关度。17.根据权利要求14所述的装置,其特征在于,所述获取单元包括: 第二获取子单元,用于根据所述关键词组,从预先建立的信息事件库中获取符合预设关键词覆盖条件的信息事件; 第二计算子单元,用于计算获取的每个信息事件中任意两个信息事件之间的相关度; 第二确定子单元,用于若两个信息事件之间的相关度大于预设相关度,则将所述两个信息事件确定为符合搜索意图条件的信息事件。18.根据权利要求17所述的装置,其特征在于,所述第二计算子单元,用于根据获取的每个信息事件对应的事件关键词,分别确定每个信息事件对应的事件向量;分别计算每个信息事件中任意两个信息事件对应的事件向量之间的夹角余弦值,得到所述每个信息事件中任意两个信息事件之间的相关度。19.根据权利要求14所述的装置,其特征在于,所述第二确定单元包括: 第三确定子单元,用于从所述符合搜索意图条件的信息事件中,确定出与必要类型的关键词匹配的信息事件; 第三计算子单元,用于根据确定的所述信息事件包含的文档数量,计算必要类型的关键词对应的必要系数。20.根据权利要求14所述的装置,其特征在于,所述矫正单元包括: 第一判断子单元,用于分别判断所述关键词组包括的每个必要类型的关键词对应的必要系数是否小于预设必要阈值; 添加子单元,用于将必要系数小于所述预设必要阈值的必要关键词添加到非必要词集合中; 第二判断子单元,用于判断所述非必要词集合中是否包含所述关键词组的所有必要类型的关键词; 矫正子单元,用于如果否,则将所述非必要词集合中的关键词的类型矫正为非必要类型,如果是,则停止对所述关键词组中关键词的类型的矫正。21.根据权利要求14-20任一项所述的装置,其特征在于,所述装置还包括: 信息事件库建立模块,用于通过网络爬虫抓取信息文档;提取每个信息文档中的事件关键词,并确定所述事件关键词对应的权重;根据每个信息文档对应的事件关键词及事件关键词对应的权重,将抓取的信息文档聚类为多个信息事件;根据所述多个信息事件、每个信息事件对应的事件关键词及事件关键词对应的权重,建立信息事件库。22.根据权利要求15所述的装置,其特征在于,所述第一获取子单元,用于判断所述关键词组包括的关键词的数目是否小于预设数目;如果是,则从预先建立的信息事件库中,获取对应的事件关键词中包含所述关键词组中所有关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件;如果否,则根据所述关键词的数目计算匹配词数,从预先建立的信息事件库中,获取对应的事件关键词中至少包含所述匹配词数个所述关键词组中的关键词的信息事件,将获取的信息事件确定为符合预设关键词覆盖条件的信息事件。23.—种信息搜索装置,其特征在于,所述装置包括:处理器、存储器、总线和通信接口,所述处理器、所述通信接口和所述存储器通过所述总线连接; 所述存储器用于存储程序; 所述处理器,用于通过所述总线调用存储在所述存储器中的程序,执行所述权利要求1 -11任一项所述的方法。
【文档编号】G06F17/30GK105930505SQ201610304432
【公开日】2016年9月7日
【申请日】2016年5月9日
【发明人】叶新, 李前令, 王刚
【申请人】广州神马移动信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1