一种关联信息的检索方法及装置的制作方法

文档序号:6431569阅读:156来源:国知局
专利名称:一种关联信息的检索方法及装置的制作方法
技术领域
本发明涉及通信领域,特别涉及一种关联信息的检索方法及装置。
背景技术
当今信息社会,信息的组织和获取至关重要。人们已经习惯通过电脑或手机访问互联网来获取信息。当人们在网上冲浪时,遇到感兴趣的网页或信息,往往希望能够获得更多的关联信息,以便对整个事件、事物或商品了解得更清楚。比如在浏览一篇关于某品牌手机的报道时,往往希望能够进一步看到关于该手机的图片、价格和应用软件等信息的介绍。现有技术提供了一种对网页中的关键字进行即时检索的方法,包括在向客户端加载网页的同时,启动关键字检索进程;实时监测并接收鼠标或键盘的操作;根据所述操 作获取待查询的关键字;发送所述关键字到关键字检索服务器进行信息检索,将获得的检索结果传送到客户端;客户端即时显示所述检索结果。现有技术在根据关键字进行检索时,没有考虑到当前网页的特征,使得检索的结果可能涵盖了很多与当前网页无关的页面,直接导致了信息的冗余,增大了网络传输量。

发明内容
为了降低网络传输量,本发明实施例提供了一种关联信息的检索方法及装置。所述技术方案如下—种关联信息的检索方法,包括获取当前网页的源码,从所述源码中提取所述当前网页的正文;从所述正文中获取关键词集;获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息。一种关联信息的检索装置,包括源码获取模块,用于获取当前网页的源码;正文提取模块,用于从所述源码中提取所述当前网页的正文;关键词集获取模块,用于从所述正文中获取关键词集;类别获取模块,用于获取所述关键词集中的关键词对应的类别;检索模块,用于根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;关联信息获取模块,用于根据所述检索结果获取所述关键词的关联信息。本发明实施例可使当用户浏览网页时对当前网页进行分析处理,获取关键词和关键词对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了页面的特征信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。


为了更清楚地说明本发明实 施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图I是本发明实施例I提供的一种关联信息的检索方法实施例的流程图;图2是本发明实施例2提供的一种关联信息的检索方法实施例的流程图;图3是本发明实施例3提供的一种关联信息的检索方法实施例的流程图;图4是本发明实施例4提供的一种关联信息的检索装置实施例的结构示意图;图5是本发明实施例5提供的一种关联信息的检索装置实施例的第一结构示意图;图6是本发明实施例5提供的一种关联信息的检索装置实施例的第二结构示意图;图7是本发明实施例提供的一种关联信息的检索装置实施例的第一结构示意图;图8是本发明实施例提供的一种关联信息的检索装置实施例的第二结构示意图。
具体实施例方式本发明实施例提供一种关联信息的检索方法及装置。为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。实施例I参考图1,图I是本发明实施例I提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括SlOl :获取当前网页的源码,从所述源码中提取所述当前网页的正文。S102 :从所述正文中获取关键词集。所述关键词集包括命名实体关键词集和/或主题关键词集,但是并不局限于此。其中,命名实体关键词具体为命名实体,即人名、机构名、地名以及其他所有以名称为标识的实体;所述主题关键词具体为能代表文章主题的关键词。S103:获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果。S104 :根据所述检索结果获取所述关键词的关联信息。本实施例中,当用户浏览网页时对当前网页进行分析处理,获取关键词和关键词对应的类别,根据所述类别有针对性的选择合适的检索服务器进行检索并获得所述关键词的关联信息,相比较现有技术而言,本实施例参考了页面的特征信息,使得检索的结果更加贴合用户需求的信息,降低了信息冗余,降低了网络传输量。实施例2参考图2,图2是本发明实施例2提供的一种关联信息的检索方法实施例的流程图;所述关联信息的检索方法包括
S201 :获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间。实际应用中,当用户使用浏览器打开网页时,浏览器监控当前网页是否加载成功,如果是,获取所述当前网页的基本信息,例如所述当前网页的URL(Uniform ResourceLocator,统一资源定位符)和/或更新时间;如果否,结束。实际应用中,根据不同的返回码来获取所述当前网页的加载状态;所述加载状态包括加载成功和加载失败,其中所述加载失败可以包括请求无效、禁止访问和内部服务器
错误等;所述返回码可以是HTTP (HyperText Transfer Protocol,超文本传输协议)响应状态码,但是并不局限于此。当所述返回码为HTTP200时,所述当前网页的加载状态为加载 成功;当所述返回码为HTTP400时,所述当前网页的加载状态为请求无效,即加载失败;当所述返回码为HTTP403时,所述当前网页的加载状态为禁止访问,即加载失败;当返回码为HTTP500时,所述当前网页的加载状态为内部服务器错误,即加载失败;此处只是列举了几个HTTP响应状态码与加载状态之间的关系,但是并不局限于此。本实施例中,所述返回码可以不是HTTP响应状态码,例如所述返回码包括000和001 ;当所述返回码为000时,所述当前网页的加载状态为加载正常,所述000对应上述HTTP200的情况;当所述返回码为001时,所述当前网页的加载状态为加载失败,所述001对应上述HTTP400、HTTP403和HTTP500的情况。S202 :判断所述基本信息是否满足预置的网页分析条件,如果是,执行S203。所述网页分析条件可以由用户预先设置;所述网页分析条件包括网页URL范围和/或网页URL后缀和/或第一时间。获取所述当前网页的URL和/或更新时间后,判断所述当前网页的URL是否满足网页URL范围和/或网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。优选地,判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,以及所述当前网页的更新时间是否满足晚于第一时间的要求;例如所述网页URL范围为sina. com. cn”,其中*涵盖任意字符,所述网页URL后缀为html”,所述第一时间为“2010-05-01-00-00-00”,即2010年5月I日O时O分O秒,所述当前网页的URL为“http://tech. sina. com. cn/it/2010-07-08/21154403865. html”,所述当前网页的更新时间为“2010-06-01-00-00-00”,所述更新时间表示2010年6月I日O时O分O秒,所述更新时间可以通过所述当前网页的Document对象提取,此部分与现有技术类似,在此不再赘述;经分析:“tech. sina. com. cn”满足网页URL范围为“*· sina. com. cn”白勺要求,
html”满足网页URL后缀为html”的要求,“2010-06-01-00-00-00”满足晚于第一时间“2010-05-01-00-00-00”的要求,因此所述当前网页的基本信息满足预置的网页分析条件,在分析范围内。其中,所述网页分析条件中的网页URL范围、网页URL后缀和第一时间的个数可以为多个,并不局限于上述例子。当所述网页URL范围、网页URL后缀和第一时间的个数为多个时,对多个所述网页URL范围、多个所述网页URL后缀和多个所述第一时间分别预设优先级,在后续的处理过程中按照优先级顺序逐条进行判断;具体地,可以按照预设的第一优先级先判断所述当前网页的URL是否满足所述网页URL范围的要求,如果满足要求,然后再按照预设的第二优先级判断所述当前网页的URL是否满足网页URL后缀的要求,只有上述两个条件都满足了,再按照第三优先级判断所述当前网页的更新时间是否满足所述第一时间的要求,如果满足要求,说明所述当前网页的基本信息满足预置的网页分析条件,在分析范围内。此处只是列举了一种具体实现方式,但是并不局限于此,在此不再赘述。如果所述基本信息不满足预置的网页分析条件,则直接结束。S203 :获取当前网页的源码,从所述源码中提取所述当前网页的正文。如果所述基本信息满足预置的网页分析条件时,获取当前网页的源码。具体地,可以直接从浏览器内核获取所述当前网页的源码;或者,根据所述当前网页的URL获取所述当前网页的源码。 所述当前网页的正文包括当前网页的标题和当前网页的正文内容。实际应用中,对所述源码可以通过正则表达式来提取网页指定标签的内容,从而获取当前网页的标题和当前网页的正文内容;具体地,从所述源码的<title>〈/title>标签对中提取当前网页的标题,从所述源码的<PX/P>标签对中提取当前网页的正文内容。优选地,还可以对所述当前网页的源码执行预定处理,以减轻后续的处理量;具体地,可以在所述当前网页的源码基础上截取标题Title和主体Body部分构成新的源码用于后续处理。相应的,所述从所述源码中提取所述当前网页的正文,具体为从所述预定处理后的源码中提取所述当前网页的正文。S204 :从所述正文中获取命名实体关键词集。实际应用中,对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集。具体地,通过专有名词词典来对所述当前网页的正文进行命名实体的识别。对于所述专有名词词典中没有的专有名词,可以通过规则来进行命名实体的识别;所述规则可以使用各种命名实体的构成规则,例如中文人名构成规则:人名_〈姓氏 >〈名字 > ;所述命名实体的识别是现有比较成熟的技术,具体可参照现有技术的相关描述,在此不再赘述。从所述正文中获取的命名实体关键词的数目可能会很多,有些也许不能直接代表文章主题,优选地,本实施例在所述获取命名实体关键词集之后还包括从所述正文中自动提取主题关键词,获取主题关键词集;具体地,从所述当前网页的标题和正文内容中自动提取能代表主题的主题关键词,从而获取主题关键词集。具体地,可采用关键词提取算法从所述当前网页的标题和正文内容中自动提取能代表主题的主题关键词,所述关键词提取算法包括TFIDF(Term Frequency InverseDocument Frequency,词频逆向文件频率)算法、基于朴素贝叶斯模型的算法等,但并不局限于此。将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果;所述运算结果中的关键词既是命名实体关键词,又是主题关键词。将所述运算结果作为新的命名实体关键词集。S205:获取所述命名实体关键词集中的命名实体关键词对应的第一类别,根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果。所述专有名词词典记录每个专有名词对应类型的哈希词表,所述命名实体关键词属于专有名词。所述专有名词词典中还保存专有名词与其对应的类别ID的对应关系,形如<key,type_ID>,如表I所示,其中key表示关键词,type_ID表示类别ID ;此外,所述专有名词词典中还相应包括类别定义表,如表2所示,其中type_name表示专有名词对应的类别。表I
权利要求
1.一种关联信息的检索方法,其特征在于,包括 获取当前网页的源码,从所述源码中提取所述当前网页的正文; 从所述正文中获取关键词集; 获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果; 根据所述检索结果获取所述关键词的关联信息。
2.根据权利要求I所述的方法,其特征在于,所述获取当前网页的源码之前还包括 获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间; 判断所述基本信息是否满足预置的网页分析条件; 相应的,所述获取当前网页的源码具体为 当所述基本信息满足预置的网页分析条件时,获取所述当前网页的源码。
3.根据权利要求2所述的方法,其特征在于,所述判断所述基本信息是否满足预置的网页分析条件包括 判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。
4.根据权利要求I所述的方法,其特征在于,所述获取当前网页的源码包括 获取当前网页的URL,根据所述当前网页的URL获取所述当前网页的源码。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述从所述正文中获取关键词集包括 对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集; 相应的,所述获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息具体为 根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别;其中,所述命名实体关键词与类别的对应关系以专有名词词典的形式存储; 根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果; 根据所述检索结果获取所述命名实体关键词的关联信息。
6.根据权利要求5所述的方法,其特征在于,所述获取命名实体关键词集之后还包括 从所述正文中自动提取主题关键词,获取主题关键词集; 将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果; 将所述运算结果作为新的命名实体关键词集; 相应的,所述根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别具体为 根据命名实体关键词与类别的对应关系,获取所述新的命名实体关键词集中的命名实体关键词对应的第一类别。
7.根据权利要求5或6所述的方法,其特征在于,当所述第一类别为多个时,所述根据所述第一类别获取检索服务器的信息之前还包括 对所述当前网页进行分类,获取所述当前网页的类别; 根据所述第一类别与网页类别的对应关系,获取所述第一类别对应的网页类别; 将所述第一类别对应的网页类别与所述当前网页的类别进行匹配,获取匹配后的第一类别对应的网页类别; 将所述匹配后的网页类别对应的第一类别作为新的第一类别; 相应的,所述根据所述第一类别获取检索服务器的信息具体为 根据所述新的第一类别获取检索服务器的信息。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述从所述正文中获取关键词集包括 从所述正文中自动提取主题关键词,获取主题关键词集; 相应的,所述获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息具体为 判断所述主题关键词集中的主题关键词是否为命名实体关键词,如果是,根据所述主题关键词与类别的对应关系,获取所述主题关键词对应的第二类别;如果否,对所述当前网页进行分类,获取所述当前网页的类别,将所述当前网页的类别作为所述主题关键词对应的第二类别;根据所述第二类别获取检索服务器的信息,发送所述主题关键词至所述检索服务器进行检索,获取检索结果; 根据所述检索结果获取所述主题关键词的关联信息。
9.根据权利要求8所述的方法,其特征在于,所述获取主题关键词集之后还包括 对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集; 将所述主题关键词集和所述命名实体关键词集进行交集运算,获取运算结果; 将所述运算结果作为新的主题关键词集; 相应的,所述判断所述主题关键词集中的主题关键词是否为命名实体关键词具体为 判断所述新的主题关键词集中的主题关键词是否为命名实体关键词。
10.根据权利要求1-4任一项所述的方法,其特征在于,所述发送所述关键词至所述检索服务器进行检索之前还包括 根据所述类别设置检索条件; 相应的,所述发送所述关键词至所述检索服务器具体为 发送所述关键词和所述检索条件至所述检索服务器进行检索。
11.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述检索结果获取所述关键词的关联信息包括 对所述检索结果进行聚合与排序,形成新的检索结果,将所述新的检索结果作为所述关键词的关联信息。
12.根据权利要求11所述的方法,其特征在于,所述对所述检索结果进行聚合与排序,形成新的检索结果包括 获取检索结果的前k条结果;按照公式c =Σ 十算所述前k条结果的得分,其中,是指第i个结果的得分,Bj是 i iV第j个检索服务器的权重,aj由用户设置,$是第i个结果在第j个检索服务器上的排序; 按照所述前k条结果的得分从大到小进行排序; 选择所述排序后的前η条结果作为新的检索结果;其中η和k为正整数,η < k, η和k的数值由用户预先设置。
13.一种关联信息的检索装置,其特征在于,包括 源码获取模块,用于获取当前网页的源码; 正文提取模块,用于从所述源码中提取所述当前网页的正文; 关键词集获取模块,用于从所述正文中获取关键词集; 类别获取模块,用于获取所述关键词集中的关键词对应的类别; 检索模块,用于根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果; 关联信息获取模块,用于根据所述检索结果获取所述关键词的关联信息。
14.根据权利要求13所述的装置,其特征在于,还包括 网页信息获取模块,用于在所述获取当前网页的源码之前获取当前网页的基本信息,所述基本信息包括所述当前网页的统一资源定位符URL和/或更新时间; 判断模块,用于判断所述基本信息是否满足预置的网页分析条件; 相应的,所述源码获取模块包括 源码获取子模块,用于当所述基本信息满足预置的网页分析条件时,获取所述当前网页的源码。
15.根据权利要求14所述的装置,其特征在于,所述判断模块包括 判断子模块,用于判断所述当前网页的URL是否满足网页URL范围和网页URL后缀的要求,和/或,判断所述当前网页的更新时间是否满足晚于第一时间的要求。
16.根据权利要求13所述装置,其特征在于,所述源码获取子模块包括 源码获取单元,用于获取当前网页的URL,根据所述当前网页的URL获取所述当前网页的源码。
17.根据权利要求13-16任一项所述的装置,其特征在于,所述关键词集获取模块包括 第一获取子模块,用于对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集; 相应的,所述类别获取模块包括 第一类别获取子模块,用于根据命名实体关键词与类别的对应关系,获取所述命名实体关键词集中的命名实体关键词对应的第一类别;其中,所述命名实体关键词与类别的对应关系以专有名词词典的形式存储; 所述检索模块包括 第一检索子模块,用于根据所述第一类别获取检索服务器的信息,发送所述命名实体关键词至所述检索服务器进行检索,获取检索结果; 所述关联信息获取模块包括第一关联信息获取子模块,用于根据所述检索结果获取所述命名实体关键词的关联信息
18.根据权利要求17所述的装置,其特征在于,所述关键词集获取模块还包括 第二获取子模块,用于在所述获取命名实体关键词集之后从所述正文中自动提取主题关键词,获取主题关键词集; 第一运算子模块,用于将所述命名实体关键词集和所述主题关键词集进行交集运算,获取运算结果; 第一设置子模块,用于将所述运算结果作为新的命名实体关键词集; 相应的,所述第一类别获取子模块包括 第一类别获取单元,用于根据命名实体关键词与类别的对应关系,获取所述新的命名实体关键词集中的命名实体关键词对应的第一类别。
19.根据权利要求17或18所述的装置,其特征在于,还包括 网页类别获取模块,用于当所述第一类别为多个时,所述根据所述第一类别获取检索服务器的信息之前对所述当前网页进行分类,获取所述当前网页的类别; 对应类别获取模块,用于根据所述第一类别与网页类别的对应关系,获取所述第一类别对应的网页类别; 匹配获取模块,用于将所述第一类别对应的网页类别与所述当前网页的类别进行匹配,获取匹配后的第一类别对应的网页类别; 类别设置模块,用于将所述匹配后的网页类别对应的第一类别作为新的第一类别; 相应的,所述第一检索子模块包括 第一获取单元,用于根据所述新的第一类别获取检索服务器的信息。
20.根据权利要求13-16任一项所述的装置,其特征在于,所述关键词集获取模块包括 第三获取子模块,用于从所述正文中自动提取主题关键词,获取主题关键词集; 相应的,所述类别获取模块包括 判断子模块,用于判断所述主题关键词集中的主题关键词是否为命名实体关键词,生成判断结果; 第二类别获取子模块,用于当所述判断结果为是时,根据所述主题关键词和命名实体关键词与类别的对应关系,获取所述主题关键词对应的第二类别;当所述判断结果为否时,对所述当前网页进行分类,获取所述当前网页的类别,将所述当前网页的类别作为所述主题关键词对应的第二类别; 所述检索模块包括 第二检索子模块,用于根据所述第二类别获取检索服务器的信息,发送所述主题关键词至所述检索服务器进行检索,获取检索结果; 所述关联信息获取模块包括 第二关联信息获取子模块,用于根据所述检索结果获取所述主题关键词的关联信息。
21.根据权利要求20所述的装置,其特征在于,所述关键词集获取模块还包括 第四获取子模块,用于对所述当前网页的正文进行命名实体的识别,获取命名实体关键词集;第二运算子模块,用于将所述主题关键词集和所述命名实体关键词集进行交集运算,获取运算结果; 第二设置子模块,用于将所述运算结果作为新的主题关键词集; 相应的,所述判断子模块包括 判断单元,用于判 断所述新的主题关键词集中的主题关键词是否为命名实体关键词。
22.根据权利要求13-16任一项所述的装置,其特征在于,还包括 检索条件设置模块,用于在所述发送所述关键词至所述检索服务器之前根据所述类别设置检索条件; 相应的,所述检索模块包括 发送子模块,用于发送所述关键词和所述检索条件至所述检索服务器进行检索。
23.根据权利要求13-16任一项所述的装置,其特征在于,所述关联信息获取模块包括 聚合排序子模块,用于对所述检索结果进行聚合与排序,形成新的检索结果,将所述新的检索结果作为所述关键词的关联信息。
24.根据权利要求23所述的装置,其特征在于,所述聚合排序子模块包括 第一获取单元,用于获取检索结果的前k条结果; 计算单元,用于按照公式C =Σ|计算所述前k条结果的得分,其中,r,是指第i个结 I nJ果的得分,Bj是第j个检索服务器的权重,Bj由用户设置,K是第i个结果在第j个检索服务器上的排序; 排序单元,用于按照所述前k条结果的得分从大到小进行排序; 设置单元,用于选择所述排序后的前η条结果作为新的检索结果;其中η和k为正整数,η≤k,η和k的数值由用户预先设置。
全文摘要
本发明实施例提供了一种关联信息的检索方法及装置,涉及通信领域,所述关联信息的检索方法包括获取当前网页的源码,从所述源码中提取所述当前网页的正文;从所述正文中获取关键词集;获取所述关键词集中的关键词对应的类别,根据所述类别获取检索服务器的信息,发送所述关键词至所述检索服务器进行检索,获取检索结果;根据所述检索结果获取所述关键词的关联信息;所述关联信息的检索的装置包括源码获取模块、正文提取模块、关键词集获取模块、类别获取模块、检索模块和关联信息获取模块。本发明实施例降低了网络传输量。
文档编号G06F17/30GK102955807SQ20111024851
公开日2013年3月6日 申请日期2011年8月26日 优先权日2011年8月26日
发明者方琦, 钟杰萍, 杜家春 申请人:华为软件技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1