搜索结果的处理方法及装置制造方法

文档序号:6638194阅读:128来源:国知局
搜索结果的处理方法及装置制造方法
【专利摘要】本发明实施例提供了一种搜索结果的处理方法及装置。所述处理方法包括:根据搜索词获取多个搜索结果条目;从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;根据所述相关度值对所述多个搜索结果条目进行排序。本发明实施例的搜索结果的处理方法及装置与现有技术相比更符合用户的需求,提高了搜索结果与用户需求的匹配度。
【专利说明】搜索结果的处理方法及装置

【技术领域】
[0001] 本发明涉及搜索技术,尤其涉及一种搜索结果的处理方法及装置。

【背景技术】
[0002] 搜索引擎的首要任务提升搜索相关性。现有技术中,提升搜索相关性主要考虑网 页质量、搜索词与网页的相关性等因素。其中,搜索词与网页的相关性,主要依赖于搜索词 中使用的术语,例如,术语在当前搜索词中的重要性、术语间的紧密程度以及其在网页中的 表现形式(是否紧密出现,术语在该网页中是否相对重要等)。
[0003] 然而,运用现有技术处理后的搜索结果在某些情况下并不符合用户的需求。图1 是示出搜索词为"莱美健身课程有哪些"的搜索结果条目的示例性示意图。如图1所示,前 两个搜索结果条目"在哪里学习莱美健身课程"以及"什么是莱美健身课程"都没有给出用 户所需求的课程,使得搜索结果与用户需求的匹配度较差。


【发明内容】

[0004] 本发明实施例的目的在于,提供一种搜索结果的处理方法及装置,通过对搜索结 果与搜索词进行语义相关度计算,使得搜索结果更符合用户的需求,提高搜索结果与用户 需求的匹配度。
[0005] 为实现上述发明目的,本发明的实施例提供了一种搜索结果的处理方法,包括:根 据搜索词获取多个搜索结果条目;从内容知识库中分别获取所述多个搜索结果条目的知识 网络,每个所述知识网络包括多个内容知识点数据;通过对所述搜索词和所述多个搜索结 果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间 的相关度值;根据所述相关度值对所述多个搜索结果条目进行排序。
[0006] 本发明的实施例还提供了一种搜索结果的处理装置,包括:搜索结果条目获取模 块,用于根据搜索词获取多个搜索结果条目;知识网络获取模块,用于从内容知识库中分别 获取所述多个搜索结果条目的知识网络,每个所述知识网络包括多个内容知识点数据;相 关度值计算模块,用于通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点 的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值;搜索结果条目排序 模块,用于根据所述相关度值对所述多个搜索结果条目进行排序。
[0007] 本发明实施例提供的搜索结果的处理方法及装置通过从内容知识库中分别获取 多个搜索结果条目的知识网络,并对搜索词和多个搜索结果条目的知识网络进行知识点的 结构匹配,进而分别计算搜索词和多个搜索结果条目之间的相关度值,再根据该相关度值 对多个搜索结果条目进行排序,从而使得经排序的搜索结果更符合用户的需求,提高了搜 索结果与用户需求的匹配度,提高用户的搜索体验。此外,还可生成反映搜索主题的内容摘 要,进一步为用户提供核心内容的信息。

【专利附图】

【附图说明】
[0008] 图1是示出在现有技术中搜索结果条目的示例性示意图;
[0009] 图2是示出本发明实施例一的搜索结果的处理方法的流程图;
[0010] 图3是示出图1中的搜索词的结构分析结果的示例性示意图;
[0011] 图4是示出图1中第一个搜索结果条目的知识网络结构分析结果的示例性示意 图;
[0012] 图5是示出图1中第二个搜索结果条目的知识网络结构分析结果的示例性示意 图;
[0013] 图6是示出图1中第三个搜索结果条目的知识网络结构分析结果的示例性示意 图;
[0014] 图7是示出本发明实施例二的搜索结果的处理装置的逻辑框图。

【具体实施方式】
[0015] 本发明的基本构思是,从内容知识库中分别获取多个搜索结果条目的知识网络, 并对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配,进而分别计算搜索词 和多个搜索结果条目之间的相关度值,再根据该相关度值对多个搜索结果条目进行排序, 从而使得经排序的搜索结果更符合用户的需求。
[0016] 下面结合附图对本发明实施例一种搜索结果的处理方法及装置进行详细描述。
[0017] 实施例一
[0018] 图2是示出本发明实施例一的搜索结果的处理方法的流程图。可在例如搜索引擎 服务器上执行所述方法。所述搜索结果的处理方法包括如下步骤:
[0019] 步骤101 :根据搜索词获取多个搜索结果条目。
[0020] 搜索引擎服务器可使用搜索词运用现有的搜索技术(例如,从预先编制的网页索 弓丨)获取多个搜索结果条目。
[0021] 步骤102 :从内容知识库中分别获取多个搜索结果条目的知识网络,每个知识网 络包括多个内容知识点数据。
[0022] 具体的,可在线下对每个搜索结果条目的内容文本进行分句以及词法句法分析, 从而提取到多个内容知识点数据,并将这多个内容知识点数据进行合并得到知识网络,并 且将多个搜索结果条目的知识网络保存到内容知识库中。本 申请人:在同日提交的另一件名 称为"生成文本摘要的方法及装置"的专利申请中记载了一种用于从内容文本生成内容知 识库的技术。需要说明的是,所述内容知识库的生成不仅限于前述专利申请记载的方法,还 可运用其它知识点挖掘技术在线下建立内容知识库。
[0023] 此外,还可以根据常识知识库对搜索词进行语法语义分析得到知识点数据。需要 说明的是对搜索词进行语法语义分析,也就是根据常识知识库对搜索词进行重要性和紧密 度的分析,具体的,线下分析每个搜索结果条目,并抽取知识点,同时将每个知识点作为一 个常识知识单独保存在常识知识库中,对搜索词进行结构分析时,就可以依据常识知识库 确认哪些术语非常重要,哪些术语不是很重要,重要性不高的术语再结合上下文情况可以 省略掉。
[0024] 步骤103 :通过对搜索词和多个搜索结果条目的知识网络进行知识点的结构匹配 分别计算搜索词和搜索结果条目之间的相关度值。
[0025] 如前所述,根据本发明的示例性实施例,可对搜索词分别和每个搜索结果条目的 知识网络进行如下的处理:对搜索词进行词法句法分析得到至少一个搜索知识点数据,将 搜索知识点数据分别与知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算 搜索词和每个搜索结果条目之间的相关度值。
[0026] 具体地,根据本发明的示例性实施例,对任一搜索结果条目,将搜索知识点数据与 知识网络进行结构表示,将搜索知识点数据的结构表示与知识网络中知识点的结构表示进 行匹配得到结构的匹配强度,并且根据结构的匹配强度计算搜索词和搜索结果条目的相关 度值。
[0027] 优选地,将搜索知识点数据与知识网络进行结构表示,并将搜索知识点数据的结 构表示与知识网络中知识点的结构表示进行匹配得到匹配强度的处理。具体可包括:获取 搜索知识点数据的核心结构和非核心结构,根据知识网络中知识点的结构表示与搜索知识 点数据的核心结构和非核心结构的匹配确定搜索知识点数据的结构表示与所述知识网络 中知识点的结构表示的多个匹配强度。这里需要说明的是,每个所述匹配强度被确定为完 全匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。以下将对前述五种 匹配强度给予具体描述。
[0028] 首先,将搜索知识点数据的结构表示以及知识网络中知识点的结构表示均表示为 (el,e2, r,p),其中r可以是动词关系、名词属性、非明确关系,p表示r发生时的条件(主 要针对动词而言),el和e2是关系r关联的两个直接实体。可将前述匹配强度定义为:
[0029] (1)完全匹配:如果搜索知识点数据和知识网络中知识点的结构的el,e2, r,p均 完全匹配上,则核心结构或非核心结构和知识网络的匹配强度为完全匹配;
[0030] (2)核心成分匹配:如果搜索知识点数据和知识网络中知识点的结构的el,e2, r 完全匹配,P没有或部分匹配上,则核心结构或非核心结构和知识网络的匹配强度为核心成 分匹配;
[0031] (3)限制成分强匹配:如果搜索知识点数据和知识网络中知识点的结构的r均为 限定关系,且el与e2完全匹配上,则核心结构或非核心结构和知识网络的匹配强度为限制 成分强匹配,
[0032] (4)限制成分弱匹配:如果搜索知识点数据和知识网络中知识点的结构的r均为 限定关系,且el与e2没有匹配上,则核心结构或非核心结构和知识网络的匹配强度为限制 成分弱匹配,
[0033] (5)无法匹配:如果搜索知识点数据和知识网络中知识点的结构的r没有匹配上 或el与e2没有匹配上,则核心结构或非核心结构和知识网络的匹配强度为无法匹配。
[0034] 优选地,可通过以下公式执行搜索词和搜索结果条目的相关度值的计算:

【权利要求】
1. 一种搜索结果的处理方法,其特征在于,所述方法包括: 根据搜索词获取多个搜索结果条目; 从内容知识库中分别获取所述多个搜索结果条目的知识网络,每个所述知识网络包括 多个内容知识点数据; 通过对所述搜索词和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别 计算所述搜索词和所述搜索结果条目之间的相关度值; 根据所述相关度值对所述多个搜索结果条目进行排序。
2. 根据权利要求1所述的处理方法,其特征在于,所述处理方法还包括: 为任一所述搜索结果条目,根据所述搜索结果条目的知识网络生成内容摘要。
3. 根据权利要求2所述的处理方法,其特征在于,所述为任一所述搜索结果条目,根据 所述搜索结果条目的知识网络生成内容摘要的处理包括: 过滤掉所述知识网络中与所述搜索词不相关的知识点数据, 按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。
4. 根据权利要求1?3中任一项所述的处理方法,其特征在于,所述通过对所述搜索词 和所述多个搜索结果条目的知识网络进行知识点的结构匹配分别计算所述搜索词和所述 搜索结果条目之间的相关度值的处理包括: 对所述搜索词进行词法句法分析得到至少一个搜索知识点数据, 将所述搜索知识点数据分别与所述知识网络进行知识点的结构匹配,并根据得到的匹 配结果分别计算所述搜索词和所述搜索结果条目之间的相关度值。
5. 根据权利要求4所述的处理方法,其特征在于,所述将所述搜索知识点数据分别与 所述知识网络进行知识点的结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述 搜索结果条目之间的相关度值的处理包括: 对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示,将 所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到结构 的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度 值。
6. 根据权利要求5所述的处理方法,其特征在于,所述将所述搜索知识点数据与所述 知识网络进行结构表示,并将所述搜索知识点数据的结构表示与所述知识网络中知识点的 结构表示进行匹配得到匹配强度的处理: 获取所述搜索知识点数据的核心结构和非核心结构, 根据所述知识网络中知识点的结构表示与所述搜索知识点数据的核心结构和非核心 结构的匹配确定所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的 多个匹配强度。
7. 根据权利要求6所述的处理方法,其特征在于,每个所述匹配强度被确定为完全匹 配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。
8. 根据权利要求7所述的处理方法,其特征在于,所述根据所述匹配强度对所述搜索 词和所述搜索结果条目进行计算得到所述搜索词和所述搜索结果条目的相关度值的处理, 包括:
其中,(el,e2,r,p)为所述搜索知识点的结构表示,其中,r为动词关系或名词属性或 限定关系,P为r发生时的条件,el和e2是与r相关联的两个实体, 其中,query为搜索词,url为根据所述搜索词进行得到的搜索结果条目,m为所述核心 结构的数量,%为与所述核心结构和所述知识网络中知识点的结构的匹配强度相对应的 权重值,η为所述非核心结构的数量,β所述非核心结构与所述知识网络中知识点的结 构的匹配强度相对应的权重值。
9. 根据权利要求8所述的处理方法,其特征在于,所述处理方法还包括: 根据常识知识库对所述搜索词进行语法语义分析得到所述知识点数据。
10. -种搜索结果的处理装置,其特征在于,所述装置包括: 搜索结果条目获取模块,用于根据搜索词获取多个搜索结果条目; 知识网络获取模块,用于从内容知识库中分别获取所述多个搜索结果条目的知识网 络,每个所述知识网络包括多个内容知识点数据; 相关度值计算模块,用于通过对所述搜索词和所述多个搜索结果条目的知识网络进行 知识点的结构匹配分别计算所述搜索词和所述搜索结果条目之间的相关度值; 搜索结果条目排序模块,用于根据所述相关度值对所述多个搜索结果条目进行排序。
11. 根据权利要求10所述的处理装置,其特征在于,所述处理装置还包括: 内容摘要生成模块,用于为任一所述搜索结果条目,根据所述搜索结果条目的知识网 络生成内容摘要。
12. 根据权利要求11所述的处理装置,其特征在于,所述内容摘要生成模块用于: 过滤掉所述知识网络中与所述搜索词不相关的知识点数据, 按照预定规则对过滤后的知识网络中的知识点数据进行摘要组织,生成网页摘要。
13. 根据权利要求10?12中任一项所述的处理装置,其特征在于,所述相关度值计算 丰吴块包括: 搜索词词法句法分析单元,用于对所述搜索词进行词法句法分析得到至少一个搜索知 识点数据, 相关度值计算单元,用于将所述搜索知识点数据分别与所述知识网络进行知识点的 结构匹配,并根据得到的匹配结果分别计算所述搜索词和所述搜索结果条目之间的相关度 值。
14. 根据权利要求13所述的处理装置,其特征在于,所述相关度值计算单元用于: 对任一所述搜索结果条目,将所述搜索知识点数据与所述知识网络进行结构表示,将 所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到结构 的匹配强度,并且根据所述结构的匹配强度计算所述搜索词和所述搜索结果条目的相关度 值。
15. 根据权利要求14所述的处理装置,其特征在于,所述相关度值计算单元用于通过 以下步骤执行将所述搜索知识点数据与所述知识网络进行结构表示,并将所述搜索知识点 数据的结构表示与所述知识网络中知识点的结构表示进行匹配得到匹配强度的处理: 获取所述搜索知识点数据的核心结构和非核心结构, 根据所述知识网络中知识点的结构表示与所述搜索知识点数据的核心结构和非核心 结构的匹配确定所述搜索知识点数据的结构表示与所述知识网络中知识点的结构表示的 多个匹配强度。
16. 根据权利要求15所述的处理装置,其特征在于,每个所述匹配强度被确定为完全 匹配、核心成分匹配、限制成分强匹配、限制成分弱匹配或无法匹配。
17. 根据权利要求16所述的处理装置,其特征在于,所述相关度值计算单元用于通过 以下公式执行根据所述匹配强度对所述搜索词和所述搜索结果条目进行计算得到所述搜 索词和所述搜索结果条目的相关度值的处理:
其中,(el,e2,r,p)为所述搜索知识点的结构表示,其中,r为动词关系或名词属性或 限定关系,P为r发生时的条件,el和e2是与r相关联的两个实体, 其中,query为搜索词,url为根据所述搜索词进行得到的搜索结果条目,m为所述核心 结构的数量,%为与所述核心结构和所述知识网络中知识点的结构的匹配强度相对应的 权重值,η为所述非核心结构的数量,β所述非核心结构与所述知识网络中知识点的结 构的匹配强度相对应的权重值。
18. 根据权利要求17所述的处理装置,其特征在于,所述处理装置还包括: 搜索词语法语义分析模块,用于根据常识知识库对所述搜索词进行语法语义分析得到 所述知识点数据。
【文档编号】G06F17/30GK104462399SQ201410758984
【公开日】2015年3月25日 申请日期:2014年12月11日 优先权日:2014年12月11日
【发明者】王丽杰, 吴先超, 刘占一 申请人:北京百度网讯科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1