语句相似度的计算、搜索处理方法及装置制造方法

文档序号：6636993阅读：167来源：国知局

语句相似度的计算、搜索处理方法及装置制造方法
【专利摘要】本发明提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置，上述计算方法包括：获取第一语句和第二语句；分别对第一语句和第二语句进行依存分析，得到第一依存树以及第二依存树；根据所述第一依存树以及第二依存树计算所述第一语句与所述第二语句的语义相似度。上述搜索处理方法包括：接收查询语句；根据所述查询语句获取至少一个搜索结果条目；通过上述通过计算机实现的语句相似度的计算方法，分别计算所述查询语句与所述搜索结果条目的语义相似度；根据计算的语义相似度的值对所述搜索结果条目进行排序；发送经过排序的搜索结果条目。本发明能够根据语句的语义计算出更准确的语句相似度，并提供更准确的搜索结果。
【专利说明】语句相似度的计算、搜索处理方法及装置

【技术领域】
[0001] 本发明涉及信息处理技术，尤其涉及一种通过计算机实现的语句相似度的计算、搜索处理方法及装置。

【背景技术】
[0002] 用户输入的查询语句和搜索网页的标题的相似度计算是搜索技术的核心问题点。基于上述相似度计算的排名决定了搜索引擎的优劣和用户体验质量。现有技术中相似度计算方法主要是采用基于词袋（bag-of-words)的方法，只是简单地考虑单个或者若干个词的直接匹配，并没有考虑这些词组合起来的真正的语义是怎样的。
[0003] 然而，现有技术只考虑词的级别的匹配，无法区分开语句之间的语义不匹配的问题。在两句话字面类似、而含义完全不同的情况下，计算的相似度也非常高。例如如图1所示，对于"日本收购的中国企业"这个查询语句，采用现有技术搜索出的前7个结果中，就有 6个是字面相似（红色箭头标出，语义含义都是类似于"中国收购日本企业"），而语义完全相反的网页。从而导致提供了错误的搜索结果，严重影响用户体验。

【发明内容】

[0004] 本发明的目的在于，提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置，能够根据语句的语义计算出更准确的语句相似度，并提供更准确的搜索结果。
[0005] 根据本发明的一方面，本发明提供一种通过计算机实现的语句相似度的计算方法，包括：获取第一语句和第二语句；分别对第一语句和第二语句进行依存分析，得到第一依存树以及第二依存树；根据第一依存树以及第二依存树计算第一语句与第二语句的语义相似度。
[0006] 根据本发明的另一方面，本发明提供一种搜索处理方法，包括：接收查询语句；根据查询语句获取至少一个搜索结果条目；通过上述通过计算机实现的语句相似度的计算方法，分别计算查询语句与搜索结果条目的语义相似度；根据计算的语义相似度的值对搜索结果条目进行排序；发送经过排序的搜索结果条目。
[0007] 根据本发明的另一方面，本发明提供一种通过计算机实现的语句相似度的计算装置，包括：语句获取单元，用于获取第一语句和第二语句；依存分析单元，用于分别对第一语句和第二语句进行依存分析，得到第一依存树以及第二依存树；第一语义相似度计算单元，用于根据第一依存树以及第二依存树计算第一语句与第二语句的语义相似度。
[0008] 根据本发明的另一方面，本发明提供一种搜索处理装置，包括：查询语句接收单元，用于接收查询语句；搜索单元，用于根据查询语句获取至少一个搜索结果条目；语义相似度计算单元，用于通过上述通过计算机实现的语句相似度的计算装置，分别计算查询语句与搜索结果条目的语义相似度；排序单元，用于根据计算的语义相似度的值对搜索结果条目进行排序；搜索结果条目发送单元，用于发送经过排序的搜索结果条目。
[0009] 本发明实施例提供的通过计算机实现的语句相似度的计算、搜索处理方法及装置，通过根据两个语句的依存树计算两个语句的语义相似度，得到更准确的语句相似度数据；通过上述语句相似度的计算方法分别计算查询语句与搜索结果条目的语义相似度，根据计算的语义相似度的值对搜索结果条目进行排序，从而提供更准确的搜索结果。

【专利附图】

【附图说明】
[0010] 图1为采用现有技术进行搜索的搜索结果示意图；
[0011] 图2为本发明示例性实施例的通过计算机实现的语句相似度的计算方法的流程图；
[0012] 图3为本发明优选实施例的通过计算机实现的语句相似度的计算方法的流程图；
[0013] 图4为本发明优选实施例的两个语句的依存树与语义结构的示意图；
[0014] 图5为本发明示例性实施例的搜索处理方法的流程图；
[0015] 图6为本发明示例性实施例的通过计算机实现的语句相似度的计算装置的逻辑框图；
[0016] 图7为本发明优选实施例的通过计算机实现的语句相似度的计算装置的逻辑框图；
[0017] 图8为本发明示例性实施例的搜索处理装置的逻辑框图。

【具体实施方式】
[0018] 本发明提供一种通过计算机实现的语句相似度的计算、搜索处理方法及装置，从计算查询语句和网页标题的相似度这一视角出发，基于依存关系来计算查询语句和网页标题的相似度，从而得到更准确的语句相似度，更好地区分开字面类似而含义完全不同的查询语句和网页标题；另一方面，根据计算的语义相似度的值对搜索结果条目进行排序，从而提供更准确的搜索结果。
[0019] 进一步地，本发明还在根据依存关系来计算语义相似度的基础上，增加了语义角色关系相似度作为计算语义相似度的元素，更全面地衡量语句之间的语义相似度，从而使计算的语句相似度更加准确。
[0020] 下面结合附图对本发明实施例提供的通过计算机实现的语句相似度的计算、搜索处理方法及装置进行详细描述。
[0021] 图2为本发明示例性实施例的通过计算机实现的语句相似度的计算方法的流程图。
[0022] 参照图2,在步骤S210,获取第一语句和第二语句。
[0023] 以网页搜索结果与查询词的匹配为例，所述第一语句和第二语句可以分别是查询语句和任一搜索结果条目的网页标题。
[0024] 在步骤S220,分别对第一语句和第二语句进行依存分析，得到第一依存树以及第二依存树。在本实施例中，在步骤S220,可以通过移进归约算法对第一语句和第二语句进行依存分析。以"我爱中国"这句话为例，经过依存分析后得到的依存树可以表示为：
[0025]

【权利要求】
1. 一种通过计算机实现的语句相似度的计算方法，其特征在于，所述方法包括：获取第一语句和第二语句；分别对第一语句和第二语句进行依存分析，得到第一依存树W及第二依存树；根据所述第一依存树W及第二依存树计算所述第一语句与所述第二语句的语义相似度。
2. 根据权利要求1所述的方法，其特征在于，所述根据所述第一依存树W及第二依存树计算所述第一语句与所述第二语句之间的语义相似度的处理包括：根据所述第一依存树W及第二依存树，分别计算两者的语义主干依存关系弧之间的主干语义相似度W及两者的非语义主干依存关系弧之间的非主干语义相似度；根据所述主干语义相似度与所述非主干语义相似度计算所述第一语句与所述第二语句之间的语义相似度。
3. 根据权利要求1所述的方法，其特征在于，所述方法还包括：根据所述第一依存树W及所述第二依存树，分别对所述第一语句和第二语句进行语义角色标注，得到第一语义结构和第二语义结构。
4. 根据权利要求3所述的方法，其特征在于，所述根据所述第一依存树W及第二依存树计算所述第一语句与所述第二语句的语义相似度的处理包括：根据所述第一依存树W及第二依存树计算所述第一语句与所述第二语句的依存关系相似度；根据所述第一语义结构和第二语义结构计算所述第一语句与所述第二语句的语义角色关系相似度；根据所述依存关系相似度和语义角色关系相似度计算所述第一语句与所述第二语句的语义相似度。
5. 根据权利要求4所述的方法，其特征在于，所述根据所述第一依存树W及第二依存树，计算所述第一语句与所述第二语句之间的依存关系相似度的处理包括：根据所述第一依存树W及第二依存树，分别计算两者的语义主干依存关系弧之间的主干依存关系相似度W及两者的非语义主干依存关系弧之间的非主干依存关系相似度；根据所述主干依存关系相似度与所述非主干依存关系相似度计算所述第一语句与所述第二语句之间的依存关系相似度。
6. 根据权利要求5所述的方法，其特征在于，所述根据所述第一语义结构W及第二语义结构，获取计算所述查询语句第一语句与所述网页标题第二语句之间的语义角色标注相似度语义角色关系相似度的处理包括：根据所述第一语义结构W及第二语义结构，分别计算两者的语义主干之间的主干语义角色关系相似度W及两者的非语义主干之间的非主干语义角色关系相似度；根据所述主干语义角色关系相似度与所述非主干语义角色关系相似度计算所述第一语句与所述第二语句之间的语义角色关系相似度。
7. 根据权利要求4-6任一项所述的方法，其特征在于，所述根据所述依存关系相似度和所述语义角色关系相似度，计算所述第一语句与所述第二语句之间的语义相似度包括：将所述依存关系相似度和所述语义角色关系相似度按照各自的权值进行加权就和，得到所述第一语句与所述第二语句之间的语义相似度。
8. -种捜索处理方法，其特征在于，所述方法包括：接收查询语句；根据所述查询语句获取至少一个捜索结果条目；通过权利要求1-7任一项所述的方法，分别计算所述查询语句与所述捜索结果条目的语义相似度；根据计算的语义相似度的值对所述捜索结果条目进行排序；发送经过排序的捜索结果条目。
9. 根据权利要求8所述的方法，其特征在于，所述捜索结果条目是网页条目，其中，所述计算所述查询语句与捜索结果条目的语义相似度的处理包括：计算所述查询语句与所述网页条目的网页标题的语义相似度。
10. -种通过计算机实现的语句相似度的计算装置，其特征在于，所述装置包括：语句获取单元，用于获取第一语句和第二语句；依存分析单元，用于分别对第一语句和第二语句进行依存分析，得到第一依存树W及第二依存树；第一语义相似度计算单元，用于根据所述第一依存树W及第二依存树计算所述第一语句与所述第二语句的语义相似度。
11. 根据权利要求10所述的计算装置，其特征在于，所述第一语义相似度计算单元根据所述第一依存树W及第二依存树，分别计算两者的语义主干依存关系弧之间的主干语义相似度W及两者的非语义主干依存关系弧之间的非主干语义相似度，然后根据所述主干语义相似度与所述非主干语义相似度计算所述第一语句与所述第二语句之间的语义相似度。
12. 根据权利要求10所述的计算装置，其特征在于，所述计算装置还包括：语义角色标注单元，用于根据所述第一依存树W及所述第二依存树，分别对所述第一语句和第二语句进行语义角色标注，得到第一语义结构和第二语义结构。
13. 根据权利要求12所述的计算装置，其特征在于，所述第一语义相似度计算单元包括：依存关系相似度计算单元，用于根据所述第一依存树W及第二依存树计算所述第一语句与所述第二语句的依存关系相似度；语义角色关系相似度计算单元，用于根据所述第一语义结构和第二语义结构计算所述第一语句与所述第二语句的语义角色关系相似度；第二语义相似度计算单元，用于根据所述依存关系相似度和语义角色关系相似度计算所述第一语句与所述第二语句的语义相似度。
14. 根据权利要求13所述的计算装置，其特征在于，所述依存关系相似度计算单元根据所述第一依存树W及第二依存树，分别计算两者的语义主干依存关系弧之间的主干依存关系相似度W及两者的非语义主干依存关系弧之间的非主干依存关系相似度，然后根据所述主干依存关系相似度与所述非主干依存关系相似度计算所述第一语句与所述第二语句之间的依存关系相似度。
15. 根据权利要求14所述的计算装置，其特征在于，所述语义角色关系相似度计算单元根据所述第一语义结构W及第二语义结构，分别计算两者的语义主干之间的主干语义角色关系相似度w及两者的非语义主干之间的非主干语义角色关系相似度，然后根据所述主干语义角色关系相似度与所述非主干语义角色关系相似度计算所述第一语句与所述第二语句之间的语义角色关系相似度。
16. 根据权利要求13-15任一项所述的计算装置，其特征在于，所述第二语义相似度计算单元将所述依存关系相似度和所述语义角色关系相似度按照各自的权值进行加权就和，得到所述第一语句与所述第二语句之间的语义相似度。
17. -种捜索处理装置，其特征在于，所述装置包括：查询语句接收单元，用于接收查询语句；捜索单元，用于根据所述查询语句获取至少一个捜索结果条目；语义相似度计算单元，用于通过权利要求10-16任一项所述的计算装置，分别计算所述查询语句与所述捜索结果条目的语义相似度；排序单元，用于根据计算的语义相似度的值对所述捜索结果条目进行排序；捜索结果条目发送单元，用于发送经过排序的捜索结果条目。
18. 根据权利要求17所述的装置，其特征在于，所述捜索结果条目是网页条目，其中，所述语义相似度计算单元用于计算所述查询语句与所述网页条目的网页标题的语义相似度。
【文档编号】G06F17/30GK104462327SQ201410722755
【公开日】2015年3月25日申请日期:2014年12月2日优先权日:2014年12月2日
【发明者】吴先超申请人:百度在线网络技术（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴先超;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。