语句匹配方法和装置制造方法

文档序号:6622866阅读:155来源:国知局
语句匹配方法和装置制造方法
【专利摘要】本发明公开了一种语句匹配方法和装置。其中,该语句匹配方法包括:根据第一语句的基准词汇查找第二语句的对比词汇,其中,对比词汇在第二语句中的位置与基准词汇在第一语句中的位置相同;以对比词汇为中心在第二语句中划分待匹配词汇,其中,待匹配词汇为多个与基准词汇进行相似度的匹配的词汇;对基准词汇和待匹配词汇进行一一对比,得到基准词汇和待匹配词汇的相似度;以及将相似度最大的待匹配词汇作为与基准词汇匹配的词汇。通过本发明,解决了现有技术中语句匹配不准确的问题,进而达到了提高语句匹配的准确率的效果。
【专利说明】语句匹配方法和装置

【技术领域】
[0001] 本发明涉及通信领域,具体而言,涉及一种语句匹配方法和装置。

【背景技术】
[0002] 通过社区或者语音平台进行自动问答时,由于用户经常咨询的问题具有明显的重 复性,可能有80%的用户会询问20%常见的问题。通常这些问题由机器自动回答,当接收 到用户的问题时,会在问答对知识库中查找与用户的问题最相似或者相同的问题,并找到 针对该问题的答案提供给用户。
[0003] 在问答对知识库中查找相似或相同问题时,即进行语句的匹配。现有技术进行语 句匹配时,需要一个语句中的某个词汇与另外一个语句中的所有词汇进行逐个对比造成匹 配效率较低。另外,当一个语句中的某个词汇与另外一个语句的某个词汇的相似度较高时, 可能这两个相似度较高的词汇所表达的含义大相径庭,因此,导致两个语句的匹配结果不 准确。
[0004] 针对现有技术中语句匹配不准确的问题,目前尚未提出有效的解决方案。


【发明内容】

[0005] 本发明的主要目的在于提供一种语句匹配方法和装置,以解决现有技术中语句匹 配不准确的问题。
[0006] 为了实现上述目的,根据本发明的一个方面,提供了一种语句匹配方法。根据本发 明的语句匹配方法包括:根据第一语句的基准词汇查找第二语句的对比词汇,其中,所述对 比词汇在所述第二语句中的位置与所述基准词汇在所述第一语句中的位置相同;以所述对 比词汇为中心在所述第二语句中划分待匹配词汇,其中,所述待匹配词汇为多个与所述基 准词汇进行相似度的匹配的词汇;对所述基准词汇和所述待匹配词汇进行一一对比,得到 所述基准词汇和所述待匹配词汇的相似度;以及将所述相似度最大的所述待匹配词汇作为 与所述基准词汇匹配的词汇。
[0007] 进一步地,以所述对比词汇为中心在所述第二语句中划分待匹配词汇包括:按照 预先设置的搜寻窗口的宽度在所述第二语句中搜索所述待匹配词汇,其中,所述搜寻窗口 的宽度为预设词汇个数;以及将所述对比词汇两侧的处于所述搜寻窗口内的所述第二语句 中的词汇作为所述待匹配词汇。
[0008] 进一步地,将所述对比词汇两侧的处于所述搜寻窗口内的所述第二语句中的词汇 作为所述待匹配词汇包括:当所述对比词汇是所述第二语句中的首个词汇或者是所述第二 语句中的最后一个词汇时;取所述对比词汇一侧的处于所述搜寻窗口内的所述第二语句中 的词汇作为所述待匹配词汇,其中,当所述对比词汇是所述第二语句中的首个词汇时,取所 述对比词汇句尾方向的处于所述搜寻窗口内的词汇作为所述待匹配词汇,当所述对比词汇 是所述第二语句中的最后一个词汇时,取所述对比词汇句首方向的处于所述搜寻窗口内的 词汇作为所述待匹配词汇。
[0009] 进一步地,在将所述相似度最高的所述待匹配词汇作为所述基准词汇的匹配词汇 之后,所述语句匹配方法还包括:依次获取所述第一语句中每个所述基准词汇与所述待匹 配词汇的最大相似度;对所述第一语句中每个所述基准词汇的最大相似度求和,得到所述 第一语句词汇相似度;依次获取所述第二语句中每个所述对比词汇与所述基准词汇的最大 相似度;对所述第二语句中每个所述对比词汇的最大相似度求和,得到所述第二语句词汇 相似度;以及将所述第一语句的词汇相似度的算术平均值和所述第二语句的词汇相似度的 算术平均值的平均值作为所述第一语句和所述第二语句的相似度。
[0010] 进一步地,根据第一语句的基准词汇查找第二语句的对比词汇包括:将所述第一 语句和所述第二语句均分解为多个词汇元素;分别获取所述第一语句的词汇元素和所述第 二语句的词汇元素的序号;以及在所述第二语句中查找与所述多个词汇元素中的基准词汇 的序号相同的词汇作为所述对比词汇。
[0011] 为了实现上述目的,根据本发明的另一方面,提供了一种语句匹配装置。根据本发 明的语句匹配装置包括:查找单元,用于根据第一语句的基准词汇查找第二语句的对比词 汇,其中,所述对比词汇在所述第二语句中的序号与所述基准词汇在所述第一语句中的序 号相同;划分单元,用于以所述对比词汇为中心在所述第二语句中划分待匹配词汇,其中, 所述待匹配词汇为多个与所述基准词汇进行匹配的词汇;对比单元,用于对所述基准词汇 和所述待匹配词汇进行一一对比,得到所述基准词汇和所述待匹配词汇的相似度;以及确 定单元,用于将所述相似度最大的所述待匹配词汇作为与所述基准词汇匹配的词汇。
[0012] 进一步地,所述划分单元包括:搜索模块,用于按照预先设置的搜寻窗口的宽度在 所述第二语句中搜索所述待匹配词汇,其中,所述搜寻窗口的宽度为预设词汇个数;以及第 一确定模块,用于将所述对比词汇两侧的处于所述搜寻窗口内的所述第二语句中的词汇作 为所述待匹配词汇。
[0013] 进一步地,所述确定模块包括:确定子模块,用于当所述对比词汇是所述第二语句 中的首个词汇或者是所述第二语句中的最后一个词汇时,取所述对比词汇一侧的处于所述 搜寻窗口内的所述第二语句中的词汇作为所述待匹配词汇,其中,当所述对比词汇是所述 第二语句中的首个词汇时,取所述对比词汇句尾方向的处于所述搜寻窗口内的词汇作为所 述待匹配词汇,当所述对比词汇是所述第二语句中的最后一个词汇时,取所述对比词汇句 首方向的处于所述搜寻窗口内的词汇作为所述待匹配词汇。
[0014] 进一步地,所述语句匹配装置还包括:第一获取单元,用于在将所述相似度最高的 所述待匹配词汇作为所述基准词汇的匹配词汇之后,依次获取所述第一语句中每个所述基 准词汇与所述待匹配词汇的最大相似度;第一求和单元,用于对所述第一语句中每个所述 基准词汇的最大相似度求和,得到所述第一语句词汇相似度;第二获取单元,用于依次获取 所述第二语句中每个所述对比词汇与所述基准词汇的最大相似度;第二求和单元,用于对 所述第二语句中每个所述对比词汇的最大相似度求和,得到所述第二语句词汇相似度;以 及第三求和单元,用于将所述第一语句的词汇相似度的算术平均值和所述第二语句的词汇 相似度的算术平均值的平均值作为所述第一语句和所述第二语句的相似度。
[0015] 进一步地,所述查找单元包括:分解模块,用于将所述第一语句和所述第二语句均 分解为多个词汇元素;序号模块,用于分别获取所述第一语句的词汇元素和所述第二语句 的词汇元素的序号;以及第二确定模块,用于在所述第二语句中查找与所述多个词汇元素 中的基准词汇的序号相同的词汇作为所述对比词汇。
[0016] 通过本发明,采用根据第一语句的基准词汇查找第二语句的对比词汇,其中,对比 词汇在第二语句中的位置与基准词汇在第一语句中的位置相同;以对比词汇为中心在第二 语句中划分待匹配词汇,其中,待匹配词汇为多个与基准词汇进行相似度的匹配的词汇;对 基准词汇和待匹配词汇进行一一对比,得到基准词汇和待匹配词汇的相似度;以及将相似 度最大的待匹配词汇作为与基准词汇匹配的词汇的方法,解决了现有技术中语句匹配不准 确的问题,进而达到了提高语句匹配的准确率的效果。

【专利附图】

【附图说明】
[0017] 构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实 施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
[0018] 图1是根据本发明实施例的语句匹配方法的流程图;
[0019] 图2是根据本发明又一实施例的语句匹配方法的流程图;
[0020] 图3是根据本发明实施例的语句匹配方法的示意图;以及
[0021] 图4是根据本发明又一实施例的语句匹配方法的示意图。

【具体实施方式】
[0022] 需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相 互组合。下面将参考附图并结合实施例来详细说明本发明。
[0023] 为了使本【技术领域】的人员更好地理解本发明方案,下面将结合本发明实施例中的 附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是 本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术 人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范 围。
[0024] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语"第一"、"第 二"等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用 的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或 描述的那些以外的顺序实施。此外,术语"包括"和"具有"以及他们的任何变形,意图在于 覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限 于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产 品或设备固有的其它步骤或单元。
[0025] 本发明实施例提供了一种语句匹配方法。如【背景技术】所述,在继续自动问答时,需 要对用户提出的问句和问答库中的问句对比,查找与用户提出的问题相同或者最相似的问 题,并找到相应的答案返回给用户。当然,在检索或者搜索过程中也可以用到上述方法。在 检索时需要在检索库中查找与用户输入的检索词汇或者语句相同或者最相似的内容,同样 的道理,在搜索时也可以在搜索库中查找与用户输入的搜索词汇或语句相同或者最相似的 内容以达到检索或者搜索的目的。
[0026] 图1是根据本发明实施例的语句匹配方法的流程图。如图所示,该语句匹配方法 包括如下步骤:
[0027] 步骤S102,根据第一语句的基准词汇查找第二语句的对比词汇,其中,对比词汇在 第二语句中的位置与基准词汇在第一语句中的位置相同。
[0028] 在进行语句匹配时,通常是将语句分解为多个词汇,通过词汇的相似度的分析确 定语句的相似度。例如查找与第一语句相同的语句,第二语句是与第一语句做对比的语句, 以判断第二语句是否与第一语句相同。第一语句由多个词汇组成,每个词汇都可以作为一 个基准词汇。第二语句也由多个词汇组成,第二语句中的对比词汇用于与第一语句中的基 准词汇进行对比,从而确定基准词汇与对比词汇的相似度。
[0029] 在选取对比词汇时,对比词汇在第二语句中的位置与基准词汇在第一语句中的位 置相同,即考虑到语句结构。按照现有技术的方法,基准词汇与第二语句中的每个词汇进行 相似度的对比,可能会出现第一语句的第一个词汇4与第二语句的最后一个词汇B m的相似 度最大,那么,由于基准词汇在句子首部,最大相似度的对比词汇在句尾,虽然两个词汇的 相似度最大,但是两个词汇在整个句子中表达的含义可能大相径庭,这样根据每个基准词 汇的最大相似度确定第一语句和第二语句的相似度可能就不准确了。而本实施例中对比词 汇在第二语句中的位置与基准词汇在第一语句中的位置相同,那么选取的对比词汇在第二 语句结构中所起的作用与基准词汇在第一语句结构中所起的作用基本相同,在待匹配词汇 中选择相似度最大的词汇则能够提高第一语句和第二语句的相似度的准确性。
[0030] 步骤S104,以对比词汇为中心在第二语句中划分待匹配词汇,其中,待匹配词汇为 多个与基准词汇进行相似度的匹配的词汇。
[0031] 在确定对比词汇之后,以对比词汇为中心划分待匹配词汇。例如:

【权利要求】
1. 一种语句匹配方法,其特征在于,包括: 根据第一语句的基准词汇查找第二语句的对比词汇,其中,所述对比词汇在所述第二 语句中的位置与所述基准词汇在所述第一语句中的位置相同; 以所述对比词汇为中心在所述第二语句中划分待匹配词汇,其中,所述待匹配词汇为 多个与所述基准词汇进行相似度的匹配的词汇; 对所述基准词汇和所述待匹配词汇进行一一对比,得到所述基准词汇和所述待匹配词 汇的相似度;以及 将所述相似度最大的所述待匹配词汇作为与所述基准词汇匹配的词汇。
2. 根据权利要求1所述的语句匹配方法,其特征在于,以所述对比词汇为中心在所述 第二语句中划分待匹配词汇包括: 按照预先设置的搜寻窗口的宽度在所述第二语句中搜索所述待匹配词汇,其中,所述 搜寻窗口的宽度为预设词汇个数;以及 将所述对比词汇两侧的处于所述搜寻窗口内的所述第二语句中的词汇作为所述待匹 配词汇。
3. 根据权利要求2所述的语句匹配方法,其特征在于,将所述对比词汇两侧的处于所 述搜寻窗口内的所述第二语句中的词汇作为所述待匹配词汇包括: 当所述对比词汇是所述第二语句中的首个词汇或者是所述第二语句中的最后一个词 汇时; 取所述对比词汇一侧的处于所述搜寻窗口内的所述第二语句中的词汇作为所述待匹 配词汇, 其中,当所述对比词汇是所述第二语句中的首个词汇时,取所述对比词汇句尾方向的 处于所述搜寻窗口内的词汇作为所述待匹配词汇,当所述对比词汇是所述第二语句中的最 后一个词汇时,取所述对比词汇句首方向的处于所述搜寻窗口内的词汇作为所述待匹配词 汇。
4. 根据权利要求1所述的语句匹配方法,其特征在于,在将所述相似度最高的所述待 匹配词汇作为所述基准词汇的匹配词汇之后,所述语句匹配方法还包括: 依次获取所述第一语句中每个所述基准词汇与所述待匹配词汇的最大相似度; 对所述第一语句中每个所述基准词汇的最大相似度求和,得到所述第一语句词汇相似 度; 依次获取所述第二语句中每个所述对比词汇与所述基准词汇的最大相似度; 对所述第二语句中每个所述对比词汇的最大相似度求和,得到所述第二语句词汇相似 度;以及 将所述第一语句的词汇相似度的算术平均值和所述第二语句的词汇相似度的算术平 均值的平均值作为所述第一语句和所述第二语句的相似度。
5. 根据权利要求1所述的语句匹配方法,其特征在于,根据第一语句的基准词汇查找 第二语句的对比词汇包括: 将所述第一语句和所述第二语句均分解为多个词汇元素; 分别获取所述第一语句的词汇元素和所述第二语句的词汇元素的序号;以及 在所述第二语句中查找与所述多个词汇元素中的基准词汇的序号相同的词汇作为所 述对比词汇。
6. -种语句匹配装置,其特征在于,包括: 查找单元,用于根据第一语句的基准词汇查找第二语句的对比词汇,其中,所述对比词 汇在所述第二语句中的序号与所述基准词汇在所述第一语句中的序号相同; 划分单元,用于以所述对比词汇为中心在所述第二语句中划分待匹配词汇,其中,所述 待匹配词汇为多个与所述基准词汇进行匹配的词汇; 对比单元,用于对所述基准词汇和所述待匹配词汇进行一一对比,得到所述基准词汇 和所述待匹配词汇的相似度;以及 确定单元,用于将所述相似度最大的所述待匹配词汇作为与所述基准词汇匹配的词 汇。
7. 根据权利要求6所述的语句匹配装置,其特征在于,所述划分单元包括: 搜索模块,用于按照预先设置的搜寻窗口的宽度在所述第二语句中搜索所述待匹配词 汇,其中,所述搜寻窗口的宽度为预设词汇个数;以及 第一确定模块,用于将所述对比词汇两侧的处于所述搜寻窗口内的所述第二语句中的 词汇作为所述待匹配词汇。
8. 根据权利要求7所述的语句匹配装置,其特征在于,所述确定模块包括: 确定子模块,用于当所述对比词汇是所述第二语句中的首个词汇或者是所述第二语句 中的最后一个词汇时,取所述对比词汇一侧的处于所述搜寻窗口内的所述第二语句中的词 汇作为所述待匹配词汇, 其中,当所述对比词汇是所述第二语句中的首个词汇时,取所述对比词汇句尾方向的 处于所述搜寻窗口内的词汇作为所述待匹配词汇,当所述对比词汇是所述第二语句中的最 后一个词汇时,取所述对比词汇句首方向的处于所述搜寻窗口内的词汇作为所述待匹配词 汇。
9. 根据权利要求6所述的语句匹配装置,其特征在于,所述语句匹配装置还包括: 第一获取单元,用于在将所述相似度最高的所述待匹配词汇作为所述基准词汇的匹配 词汇之后,依次获取所述第一语句中每个所述基准词汇与所述待匹配词汇的最大相似度; 第一求和单元,用于对所述第一语句中每个所述基准词汇的最大相似度求和,得到所 述第一语句词汇相似度; 第二获取单元,用于依次获取所述第二语句中每个所述对比词汇与所述基准词汇的最 大相似度; 第二求和单元,用于对所述第二语句中每个所述对比词汇的最大相似度求和,得到所 述第二语句词汇相似度;以及 第三求和单元,用于将所述第一语句的词汇相似度的算术平均值和所述第二语句的词 汇相似度的算术平均值的平均值作为所述第一语句和所述第二语句的相似度。
10. 根据权利要求6所述的语句匹配装置,其特征在于,所述查找单元包括: 分解模块,用于将所述第一语句和所述第二语句均分解为多个词汇元素; 序号模块,用于分别获取所述第一语句的词汇元素和所述第二语句的词汇元素的序 号;以及 第二确定模块,用于在所述第二语句中查找与所述多个词汇元素中的基准词汇的序号
【文档编号】G06F17/30GK104123389SQ201410386820
【公开日】2014年10月29日 申请日期:2014年8月7日 优先权日:2014年8月7日
【发明者】焦扬, 高立琦, 陈儒 申请人:北京微众文化传媒有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1