文本匹配方法、装置、电子设备以及存储介质与流程

文档序号:22931310发布日期:2020-11-13 16:30阅读:来源:国知局

技术特征:

1.一种文本匹配方法,其特征在于,包括:

获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;

对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;

根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;

融合各匹配类型下所述候选词与目标参考词之间的匹配度;

根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。

2.根据权利要求1所述的方法,其特征在于,所述根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:

根据所述候选词与参考词之间的语义关联关系,确定每个参考词对应的目标匹配类型;

基于确定的目标匹配类型,计算所述候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词;

根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度。

3.根据权利要求2所述的方法,其特征在于,所述基于确定的目标匹配类型,计算所述候选词与至少一个参考词在确定的目标匹配类型的编辑距离,并将编辑距离最小的参考词确定为目标参考词,包括:

计算所述候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词;

计算所述候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;

计算所述候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词。

4.根据权利要求3所述的方法,其特征在于,所述计算所述候选词与至少一个参考词在同义词匹配类型下的第一编辑距离,并将第一编辑距离最小的参考词确定为第一目标参考词,包括:

在所述参考词典中选择同义词簇集合,所述同义词簇集合包括多个同义词簇,每个同义词簇中包含至少两个词义相同的参考词;

确定与所述候选词的语义相同的同义词簇,得到目标同义词簇;

计算所述候选词与目标同义词簇中每个参考词之间的第一编辑距离,并将第一编辑距离最小的参考词确定第一目标参考词;

所述根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:根据所述候选词与第一目标参考词之间的第一编辑距离,生成所述候选词与第一目标参考词之间的第一匹配度。

5.根据权利要求3所述的方法,其特征在于,所述计算所述候选词与至少一个参考词在上位词匹配类型下的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词,包括:

根据所述候选词的语义以及每个参考词的语义,确定所述候选词与至少一个参考词之间的上下位关系;

基于确定的上下位关系,计算所述候选词与对应的上位参考词之间的第二编辑距离,并将第二编辑距离最小的参考词确定为第二目标参考词;

所述根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:根据所述候选词与第二目标参考词之间的第二编辑距离,生成所述候选词与第二目标参考词之间的第二匹配度。

6.根据权利要求3所述的方法,其特征在于,所述计算所述候选词与至少一个参考词在权重词匹配类型下的第三编辑距离,并将第三编辑距离最小的参考词确定为第三目标参考词,包括:

采集每个参考词预先建立的权重值;

计算所述候选词与每个参考词之间的相似度,并将相似度大于预设值的参考词确定为待选词;

根据确定的待选词的权重,计算所述候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词;

所述根据所述候选词与目标参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度,包括:根据所述候选词与第三目标参考词之间的第三编辑距离,生成所述候选词与第三目标参考词之间的第三匹配度。

7.根据权利要求6所述的方法,其特征在于,所述根据确定的待选词的权重,计算所述候选词与确定的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词,包括:

计算所述候选词与权重小于预设权重的待选词的第三编辑距离,并将第三编辑距离最小的待选词确定为第三目标参考词。

8.根据权利要求1至7任一项所述的方法,其特征在于,所述融合各匹配类型下所述候选词与目标参考词之间的匹配度,包括:

获取各匹配类型对应的预设权重系数;

计算获取的权重系数与对应匹配类型下所述候选词与目标参考词之间的匹配度的乘积,得到各匹配类型对应的赋权后匹配度;

融合各匹配类型对应的赋权后匹配度。

9.根据权利要求1至7任一项所述的方法,其特征在于,所述对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词,包括:

识别每个文本单字的词性;

去除词性为助词的文本单字,并对保留的文本单字进行排列组合,得到与至少一个参考词语义关联的候选词。

10.一种文本匹配装置,其特征在于,包括:

获取模块,用于获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;

组合模块,用于对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;

生成模块,用于根据所述候选词与参考词在至少一个匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;

融合模块,用于融合各匹配类型下所述候选词与目标参考词之间的匹配度;

输出模块,用于根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本。

11.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1-9任一项所述文本匹配方法的步骤。

12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-9任一项所述文本匹配方法的步骤。


技术总结
本申请公开了一种文本匹配方法、装置、电子设备以及存储介质,包括:获取包含多个文本单字的待匹配文本以及所述待匹配文本对应的参考词典,所述参考词典为所述待匹配文本的内容所属领域的词典,其中,所述参考词典包括至少一个参考词;对多个文本单字进行组合,得到与至少一个参考词语义关联的候选词;根据所述候选词与至少一个参考词在目标匹配类型下的编辑距离,生成所述候选词与目标参考词之间的匹配度;融合各匹配类型下所述候选词与目标参考词之间的匹配度;根据融合结果从预设参考文本库中选择与所述待匹配文本匹配的参考文本,并输出所述参考文本,该方案可以提高文本匹配的准确性。

技术研发人员:陈曦;向玥佳;刘博;林镇溪;文瑞;管冲;孙继超;高文龙;张子恒;许祈馨;徐超;杨奕凡
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2020.09.29
技术公布日:2020.11.13
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1