文本相似度确定方法、装置、电子设备及存储介质与流程

文档序号:34802279发布日期:2023-07-18 19:11阅读:30来源:国知局
文本相似度确定方法、装置、电子设备及存储介质与流程

本申请涉及自然语言处理,尤其涉及一种文本相似度确定方法、装置、电子设备及存储介质。


背景技术:

1、文本相似度主要用来研究两条文本相似程度,是自然语言处理中的一项基础性的工作,在信息检索、文档摘要等有着广泛的应用。

2、相关技术中,余弦相似度是一种常用的计算文本相似度方法,通过计算两个向量夹角的余弦值来衡量文本的相似度,然而它没有考虑词序对文本之间相似度计算的影响,导致所计算的文本相似度准确度不高。


技术实现思路

1、本申请的实施例提供了一种文本相似度确定方法、装置、电子设备及存储介质,以解决相关技术在计算文本相似度时不考虑词序而导致的计算准确度不高的技术问题。

2、第一方面,本申请的实施例提供了一种文本相似度确定方法,包括:获取第一文本和第二文本;分别对所述第一文本和所述第二文本进行预处理,获得所述第一文本对应的第一分词序列及所述第二文本对应的第二分词序列;提取所述第一分词序列和所述第二分词序列的共现词和非共现词,并基于共现词和非共现词的数量确定第一权重系数和第二权重系数;确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度,确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度;根据所述第一权重系数和所述词序相似度,及所述第二权重系数和所述语义相似度,确定所述第一文本和所述第二文本的文本相似度。

3、在一些实施例中,所述确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度,包括:根据所述共现词在第一分词序列中的词序,确定所述共现词在第二分词序列中映射的位置向量,获得共现词位置向量序列;确定所述共现词位置向量序列对应的第一逆序数,并确定所述共现词位置向量序列在完全逆序情况下的第二逆序数;根据所述第一逆序数和所述第二逆序数的比值,确定所述词序相似度;根据所述第一逆序数和所述第二逆序数的比值,确定所述词序相似度。

4、在一些实施例中,所述共现词对应的词序相似度的计算公式如下:

5、

6、其中,m表示所述第一文本,s表示所述第二文本,siminverse(m,s)表示所述共现词对应的词序相似度,vp表示所述共现词位置向量序列,inversenumber表示所述第一逆序数,maxinversenumber表示所述第二逆序数,n表示所述共现词位置向量序列的长度。

7、在一些实施例中,所述确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度,包括:确定所述第一分词序列对应的第一非共现词序列,确定所述第二分词序列对应的第二非共现词序列;针对所述第一非共现词序列中的每个第一非共现词的词向量,计算与所述第二非共现词序列中各第二非共现词的词向量之间的最大相似度值,构成最大相似度值集合;确定所述最大相似度值集合中大于预设阈值的目标相似度值,并将所述目标相似度值之和与所述最大相似度值集合中的所有相似度值之和的比值,确定为所述语义相似度。

8、在一些实施例中,所述非共现词对应的语义相似度的计算公式如下:

9、

10、其中,m′表示所述第一非共现词序列,s′表示所述第二非共现词序列,表示m′中第i个第一非共现词的词向量对应的最大相似度值,α表示所述预设阈值。

11、在一些实施例中,所述基于共现词和非共现词的数量确定第一权重系数和第二权重系数,包括:确定共现词数量,并确定共现词和非共现词的总数量;根据所述共现词数量与所述总数量的比值确定所述第一权重系数,并根据所述第一权重系数确定第二权重系数。

12、在一些实施例中,所述文本相似度的计算公式如下:

13、sim(m,s)=jaccard(m,s)*siminverse(m,s)+(1-jaccard(m,s))*simc(m',s')

14、其中,m表示第一文本,s表示第二文本,m'表示第一非共现词序列,s'表示第二非共现词序列,sim(m,s)表示所述文本相似度,jaccard(m,s)表示所述第一权重系数,siminverse(m,s)表示所述共现词对应的词序相似度,simc(m',s')表示所述非共现词对应的语义相似度。

15、第二方面,本申请的实施例提供了一种文本相似度确定装置,包括预处理模块、第一确定模块、第二确定模块及第三确定模块;其中,所述预处理模块,用于获取第一文本和第二文本;分别对所述第一文本和所述第二文本进行预处理,获得所述第一文本对应的第一分词序列及所述第二文本对应的第二分词序列;所述第一确定模块,用于提取所述第一分词序列和所述第二分词序列的共现词和非共现词,并基于共现词和非共现词的数量确定第一权重系数和第二权重系数;所述第二确定模块,用于确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度,确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度;所述第三确定模块,用于根据所述第一权重系数和所述词序相似度,及所述第二权重系数和所述语义相似度,确定所述第一文本和所述第二文本的文本相似度。

16、第三方面,本申请的实施例提供一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面所述的文本相似度确定方法的步骤。

17、第四方面,本申请的实施例提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现第一方面所述的文本相似度确定方法的步骤。

18、本申请的实施例提供的文本相似度确定方法、装置、电子设备及存储介质,通过获取第一文本和第二文本;分别对所述第一文本和所述第二文本进行预处理,获得所述第一文本对应的第一分词序列及所述第二文本对应的第二分词序列;提取所述第一分词序列和所述第二分词序列的共现词和非共现词,并基于共现词和非共现词的数量确定第一权重系数和第二权重系数;确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度,确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度;根据所述第一权重系数和所述词序相似度,及所述第二权重系数和所述语义相似度,确定所述第一文本和所述第二文本的文本相似度;即本申请的实施例通过将文本词划分为共现词和非共现词,通过计算共现词的词序相似度和非共现词的语义相似度,两者加权融合获得文本相似度,在确定文本相似度时考虑了文本中的词序,提高了文本相似度的计算准确度。



技术特征:

1.一种文本相似度确定方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述确定所述第一分词序列和所述第二分词序列的共现词对应的词序相似度,包括:

3.根据权利要求2所述的方法,其特征在于,所述共现词对应的词序相似度的计算公式如下:

4.根据权利要求1所述的方法,其特征在于,所述确定所述第一分词序列和所述第二分词序列的非共现词对应的语义相似度,包括:

5.根据权利要求4所述的方法,其特征在于,所述非共现词对应的语义相似度的计算公式如下:

6.根据权利要求1-5任一项所述的方法,其特征在于,所述基于共现词和非共现词的数量确定第一权重系数和第二权重系数,包括:

7.根据权利要求6所述的方法,其特征在于,所述文本相似度的计算公式如下:

8.一种文本相似度确定装置,其特征在于,包括预处理模块、第一确定模块、第二确定模块及第三确定模块;

9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的文本相似度确定方法的步骤。


技术总结
本申请实施例涉及一种文本相似度确定方法、装置、电子设备及存储介质,通过对获取的第一文本和第二文本分别进行预处理,获得第一分词序列及第二分词序列;提取第一分词序列和第二分词序列的共现词和非共现词,并基于共现词和非共现词的数量确定第一权重系数和第二权重系数;确定第一分词序列和第二分词序列的共现词对应的词序相似度,确定第一分词序列和所述第二分词序列的非共现词对应的语义相似度;根据第一权重系数和词序相似度,及第二权重系数和语义相似度,确定文本相似度;即通过将文本词划分为共现词和非共现词,通过计算共现词词序对相似度的影响程度以及非共现词的语义相似度,两者加权融合获得文本相似度,提高了计算准确度。

技术研发人员:张鹏,张复生
受保护的技术使用者:陕西优百信息技术有限公司
技术研发日:
技术公布日:2024/1/13
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1