1.一种文本相似度的计算方法,包括:
至少获取第一文本和第二文本;
将所述第一文本和第二文本映射为向量;
计算所述第一文本与所述第一文本的相似部分和差异部分;
利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。
2.根据权利要求1所述的文本相似度的计算方法,将所述第一文本和第二文本映射为向量,还包括:对所述第一文本和第二文本对应的向量进行降维处理。
3.根据权利要求2所述的文本相似度的计算方法,对所述第一文本和第二文本对应的向量进行降维处理,包括采用下述至少一种方法进行降维处理:词向量、句子向量、文章向量。
4.根据权利要求1所述的文本相似度的计算方法,其中计算所述第一文本与所述第二文本之间的相似部分和差异部分包括:
对所述第一文本与第二文本进行语义匹配;
对所述第一文本与第二文本进行语义分解,得到所述第一文本和第二文本的相似部分和差异部分。
5.根据权利要求4所述的文本相似度的计算方法,其中将所述第一文本与第二文本进行语义匹配,包括:
将第二文本中的词语对应的向量重构所述第一文本的词语对应的向量来判断语义覆盖的内容。
6.根据权利要求5所述的文本相似度的计算方法,通过下述公式将第二文本中的词语对应的向量重构所述第一文本的词语对应的向量计算语义覆盖:
求解αi,j,
其中Si为第一文本的列向量,Tj为第二文本的列向量,αi,j为语义覆盖参数,λ>0,为事先设定的正实数。
7.根据权利要求6所述的文本相似度的计算方法,其中,计算所述第一文本的相似部分和差异部分包括:
采用公式
计算相似部分和差异部分,其中Ai,j为αi,j的矩阵,Si’为所述第一文本的相似部分,Si-Si’为所述第一文本的差异部分。
8.根据权利要求6所述的文本相似度的计算方法,其中,计算所述第二文本的相似部分和差异部分包括:
采用公式
计算相似部分和差异部分,其中Ai,j为αi,j的矩阵,Tj’为所述第二文本的相似部分,Tj–Tj’为所述第二文本的差异部分。
9.根据权利要求6所述的文本相似度的计算方法,其中利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度包括:
输入所述第一文本和所述第二文本的相似部分和差异部分,利用循环神经网络得到所述第一文本和所述第二文本之间的相似度。
10.根据权利要求9所述的文本相似度的计算方法,用循环神经网络得到所述第一文本和所述第二文本之间的相似度,还包括利用样本数据对循环神经网络进行训练的步骤,所述训练数据的格式为(S,T,L),其中S表示第一文本,T表示第二文本,L表示相似度。
11.根据权利要求10所述的文本相似度的计算方法,利用样本数据对所述循环神经网络进行训练的步骤,还包括预先定义相似程度的粒度,并且将样本数据输入到所述循环神经网络,进行训练。
12.一种文本相似度计算系统,包括:
获取模块,被配置为至少获取第一文本和第二文本的输入;
映射模块,被配置为将所述第一文本和第二文本映射为向量;
文本相似度计算模块,被配置为计算所述第一文本与第二文本的相似部分和差异部分;利用所述相似部分和差异部分计算所述第一文本与所述第二文本之间的相似度。
13.如权利要求12所述的文本相似度计算系统,其中所述映射模块包括降维模块,被配置为对所述第一文本和第二文本对应的向量进行降维处理。
14.如权利要求12所述的文本相似度计算系统,其中所述文本相计算模块包括:
语义匹配模块,被配置为将所述第一文本与第二文本进行语义匹配;
语义分解模块,被配置为计算所述第一文本和第二文本的相似部分和差异部分;
相似度计算模块,被配置为使用所述相似部分和差异部分计算所述第一文本和第二文本的相似度。
15.根据权利要求12的文本相似度计算系统,其中所述语义匹配模块,被配置为通过第二文本中词语对应的向量重构所述第一文本词语对应的向量来判断语义覆盖的内容。
16.根据权利要求15的文本相似度计算系统,所述语义匹配模块被配置为执行下述公式
计算语义覆盖,
其中Si为第一文本的列向量,Tj为第二文本的列向量,αi,j为语义覆盖参数,λ>0,为事先设定的正实数。
17.根据权利要求15的文本相似度计算系统,所述语义分解模块被配置为执行下述公式获得所述第一文本的相似部分和差异部分、所述第二文本的相似部分和差异部分:
其中Ai,j为αi,j的矩阵,Si’为所述第一文本的相似部分,Si-Si’为所述第一文本的差异部分;
其中,Ai,j为αi,j的矩阵,Tj’为所述第二文本的相似部分,Tj–Tj’为所述第二文本的差异部分。
18.一种数据查询系统,包括如权利要求12-17中任一所述的文本相似度计算系统。
19.一种计算机产品,包括:
一个或多个处理器,所述处理器被配置为运行计算机指令以执行如权利要求1-11中任一项所述的方法的一个或多个步骤。
20.如权利要求19所述的计算机产品,还包括存储器,连接所述处理器,被配置为存储所述计算机指令。
21.一种计算机可读存储介质,被配置为存储计算机指令,所述计算机指令被处理器运行时执行如权利要求1-11中任一项所述方法的一个或多个步骤。