一种短文本相似度计算方法及装置与流程

文档序号：12176971阅读：来源：国知局

技术特征：

1.一种短文本相似度计算方法，其特征在于，包括：

获取输入的第一文本串信息和第二文本串信息；

根据所述第一文本串信息和所述第二文本串信息，获取所述第一文本串与所述第二文本串的字重合信息、词重合信息、次序信息和语义信息；

对所述第一文本串与所述第二文本串的字重合信息、词重合信息、次序信息和语义信息进行加权，得到所述第一文本串与所述第二文本串的相似度。

2.根据权利要求1所述的短文本相似度计算方法，其特征在于，所述根据所述第一文本串信息和所述第二文本串信息，获取所述第一文本串与所述第二文本串的字重合信息、词重合信息、次序信息和语义信息包括：

根据所述第一文本串信息和所述第二文本串信息，计算所述第一文本串与所述第二文本串字级别的重合分数、词级别的重合分数、次序分数和语义分数。

3.根据权利要求1至2任一项所述的短文本相似度计算方法，其特征在于，在计算所述词级别的重合分数之前，还包括：

去除停用词，利用分词算法对所述第一文本串和所述第二文本串进行分词。

4.根据权利要求2所述的短文本相似度计算方法，其特征在于，所述计算所述第一文本串与所述第二文本串的次序分数包括：

计算所述第一文本串和所述第二文本串的编辑距离，得到所述第一文本串与所述第二文本串的次序分数。

5.根据权利要求2所述的短文本相似度计算方法，其特征在于，在计算所述第一文本串与所述第二文本串的语义分数之前，还包括：训练获取词向量模型。

6.根据权利要求1所述的短文本相似度计算方法，其特征在于，对所述第一文本串与所述第二文本串的字重合信息、词重合信息、次序信息和语义信息进行加权，得到所述第一文本串与所述第二文本串的相似度包括：

分别根据各字重合信息、词重合信息、次序信息和语义信息对应的预设权重，将所述第一文本串与所述第二文本串的字重合信息、词重合信息、次序信息和语义信息进行加权运算，得到所述第一文本串与所述第二文本串的相似度；或者

通过机器学习方式学习各字重合信息、词重合信息、次序信息和语义信息对应的权重，并根据学习得到的对应的权重将所述第一文本串与所述第二文本串的字重合信息、词重合信息、次序信息和语义信息进行加权运算，得到所述第一文本串与所述第二文本串的相似度。

7.一种短文本相似度计算装置，其特征在于，包括：

获取单元，用于获取输入的第一文本串信息和第二文本串信息；

计算单元，与所述获取单元相连，用于根据所述第一文本串信息和所述第二文本串信息，获取所述第一文本串与所述第二文本串的字重合信息、词重合信息、次序信息和语义信息；

加权单元，与所述计算单元相连，用于对所述第一文本串与所述第二文本串的字重合信息、词重合信息、次序信息和语义信息进行加权，得到所述第一文本串与所述第二文本串的相似度。

8.根据权利要求7所述的短文本相似度计算装置，其特征在于，所述计算单元具体用于根据所述第一文本串信息和所述第二文本串信息，计算所述第一文本串与所述第二文本串字级别的重合分数、词级别的重合分数、次序分数和语义分数。

9.根据权利要求7至8任一项所述的短文本相似度计算装置，其特征在于，还包括：

分词单元，与所述获取单元和所述计算单元相连，用于在计算所述词级别的重合分数之前，去除停用词，利用分词算法对所述第一文本串和所述第二文本串进行分词。

10.根据权利要求8所述的短文本相似度计算装置，其特征在于，还包括：次序分数计算单元，与所述获取单元和所述计算单元相连，用于计算所述第一文本串和所述第二文本串的编辑距离，得到所述第一文本串与所述第二文本串的次序分数。

11.根据权利要求8所述的短文本相似度计算装置，其特征在于，还包括：词向量模型获取单元，与所述获取单元和所述计算单元相连，用于在计算所述第一文本串与所述第二文本串的语义分数之前，训练获取词向量模型。

12.根据权利要求7所述的短文本相似度计算装置，其特征在于，所述加权单元还用于，分别根据各字重合信息、词重合信息、次序信息和语义信息对应的预设权重，将所述第一文本串与所述第二文本串的字重合信息、词重合信息、次序信息和语义信息进行加权运算，得到所述第一文本串与所述第二文本串的相似度；或者，通过机器学习方式学习各字重合信息、词重合信息、次序信息和语义信息对应的权重，并根据学习得到的对应的权重将所述第一文本串与所述第二文本串的字重合信息、词重合信息、次序信息和语义信息进行加权运算，得到所述第一文本串与所述第二文本串的相似度。

完整全部详细技术资料下载

当前第2页1 2 3