一种用于短文本语义相似度计算的方法

文档序号：6552455阅读：334来源：国知局

一种用于短文本语义相似度计算的方法
【专利摘要】本发明提供了一种用于短文本语义相似度计算的方法，该用于短文本语义相似度计算的方法包括以下步骤：1)提取短文本的特征；2)将提取的短文本的特征进行匹配，计算出短文本语义相似度。本发明的有益效果为：本发明提供的方法充分考虑了语义模糊性问题以及文本中词语的权重，能够准确的把握文本关键词的效果。
【专利说明】-种用于短文本语义相似度计算的方法

【技术领域】
[0001] 本发明涉及文本挖掘【技术领域】，尤其是涉及一种用于短文本语义相似度计算的方法。

【背景技术】
[0002] 不同年龄段、不同职业背景的人们，每天在微博上就国内外新闻、影视娱乐和个人生活等等话题进行评论或分享。目前，对于微博话题的归类，完全依赖于用户手工在微博内容中使用" # "符号添加话题标签，对于共同话题的归类使用的是最简单的字符串匹配方法。在这种场景下，任何两个不能完全匹配的字符串都会被当作是不同的话题。例如，"去旅游" 和"去旅行"这两个具有相同语义的话题标签，就会因为字符串无法匹配而被当作是不同的话题。再或者，假如用户没有为微博内容添加话题标签，那么这条微博就成了孤立内容，除了被粉丝评论和转发，用户得不到任何其它关于所发表内容的话题的反馈。
[0003] 基于相似词语的文本相似度计算方法则利用WordNet、知网等本体论或语义词典，完成对两个文本中词语之间的相似度计算，在此基础上再通过某种计算公式得到文本之间的相似度。这种方法充分考虑了语义模糊性问题，但是却忽略了文本中词语的权重，对文本关键词的把握效果不好。

【发明内容】

[0004] 本发明的目的是为了克服现有技术的不足，提供了一种高精度环保用于短文本语义相似度计算的方法笔头。
[0005] 本发明是通过以上技术方案实现：
[0006] 本发明提供了一种用于短文本语义相似度计算的方法，该用于短文本语义相似度计算的方法包括以下步骤：
[0007] 1)提取短文本的特征；
[0008] 2)将提取的短文本的特征进行匹配，计算出短文本语义相似度。
[0009] 优选的，所述提取短文本的特征具体包括以下步骤：
[0010] 将短文本中的中文分词；
[0011] 在中文分词后的短文本中选择文本特征；
[0012] 对选择的文本特征进行权值计算。
[0013] 优选的，所述将短文本中的中文分词具体为：通过分词算法对短文本进行分词。
[0014] 优选的，所述在中文分词后的短文本中选择文本特征具体为：根据设定的规则从特征集中选择部分最有效的特征，形成文本特征向量。
[0015] 优选的，所述对选择的文本特征进行权值计算具体为：将文本特征向量转化成数学模型。
[0016] 优选的，所述将文本特征向量转化成数学模型具体为：
[0017] 首先使用TF-IDF加权方法，利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度，步骤如下：
[0018] a)计算词在该文件中出现的频次、词频TF，具体公式如下：
[0019]

【权利要求】
1. 一种用于短文本语义相似度计算的方法，其特征在于，包括以下步骤： 1) 提取短文本的特征； 2) 将提取的短文本的特征进行匹配，计算出短文本语义相似度。
2. 根据权利要求1所述的用于短文本语义相似度计算的方法，其特征在于，所述提取短文本的特征具体包括以下步骤：将短文本中的中文分词；在中文分词后的短文本中选择文本特征；对选择的文本特征进行权值计算。
3. 根据权利要求2所述的用于短文本语义相似度计算的方法，其特征在于，所述将短文本中的中文分词具体为：通过分词算法对短文本进行分词。
4. 根据权利要求3所述的用于短文本语义相似度计算的方法，其特征在于，所述在中文分词后的短文本中选择文本特征具体为：根据设定的规则从特征集中选择部分最有效的特征，形成文本特征向量。
5. 根据权利要求4所述的用于短文本语义相似度计算的方法，其特征在于，所述对选择的文本特征进行权值计算具体为：将文本特征向量转化成数学模型。
6. 根据权利要求5所述的用于短文本语义相似度计算的方法，其特征在于，所述将文本特征向量转化成数学模型具体为：首先使用TF-IDF加权方法，利用统计的方法评估某个字词对于文本数据集中某份特定文件的重要程度，步骤如下： a) 计算词在该文件中出现的频次、词频TF，具体公式如下：
其中，nt,d表示词t在文件d中的出现次数，分母表示该文件中所有词的出现次数的总和； b) 计算逆向文件频率IDF，具体公式如下：
其中，N为文档库D中的文件数量，分母表示文档库D中包含有词t的文件的数量； c) 计算词语t对于文档库D中特定文件d的重要性TF-IDF，公式如下： w = tfidf (t, d, D) = tf (t, d) X idf (t, D)；对于一个输入的短文本，经过上述步骤处理后，将得到一个文本向量T及其对应的权重向量W，其中， T = {tp t2, · · · , tj ff = {Wj, w2? . . . ? wm} 〇
7. 根据权利要求1?6任一项所述的用于短文本语义相似度计算的方法，其特征在于，所述将提取的短文本的特征进行匹配，计算出短文本语义相似度具体以下步骤： 1) 词汇语义相似度计算； 2) 词汇相似度矩阵； 3) 短文本高相似词向量； 4) 文本向量相似度计算。
8. 根据权利要求7所述的用于短文本语义相似度计算的方法，其特征在于，所述词汇语义相似度计算具体为：利用相似度计算方法计算两个关键词之间的相似度，然后，把两个关键词之间的相似度问题归结为两个概念语义表达式之间的相似度问题，最后得到两个词汇的语义相似度。
9. 根据权利要求8所述的用于短文本语义相似度计算的方法，其特征在于，所述步骤 2) 中词汇相似度矩阵，具体方法为对两个文本向量中的每个词分别计算它们之间的语义相似度，得到相似度矩阵。
10. 根据权利要求9所述的用于短文本语义相似度计算的方法，其特征在于，其中步骤 3) 短文本高相似词向量，基于步骤2)中得到的相似度矩阵，获取高相似词向量；具体步骤如下：首先遍历矩阵，取出相似度最大的词语组合，然后将其所属行和列从矩阵中删除，依次取余下矩阵中相似度最大的组合，直到矩阵为空，最后得到由k对相似度最高的词语组合构成的向量，其中，k为自然数；其中步骤4)文本向量相似度计算，结合了向量空间模型和词汇语义相似度模型来计算文本的相似度，具体步骤如下：首先，对于原文本向量中的部分词进行了重新排序，并找到了另一向量中与之最相似的对应词；然后，结合传统通过测量两个向量内积空间的夹角余弦值来度量的相似性方法。
【文档编号】G06F17/27GK104102626SQ201410319852
【公开日】2014年10月15日申请日期:2014年7月7日优先权日:2014年7月7日
【发明者】洪志令, 吴梅红申请人:厦门推特信息科技有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：洪志令;吴梅红
技术所有人：厦门推特信息科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。