一种基于中文分词的文本相似性识别方法及装置与流程

文档序号:11293472阅读:来源:国知局
技术总结
本发明实施例公开了一种基于中文分词的文本相似性识别方法,其特征在于,该方法包括:对给定编码格式的文本中不能识别的字符以及无意义字符进行过滤,得到预处理文本;按照预设的分词模式对所述预处理文本进行分词;按照预设的策略从所述分词得到的单词中选择特征词;对选择的特征词进行排序得到特征字符串,并根据所述特征字符串计算文本的特征值;通过比较文本的特征值,确定文本之间的相似性。本发明还公开了一种基于中文分词的文本相似性识别装置,该方法及装置可以降低识别复杂度,提高识别效率,同时达到较高的识别正确率。

技术研发人员:万波;曹训志;谢志远;陈盛荣;刘锐强
受保护的技术使用者:深圳市腾讯计算机系统有限公司
文档号码:201210033600
技术研发日:2012.02.15
技术公布日:2017.09.08

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1