一种基于中文分词的文本相似性识别方法及装置与流程

文档序号：11293472阅读：来源：国知局

技术总结
本发明实施例公开了一种基于中文分词的文本相似性识别方法，其特征在于，该方法包括：对给定编码格式的文本中不能识别的字符以及无意义字符进行过滤，得到预处理文本；按照预设的分词模式对所述预处理文本进行分词；按照预设的策略从所述分词得到的单词中选择特征词；对选择的特征词进行排序得到特征字符串，并根据所述特征字符串计算文本的特征值；通过比较文本的特征值，确定文本之间的相似性。本发明还公开了一种基于中文分词的文本相似性识别装置，该方法及装置可以降低识别复杂度，提高识别效率，同时达到较高的识别正确率。

技术研发人员：万波;曹训志;谢志远;陈盛荣;刘锐强
受保护的技术使用者：深圳市腾讯计算机系统有限公司
文档号码：201210033600
技术研发日：2012.02.15
技术公布日：2017.09.08