基于统计学的文本特征词汇提取方法与流程

文档序号：11063477阅读：来源：国知局

技术总结
基于统计学的文本特征词汇提取方法，利用分词技术对文本分词处理，匹配停用词表对词汇进行去停用词操作，根据调研统计，得出一系列词汇位置和词性权重值，计算特征词汇集合在文本库中的期望和方差，综合上述所有因子，构造目标权重函数和设定一个合适的阈值对特征词汇降维，再根据语义相似度条件，合并相似度高的词汇，进而实现对特征词汇的再降维。本发明比传统文本特征词汇提取方法准确度更高，具有更好的应用价值，克服了信息增益方法的缺点，结果更符合经验值，解决了文本特征词汇高维稀疏的问题和同义词与多义词的问题，计算了不同词汇对文本思想的贡献度，为后续文本相似度与文本聚类提供良好的理论基础。

技术研发人员：金平艳
受保护的技术使用者：四川用联信息技术有限公司
文档号码：201610867415
技术研发日：2016.09.30
技术公布日：2017.05.03