基于统计学的文本特征词汇提取方法与流程

文档序号:11063477阅读:来源:国知局
技术总结
基于统计学的文本特征词汇提取方法,利用分词技术对文本分词处理,匹配停用词表对词汇进行去停用词操作,根据调研统计,得出一系列词汇位置和词性权重值,计算特征词汇集合在文本库中的期望和方差,综合上述所有因子,构造目标权重函数和设定一个合适的阈值对特征词汇降维,再根据语义相似度条件,合并相似度高的词汇,进而实现对特征词汇的再降维。本发明比传统文本特征词汇提取方法准确度更高,具有更好的应用价值,克服了信息增益方法的缺点,结果更符合经验值,解决了文本特征词汇高维稀疏的问题和同义词与多义词的问题,计算了不同词汇对文本思想的贡献度,为后续文本相似度与文本聚类提供良好的理论基础。

技术研发人员:金平艳
受保护的技术使用者:四川用联信息技术有限公司
文档号码:201610867415
技术研发日:2016.09.30
技术公布日:2017.05.03

当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1