技术特征:
技术总结
本发明涉及一种基于假设检验的舆情主题数识别方法及系统。通过构建词项‑文本矩阵,对于网络海量文本,计算词频、逆文档频率,得到计算词项‑文本矩阵;计算词项‑文本矩阵的协方差矩阵和自相关矩阵,并求解其特征值;将舆情主题数求解问题转化为二元假设检验问题,当假设为真,则表明除了噪声外还有信号源作用于相关矩阵的特征值,也就是说还有其它舆情主题存在,主题数加1;根据此假设检验,求解得到舆情主题数。本方法能够解决目前对于网络舆情主题数目难以自动估计,需要人工调整的问题。
技术研发人员:安振宇;孙亭;李毅;丁杰;叶云;徐斌
受保护的技术使用者:中国电子科技集团公司第二十八研究所
技术研发日:2017.10.09
技术公布日:2018.04.24