技术编号:6542466
提示:您尚未登录,请点 登 陆 后下载,如果您还没有账户请点 注 册 ,登陆完成后,请刷新本页查看技术详细信息。本发明“”,涉及文本分析领域。首先通过分析新闻报道在时间序列上表现出来的分布特征,并利用K-Means聚类算法,将语料库按时间划分成几个子语料库;然后利用主题模型依次对每个子语料库进行主题建模,通过Gibbs抽样的方法将模型学习出来,得到每个子语料的主题分布信息;最后通过计算相邻子语料库中两两主题之间的Jensen-Shannon距离,取距离最小的主题串联起来,被串联起来的主题便是该事件的主主题,每个子语料中除了主主题之外的辅助主题,便是该事件在各个阶段的...
注意:该技术已申请专利,请尊重研发人员的辛勤研发付出,在未取得专利权人授权前,仅供技术研究参考不得用于商业用途。
该专利适合技术人员进行技术研发参考,增加技术思路,做技术知识储备,不适合论文引用。
请注意,此类技术没有源代码,用于学习研究技术思路。