一种快速的新闻事件聚类系统及方法与流程

文档序号:11230621阅读:来源:国知局

技术特征:

技术总结
本发明公开了一种快速的新闻事件聚类系统及方法包括:新闻抓取模块:用于从新闻门户、论坛及微博上抓取新闻文档,其中包括对文本进行初步去重处理;新闻文本初步处理模块:用于对文本进行初步文本特征处理,包括分词、去停用词、对否定式短语进行额外标注;新闻文本事件类聚模块:新闻文本时间聚类模块,包括对分词进行排列组合、将文档d映射到第一层聚类、计算文档d与子聚类的距离、判定文档d所属的聚类、创建新的子聚类;数据存储模块:存储计算后的结果。本发明在面对大量舆情场景下,可以进行快速类聚新闻事件。

技术研发人员:余军;卢品吟;刘盾;张汨
受保护的技术使用者:成都华栖云科技有限公司
技术研发日:2017.05.04
技术公布日:2017.09.08
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1