一种快速的新闻事件聚类系统及方法与流程

文档序号：11230621阅读：3168来源：国知局

本发明涉及新闻资讯领域，具体涉及一种快速的新闻事件聚类系统及方法。

背景技术：

随着互联网的快速发展，网络舆情对社会的影响力越来越大。不管是政府网络舆情监控的需要，还是企业在进行品牌传播及品牌公关的需要，如何在大量的舆情的条件下，快速地分析舆情的情感倾向，以及时地进行决策支持和舆情引导，响应快速变化的舆论环境，是舆情分析中迫切需要解决的问题。以往的情感分析，需要进行复杂的分析，在应对大量的舆情条件下，无法做到低延迟处理。

技术实现要素：

本发明的目的在于克服现有技术的不足，提供一种快速的新闻事件聚类系统及方法，在面对大量舆情场景下，进行快速类聚新闻事件。

本发明的目的是通过以下技术方案来实现的：

一种快速的新闻事件聚类系统，包括：

新闻抓取模块：用于从新闻门户、论坛及微博上抓取新闻文档，其中包括对文本进行初步去重处理；

新闻文本初步处理模块：用于对文本进行初步文本特征处理，包括分词、去停用词、对否定式短语进行额外标注；

新闻文本事件类聚模块：包括对分词进行排列组合、将文档d映射到第一层聚类、计算文档d与子聚类的距离、判定文档d所属的聚类、创建新的子聚类；

数据存储模块：存储计算后的结果。

一种快速的新闻事件聚类方法，包括以下步骤：

s01：抓取文本d，文档去重；

s02：抽取文本标题，对标题分词，只保留名词/动词性词语；

s03:对标题分词做排列组合，得到n个组合，每个组合将作为第一层聚类的key

s04:在每个聚类的大类，拿文本的分词结果与每个子聚类的质心做余弦距离计算，假设有m个子聚类，则产生m个结果；

s05：对产生的m×n个结果进行排序，取值最大的结果，假设为r，同时设定经验阈值g该经验阈值是[0.75,1]；

s06：如果r>=g，文本d归属于r所在的类

s07：如果r<g，创建新的子类，根据子聚类结果，计算每个大类的平均余弦距离，得到n个值，排序，取最大值，设最大值对应的大类为c，在c中创建以文档d为质心的子类。

进一步，所述的步骤s02中文本处理方式，具体包括抽取文本标题，进行分词，对分词进行词性过滤，只保留名词性和动词性分词。

进一步，所述的步骤s03所述的第一层聚类方法，具体包括将分词结果做排列组合，得到n个组合，每个组合按照单词排序，使用分隔符将单词拼接为字符串，所得字符串就是第一层聚类的key值，对于文本d而言，n个key对应的大类，都有可能是它所在的大类。

进一步，步骤s04所述的处理过程，具体包括：对于s3获得的n个key，检索得到n个聚类结果（第一层聚类结果），对于每个聚类结果，假设已有m个子聚类（第二层聚类），拿文档d的分词结果与每个子聚类的质心计算相似度，相似度的算法包括但不限于余弦距离算法，这一步将会输出m×n个结果值。

进一步，所述的步骤s05中，具体包括将m×n个结果输出，取最大的值作为候选结果，根据经验设定一个分类阈值，阈值的范围为[0.7,1]。

进一步，所述的步骤s06中聚类步骤，具体包括如果r>=g,则直接判断文档d归属于r所在的类，也就是说d属于r的类对应的事件。

进一步，所述的步骤s07中创建新的子类的过程，具体包括如果r>=g,使用s4产生的n×m个结果，计算n个聚类的平均余弦距离，得到n个平均值；针对这n个平均值进行排序，取最大值，对应的第一层聚类c就是文档所在的第一层聚类；在聚类c中，创建以文档d为质心的的子聚类。

本发明的有益效果是：通过本发明的方法可以对不同的新闻事件进行快速分类，使得新闻事件分布集中，方便阅读者有针对性的查找自己感兴趣的新闻。

附图说明

图1为本发明的系统结构示意图；

图2为本发明的方法流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，

一种快速的新闻事件聚类系统，包括：

新闻抓取模块：用于从新闻门户、论坛及微博上抓取新闻文档，其中包括对文本进行初步去重处理；

新闻文本初步处理模块：用于对文本进行初步文本特征处理，包括分词、去停用词、对否定式短语进行额外标注；

新闻文本事件类聚模块：新闻文本时间聚类模块，包括对分词进行排列组合、将文档d映射到第一层聚类、计算文档d与子聚类的距离、判定文档d所属的聚类、创建新的子聚类；

数据存储模块：存储计算后的结果。

如图2所示：

一种快速的新闻事件聚类方法，包括以下步骤：

s01：抓取文本d，文档去重；

s02：抽取文本标题，对标题分词，只保留名词/动词性词语；

s03:对标题分词做排列组合，得到n个组合，每个组合将作为第一层聚类的key

s04:在每个聚类的大类，拿文本的分词结果与每个子聚类的质心做余弦距离计算，假设有m个子聚类，则产生m个结果；

s05：对产生的m×n个结果进行排序，取值最大的结果，假设为r，同时设定经验阈值g该经验阈值是[0.75,1]；

s06：如果r>=g，文本d归属于r所在的类

s07：如果r<g，创建新的子类，根据子聚类结果，计算每个大类的平均余弦距离，得到n个值，排序，取最大值，设最大值对应的大类为c，在c中创建以文档d为质心的子类；

最后输出文档d所属的类。

进一步，所述的步骤s02中文本处理方式，具体包括抽取文本标题，进行分词，对分词进行词性过滤，只保留名词性和动词性分词。

进一步，所述的步骤s05中，具体包括将m×n个结果输出，取最大的值作为候选结果，根据经验设定一个分类阈值，阈值的范围为[0.7,1]。

进一步，所述的步骤s06中聚类步骤，具体包括如果r>=g,则直接判断文档d归属于r所在的类，也就是说d属于r的类对应的事件。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：余军;卢品吟;刘盾;张汨
技术所有人：成都华栖云科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。