一种突发话题检测系统及方法与流程

文档序号:20188140发布日期:2020-03-27 19:22阅读:604来源:国知局
一种突发话题检测系统及方法与流程

本发明属于数据处理领域,尤其涉及一种突发话题检测系统及方法。



背景技术:

当今计算机和网络技术技术发展十分迅速,互联网上有着许多的文本数据,例如微博的博文、各个新闻网站的文章等,这些文本数据中可能存在一些突发的话题。突发话题在互联网上的传播速度非常迅速,能够产生巨大的影响力,因此对突发话题进行检测是十分重要的。突发话题的检测是可以人工进行的,但是一方面工作量过于庞大,另一方面无法实时处理新的文本数据。



技术实现要素:

本发明的目的在于,针对现有技术的不足,提出一种突发话题检测系统及方法,能够从批量输入的新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度。

一种突发话题检测方法,包括:

文本数据输入:读取需要进行突发话题检测的文本数据文件。

文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector或bert向量方式进行词嵌入。

话题检测及话题突发性评估,采用lad模型算法进行话题检测;采用kleinberg模型算法进行突发性评估。文本样本在完成lda模型训练后,就可以得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。kleinberg模型算法是在lda模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。

突发话题检测结果输出,输出一批文本文档中排名前5的话题。

一种突发话题检测系统,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块和突发话题检测结果输出模块;文本数据输入模块用于读取需要进行突发话题检测的文本数据文件;文本数据预处理模块用于对加载的文本数据进行预处理;突发话题检测算法模块用于计算文本数据的突发性;突发话题检测结果输出模块用于突发话题检测结果输出。

文本数据预处理模块包括word2vector处理模块和bert处理模块。

突发话题检测算法模块包括lad算法模块和kleinberg算法模块;lad算法模块用于话题检测,kleinberg算法模块用于突发性评估。

突发话题检测结果输出模块可以输出一批文本文档中排名前5的话题。

本系统还包括出错处理模块,用于显示出错信息,包括出错时间、出错等级、出错原因和出错地点。并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。

本发明的有益效果:能够从批量输入的中、英文新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的。

附图说明

图1是本发明方法流程图。

图2是web服务系统架构图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图说明本发明的具体实施方式。

一种突发话题检测方法,包括:

文本数据输入:读取需要进行突发话题检测的文本数据文件。

文本数据预处理,包括分词和去除停用词;如果是英文文档,则没有分词步骤;采用word2vector向量方式进行词嵌入。直接计算去除停用词后的文档的向量,具体方式是文档的向量由句子向量叠加后求平均,句子向量由词向量叠加后求平均。

突发话题检测计算分析,采用lad模型算法进行话题检测;采用kleinberg模型算法进行突发性评估。文本样本在完成lda模型训练后,就可以得到一个文档在主题空间的一个向量表示,通过计算该向量与之前其他文本在主题空间的向量表示之间的距离,可以判断该文本样本是否属于新的话题。kleinberg模型算法是在lda模型算法基础上,将一定时间片内出现的话题文档组成一个序列,然后对这个序列进行处理,得到一个新的话题状态序列,通过这个话题状态序列来判断该话题是否属于突发话题。

突发话题检测结果输出,输出一批文本文档中排名前5的话题,该排名来自于kleinberg模型算法内部对话题计算后得出的一个话题状态序列,该序列的先后次序排名作为话题热度的排名。

一种突发话题检测系统,包括文本数据输入模块、文本数据预处理模块、突发话题检测算法模块和突发话题检测结果输出模块;文本数据输入模块用于读取需要进行突发话题检测的文本数据文件;文本数据预处理模块用于对加载的文本数据进行预处理;突发话题检测算法模块用于计算文本数据的突发性;突发话题检测结果输出模块用于突发话题检测结果输出。

文本数据预处理模块包括word2vector处理模块和bert处理模块。

突发话题检测算法模块包括lad算法模块和kleinberg算法模块;lad算法模块用于话题检测,kleinberg算法模块用于突发性评估。

突发话题检测结果输出模块可以输出一批文本文档中排名前5的话题。

本系统还包括出错处理模块,用于显示出错信息,包括出错时间、出错等级、出错原因和出错地点。并在出现文本数据集合过大,造成内存溢出时,系统内部数据全部回滚到出错前状态。内部已经默认打开了日志功能,有日志模块管理日志,日志文件存放在与本工具相同的根目录下。

本发明能够从批量输入的中、英文新闻报道或社交媒体文本信息中,检测出突发话题,并评估其突发性程度,能够观察到事件是何时发生的,何时突然爆发,何时衰退的。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1