突发事件话题状态的预测装置及预测方法

文档序号:6624138阅读:282来源:国知局
突发事件话题状态的预测装置及预测方法
【专利摘要】一种突发事件话题状态的预测装置及预测方法,是基于突发事件微博话题产生机理和意见领袖对突发事件话题状态影响力的研究而提出的,该预测装置设有文本获取单元、话题聚类单元、话题状态识别单元和话题状态预测单元共四个组件,通过意见领袖参与状态来预测话题状态,简化话题状态预测方法,有较高的预测精度,能够为监测突发事件话题趋势走向提供依据。本发明提出的话题关注度计算方式,降低了传统话题关注度的计算复杂度。并采用预测话题状态来代替话题关注度数值的预测,使得预测内容更合理,预测精度更高。还提出隐马尔科夫模型的预测方法,通过不断迭代,构建意见领袖集合和话题预测模型,能显著简化预测操作,提高预测效率。
【专利说明】突发事件话题状态的预测装置及预测方法

【技术领域】
[0001] 本发明涉及一种互联网的话题检测与跟踪TDT (Topic Detection and Tracking) 技术,确切地说,涉及一种突发事件话题状态的预测装置及预测方法,用于在解决突发事件 发生后,微博网络中话题状态的识别与跟踪,并通过意见领袖参与率的状态来预测突发事 件话题状态,建立预测模型,为监测突发事件话题趋势走向提供依据。属于互联网信息应用 的【技术领域】。

【背景技术】
[0002] 互联网的话题检测与跟踪TDT技术起源于早期面向事件的检测与跟踪EDT(Event Detection and Tracking)。TDT面向多语言文本和语言形式的新闻报道,主要从事报道边 界自动识别、锁定和收集突发性新闻话题、跟踪话题发展、以及跨语言检测与跟踪等相关任 务。不同于EDT,TDT检测与跟踪的对象从特定时间和地点发生的事件扩展为具备更多相关 性外延的话题,相应的理论与应用研究也同时从传统对于单事件的识别,跨越到包含突发 事件及其后续相关报道的话题检测与跟踪。
[0003] TDT涉及两类最主要的信息获取问题:信息的检测与集成,以及信息的采集与跟 踪。这两方面研究课题分别与目前的信息检索IR(Information Retrieval)和信息过滤 IF (Information Filtering)对应的问题非常相似。在IF系统中,用户通过定义静态的用 户需求(Profile),从动态变化的信息流中实时地获取相关知识,这种知识的获取方法侧重 于跟踪信息的时空进程,并将最新的相关信息反馈给用户。
[0004]美国国家标准技术研究院 NIST (National Institute of Standards and Technology)为TDT研究设立了五项基础性的研究任务,包括:面向新闻广播类报道的切 分,面向已知话题的跟踪,面向未知话题的检测,对未知话题首次相关报道的检测和报道间 相关性的检测共五项任务。其中,面向已知话题的跟踪任务主要是跟踪话题的后续报道。随 着TDT研究的深入,面向已知话题的跟踪任务已经不再满足于收集语料、进行分析,然后进 行跟踪。话题追踪(又称为话题演化),不仅包含对话题本身内容的演化与子话题的衍生 等,还包括了话题强度的演化。话题内容的演化,既包含传统话题跟踪TTT(Tranditional Topic Tracking),也包括自适应话题跟踪ATT (Adaptive Topic Tracking)。话题强度演化 主要是发现随着时间的推移,话题强度增大、减小等强度变化规律。这就演化出了一个新的 任务--话题预测,其目的是提前预知话题在下一个时刻,话题自身的变化情况,即话题热 度等;话题在空间上的变化情况,即影响范围大小,影响人数的多少。
[0005] 这几年来,突发事件话题预测技术已经从最初的网页内容话题预测,逐渐发展为 论坛和博客话题预测,近几年又有微博话题预测。这些话题预测主要围绕在话题属性方面, 如话题流行度、关注度或者话题热度的变化趋势等。预测方法主要是回归模型、时间序列模 型和马尔科夫模型。
[0006] 回归模型是借用回归公式,发现话题流行度等属性与话题转发、评论、引用等信息 的关系。通过具体数据,构造一个多元非线性回归模型。模型建立后,可用于对下一时刻的 话题流行度等属性进行预测。
[0007] 时间序列是在连续时间下,发现话题转发、评论、引用等信息的变化量,通过计算 前一段时间的变化速度和加速度,对话题下一时刻的话题流行度属性进行预测。
[0008] 马尔科夫模型是通过大量数据得到话题的状态值,以及话题中的一个状态到下一 个状态的迁移概率矩阵。当有当前状态时,就可以通过这个状态迁移矩阵找到下一个时刻 的话题状态。
[0009]《基于意见领袖参与行为的微博话题热度预测研究》(刊于《情报杂志》2013年12 期)定义了三个概念:话题意见领袖参与率、话题意见领袖微博转发率、话题意见领袖微博 评论率。然后,采用回归模型方法,利用这三个指标构造高阶多元回归公式,得到话题热度 公式,从而预测话题热度。
[0010] 《Towards Topic Trend Prediction on a Topic Evolution Model with Social Connection))(干丨J 于 2012 IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology)将话题的生命周期设置为初生、增长、 爆发、稳定、衰亡和消失共六个时期,采用潜在狄利克雷分配模型LDA (Latent Dirichlet Allocation)方法对话题进行聚类,并自定义用户贡献度的计算公式,通过用户贡献度计算 话题热度,最后通过时间序列法,计算出话题热度速度的变化值和多时刻变化平均值,以及 加速度的变化值和多时刻变化平均值,并设定阈值,然后预测话题属于某个时期,并预测下 一时刻状态。
[0011]《网络论坛热点话题的关注度预测》(刊于《计算机与数字工程》2013年05期)通 过点击数、评论数和话题下的主题数构造一个线性回归公式来计算话题关注度,统计话题 状态变化率,构造马尔科夫模型来预测话题关注度。
[0012] 对现有技术的TDT检测和追踪方法进行综合分析,并结合突发事件对现有话题演 化方法的优劣加以归纳和总结,发现仍然存在下述三个特点和缺陷:
[0013] (1)突发事件的话题流行度等信息变化没有规律,数据抖动大,只能在小范围内保 持平稳,因此,设定的其个回归模型、时间序列模型等都需要大量先验数据的预测方法,并 且,也不能很好地适应话题预测。
[0014] (2)不容易界定话题生命周期的分界点,因此根据话题的不同,无法用一个统一数 值来描述话题流行度等信息。
[0015] (3)意见领袖与话题强度演化有着密切关系。
[0016] 为此,国内外的业内科技人员不断地对上述三个关键点开展相应研究,企图找到 相应的解决方法。


【发明内容】

[0017] 有鉴于此,本发明的目的是基于突发事件微博话题产生原理,以及意见领袖对突 发事件话题状态影响力的研究,提供一种突发事件话题状态的预测装置及预测方法。本 发明提出一种话题状态的有效识别装置与方法,可以通过意见领袖参与状态来预测话题状 态,简化话题状态预测方法,有较高的预测精度,能够为监测突发事件话题趋势走向提供依 据。
[0018] 为了达到上述目的,本发明提供了一种突发事件话题状态的预测装置,其特征在 于:该装置设有下述四个组成部件:文本获取单元、话题聚类单元、话题状态识别单元和话 题状态预测单元;其中各个单元功能如下:
[0019] 文本获取单元,负责根据预设的突发事件的关键词,从微博系统中爬取与该突发 事件相关的微博内容和用户信息,所述微博包括:原创微博、转发微博和评论;爬取的微博 内容包括:微博文本、发博时间和发博人标识;用户信息包括:用户昵称、用户粉丝数、用户 关注数和用户发博数;设有五个组成模块:原创微博爬取模块、转发微博爬取模块、评论爬 取模块、用户信息爬取模块和微博数据库;
[0020] 话题聚类单元,负责选取微博数据库中的博文和评论内容进行聚类,找出突发事 件的话题,从中筛选出主题词后,根据该话题主题词的词频信息,挑选出流行话题,然后根 据话题的主题词将微博文本进行归类处理,最终将主题词信息和微博文本归类信息分别存 储于话题数据库和微博数据库中;设有:顺序连接的分词模块、聚类模块和相似度计算模 块以及话题数据库共四个组成模块;
[0021] 话题状态识别单元,负责根据话题聚类单元得到的话题和所标记的每个话题对应 的微博文本,通过自定义话题关注度计算公式,计算得到每个话题在不同时段的话题关注 度,再利用话题关注度得到每个话题状态,并将每个话题状态存储于话题状态数据库中;设 有顺序连接的话题关注度计算模块、话题状态识别模块和话题状态数据库共三个组成模 块;
[0022] 话题状态预测单元,负责识别突发事件中的意见领袖,并根据参与突发事件话题 讨论的意见领袖数量,计算意见领袖参与率;然后根据设定每个时段意见领袖参与率计算 意见领袖的参与状态,并将得到的意见领袖参与状态序列保存于预测模型数据库中;然后 通过训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模型进行评 估,将评估良好的模型保存于预测模型数据库中;设有顺序连接的意见领袖识别模块,意见 领袖参与率计算模块,话题状态预测模块和预测模型数据库共四个组成模块。
[0023] 为了达到上述目的,本发明还提供了一种突发事件话题状态的预测装置的预测方 法,其特征在于:根据突发事件中的微博话题产生机理,对微博中的原创微博、转发微博、评 论以及意见领袖影响力属性进行下述具体分析:该预测装置的话题状态识别单元根据原 创微博、转发微博和评论推导出话题关注度计算公式,计算设定话题关注度,以得到话题状 态;再在话题状态预测单元中,根据用户微博转发和评论数,利用自定义的意见领袖影响力 公式计算得到所有的意见领袖,再根据各话题计算出意见领袖参与率,计算得到意见领袖 参与状态;最后根据隐马尔科夫模型,预测突发事件中的话题状态;所述方法包括下列操 作步骤:
[0024] 步骤1,文本获取单元根据输入的突发事件的设定关键词,以微博搜索页为入口, 获取微博系统中与该突发事件相关的微博内容和用户信息,再将这些信息存入微博数据库 中;所述微博包括原创微博,转发微博和评论,爬取的微博内容包括微博文本、发博时间和 发博人信息;用户信息包括用户基本信息、用户粉丝信息、用户关注信息和用户微博信息;
[0025] 步骤2,话题聚类单元根据步骤1得到的所有微博和评论的文本,先对文本内容进 行分词,再使用LDA模型进行聚类,根据预设的话题数K,得到K个话题,且每个话题包含多 个关键词,从中选取词频最高的2?3个词作为该话题的主题词;最后使用余弦相似度公式 计算微博文本与话题的相似度,将微博进行归类;
[0026] 步骤3,话题状态识别单元根据步骤2得到的主题词和已标记的每个话题所归属 的微博文本,利用自定义的话题关注度计算公式,计算得到每个话题在不同时段的话题关 注度,通过话题关注度序列得到话题的状态序列,然后将话题状态序列存储在话题状态数 据库中;
[0027] 步骤4,话题状态预测单元先从微博数据库存储的全体用户中识别突发事件的意 见领袖,并根据步骤3中的时间段信息,寻找每个时段参与突发事件设定话题讨论的意见 领袖,并计算意见领袖参与率;再根据每个时段意见领袖参与率计算出意见领袖参与状态, 得到多个意见领袖的参与状态序列,将该多个意见领袖参与状态序列保存到预测模型数据 库中;最后通过训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模 型进行评估,将评估良好的模型保存到预测模型数据库中。
[0028] 本发明的创新技术是针对现有技术的三个关键问题开展研究,提出用隐马尔科夫 模型解决突发事件话题状态的预测与评估的装置和方法,解决了话题关注度定量描述和话 题状态预测问题,有较高的预测精度。具体体现在下述三点:
[0029] 首先,相较于传统的构造回归公式,本发明使用微博数量表示话题关注度,还对话 题关注度的计算方法作了改进:结合PageRank算法,提出微博贡献度的概念,计算每条微 博的贡献度,最终综合得出话题关注度。这种计算方法避免了传统回归公式的复杂计算,也 避免了回归公式的高阶运算和拟合度的问题。
[0030] 其次,本发明从传统预测话题关注度的数值转为预测话题状态。因传统的话题预 测通常都是计算话题关注度回归公式的各项系数,以得到话题关注度计算公式。虽然这种 公式大都为线性公式,预测结果也一般都是上升或下降。如果话题关注度数据抖动,则预测 精度就不高。然而突发事件的话题,话题关注度数据抖动性很大。然而本发明采用话题状 态预测,就不存在类似问题,使得话题状态序列可以得到更高的预测精度,提供给实际分析 的信息更加精准。
[0031] 最后,本发明创新使用隐马尔科夫模型,结合意见领袖参与状态来预测话题状态, 简化了话题状态的预测计算量,还构建话题状态预测模型库,为以后话题预测提供参考。因 为不同话题的微博变化比较大,如果采用传统步骤先计算话题关注度再得到话题状态,其 计算量很大。而意见领袖基本是一个静态集合,变化很小,可以构造意见领袖集合来加快意 见领袖参与率的计算。而且,意见领袖参与状态和话题状态关系密切,通过计算意见领袖参 与状态来预测话题状态,就可以减少预测过程中的计算量。并且构建话题状态预测模型库, 可以在新的话题到来后,快速尝试使用已有的模型进行预测,如此不断地迭代改进,减少发 现话题预测模型的步骤,提供更快速的预测方式。
[0032] 综上所述,本发明的优点是:本发明提出新的话题关注度计算方式,降低了传统话 题关注度的计算复杂性。并采用预测话题状态来代替话题关注度数值的预测,使得预测内 容更加合理,提高预测精度。提出隐马尔科夫模型的预测方法,通过不断迭代,构建意见领 袖集合和话题预测模型,能够显著简化预测操作步骤,提高预测效率。而且,本发明突发事 件话题状态预测装置和方法都通过实施例进行了实际系统的试验,对话题状态预测都有较 高的预测精度。

【专利附图】

【附图说明】
[0033] 图1是本发明突发事件话题状态的监测装置结构组成示意图。
[0034] 图2是本发明突发事件话题状态的预测装置预测方法总体流程图。
[0035] 图3(a)?(f)分别是本发明预测方法中意见领袖参与率状态与六个话题状态走 势的示意图。

【具体实施方式】
[0036] 为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步 的详细描述。
[0037] 参照图1,介绍本发明突发事件话题状态的预测装置的结构组成:设有文本获取 单元、话题聚类单元、话题状态识别单元和话题状态预测单元共四个组成部件;其中各个单 元功能说明如下:
[0038] (A)文本获取单元:负责根据预设的突发事件的关键词,从微博系统中爬取与该 突发事件相关的微博(包括原创微博、转发微博和评论)内容和用户信息。爬取的微博内 容包括:微博文本、发博时间和发博人标识;用户信息包括:用户昵称、用户粉丝数、用户关 注数和用户发博数;设有五个组成模块:原创微博爬取模块、转发微博爬取模块、评论爬取 模块、用户信息爬取模块和微博数据库。这五个组成模块功能如下:
[0039] 原创微博爬取模块,用于根据预设的突发事件的关键词,利用微博的搜索功能,获 取所有设定时段和/或设定地区的原创微博,并保存于微博数据库;存储的微博内容包括: 原创博文、发博时间、发博人标识、转发链接地址和评论的链接地址等信息。
[0040] 转发微博爬取模块,用于根据微博数据库中的原创微博的转发链接地址,逐个爬 取转发微博,并将获取的所有转发微博存储于微博数据库;存储内容包括:转发博文、转发 时间、转发用户标识、转发链接地址、评论链接地址及其与原创微博的转发关系。
[0041] 评论爬取模块,用于根据微博数据库中的评论链接地址,获取设定微博的相关评 论,并将全部评论保存在微博数据库中;存储内容包括:评论内容、评论时间,评论用户标 识和该评论与微博的关系。
[0042] 用户信息爬取模块,用于根据微博数据库中的用户标识,构造用户页面的统一资 源定位符URL (Uniform Resource Location),再通过URL访问用户信息页,获取用户详细信 息,并存储到微博数据库中;存储内容包括:用户昵称,粉丝数,关注数后和博文数。
[0043] 微博数据库,负责存储文本获取单元中各个模块从微博网站上爬取到的微博内容 信息以及用户数据,以供话题聚类单元,话题状态识别单元和话题状态预测单元进行后续 处理。
[0044] (B)话题聚类单元:负责选取微博数据库中的博文和评论内容进行聚类,找出突 发事件的话题,从中筛选出主题词后,根据该话题主题词的词频信息,挑选出流行话题,然 后根据话题的主题词将微博文本进行归类处理,最终将主题词信息和微博文本归类信息分 别存储于话题数据库和微博数据库中。设有:顺序连接的分词模块、聚类模块和相似度计算 模块以及话题数据库共四个组成模块;这四个组成模块功能如下:
[0045] 分词模块,负责利用中科院汉语词法分析系统ICTCLAS (Institute of Computing Technology, Chinese Lexical Analysis System)对微博文本内容进行分词和词性标注, 过滤停用词,分别统计每个词的词频并缓存之,并将分词处理后的信息送至聚类模块。
[0046] 聚类模块,负责利用潜在狄利克雷分配模型LDA (Latent Dirichlet Allocation)对分出的词进行聚类,将每个词分别聚类到不同的相应话题,再根据每个 话题中的各词的词频,挑选出该话题中的2?3个主题词;所述话题表示为Topic = {twordp tword2, twordj ,其中,tword^ tword2, tword3为三个不同的主题词,再将主题词及 其词频信息存储于话题数据库中,以供相似度计算模块使用。
[0047] 相似度计算模块,负责根据分词模块的分词结果将微博文本表示为Microblog = {mwordi, mword2,..., mwordj,..., mwordj,式中,mwordj为微博文本经过分词后的第i个词 语,自然数i为词语序号,其最大值为n ;然后结合聚类模块得到的话题,将微博文本通过 向量夹角的余弦值计算公式计算微博文本与话题的相似度,再根据相似度数值将所有的微 博文本进行归类,每条微博可能归属于一个或多个话题,并将其归类信息标记在微博数据 库中。
[0048] 话题数据库,用于存储聚类模块聚类后得到的话题信息,包括主题标识,主题词和 主题词词频的信息,以供话题状态识别单元和话题状态预测单元进行后续处理。
[0049] (C)话题状态识别单元:负责根据话题聚类单元得到的话题和所标记的每个话题 对应的微博文本,通过自定义话题关注度计算公式,计算得到每个话题在不同时段的话题 关注度,再利用话题关注度得到每个话题状态,并将每个话题状态存储于话题状态数据库 中。设有顺序连接的话题关注度计算模块、话题状态识别模块和话题状态数据库共三个组 成模块,这些组成模块功能如下:
[0050] 话题关注度计算模块,用于根据每个话题的原创微博、转发微博和评论的内容及 其数量,用定量方式计算得到该话题关注度后,送入话题状态识别模块进行话题状态计算。
[0051] 话题状态识别模块,用于根据来自话题关注度计算模块的话题关注度值,对话题 状态进行分析统计后,得到各个话题状态序列,再将该话题状态序列保存于话题状态数据 库,以供话题状态预测单元中的评估预测模块作为参考依据。
[0052] 话题状态数据库,用于存储话题状态序列,以供话题状态预测单元进行后续处理。
[0053] (D)话题状态预测单元:负责识别突发事件中的意见领袖,并根据参与突发事件 话题讨论的意见领袖数量,计算意见领袖参与率;然后根据设定每个时段意见领袖参与率 计算意见领袖的参与状态,并将得到的意见领袖参与状态序列保存于预测模型数据库中; 然后通过训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模型进行 评估,将评估良好的模型保存于预测模型数据库中。设有顺序连接的意见领袖识别模块,意 见领袖参与率计算模块,话题状态预测模块和预测模型数据库共四个组成模块。这四个组 成模块功能如下:
[0054] 意见领袖识别模块,用于综合微博数据库中的用户信息、微博信息和话题数据库 中的话题信息,得到用户在突发事件话题中的微博数量、被转发和被评论的数量,并根据该 三个参数计算每个用户的意见领袖影响力,再根据意见领袖影响力指标识别出意见领袖, 并将这些意见领袖组成集合和缓存其用户标识,以供意见领袖参与率计算模块使用。
[0055] 意见领袖参与率计算模块,用于首先从微博数据库中根据设定时间得到各个时段 话题的微博,然后统计每个时段这些微博的发博人是否为意见领袖;并缓存每个时段的意 见领袖人数,结合意见领袖识别模块得到的意见领袖集合,计算每个时段意见领袖参与率, 统计得到这些意见领袖参与状态信息,将得到的意见领袖参与状态序列信息保存于预测模 型数据库,以供预测模型训练使用。
[0056] 话题状态预测模块,用于根据意见领袖参与状态序列,训练得到意见领袖参与状 态和话题状态相关的隐马尔科夫模型;并利用话题状态识别单元得到的话题状态序列和预 留的意见领袖参与状态序列,评估该隐马尔科夫模型;再将评估结果较好的模型,保存在预 测模型数据库中,以供制作一个模型库。
[0057] 本发明突发事件话题状态的预测装置根据突发事件中的微博话题产生机理,对微 博中的原创微博、转发微博、评论以及意见领袖影响力属性进行具体分析,提出了突发事件 话题状态预测方法。该预测方法是:由预测装置的话题状态识别单元根据原创微博、转发微 博和评论推导出话题关注度计算公式,计算设定话题关注度,以得到话题状态;再在话题状 态预测单元中,根据用户微博转发和评论数,利用自定义的意见领袖影响力公式计算得到 所有的意见领袖,再根据各话题计算出意见领袖参与率,计算得到意见领袖参与状态;最后 根据隐马尔科夫模型,预测突发事件中的话题状态。
[0058] 参见图2,介绍本发明突发事件话题状态的预测装置的预测方法方法的具体操作 步骤:
[0059] 步骤1,文本获取单元根据输入的突发事件的设定关键词,以微博搜索页为入口, 获取微博系统中与该突发事件相关的微博内容和用户信息,再将这些信息存入微博数据库 中;所述微博包括原创微博,转发微博和评论,爬取的微博内容包括微博文本、发博时间和 发博人信息;用户信息包括用户基本信息、用户粉丝信息、用户关注信息和用户微博信息。 该步骤包括下述操作内容:
[0060] (11)原创微博爬取模块根据用户输入的突发事件关键词,从微博搜索页上,分时 间段和/或分地域进行原创微博的数据搜索和爬取,将爬取的原创微博的包括微博文本、 微博链接地址、发博人标识、微博标识、转发数、评论数和发博时间的信息保存在微博数据 库中。
[0061] (12)转发微博爬取模块根据原创微博爬取模块爬取的原创微博,爬取转发微博; 因转发微博和原创微博的结构相同,故也要爬取转发微博的包括微微博文本、微博链接地 址、发博人标识、微博标识、转发数、评论数和发博时间的信息保存在微博数据库中;且因转 发微博爬取模块执行递归爬取操作,故要直到没有转发微博才停止操作。
[0062] (13)评论爬取模块根据微博数据库中的微博信息,得到该微博的评论链接地址, 然后爬取该微博的包括评论内容、评论人标识、评论标识和评论时间的评论信息,并将这些 信息存入文本数据库中。
[0063] (14)用户信息爬取模块是从微博数据库中获取所有的发博人标识和评论人标识, 再爬取发博用户和评论用户中的包括:用户标识、用户昵称、粉丝数、关注数和发博数的信 息,并保持在微博数据库中。
[0064] 步骤2,话题聚类单元根据步骤1得到的所有微博和评论的文本,先对文本内容进 行分词,再使用LDA模型进行聚类,根据预设的话题数K,得到K个话题,且每个话题包含多 个关键词,从中选取词频最高的2?3个词作为该话题的主题词;最后使用余弦相似度公式 计算微博文本与话题的相似度,将微博进行归类。该步骤包括下述操作内容:
[0065] (21)分词模块使用中科院ICTCLAS中文分词系统,对微博文本进行分词处 理:只保留名词和动词,删除停用词和其它词性的词语,并统计分词后的每个词的词频 信息M =〈word, number),其中,word为保留的名词或动词词语,number为该词语的 数量、即词频;然后,缓存下述两组信息:每个微博文本的分词结果Micr0bl0gl = {mwo

【权利要求】
1. 一种突发事件话题状态的预测装置,其特征在于:该装置设有下述四个组成部件: 文本获取单元、话题聚类单元、话题状态识别单元和话题状态预测单元;其中各个单元功能 如下: 文本获取单元,负责根据预设的突发事件的关键词,从微博系统中爬取与该突发事件 相关的微博内容和用户信息,所述微博包括:原创微博、转发微博和评论;爬取的微博内容 包括:微博文本、发博时间和发博人标识;用户信息包括:用户昵称、用户粉丝数、用户关注 数和用户发博数;设有五个组成模块:原创微博爬取模块、转发微博爬取模块、评论爬取模 块、用户信息爬取模块和微博数据库; 话题聚类单元,负责选取微博数据库中的博文和评论内容进行聚类,找出突发事件的 话题,从中筛选出主题词后,根据该话题主题词的词频信息,挑选出流行话题,然后根据话 题的主题词将微博文本进行归类处理,最终将主题词信息和微博文本归类信息分别存储于 话题数据库和微博数据库中;设有:顺序连接的分词模块、聚类模块和相似度计算模块以 及话题数据库共四个组成模块; 话题状态识别单元,负责根据话题聚类单元得到的话题和所标记的每个话题对应的微 博文本,通过自定义话题关注度计算公式,计算得到每个话题在不同时段的话题关注度,再 利用话题关注度得到每个话题状态,并将每个话题状态存储于话题状态数据库中;设有顺 序连接的话题关注度计算模块、话题状态识别模块和话题状态数据库共三个组成模块; 话题状态预测单元,负责识别突发事件中的意见领袖,并根据参与突发事件话题讨论 的意见领袖数量,计算意见领袖参与率;根据设定每个时段意见领袖参与率计算意见领袖 的参与状态,将得到的意见领袖参与状态序列保存于预测模型数据库中;之后通过训练得 到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模型进行评估,将评估良 好的模型保存于预测模型数据库中;设有顺序连接的意见领袖识别模块,意见领袖参与率 计算模块,话题状态预测模块和预测模型数据库共四个组成模块。
2.根据权利要求1所述的方法,其特征在于:所述文本获取单元各个组成模块功能如 下: 原创微博爬取模块,用于根据预设的突发事件的关键词,利用微博的搜索功能,获取所 有设定时段和/或设定地区的原创微博,并保存于微博数据库;存储的微博内容包括:原创 博文、发博时间、发博人标识、转发链接地址和评论的链接地址信息; 转发微博爬取模块,用于根据微博数据库中的原创微博的转发链接地址,逐个爬取转 发微博,并将获取的所有转发微博存储于微博数据库;存储内容包括:转发博文、转发时 间、转发用户标识、转发链接地址、评论链接地址及其与原创微博的转发关系; 评论爬取模块,用于根据微博数据库中的评论链接地址,获取设定微博的相关评论,并 将全部评论保存在微博数据库中;存储内容包括:评论内容、评论时间,评论用户标识和该 评论与微博的关系; 用户信息爬取模块,用于根据微博数据库中的用户标识,构造用户页面的统一资源定 位符URL (Uniform Resource Location),再通过URL访问用户信息页,获取用户详细信息, 并存储到微博数据库中;存储内容包括:用户昵称,粉丝数,关注数后和博文数; 微博数据库,负责存储文本获取单元中各个模块从微博网站上爬取到的微博内容信息 以及用户数据,以供话题聚类单元,话题状态识别单元和话题状态预测单元进行后续处理。
3.根据权利要求1所述的方法,其特征在于:所述话题聚类单元各个组成模块功能如 下: 分词模块,负责利用中科院汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)对微博文本内容进行分词和词性标注, 过滤停用词,分别统计每个词的词频并缓存之,并将分词处理后的信息送至聚类模块; 聚类模块,负责利用潜在狄利克雷分配模型LDA(Latent Dirichlet Allocation)对分 出的词进行聚类,将每个词分别聚类到不同的相应话题,再根据每个话题中的各词的词频, 挑选出该话题中的2?3个主题词;所述话题表示为Topic = {twordi, tword2, tword3},其 中,twordj, tword2, tword3为三个不同的主题词,再将主题词及其词频信息存储于话题数据 库中,以供相似度计算模块使用; 相似度计算模块,负责根据分词模块的分词结果将微博文本表示为Microblog = {mwo rd" mword2,..., mwordj,..., mwordj,式中,mwordj为微博文本经过分词后的第i个词语, 自然数i为词语序号,其最大值为n ;然后结合聚类模块得到的话题,将微博文本通过向量 夹角的余弦值计算公式计算微博文本与话题的相似度,再根据相似度数值将所有的微博 文本进行归类,每条微博可能归属于一个或多个话题,并将其归类信息标记在微博数据库 中;
话题数据库,用于存储聚类模块聚类后得到的话题信息,包括主题标识,主题词和主题 词词频的信息,以供话题状态识别单元和话题状态预测单元进行后续处理。
4.根据权利要求1所述的方法,其特征在于:所述话题状态识别单元各个组成模块功 能如下: 话题关注度计算模块,用于根据每个话题的原创微博、转发微博和评论的内容及其数 量,用定量方式计算得到该话题关注度后,送入话题状态识别模块进行话题状态计算; 话题状态识别模块,用于根据来自话题关注度计算模块的话题关注度值,对话题状态 进行分析统计后,得到各个话题状态序列,再将该话题状态序列保存于话题状态数据库,以 供话题状态预测单元中的评估预测模块作为参考依据; 话题状态数据库,用于存储话题状态序列,以供话题状态预测单元进行后续处理。
5.根据权利要求1所述的方法,其特征在于:所述话题状态预测单元各个组成模块功 能如下: 意见领袖识别模块,用于综合微博数据库中的用户信息、微博信息和话题数据库中的 话题信息,得到用户在突发事件话题中的微博数量、被转发和被评论的数量,并根据该三个 参数计算每个用户的意见领袖影响力,再根据意见领袖影响力指标识别出意见领袖,并将 这些意见领袖组成集合和缓存其用户标识,以供意见领袖参与率计算模块使用; 意见领袖参与率计算模块,用于首先从微博数据库中根据设定时间得到各个时段话题 的微博,然后统计每个时段这些微博的发博人是否为意见领袖;并缓存每个时段的意见领 袖人数,结合意见领袖识别模块得到的意见领袖集合,计算每个时段意见领袖参与率,统计 得到这些意见领袖参与状态信息,将得到的意见领袖参与状态序列信息保存于预测模型数 据库,以供预测模型训练使用; 话题状态预测模块,用于根据意见领袖参与状态序列,训练得到意见领袖参与状态和 话题状态相关的隐马尔科夫模型;并利用话题状态识别单元得到的话题状态序列和预留的 意见领袖参与状态序列,评估该隐马尔科夫模型;再将评估结果较好的模型,保存在预测模 型数据库中,以供制作一个模型库。
6. 一种突发事件话题状态的预测装置的预测方法,其特征在于:根据突发事件中的微 博话题产生机理,对微博中的原创微博、转发微博、评论以及意见领袖影响力属性进行下述 具体分析:该预测装置的话题状态识别单元根据原创微博、转发微博和评论推导出话题关 注度计算公式,计算设定话题关注度,以得到话题状态;再在话题状态预测单元中,根据用 户微博转发和评论数,利用自定义的意见领袖影响力公式计算得到所有的意见领袖,再根 据各话题计算出意见领袖参与率,计算得到意见领袖参与状态;最后根据隐马尔科夫模型, 预测突发事件中的话题状态;所述方法包括下列操作步骤: 步骤1,文本获取单元根据输入的突发事件的设定关键词,以微博搜索页为入口,获取 微博系统中与该突发事件相关的微博内容和用户信息,再将这些信息存入微博数据库中; 所述微博包括原创微博,转发微博和评论,爬取的微博内容包括微博文本、发博时间和发博 人信息;用户信息包括用户基本信息、用户粉丝信息、用户关注信息和用户微博信息; 步骤2,话题聚类单元根据步骤1得到的所有微博和评论的文本,先对文本内容进行分 词,再使用LDA模型进行聚类,根据预设的话题数K,得到K个话题,且每个话题包含多个关 键词,从中选取词频最高的2?3个词作为该话题的主题词;最后使用余弦相似度公式计算 微博文本与话题的相似度,将微博进行归类; 步骤3,话题状态识别单元根据步骤2得到的主题词和已标记的每个话题所归属的微 博文本,利用自定义的话题关注度计算公式,计算得到每个话题在不同时段的话题关注度, 通过话题关注度序列得到话题的状态序列,然后将话题状态序列存储在话题状态数据库 中; 步骤4,话题状态预测单元先从微博数据库存储的全体用户中识别突发事件的意见领 袖,并根据步骤3中的时间段信息,寻找每个时段参与突发事件设定话题讨论的意见领袖, 并计算意见领袖参与率;再根据每个时段意见领袖参与率计算出意见领袖参与状态,得到 多个意见领袖的参与状态序列,将该多个意见领袖参与状态序列保存到预测模型数据库 中;最后通过训练得到意见领袖参与状态和话题状态相关的隐马尔科夫模型,并对该模型 进行评估,将评估良好的模型保存到预测模型数据库中。
7.根据权利要求6所述的方法,其特征在于:所述步骤1包括下述操作内容: (11)原创微博爬取模块根据用户输入的突发事件关键词,从微博搜索页上,分时间 段和/或分地域进行原创微博的数据搜索和爬取,将爬取的原创微博的包括微博文本、微 博链接地址、发博人标识、微博标识、转发数、评论数和发博时间的信息保存在微博数据库 中; (12)转发微博爬取模块根据原创微博爬取模块爬取的原创微博,爬取转发微博;因转 发微博和原创微博的结构相同,故也要爬取转发微博的包括微微博文本、微博链接地址、发 博人标识、微博标识、转发数、评论数和发博时间的信息保存在微博数据库中;且因转发微 博爬取模块执行递归爬取操作,故要直到没有转发微博才停止操作; (13)评论爬取模块根据微博数据库中的微博信息,得到该微博的评论链接地址,然后 爬取该微博的包括评论内容、评论人标识、评论标识和评论时间的评论信息,并将这些信息 存入文本数据库中; (14)用户信息爬取模块是从微博数据库中获取所有的发博人标识和评论人标识,再爬 取发博用户和评论用户中的包括:用户标识、用户昵称、粉丝数、关注数和发博数的信息,并 保持在微博数据库中。
8.根据权利要求6所述的方法,其特征在于:所述步骤2包括下述操作内容: (21)分词模块使用中科院ICTCLAS中文分词系统,对微博文本进行分词处理:只 保留名词和动词,删除停用词和其它词性的词语,并统计分词后的每个词的词频信 息M =〈word, number),其中,word为保留的名词或动词词语,number为该词语的数 量、即词频;然后,缓存下述两组信息:每个微博文本的分词结果Microblogi = {mwor dj, mword2,..., mwordj,..., mwordj和该微博文本中每个词的出现数量信息、即词频
,式中,mwordi为微博文本经过分词后的第i 个词,自然数下标i为词序号,其最大值为n 'N为词mwordi的词频; (22)聚类模块利用LDA算法对分词处理后的词进行聚类:先预设聚类结果 的话题数K为3?5个,再在聚类后,根据每个话题中的各个词的词频,按照从 大到小进行降序排列,挑选出每个话题的2?3个主题词,并将话题表示为主题 词序列Topiq= <tword1, tword2, tword3>和该话题的主题词所对应的词频序列
最后将主题词及其词频信息存储到话题数据库中; (23)相似度计算模块根据分词模块处理结果得到的每个微博文本分词后的词频 信肩
和聚类模块聚类结果得到的主题 词对应的词频信息
- -j吏用向量夹角的余弦值计算公式
计算两者的相似度值,再根据相似度数值对所有的微博文本 进行归类:若cos 9 >0. 3,则将该微博归属于该话题;否则,不属于该话题;最后,将归类信 息标记在微博数据库中;需要注意的是:每条微博文本可能归属于多个话题。
9.根据权利要求6所述的方法,其特征在于:所述步骤3包括下述操作内容: (31)话题关注度计算模块首先根据话题聚类分类模块得到的话题,按照预设的时间间 隔,分时段分别计算每个话题的关注度;再按照时间段、话题标识及其关注度值将计算出的 每个话题关注度存储于话题状态数据库中;其具体操作步骤包括下述内容: (31A)首先设置微博贡献度表示每条微博对话题的贡献:如果包括原创微博、转发微 博和评论的某条微博文本内容被归类属于设定话题,则这条微博对该话题的微博贡献度 MC (Microblog Contribution)记为1 ;如果该条微博被归类到n个话题,则这条微博对每个 话题的微博贡献度为
; (31B)定义话题关注度TA(Topic Attention)是设定话题的所有微博的微博贡 献度的总和,按照下述公式
计算每个话题的关注度;其中, OMC (Original Microblog Contribution)和 RMC (Repost Microblog Contribution)分别 为设定话题的原创微博贡献度和转发微博贡献度,自然数下标j和k分别为原创微博和转 发微博的序号,其最大值分别为K和nk ; 原创微博贡献度OMC是该微博自身贡献度、其转发微博和评论的贡献度之和,其计算 公式为:
式中,SC(Self Contribution)为原创微博 自身的贡献度,SRMC (Sub-Repost Microblg Contribution)为该原创微博所归属的所有转 发微博的贡献度,自然数下标j是该原创微博的转发微博的序号,其最大值、即该原创微博 的转发微博的总数为NSK, CMC (Comment Microblog Contribution)为该原创微博的评论贡 献度,自然数下标k是该原创微博的评论序号,最大值、即该原创微博的评论总数为N。,微博 评论的衰减因子P取值范围是:(0,1]之间的实数;因为评论不会对话题的扩散产生实质 效果,但因评论的人多,也会从侧面反映话题的关注度,其对微博的贡献要弱于转发,故在 计算评论的贡献度时,采用衰减因子来平衡微博评论对话题的贡献度; 因在微博系统中,转发微博也是一条微博,其和原创微博具有相同属性:既有自己的微 博内容,也能够被转发或被评论,其区别是具有转发属性:转发微博会带上它所转发的原创 微博,所以转发微博的贡献度计算公式和原创微博的贡献度计算公式相同,即其计算公式 为:
(32)话题状态识别模块根据步骤(31)计算得到的话题关注度值,对话题状态进行分 析统计:若关注度值变大,则表示状态上升;若关注度值变小,则表示状态下降;最终得到 各个话题状态的序列后,将该话题状态序列保存在话题状态数据库中。
10.根据权利要求6所述的方法,其特征在于:所述步骤4包括下述操作内容: (41)意见领袖识别模块结合微博数据库中的用户信息、微博信息和话题数据库中的话 题信息,得到每个用户在突发事件设定话题中的发微博数量、被转发数量和被评论数量,根 据公另
计算每个用户的意见领袖影响力值P,再根据意 见领袖影响力指标数值高低,选取P>1000的用户作为意见领袖,并缓存这些意见领袖的用 户标识;式中,自然数下标a、b和c分别表示该用户原创微博,被转发微博和被评论的序号, 最大值分别为Nm,Ne和Nc, (42)根据意见领袖参与率的计算公式
分时段分别统计每个时段参 与话题的意见领袖所占全部意见领袖的百分比,即为意见领袖参与率;式中,0LP为意见领 袖参与率,它是取值范围:[0,1]之间的实数;自然数Number,和Number,_分别为设定时 段t时的意见领袖人数和参与设定话题的意见领袖总人数;计算得到每个时段意见领袖参 与率,就能够得到意见领袖参与状态:意见领袖参与率增大,表示参与状态上升;反之,即 意见领袖参与率减小,表示参与状态下降; (43)话题状态预测模块根据意见领袖参与状态序列,训练得到意见领袖参与状态和话 题状态相关的隐马尔科夫模型;并且利用话题状态识别单元得到的话题状态序列和预留的 意见领袖参与状态序列,对模型进行评估;再将评估结果较好的模型,保存在预测模型数据 库中,以便制作一个模型库;该步骤进一步包括下述操作内容: (43A)定义隐马尔科夫模型的数学表达式为:X = (S, 0, A, B, Ji),其中: S为话题状态的集合,所述话题状态是用各个时段话题关注度指标值的升降来表示设 定话题的动态状况,故其状态集合为{上升,下降}:若下一时段话题关注度指标数值比上 一时段大,表示话题状态上升;若下一时段话题关注度指标数值比上一时段小,表示话题状 态下降; 0为意见领袖参与状态的集合,所述意见领袖参与状态是用各时段意见领袖参与率指 标值的升降来表示意见领袖参与话题讨论的动态状况,所述意见领袖参与状态的涵义是意 见领袖参与率指标的下一时段数值大于上一时段,表示意见领袖参与状态上升;意见领袖 参与率指标下一时段数值小于上一时段,表示意见领袖参与状态下降。所以意见领袖参与 状态集合为{上升,下降}; A为话题状态转移概率矩阵,所述话题状态转移矩阵是一个2X2矩阵,共有四项,分别 是:上升状态一上升状态的转移概率,上升状态一下降状态的转移概率,下降状态一上升状 态的转移概率,下降状态一下降状态的转移概率; B为意见领袖参与状态概率分布矩阵,所述概率分布矩阵是一个2X2矩阵,共有四项, 分别是:话题状态上升时输出意见领袖参与状态上升的概率,话题状态上升时输出意见领 袖参与状态下降的概率,话题状态下降时输出意见领袖状态上升的概率,话题状态下降时 输出意见领袖参与状态下降的概率; ^为初始状态概率的分布状况,其初始状态为= {0. 5,0. 5},即上升状态和下降概 率平均。 (43B)使用步骤(42)计算得到的意见领袖参与状态序列,先划分80%用作训练集,再 利用隐马尔科夫模型的前向后向算法对模型进行训练,得到话题状态转移概率矩阵A和意 见领袖参与状态概率分布矩阵B ; (43C)利用步骤3得到的话题状态序列,以及步骤(43B)剩余的20%意见领袖参与状 态序列对模型进行评估,利用误差公式
分别计算其误差;其中,e为误差,其是 取值范围:[0,1]之间的实数
为模型执行后得到的状态序列与实际状态序列相比发 生差错的状态个数;Nt(rtal为实际状态的个数;如果e <0.3,则认为得到的模型是可信的。 模型评估的算法采用隐马尔科夫模型的前向算法和后向算法:前向算法用于计算意见 领袖参与状态序列,再和预留的20%意见领袖参与状态序列进行比较来评估模型;后向算 法用于计算话题状态序列,再和步骤3得到的话题状态序列进行比较,用于评估模型。
【文档编号】G06F17/30GK104216954SQ201410412196
【公开日】2014年12月17日 申请日期:2014年8月20日 优先权日:2014年8月20日
【发明者】陈莉萍, 王酌, 杨谈, 崔毅东, 金跃辉 申请人:北京邮电大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1