一种互联网舆情话题的动态识别和追踪方法

文档序号:6631459阅读:1609来源:国知局
一种互联网舆情话题的动态识别和追踪方法
【专利摘要】本发明涉及一种互联网舆情话题的动态识别和追踪方法,包括以下步骤:1、将舆情话题抽象为节点,节点之间以连接弧表示舆情话题之间存在关联,连接弧的权值表示舆情话题的相关度;2、按照舆情话题发布的时间将其划归到相应的时间片中,构建由话题信息层、网页信息层和网民信息层组成的互联网舆情话题动态演化模型;3、对与舆情话题相关的新入网页进行特征抽取,获得特征项,将网页转化为特征项形成的多元向量空间,计算其与原舆情话题之间的话题相关度;4、采用增量式聚类,依次处理所述新入网页,识别新话题,并将追踪到的舆情新话题扩充更新到模型中。该方法有利于克服话题演化中的话题漂移和衍生问题,提高网络舆情话题追踪效果。
【专利说明】-种互联网舆情话题的动态识别和追踪方法

【技术领域】
[0001]本发明涉及互联网舆情【技术领域】,特别涉及一种互联网舆情话题的动态识别和追 踪方法。

【背景技术】
[0002]网络舆情是互联网上公众对某事件的认知、态度、情感和行为倾向的集合。话题衍 生性是网络舆情传播演化的一个主要特点,特别是在舆情衰退期,由于网民的注意力转移, 对原始舆情话题的相关元素已失去兴趣、诉求和需要,原始舆情话题失去生命力,被新的衍 生话题所替代,这将产生舆情对社会的"二次影响"。衍生话题与原始话题相互交织进而形 成动态的衍生网络,而这会延长原始事件的生命周期,其持续期和消退期的持续事件均延 长,加大了突发事件的应急处理难度,有时衍生话题的社会影响远大于原事件,给社会环境 带来极大的损失。所以对舆情话题进行追踪具有十分重要的意义,其有助于了解事件的发 展态势,避免事件的无限衍生蔓延,为突发事件应急管理提供重要的决策支持。
[0003] 话题识别和追踪方法的研究主要分为三类:一是基于关键词匹配而未考虑话题语 义相关性的问题,为兼顾文本的语义信息,引入隐含语义分析的方法对语料信息进行建模, 通过两阶段的聚类策略发现网络上较受关注的话题;二是把时间离散化为时间点,然后利 用其极限情况来处理连续时间的动态主题跟踪问题;三是采用LDA模型对网络热点话题主 题进行提取,利用时间标签发现热点话题。由于互联网舆情所具有的衍生性和动态性,使得 舆情呈现出复杂的演化特性,而以往学者构建的话题模型多着眼于对话题的结构化文本数 据的描述,不能描述出话题的动态性变化。事实上舆情话题除了结构化的文本信息,还包括 网页链接信息、话题的发布者(即用户)之间的关联信息等多元信息,且话题之间的时序特 性是描述话题演变关系的重要依据。由于以往话题识别和追踪方法对话题演化的动态过程 和微观结构方面缺乏有效的描述,使其不足以揭示出舆情话题的演化机理,同时存在舆情 发展后期不可忽视的话题漂移和衍生问题,因此以往的互联网舆情话题识别和追踪方法难 以满足实际应用需求。


【发明内容】

[0004] 本发明的目的在于提供一种互联网舆情话题的动态识别和追踪方法,该方法有利 于克服话题演化中的话题漂移和衍生问题,提高网络舆情话题追踪效果。
[0005] 为实现上述目的,本发明的技术方案是:一种互联网舆情话题的动态识别和追踪 方法,包括以下步骤: 步骤1 :将舆情话题抽象为节点,节点之间以连接弧表示舆情话题之间存在关联,连接 弧的权值表示舆情话题的相关度; 步骤2 :将时间轴划分为一定长度的时间片,按照舆情话题发布的时间将其划归到相 应的时间片中,构建由话题信息层、网页信息层和网民信息层组成的互联网舆情话题动态 演化模型; 步骤3 :对与舆情话题相关的新入网页进行特征抽取,获得特征项,用权重高于平均值 的特征项对网页进行描述,将网页转化为特征项形成的多元向量空间,计算其与原舆情话 题之间的话题相关度; 步骤4 :采用增量式聚类识别新话题,依次处理所述新入网页,识别新话题,即如果话 题相关度W大于设定阈值L则认为是对已有话题的重复报道,舍弃该话题,反之则认为 网页中出现了新话题,并将追踪到的舆情新话题扩充更新到互联网舆情话题动态演化模型 中。
[0006] 进一步的,在步骤1中,话题信息层是对应不同时序信息的话题组成的体系结构, 表示为:

【权利要求】
1. 一种互联网舆情话题的动态识别和追踪方法,其特征在于,包括以下步骤: 步骤1 :将舆情话题抽象为节点,节点之间以连接弧表示舆情话题之间存在关联,连接 弧的权值表不舆情话题的相关度; 步骤2 :将时间轴划分为一定长度的时间片,按照舆情话题发布的时间将其划归到相 应的时间片中,构建由话题信息层、网页信息层和网民信息层组成的互联网舆情话题动态 演化模型; 步骤3 :对与舆情话题相关的新入网页进行特征抽取,获得特征项,用权重高于平均值 的特征项对网页进行描述,将网页转化为特征项形成的多元向量空间,计算其与原舆情话 题之间的话题相关度; 步骤4 :采用增量式聚类识别新话题,依次处理所述新入网页,识别新话题,S卩如果话 题相关度大于设定阈值〃,则认为是对已有话题的重复报道,舍弃该话题,反之则认为 网页中出现了新话题,并将追踪到的舆情新话题扩充更新到互联网舆情话题动态演化模型 中。
2. 根据权利要求1所述的一种互联网舆情话题的动态识别和追踪方法,其特征在于, 在步骤1中,话题信息层是对应不同时序信息的话题组成的体系结构,表示为:
其中,r为一突发事件,G为对应的时间片,为在时间片g内产生的与突发事件相 关的一舆情话题,以向量的形式进行描述,尽为时间片匕内产生的舆情话题集合; 网页信息层是对应不同时序信息的网页集合/^ΙΛ,Λ,…,巧丨及网页间的链接关系 集合/?,…,,Λ.为时间片G内产生的网页集合,/兄为前?个时间片内的 网页集合,且
网页通过链接指向网页Ζ7/; 网民信息层是网络用户的信息及其关系的集合如={%,如2,…,%},%为第i'个 时间片内的话题讨论者的关系集合,包括网民的特征。
3. 根据权利要求1所述的一种互联网舆情话题的动态识别和追踪方法,其特征在于, 在步骤3中,涉及话题相关度的计算如下: 基于网页间链接关系和内容相似度,计算网页间话题相关度,如式(1)所示:
(1) 其中,4是根据网页的内容计算得到的相关度是根据网页间的链接关系,在区分链 接性质的前提下计算出的网页主题之间的相关度;·0表示对&和4之间的运算是广义加 法运算即网页间的话题相关度满足
是根据兄和4的相对重要性设置的调节系数; 新入网页总与原舆情话题的话题相关度兄0°3)的具体计算方法,如式(2)所示:
其中,为新入网页怂与原有网页Λ.的内容相似度,#(a)是新入网页怂发出的链 接总数。
4.根据权利要求1所述的一种互联网舆情话题的动态识别和追踪方法,其特征在于, 按如下方法更新话题模型: 定义为互联网舆情报道语料^和舆情话题r的内容相似度,表示新 舆情报道的内容相似度的调整,如式(3)所示:
其中,< 表示对t时刻的舆情报道进行特征抽取后形成的向量空间;表示t时刻 已存在的时刻话题;#是互联网舆情报道语料^持续的时间长度,
表示互联 网舆情报道语料^中涉及的话题与其所在时间片内已存在的话题的相似度之和; 对于<,主要根据新入舆情报道的网页与原网页之间的链接指向关系进行调整;如果 新入舆情报道的网页怂有指向原话题r的链接,根据式(4)调整< ;
兄匕)为通过公式(3)计算出的内容相似度; 计算出新的舆情报道的 <、兄后调整话题相关度I
【文档编号】G06F17/30GK104298765SQ201410574419
【公开日】2015年1月21日 申请日期:2014年10月24日 优先权日:2014年10月24日
【发明者】陈海汉 申请人:福州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1