一种微博突发事件的检测方法与流程

文档序号:19350601发布日期:2019-12-06 21:21阅读:353来源:国知局
一种微博突发事件的检测方法与流程
本发明涉及数据挖掘的舆情态势感知领域,具体涉及一种微博突发事件的检测方法。
背景技术
:随着互联网媒体的出现和快速发展,类似微博这种以用户和用户之间的交互关系为核心的分布式社交媒体,使得信息的传播变得更加快速和广泛,同时互动性也大大增强。特别是突发事件信息的传播,很短时间内会呈现出“一传十、十传百”的指数级别增长。为了能及时地发现突发性社会事件并进行合理的控制,则需要在海量的微博动态数据中及时准确的检测出突发事件。近年来,国内外相关学者在网络社交媒体的突发事件检测领域已经投入了大量的研究,目前的核心问题与难点是如何从指数级增长的数据中迅速并准确地检测出突发事件。现有的突发事件检测方法主要包括“以文本为中心”、“以突发特征词为中心”和“以局部地域标签特征为中心”三类。以文本为中心的突发事件检测方法是一种基于文本语义之间的距离进行文本聚类的方法。该方法首先对时间进行切片,然后根据文本的发布时间将其划分到对应的时间窗口内,再对每个时间切片内的微博文本进行聚类,并在得到的每一个簇中抽取突发特征,对满足相应突发规则的类进行突发事件的识别。但由于微博文本中包含大量口语化词语、网络用语、广告、链接等垃圾信息,因此,在聚类并提取突发特征时会引入很多噪声信息。此外,进行微博文本聚类时会涉及到很多参数阈值的选取,并且参数阈值的选取大多为经验值,会影响检测的准确率。以突发特征词为中心的突发事件检测方法是从微博文本中抽取具有突发性的特征词,针对得到的突发特征词进行聚类,从而实现突发事件检测。该方法的核心在于突发词的特征选取而不是特征词的聚类,避免了以文本为中心的检测方法中参数阈值设定的问题。但是微博文本中存在大量与事件无关的文档,因此去除噪声并准确提取突发词是提高检测率的重要因素。以局部地域标签特征为中心的突发事件检测方法主要针对含有地域信息的微博数据,包括用户信息中附带的地理标签、微博内容中所包含的地点等。该方法可以检测出在全网微博文本中并不突出,但是发生在某一局部地域的热点突发事件。其核心问题主要集中在两个方面,其一是如何在微博文本中抽取地域性的突发特征词,其二在于如何在小区域范围内计算微博的热度。技术实现要素:本发明的目的是提供一种基于突发特征词的微博突发事件的检测方法。本发明微博突发事件的检测方法,包括:步骤1,对去除噪声和分词处理后的微博数据进行时间划分,获得与时间窗口对应的微博数据集dk={d1,d2,……,dm-1,dm},dk表示第k个时间窗口tk包含的微博数据集,di表示第i条微博,i=1,2,……m;步骤2,计算各时间窗口包含的所有微博中各词w的突发词判断权重wk(w),将wk(w)大于突发词阈值的词作为突发词,从而获得各时间窗口的突发词集;突发词阈值为经验值;其中,ck(w)为词w的词频特征,tk(w)为词w的话题标签特征,bk(w)为词w的词频增长率特征,α、β、γ分别为ck(w)、tk(w)、bk(w)的权值,α+β+γ=1;步骤3,基于突发词集中两两突发词的耦合度,利用聚类算法对突发词集中突发词进行聚类,并基于聚类结果检测时间窗口的突发事件;所述两两突发词的耦合度s(wp,wq)=c(wp,wq)+mi(wp,wq),s(wp,wq)、c(wp,wq)、mi(wp,wq)分别为突发词wp和wq的耦合度、共现度、互信息。进一步的,微博数据的去噪噪声包括①删除短文本、②删除文本为重复字母、重复汉字、重复符号的微博数据、③删除微博数据中的非文本信息、和/或④删除微博数据中的停用词。进一步的,词w的词频特征ck(w)表示词w在时间窗口tk下的词频特征,fk(w)表示词w在时间窗口tk下的词频,fkmax表示在时间窗口tk中所有词的词频最大值,δ为词频特征的初始值。进一步的,词w的话题标签特征tk(w)表示词w在时间窗口tk下的话题标签特征,ntag(w)表示时间窗口tk内出现词w的话题标签数,ntag表示时间窗口tk内总的话题标签数;nt_blog(w)表示时间窗口tk内词w在包含话题标签的微博中出现的次数,nt_blog表示时间窗口tk内包含话题标签的微博数;if(w)是判断因子,若时间窗口tk内至少有一个话题标签包含词w,则if(w)取1,若时间窗口tk内没有任何话题标签包含词w,则if(w)取2。进一步的,词w的词频增长率特征fk(w)为词w在时间窗口tk的词频,ak(w)为词w在时间窗口tk及其以前的时间窗口的历史平均词频。进一步的,共现度其中,r(wi|wj)为当前时间窗口内词语wi相对于词语wj的相对共现度,r(wj|wi)为当前时间窗口词语wj相对于词语wi的相对共现度。进一步的,互信息其中,p(wi)和p(wj)分别表示当前时间窗口内词语wi和wj出现的概率,p(wi,wj)表示当前时间窗口内词语wi和wj一同出现的概率。进一步的,步骤3采用层次聚类算法进行聚类,进一步包括:301:将突发词集中每一个突发词看作一个簇,获得初始簇集,并保存于簇集合clustern内;302:计算簇集合clustern中两两簇之间的相似度并保存于集合temp内,两簇间的相似度为两簇内所有元素两两间相似度的倒数平均值;所述两两簇之间的相似度为两簇内两两元素间相似度的倒数平均值:其中,d(ya,yb)为簇ya和yb之间的相似度;|ya|和|yb|分别表示簇ya和yb中突发词的个数;smax和smin分别表示簇ya和yb中突发词的耦合度最大值和最小值;303:判断集合temp内元素数|temp|,若|temp|=1,则跳转步骤304;若|temp|>1,则取集合temp中最小相似度值对应的两个簇,将这两个簇从簇集合clustern中先删除,经合并后再加入簇集合clustern内,对新的簇集合clustern重新执行步骤302;304:输出由突发词以及突发词集构成的二叉树型结构。进一步的,步骤3中,采用基于内部相似度的二叉树剪枝分割方法对子步骤304输出的二叉树型结构进行剪枝分割,获得突发事件划分集合,从而检测突发事件;所述基于内部相似度的二叉树剪枝分割方法具体为:305:判断当前二叉树根节点的左右子树的内部相似度d与θ的大小,左右子树的内部相似度d即左子树和右子树所对应的簇之间的相似度;当前二叉树的初始状态为子步骤304输出的二叉树型结构;θ为预设的簇内部相似度阈值;若d≥θ,将当前二叉树加入到突发事件划分集合,并跳转到步骤308;否则分别执行步骤306和步骤307;306:判断当前左子树是否为空,若不为空,则将该左子树作为当前二叉树,执行子步骤305;若为空,终止本步骤;307:判断当前右子树是否为空,若不为空,则将该右子树作为当前二叉树,执行子步骤305;若为空,终止本步骤;308:输出突发事件划分集合。进一步的,权值α、β、γ采用如下方法获得:(1)构建判断矩阵uij表示第i个证据相比于第j个证据重要的概率,证据对应特征;i=1,2,3;j=1,2,3;i≠j;(2)由若干专家给出第i个证据相比于第j个证据重要的概率,并依据d-s证据理论计算第i个证据相比于第j个证据重要的合成概率值,该合成概率值即uij,从而获得判断矩阵p;(3)对判断矩阵p中对角线以上的数据进行转换,即当i<j,令(4)采用层次分析法对转换后的判断矩阵进行一致性检验,若通过一致性检验,则对转换后的判断矩阵每一列分别进行归一化,获得新判断矩阵p';(5)对p'中每一行分别进行求和,得到各个特征对突发词影响力大小的向量xt=(x1,x2,x3);对向量xt归一化,得到各特征对应的权重αt=(α,β,γ)。本发明具有如下特点和有益效果:本发明把微博数据集根据时间信息进行切片,对每一个时间窗口内的数据分别计算每一个词的词频特征、话题标签特征和词频增长率特征。然后,根据权重大小挑选出具有突发特征的词集。接下来,基于词语共现度和结合紧密度计算各突发词之间的耦合度,并构建相似度矩阵作为凝聚式层次聚类算法的输入。再采用基于内部相似度的二叉树剪枝算法对聚类结果进行划分,即可得到该时间窗口所对应的突发事件。实验结果表明,和现有方法相比,本发明基于突发特征词的微博突发事件的检测方法在准确率和f值上有了很大的提升,即检测结果更准确。附图说明图1为本发明流程框图;图2为具体实施方式中特征融合权重计算方法的流程图;图3为实施例中的微博数据示例;图4为实施例中词语“某名人”的频次统计图;图5为实施例中实验结果对比图。具体实施方式为了便于理解本发明,下面将对本发明技术原理、实施过程及技术效果进行详细说明。微博突发事件检测的核心问题包括数据噪声的去除、参数阈值的设定和突发性特征的抽取。本发明基于突发特征词对微博的突发事件进行检测,其流程框图见图1所示。在进行突发事件检测之前,需要首先对微博数据进行预处理,对所有微博数据按照时间进行划分,获得时间窗口序列t1,t2,……,tn-1,tn,其中,tk表示第k个时间窗口,k依次取1、2、……n-1、n。本具体实施方式中时间窗口的选取大小为一天。时间窗口tk中包含微博数据集dk,因此时间窗口序列构成的微博数据集序列为d1,d2,……,dn-1,dn。微博数据集dk包含已经预处理好的微博数据dk={d1,d2,……,dm-1,dm},其中,di表示预处理后的一条微博数据,由于预处理已经包含了中文分词的处理工作,因此di={w1,w2,……,wp-1,wp},其中wj为微博数据中的第j个词。下面将对本发明所涉及模型的原理和实施过程进行详细描述。一、突发特征词提取模型1、突发词特征的分析与表示突发事件的出现往往会产生一些相应的特性,如词频、词频的增长率以及形成的话题等。例如,某些事件在某个时间窗口tk的影响力很小,但是在时间窗口tk+1内受到广泛的关注,影响力突增,与此同时,与事件相关的词语、话题也会出现激增。因此本发明从词频、话题标签和词频增长率等多种特征来获取突发特征词。(1)词频特征词频特征最能直观反映一个词在整个时间窗口的数据集内的重要程度,因此,将词频作为突发词的特征之一。通常采用经典的td-idf方法计算词频特征,该方法能够找出文档集中具有高区分度的高频词语,并为其赋予权重。然而,在面向微博数据的突发事件检测时,由于文档集数量大且文档长度很短,直接采用tf-idf方法,会把一些在大量微博中多次出现而没有区分度的词语赋予较低的权值,导致无法检测到部分突发词。因此,本发明对tf-idf方法中词频权重的计算方法进行了改进,具体见式(1)。在时间窗口tk包含的所有微博数据集dk中,某个词的词频权重ck(w)的计算方法如式(1),词频权重即词频特征:其中,ck(w)表示词w在时间窗口tk下的词频权重,fk(w)表示词w在时间窗口tk下的词频,fkmax表示在时间窗口tk中的词的最大频率,δ为词频权重的初始值,在0~1范围内取值,一般设置为0.5。式(1)的词频权重计算方法在进行突发词抽取时,避免了传统tf-idf方法对微博这种长短不一且均为短文本的数据处理时造成的干扰,更适合基于微博的突发事件检测。(2)话题标签特征话题标签是新浪微博的核心功能之一,能够让用户自行选择其所发布文本的主题,即高度概括用户文本内容的短语。突发事件相关的突发词很可能会出现在相应的微博话题标签中。本发明也将话题标签作为突发词抽取时的特征之一。在时间窗口tk所有微博数据集dk中某词w的话题标签权重tk(w)的计算参见式(2)和式(3),话题标签权重即话题标签特征:其中,ntag(w)表示时间窗口tk内出现词w的话题标签个数,ntag表示微博数据集dk内总的话题标签个数;同样地,nt_blog(w)表示时间窗口tk内词w在包含话题标签的微博中出现的次数,nt_blog表示时间窗口tk内包含话题标签的微博个数;if(w)是判断因子,用于判定话题标签中是否包含词w。若时间窗口tk内至少有一个话题标签包含词w,则if(w)取1,若时间窗口tk内没有任何话题标签包含词w,则if(w)取2。上述话题标签权重计算方法,考虑了词语所处的位置,对于处于话题中的词语或处于带有话题的微博中的词语赋予较高的权重.(3)词频增长率特征词频特征考虑到了一个时间窗口内的高频词语,但是没有考虑到词频的变化趋势。若某一突发事件刚刚发生,其突发词仅在tk时间窗口内剧增,就无法通过词频权重进行突发词的提取,因此引入词频增长率特征来识别突发词很有必要。本发明结合历史数据,首先计算某词w在时间窗口tk及其以前的时间窗口的历史平均词频ak(w),见式(4)所示:其中,fk(w)表示词w在时间窗口tk的词频;ak-1(w)表示词w在时间窗口tk-1及其以前的时间窗口的历史平均词频,当k取1时,ak(w)则表示词w在第一个时间窗口的词频。利用式(4)计算连续多个时间窗口内的平均词频ak(w),用于反映某词的词频所产生的动态变化。而词频增长权重可以根据历史平均词频和当前时间窗口词频来计算,表示某一词语当前处于爆发、平稳还是骤减状态,bk(w)表示某词w在时间窗口tk的词频增长率权重,即词频增长率特征,其计算方法如式(5)所示:其中,fk(w)表示某词w在时间窗口tk的词频,词频增长率权重bk(w)反映了词相较于历史情况的活跃程度。若bk(w)大于0表示该词处于增长阶段,值越大说明越有可能属于突发特征词。反之如果小于0表示该词属于衰减阶段,基本不可能属于突发特征词。利用词频特征能在时间窗口内挑选出频率高的词,利用话题标签特征能挑选出时间窗口内具有代表性的词语,而词频增长率特征能在时间的推移过程中快速的发现与突发事件相关的词语。因此,本发明将词语w的词频特征ck(w)、话题标签特征tk(w)和词频增长率特征bk(w)进行加权,得到突发词判断权重wk(w),计算公式见式(6)。其中,wk(w)表示某词w在时间窗口tk的突发词权重,将加权结果大于预设突发词阈值的词作为该时间窗口tk的突发词。由于词频增长权重bk(w)的取值范围是(-∞,+∞),因此在加权之前需要对其进行归一化。bkmax和bkmin分别表示在时间窗口tk内词频增长权重的最大值和最小值。α,β,γ分别表示词频特征、话题标签特征和词频增长特征的权值,且α+β+γ=1。α,β,γ的取值会影响突发词的挑选效果。2、基于d-s证据理论和层次分析法相结合的特征融合方法为了更好的抽取微博数据中的突发词,本发明将词频特征、话题标签特征和词频增长率特征进行融合,得到突发词判断权重来抽取突发词,见公式(6);并将突发词判断权重作为下一步突发事件检测的输入。微博突发事件具有突发性、不确定性,是处于一种“未知的”状态。d-s证据理论是一种不确定性的推理方法,能够处理由未知性引起的不确定性,同时,层次分析法能够将定性问题转化为定量计算,并且能够对最终的定量计算结果进行一致性检验。因此本具体实施方式中利用d-s证据理论对专家确定的初始权重矩阵进行推理,采用层次分析法构建各个特征的判断矩阵,并使用层次分析法中的特征矩阵一致性检验方法对上面得到的判断矩阵进行一致性检验,验证整个特征矩阵不确定性推理过程的有效性,以此得到相对准确的特征向量,并将该特征向量作为各个特征的权重。特征融合过程如图2所示。(1)构建评估框架此处需要解决的问题是判断由微博数据中提取出的词是否为突发词,其状态分为突发词和非突发词两种。因此定义异常评估框架θ={y,n},y状态表示该词为突发词,n状态表示该词不是突发词,则有突发词判定模型中主要考虑了词频特征、标签话题特征以及词频增长率特征,因此构建证据三元组e(c,t,b),则词w在时间窗口tk下的三元组的取值为(2)利用d-s证据理论构造判断矩阵d-s证据理论中,基于证据理论的不确定性推理出信任分配函数是最关键的一步。突发词的抽取很难有标准的数据集去界定,因此首先结合多位专家意见,构造判断矩阵,最大程度减少个人对整个评估结果的影响,使结果更客观。定义3×3大小的判断矩阵p,用来表示突发词判定用到的三个证据之间的关系,矩阵中的值uij代表第i个证据和第j个证据相对于突发词判定时重要程度的比较结果,uij越大,代表证据i比证据j更重要。首先,需要m位专家给出第i个证据相比于第j个证据重要的概率m1(a),m2(a),…,mm(a),a表示所包含的假设;然后,依据d-s证据理论合成规则,计算m位专家合成后的概率值m(a),即uij。计算方法如式(7)、式(8)所示。其中,表示异或运算符,k表示归一化因子,a1、a2、…an为n种假设。(3)利用层次分析法对判断矩阵进行一致性检验基于d-s证据理论合成来的判断矩阵p见式(9)所示:为了把判断矩阵p作为层次分析法的输入,将p中对角线以上的数据进行转换,即将上三角部分转换为下三角部分的倒数,即:若i<j,则一般来说,若判断矩阵p中的元素满足aik+akj=aij,则称矩阵p为一致矩阵;否则为非一致矩阵。如果判断为非一致矩阵,则使用最大特征根方法计算不一致程度指标ci。计算得到ci后需要查找一致性指标表得到随机一致性指标ri,最后计算相对的一致性指标当相对的一致性指标cr<0.1时,表示判断矩阵p的不一致程度在允许的范围内,其对应的特征向量{w1,w2,……,wn}可以作为权重向量。如果未通过一致性检验,则需要重新调整矩阵内数值的两两比较关系,直至通过一致性检验。(4)各指标权重计算对通过一致性检验得到的判断矩阵p的每一列分别进行归一化,得到新的判断矩阵p',归一化后的元素uij记为u'ij。然后,对判断矩阵p'中每一行分别进行求和,得到各个特征权重对突发词抉择影响力大小的表征向量xt=(x1,x2,x3),xi表示第i行元素之和。最后,对向量xt进行归一化,得到各特征对应的权重αt=(α1,α2,α3),αi为第i个特征对突发词判断的权重,即α=α1、β=α2、γ=α3。带入式(6),即可计算某个词w的突发词判断权重,通过将突发词判断权重与突发词判断阈值进行比较,从而判断该词是否为突发词。突发词判断阈值为经验值,具体可通过多次重复实验来获取,本具体方式中突发词判断阈值的最佳值为0.7。3、基于突发词的事件检测模型定义时间窗口tk抽取得到的突发词集为wk,基于wk中的突发词对突发事件进行检测。由于突发事件的不确定性,且准确数也难以确定,因此采用机器学习中的聚类算法来构建基于突发特征词的事件检测模型。本具体实施方式采用层次聚类算法构建突发事件检测模型。(1)突发词耦合度计算方法突发事件发生,则可能同时伴随大量微博的产生,且一些词语频繁地出现在这些微博中,则这些微博极有可能描述的是同一个突发事件。为了防止所提取的突发词之间的语义差异而导致将描述同一突发事件的两个突发词分为两类,影响突发事件检测的准确率,本发明引入突发词耦合度的概念。所谓突发词耦合度是指两个突发词间的共现度和结合紧密度的融合。共现度表示两个突发词同时出现在一个微博中的情况,而结合紧密度则反映的是两个突发词之间的语义相关度。考虑到词语虽然同现但语义不相关的情况,将耦合度作为输入提供给层次聚类算法,得到一个以突发词为节点的树形结构,最后对树型结构进行拆分、剪枝,从而实现对突发事件的检测。词语wi相对于词语wj的相对共现度r(wi|wj)和词语wj相对于词语wi的相对共现度r(wj|wi)的定义,如式(10)、式(11)所示。其中,tf(wi,wj)和tf(wj,wi)表示同时包含词语wi和wj的微博条数,tf(wi,wj)=f(wj,wi);tf(wi)和tf(wj)分别表示包含词语wi和wj的微博条数。大多数情况下r(wi|wj)是不等于r(wj|wi)的,为此,又定义共现度c(wi,wj),见式(12)。采用互信息的计算方法来计算两个突发词同时出现在一条微博中的结合紧密度,见式(13)所示:其中,mi(wi,wj)表示词语wi和wj的互信息;p(wi)和p(wj)分别表示词语wi和wj出现的概率,p(wi,wj)表示词语wi和wj一同出现的概率。tf(wi)和tf(wj)分别表示包含词语wi和wj的微博条数,tf(w)表示微博总条数,tf(wi,wj)表示同时包含词语wi和wj的微博条数。互信息越大表示两个词语的紧密程度越高。融合词语的共现度和结合紧密度构建词语的耦合度计算模型,如式(14)所示。s(wi,wj)=c(wi,wj)+mi(wi,wj)(14)其中,s(wi,wj)为词语wi和wj间的耦合度。构建突发词集wk的耦合度矩阵sw',如式(15)所示。耦合度矩阵sw'具有对称性,对角线元素smax表示突发词之间耦合度最大的值。将耦合度矩阵sw'中的每一个元素进行归一化操作,得到归一化后的耦合度矩阵sw,并以矩阵sw作为层次聚类的输入。(2)基于凝聚式层次聚类的事件检测方法本具体实施方式采用自底向上的凝聚式层次聚类,并使用平均距离算法来计算簇与簇之间的距离。假设簇ya={wa1,wa2,……,wam}与簇yb={wb1,wb2,……,wbm}是由不同个数的突发词构成,簇间平均距离受突发词间的相似度影响,将两簇内两两元素间相似度的倒数平均值作为两簇的平均距离,构建簇与簇的距离d(ya,yb),见式(16)所示。其中,|ya|和|yb|分别表示簇ya和簇yb中突发词的个数,wi和wj分别为两个簇中的突发词,smax和smin分别表示簇ya和yb中突发词间的耦合度最大值和最小值。通过该平均距离公式来更新簇间距离,实现对突发词的聚类。本具体实施方式中,基于平均距离的自底向上凝聚式层次聚类方法的实施过程如下:输入:时间窗口tk下的突发词集wk、以及突发词集wk的耦合度矩阵sw';输出:由突发词作为节点的二叉树型结构。步骤1:将突发词集wn={w1,w2,……,wk}中的每一个突发词看作一个簇,因此当前簇集合为clustern={y1,y2,……,yk}={{w1},{w2},……,{wk}};步骤2:计算簇集合clustern中任意两个簇之间的相似度,缓存于集合temp中,则temp={d(y1,y2),d(y1,y3),……,d(y1,yk),d(y2,y3),……,d(yk-1,yk)};步骤3:判断集合temp内元素数|temp|,若|temp|=1,则跳转步骤5;若|temp|>1,则选取集合temp中最小的相似度值并获取对应的两个簇,假设为簇ym和yn,将这两个簇从集合clustern中删除后,并将这两个簇合并成一个新的簇后加入到集合clustern,此时簇集合clustern={y1,y2,……,{ym,yn},……,yk-1};步骤4:跳转至步骤3,根据合并后簇集合clustern相应的更新temp集合;步骤5:输出对应的二叉树型结构。经过自底向上凝聚式层次聚类方法,可以得到一棵由突发词以及突发词集构成的二叉树型结构。二叉树所有叶子节点的集合是初始的突发词集wn,而二叉树中的非叶子节点是突发词集wn的一个子集。要对突发事件进行识别,则需要对这颗以突发词为叶子节点、突发词构成的簇为非叶子节点的二叉树进行分割,将分割后得到的子树中的突发词作为突发事件的关键词。聚类方法的步骤3中,取相似度值最小的两个簇进行合并的过程中,ym和yn间的相似度是作为分割二叉树的标准。若两个合并的簇内部相似度不够高,则需要对该簇进行分割。本具体实施方式中基于内部相似度的二叉树剪枝分割方法的实施过程如下:输入:凝聚式层次聚类输出的二叉树型结构、以及簇内部相似度阈值θ;θ在0.5~1.5范围内取值,可通过重复试验筛选出最优值;输出:突发事件的划分集合e;步骤6:判断根节点的左右子树的内部相似度d和θ的大小,左右子树的内部相似度d即左子树和右子树所对应的簇之间的相似度;若d≥θ说明根节点满足簇内相似度要求,则将整颗二叉树加入到突发事件划分集合e={root},并跳转到步骤9;否则分别执行步骤7和步骤8;步骤7:判断根节点的左子树是否为空,若不为空,则将该左子树和簇内部相似度阈值θ作为输入,对该左子树进行基于内部相似度的二叉树剪枝;若为空,则终止本步骤;步骤8:判断根节点的右子树是否为空,若不为空,则将该右子树和簇内部相似度阈值θ作为输入,对该右子树进行基于内部相似度的二叉树剪枝;若为空,则终止本步骤;步骤9:输出突发事件划分集合e。突发事件划分集合e中,所有的突发词都在其中且会被放在不同的簇内,且每个簇的大小不一定完全相同。随后人工根据划分集合e对突发事件进行判断。实施例下面将提供本发明方法的应用实例。利用新浪api爬取从2018年3月10日到3月29日的微博数据,经相关预处理后保留微博文本450799条进行实验。为去除噪声数据,本实施例采取以下方法进行去噪:(1)将少于5个字的微博文本或者文本为重复字母、重复汉字、重复符号的微博进行删除;(2)删除微博的非文本信息,如:url链接、表情符号、特殊字符等;(3)构建了一个面向微博文本的用户词表和停用词表,并基于nlpir分词系统对文本进行分词处理和停用词去除。经处理后的微博数据示例如图3所示,其存储结构如表1所示。表1微博数据存储结构序号字段名称字段类型描述1user_idlong用户id2user_namestring用户昵称3contentstring微博内容4zanint点赞数5zhuanint转发数6timetimestamp发布时间首先,确定三个突发特征的权值α、β和γ。本实施例收集了两位专家对三种证据的不确定性,并将两位专家的意见融合构建判断矩阵p,证据不确定性概率如表2所示,对其意见进行融合后得到u13=0.539、u21=0.281和u23=0.18,并构建判断矩阵p,并将矩阵p中对角线以上的数据进行转换得到层次分析法的输入矩阵p',如式(18)所示。表2证据不确定性概率表证据专家1专家2词频特征0.30.45话题标签特征0.20.25词频征率特征0.50.30对判断矩阵进行一致性检验,首先计算最大特征值λmax=3.003,然后求得ci=0.002,查表得到ri=0.58,最后计算cr=0.003<0.1。因此判断矩阵p'满足一致性检验,说明通过证据理论得到的判断矩阵p'是合理的。最终对判断矩阵p'进行归一化操作得到的各特征权重向量xt=(α,β,γ)=(0.328,0.0976,0.5744)。为了测试突发词提取模型的效果,从数据库中抽取2018年3月10日到2018年3月19日共计10天的数据,按天进行时间窗口划分,计算每个词的词频特征、话题标签特征和词频增长率特征,得到突发词判断权重。经式(6)计算发现3月14号突发词的权重存在突发词判断权重异常高的词语,如表3所示。表32018年3月14日部分突发词权重top表词语词频权重话题标签权重词频增长率权重突发词权重排名某名人10.2121512320.9842123120.9140375121去世0.2654419920.19042122310.680050085276岁0.7170509190.1234123120.5211321120.5465760283物理学家0.2653187030.0321242210.4421231230.3441153814享年0.2509554930.2031231110.3212342120.2866551495宇宙0.1588583410.1022113210.2512312310.206388586再见0.142645790.0583212340.0123512360.0595745217通过表3可以看出词语“某名人”、“去世”、“76岁”的突发词权重明显高于其他词语。以“某名人”为例,将该词这十天的词频进行统计,统计结果如图4所示,可以很明显的发现在14号当天发生了“突增”。从人工角度来看显然当天发生了突发事件——物理学家某名人去世。接下来确定事件检测模型中的参数簇内部相似度阈值θ,θ是在对突发事件进行划分时的核心参数。利用从2018年3月10日到3月29日的数据集抽取到的突发词集合w3.10,w3.11,……,w3.29共计20个。结合微博的热搜榜、风云榜和微博数据本身,人工标注了这20天内的突发事件,共计38个大大小小的突发性事件。并利用正确率、召回率和f值三个评估指标对突发事件的检测模型进行检验。在对数据集进行凝聚层次聚类后,通过对簇内部相似度阈值θ取0.5至1.5不等,基于不同的θ,分别对数据集进行基于内部相似度的二叉树剪枝,得到如表4所示的实验结果。从表4中可分析得到,当簇内部的相似度阈值θ取1.1时,正确率和f值分别达到最高值0.8462和0.8571。而随着簇内部相似度阈值θ增大,虽然召回率有了小幅度的提升,但是正确率和f值均有较大幅度的下降。因此,将簇内部相似度阈值θ的取值定为1.1,在θ=1.1时对数据集进行突发事件的划分效果最好。表4簇内部相似度阈值θ取值的不同对实验结果的影响见图5,根据文献1(zhengfr,miaodq,zhangzf,etal.newstopicdetectionapproachonchinesemicroblog[j].computerscience,2012,39(1):138-141.)中提到的增量聚类方法,利用2018年3月10日到3月29日的微博数据,将得到的突发词耦合度矩阵输入增量聚类算法进行计算,当增量聚类距离阈值选取300时f值最高,达到0.6315,正确率是0.5454,召回率是0.75。在文献2(郭跇秀,吕学强,李卓.基于突发词聚类的微博突发事件检测方法[j].计算机应用)中,采用基于突发词相似度和凝聚式层次聚类的方法实验,当凝聚式层次聚类距离阈值选取500时f值最高,达到0.7368,正确率是0.6364,召回率是0.8750。而本发明方法的正确率0.8462、召回率0.8684、f值0.8571都有了很大的提升。虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1