一种面向短文本的突发事件发展过程表示方法

文档序号:9506167阅读:289来源:国知局
一种面向短文本的突发事件发展过程表示方法
【技术领域】
[0001] 本发明涉及一种事件的表示方法,特别涉及一种面向短文本的突发事件发展过程 表示方法。
【背景技术】
[0002] 在文本处理领域,文本的重要性或贡献值通常是采用语义的方法来获取,首先计 算文本之间的语义相关性,然后根据文本之间的相似度提取那些相似度越大、出现越多的 文本则被认为更重要,贡献越大;同时也有人利用文本的结构化信息(如,文本浏览量、支 持量等)来计算文本的重要性或贡献度。
[0003] PageRank算法初始用于处理网页节点之间的关系(入链、出链),迭代挖掘各个节 点的重要性,某节点的入链表示该节点受到其他节点的关注或重视,某节点的出链则表示 该节点认为另外某些节点也是重要的,节点入链越多且入链所牵连节点的权值越高,则该 节点权值越高。与本文相似的研究,李洪利,王箭等通过基于PageRank的微博用户权威度 评价模型来计算,将用户权威度数据与微博评论数、转发数结合,得到话题的热度值。
[0004] 分层算法是根据数据的某些相似的属性或者在相近值域范围内的这些数据划分 到相同的层中,然后将同一层中的数据做相同的处理,而不同层的数据则处理不一样。近 年,赵龙文、公荣涛等人提出基于意见领袖参与行为的微博话题热度预测模型,以意见领袖 的影响力及其参与行为等指标,研究微博热点话题的发展趋势和特征。
[0005] 现有相关技术多采用文本处理的方案,通过挖掘文本内容,再提取文本语义;由于 文本语义很多情况下是具有歧义的,通过机器来识别文本语义非常困难、复杂而且精确度 不高,需要借助大量的工具(如,词典、语义消歧等)。

【发明内容】

[0006] 针对现有技术存在的缺陷,本发明的目的是提供一种面向短文本的突发事件发展 过程表示方法,将事件所引发的社会关注度、传播范围等以一个状态值呈现,某时刻事件的 状态值越高则表明它在该时刻受到了社会的越大关注与讨论等。
[0007] 为达到上述目的,本发明采用如下技术方案:
[0008] -种面向短文本的突发事件发展过程表示方法,首先设定时间窗口,将短文本集 划分成时间连续的多个子集,然后根据每个子集计算事件在对应时间窗口的状态值,最终 获得一系列的时序状态值作为该事件的发展过程表示,其步骤如下:
[0009] 1)获取事件相关的短文本集A,设定时间窗口 T,将短文本集A划分为多个子集 A1, A2,…,An,子集之间是时间连续且两两不相交的;
[0010] 2)利用文本结构化信息,构造三个因素:评论率、转发率、支持率,获取文本信息 权重;
[0011] 3)利用作者结构化信息,构造三个因素:社会关注度、社会紧密度、社会活跃度, 同时考虑作者的社会关系及社会影响,分别采用改造的PageRank和动态分层法处理,获取 作者信息权重;
[0012] 4)根据文档的文本信息权重和作者信息权重,获得单篇文本对事件的贡献值;
[0013] 5)将对应时间窗口内短文本的贡献值求和,获得各时间窗口下该事件的状态值, 并绘制事件发展过程曲线图。
[0014] 所述步骤1)中的时间窗口指一段连续的时间,时间窗口之间是连续且不相交的; 对于事件相关短文本集A在各时间窗口下的短文本子集分别为=A 1, A2,…,An,那么该事件 在发展过程的状态值则由该连续的时间窗口下相应的短文本子集计算获得并表示。
[0015] 所述步骤2)中的文本信息权重获取方法为:利用文本的转发数、评论数、支持数 以及对应作者的粉丝数,计算该文本的转发率、评论率和支持率,获取该文本除去作者个人 影响所获得的关注程度,即文本信息权重;其中:
[0016] 评论率(fv)指文本获得的评论数量与文本用户的粉丝数比值;转发率(fr)指文 本获得的转发次数与文本用户的粉丝数比值;支持率(fz)指文本获得的"赞"次数与文本 用户粉丝数的比值;文本信息权重指文本内容对事件产生的影响力或吸引关注者的能力; 它们的计算公式如下:
[0019] 上述,式(I)中分别为利用文本结构化信息构造的三个因子:文本评论率(fv)、 文本转发率(fr)、文本支持率(fz),其中,N vif3w表示对应文档得到的评论次数;Nratwt表示 对应文档得到的转发次数;N zan表示对应文档获得的赞次数;Nfcil表示对应文档用户的粉丝 数;1为平滑因子;式(II)表示将这三个因子累和获得该文档的文本信息对事件的权重值 Weighttextij0
[0020] 所述步骤3)中的作者信息权重获取方法,包括如下步骤:
[0021] a)利用用户的粉丝数、好友数、互粉数、发布的消息数以及注册时长的结构化信 息,计算获得用户的社会关注度、社会紧密度、社会活跃度三个因素,并采用映射函数(F(x) =V(x+1))将这三个因素映射到同一值域区间;
[0022] b)根据步骤a)中获得的三个因素,计算获得用户质量;
[0023] c)根据步骤b)中获得的用户质量,用户的社会关系,采用改造的PageRank法计算 获得用户最终质量;
[0024] d)对所有该时间窗口下参与到该事件讨论的用户,采用动态分层法对他们进行划 分,并计算获得层权重值(Wtk);
[0025] e)根据上述获得的用户最终质量以及用户所在层权重值,计算获得作者信息权 重。
[0026] 所述步骤a)中的社会关注度,是对用户的粉丝数取自然对数,它反映用户受 到社会的关注程度,用户受关注程度越大则表明该用户影响力越大,那么对用户质量的贡 献也越大;社会紧密度,.Au,是用户的互粉数与用户好友数的比值,它反映用户与其社会 关系中相关人员的关联程度,用户的关联程度越大则表明与其相关人员互动越多,那么对 用户质量的贡献也越大;社会活跃度,%是用户发布的消息数与注册时长的比值,它反 映用户的活跃程度、发消息频率,用户的活跃度越高则表明其对新消息越感兴趣,发布重要 热点消息越大,受到其他用户的关注越多,用户之间的互动也越多,那么对用户质量的贡献 也越大;作者信息权重指作者对事件产生的影响力或吸引关注者的能力;它们的计算公式 如下:
[0028] 其中,/〇々表示用户U1的粉丝数,表示用户U1的互粉数,/心,表示用户U 1的好 友数,WogR表示用户+发表的消息数,ZfWgTYmev表示用户注册时长,1为平滑因子。
[0029] 所述步骤b)中的用户质量,:指用户自身对社会的影响力,引发事件传播 或发生的能力,其计算公式如下:
[0031] 其中,F㈩表示映射函数F(X) = V(x+1),E表示三个因素值的集合(dis :社会 紧密度;act :社会活跃度;att :社会关注度)。
[0032] 所述步骤c)中的改造的PageRank法是:利用社交网络中用户之间是相互影响的 原理,认为每个作者都将受到与其相关联的用户影响,关联用户的质量越高则该作者的质 量越高,对于出链的用户同样视为对该作者是有贡献的,因为作者一旦链接到优质用户,那 么他将从优质用户那获得优质而丰富的信息,从而发送优质或引起关注信息的可能性也越 大,否则反之;用户关联质量,指考虑用户社会关系,采用改造的PageRank法计算 得到的最终用户质量;依据改造的PageRank法,用户关联质量的计算公式如下:
[0034] 其中K表示作者关联用户按质量降序排序的前K个,d为阻尼系数,In (U])表示关 注用户j的用户集(即,用户j的粉丝),〇ut(U])表示用户j所关注的用户集(SP,用户j 的好友),Ujim表示用户u 的粉丝m,u _jin表示用户u 的好友η。
[0035] 所述步骤d)中的动态分层法是:利用关联用户越多的用户影响越大,且这些用户 也越少的原理,动态地调整关联用户数量(X)-用户数量(y)的分布图,使之呈现一种非增 的趋势;层权重值指用户对于社会影响力的量化值,其计算公式如下:
[0036] Wtk= k*w/seg (VI)
[0037] 其中,k表不层下标值(层号),seg表不两层之间的间隔值,w表不初始设置的一 个权值。
[0038] 所述步骤e)中的根据作者层权重及其用户关联质量,作者信息权重计算公式如 下:
[0040] 所述步骤4)和步骤5)中的文档对事件的贡献值是指反映事件的影响力或吸引人 们关注的能力的一个量化值;事件的状态值指事件在某个时间窗口下的受关注度量化值; 它们的计算公式如下:

[0043] 上述,式(VIII)表示文档j对事件状态的贡献值Dochcit」,Weight text」表示文档j 的文本信息权重,示文本j的用户信息权重,采用乘法是因为这两个部分对事 件的贡献应该是相互放大的;式(IX)表示事件i在某时间窗口下的状态值E venth。tll,N1表 示该时间窗口下的文本量。<
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1