基于at的时间模型构建方法与网络突发事件预警方法_3

文档序号:9929642阅读:来源:国知局
和2所示。其中斯表示在 第i个时间段内新加入的包含W的文档个数,%表示在第i个时间段内新加入的总的文档个 数,dfi(w)表示前i个时间窗内包含词语W的文档数,dfi-i(w)表示前i-1个时间窗内包含词 语W的文档数,Ni表示前i个时间窗内文档总数。
[0116] (1)
[0117] 巧
[0118] 步骤S0302:利用公式3计算词语W的增量TF-IDF值,其中tfi壯/ (w,d)表示文档d中 词语W的权重,COimt (W,d)表示文档d中词语W出现的次数,COimt (,d)表示文档d中词语W ' 出现的次数,IogO是WlO为底的对数函数。
[0119]
[0120] 步骤S0303:将词语的位置信息考虑到词语的权重计算中,对表示地点、人物等名 词加大权重(特征词的词性由分词工具可得),得到加权TF-IDF计算方法,如公式4所示。其 中tfi壯"(W,d)表示词语W在文档d中的加权权重,Wheadline和Wenti1;y权重因子。
[0121] tfidf''(W,d) = (l.0+Wheadline+Wenti1;y)*tfidf' (W,d) (4)
[01 22] Wheadline和Wentity计算方式如公式5所不。
[0123]
(5)
[0124] 步骤S0401:对每一个文档D,都可W将其表示为一个由n个关键词组成的n维向量, 而后就可W将文档中的内容转换为向量空间中的向量进行运算,记为(dl,d2,......,山), 称di为D的第i个分量。考虑到计算的时间复杂度,选取文档中权重较高的K个词作为该文档 的向量维数。同样的,为了方便相似度的计算,对于话题集合中的话题,也采用向量空间模 型来对其进行表示。运样,每一个文档和话题都能够使用一个向量进行量化表示,如式6其 中Wi表示di在文档D中的权重。
[0125] D=(wi,W2, . . . ,Wn) (6)
[0126] 步骤S0402:在将话题和文档使用向量空间模型表示为向量W后,使用向量夹角来 对文档与话题之间的相似度进行量化。如公式7所示,其中similarity/(d,t)表示文档d和 话题t的相似度,tfi壯(w,d)表示词语W在文档d中的权重,tfi壯(w,t)表示词语W在话题t的
权重。
[0127] 巧)
[0128] 步骤S0403:加入时间距离因子,时间距离因子TIF的计算方法如公式8所示,其中 docuPublish代表当前文档的发布时间,topic化date则表示话题中的文档集合最后一次更 新的时间,时间单仿为砂。
[0129]
揖)
[0130] 结合时间距离因子后,计算文档和话题的相似度Sim(d,t)的方法如公式9所示。
[0131] Sim(d,t) =Similarity'(d,t)*TIF (9)
[0132] 步骤S0501:使用Single-Pass作为在线话题检测的增量聚类方法。基本流程如下:
[0133] (1)输入一篇网络文档d;
[0134] (2)计算文档d与当前已有话题中的各个话题中的每一篇文档的相似度,并选取其 中的最大值作为与该话题的相似度;
[0135] (3)在所有话题中选出与文档d相似度最大的一个话题,并记录此时的相似度值S;
[0136] (4)如果S大于聚类阔值Tc,文档d被分配给运个话题模型的文本类,跳转至(6);
[0137] (5)如果S小于聚类阔值Tc,说明文档d不属于当前已有的话题集合中的任意话题, 创建新话题并将文档d加入该新话题;
[0138] (6)聚类结束,等待新文档的到来。
[0139] 步骤S0601:本发明将连续的时间序列划分为长度相同的时间段(time SO11),并 W每个时间窗口为单位对话题的进行能量值计算,本发明选取10分钟作为一个时间窗口的 长度。
[0140] 步骤S0602:对于一个话题V,记在一个时间窗t内所有的属于该话题的文档与其相 似度的累加和为Xt,设置营养转换因子a(Nu1:;rition IYansferred Factor)和营养衰减因 子^(Nutrition Decayed化Ctor),其中a决定了新闻文档能够贡献给该话题的营养值,0则 代表营养衰减因子。另外,在t时刻话题的能量值可记为一个与a和PW及每一个时间段内的 加入话题的文档相似度的累加和(X1,X2,...Xt)相关的联合函数如式10所示:
[0141] yt = g(xi, . . . ,xt,a,0) (10)
[0142] 步骤S0603:定义一个能量函数F(y)用于计算话题的热度值,该函数的参数是该文 档的营养值。函数需满足W下属性,如式11所示:
[0143] 〇<F(y)<l
[0144] 严格单调递增 (11)
[0145] F(O)=O,F(^) = I
[0146] 步骤S0604:对能量函数进行更为具体的定义如式12所示:
[0147]
(12)
[0148] 其中,r指的是营养值的系数(考虑到衰减因子等因素,r不是一个常量),s是一个 常量,T是时间窗口的数目,r和S均由用户进行选择。
[0149] 步骤S0605:考虑一种极端的情况,话题的能量值不随着时间有所衰减,即衰减因 子为0。运样话题的营养值就仅仅与营养转换因子有关,在T时刻话题的能量值就可W表示 为式13:
[0150]
U3)
[0151] 由于F是一个严格单调递增函数,该式的两边取反可得式14:
[0152]
(14)
[0153] 运样就可W通过两边同时除
来计算〇,得式15:
[0154]
CIS)
[0155] 步骤S0606:S0605讨论的极端情况是不符合现实情况的,不论在生物的成长过程 还是在网络新闻事件的发展过程中,其能量值总是要随着时间的推移而有所衰减的。所W, 本发明中定义一个营养衰减因子来表示每个时间段内话题能量的衰减值。因此可使用公式 15计算t时刻话题的营养值:
[0156]
(16)
[015 引 (]7)
[0157]步骤S0607:选取两组不同的参数(ri,si)和(r2,S2),即可获得转换因子及衰减因 子的计算公式17和式18:
[0159] (18)
[0160] 步骤S0608:考虑客观影响因子,不同时间段新闻报道的数量不同,在报道量较小 的时间段会产生话题的能力值下降过快下降的情况。本发明所使用的营养衰减因子的计算 方法如式19所示:
[0161] Pi =帕log(l .0+m/avg) (19)
[0162] 其中,01指的是在第i个时间窗口内的动态衰减阔值,巧旨营养衰减因子,m指在第i 个时间窗口内总的新闻报道数目,avg是一个常量经验值,代表在一个时间窗口内平均发布 的新闻报道数目。
[0163] 步骤S0609:同样考虑话题刚刚建立时由于营养值的迅速增加,事件的热度值也会 有一个快速的增长而跳过事件发展生命周期中的萌芽期,同时运也会造成新话题的热度值 虚高,从而影响到热点发现及突发预警的结果。所W需要在话题中所包含的文档数较少的 时候对能量值的增长进行抑制。本课题通过改进营养值的计算方法来解决运个问题。一篇 文档对当前话题贡献的营养值的计算方法可W表示如式20所示:
[0164] ANut;rition = a*sim*logEnimi(l'num) (20)
[0165] 其中化um表示当前话题中的文档数目,Enum为经验值,Sim表示当前文档与该话题 的相似度。
[0166] 步骤S0610:综上本发明所使用的模型构建方法可W描述为算法如下:
[01A71
[0168] 本文使用了在国内几大新闻口户网站上爬取的从2013年12月I号到12月5号之间 的50000篇新闻作为数据来源。从中随机选取5000篇作为话题检测的数据集。然后从中选取 新闻文档数较多(超过20篇)的9个话题做人工标注,选取运些话题相关的新闻报道作为训 练集。表1中列出了运些话题的报道数目。
[0169] 表1话题报道数量
[0170]
[0171] 首先,使用训练集对建模过程中用到的各个参数进行训练,得到较优的聚类阔值 t虹eshold = 0.17,而后通过上文中的方法对营养转换因子aW及营养衰减因子0进行训练, 得到a = 〇. 14332,0 = 0.01467。
[0172] 本发明通过对比原始话题检测方法(NormalTDT)和时间距离相关的话题检测方法 (TIFTDT)得到的准确率(Precision),召回率(Recall)和F值来评估方法的效果。如表2,表3
[0174] 所示为两种方法的准确率,召回率和F值的比较。[0173] 表2原始话题检测方法(Norma 口 DT)
[0175]
[0176]
[0177] 由表2和表3的对比结果。可知,在在线话题检测的过程中加入时间距离因子,对检 测的效果具有一定程度的提升。观察两表可W看到,尽管对某些话题F值不升反降,但对大 部分的话题来说,加入TIF都是能够有效提高聚类效果的。本发明中所提出的时间距离相关 的话题检测更倾向于对短期内出现大量报道的新闻话
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1