一种新闻事件的动态跟踪和总结算法

文档序号:6623798阅读:221来源:国知局
一种新闻事件的动态跟踪和总结算法
【专利摘要】本发明公开了一种新闻事件的动态跟踪和总结算法,其特征是按如下步骤进行:步骤1、输入与新闻事件相关的查询语句进行检索,获取新闻文档及对应的发布时间;步骤2、构建词共现图;步骤3、采用社区发现算法从词共现图中提取与新闻事件相关的多个主题;步骤4、选取主题集合中每个主题相对应的句子组序列及对应的发生时间标签;步骤5、对主题集合中的每个主题按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。本发明在能够充分利用所查到的新闻文档中保留多个新闻主题,并对各个主题进行动态跟踪和总结,从而能让用户更全面性和针对性的了解所关心的新闻摘要。
【专利说明】一种新闻事件的动态跟踪和总结算法

【技术领域】
[0001]本发明属于多文档摘要领域,具体来说是一种新闻事件的动态跟踪的动态跟踪和总结方法。

【背景技术】
[0002]随着互联网技术的快速发展,人们的生活也在不断地发生着变化。人们利用互联网获取更多信息的同时,也因互联网信息量的巨大,受每天阅读许多重复信息的困扰,导致许多不必要的时间被浪费。针对互联网上新闻事件的频繁发生,用户希望能获得新闻事件发展的来龙去脉的总结,而不是与相关的许多新闻链接。针对新闻事件,依据发生时间,顺序生成该新闻的摘要技术,被称之为新闻事件的动态跟踪。如何从互联网上大量的新闻数据中,依据相关的新闻文档生成新闻事件的总结,以便了解事件的发展过程成为现在的研究趋势。
[0003]现有的一些新闻事件的动态跟踪和总结方法,只依赖于查询语句和新闻文档之间的相关性,并没有对查询到的相关新闻文档进行充分挖掘,往往遗漏很多重要信息,或者产生许多冗余重复的信息,从而导致产生的新闻摘要很难概括出或体现出事件的前因后果和发展历程。


【发明内容】

[0004]本发明为了克服现有技术的不足,提出一种新的新闻事件的动态跟踪和总结算法,能够充分利用所查到的新闻文档中保留多个新闻主题,并对各个主题进行动态跟踪和总结,从而能让用户更全面性和针对性的了解所关心的新闻摘要。
[0005]本发明为解决技术问题采用如下技术方案:
[0006]本发明一种新闻事件的动态跟踪和总结算法的特点是按如下步骤进行:
[0007]步骤1、在搜索引擎上,输入与新闻事件相关的查询语句Q进行检索,并返回若干个新闻文档,利用爬虫工具从所述若干个新闻文档中爬取排序为前U个新闻文档及对应的发布时间,分别构成初始返回新闻列表X = {Xi, X2,…,Xi,…,X1J及对应的发布时间序列T=It1, t2,…,ti;…,tj , Xi表示在所述初始返回新闻列表X中第i个新闻文档,ti表示在所述发布时间序列T中与第i个新闻文档Xi所对应的发布时间;1 < i < U ;
[0008]步骤2、构建词共现图G ;
[0009]步骤3、采用社区发现算法从所述词共现图G中提取与新闻事件相关的多个主题Q;
[0010]步骤4、从所述初始返回新闻列表X及对应的发布时间序列T中选取所述主题集合Q中每个主题相对应的句子组序列及对应的发生时间标签;
[0011]步骤5、对所述主题集合Q中的每个主题进行处理,按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。
[0012]本发明新闻事件的动态跟踪和总结算法的特点也在于,
[0013]所述步骤2是按下步骤进行:
[0014]步骤2.1、利用分词工具对初始返回新闻列表X中的新闻文档进行分词和词性标注,并选取名词词性的词语构成词语集合W = (W1, W2,…,W10…,wj , wr表示在所述词语集合W中第r个名词词性的词语,I ^ r ^ R ;
[0015]利用式(I)获得任一词语K的文档频率DFr,从而获得文档频率集合DF =(DF1, DF2,…,DFr,…,DF1J ;

U
[0016]DFr = [ 1.! U;.e.V.1.11)


?^Ι
[0017]式⑴中,若第r个名词词性的词语w,属于新闻文档Xi,则l{w, e XJ =1,否则为O ;
[0018]步骤2.2、将所述词语集合W中的每个词语分别作为节点并对所述返回新闻列表X进行扫描,若在所述词语集合W中存在任意两个节点Wa和《0同时出现在一个新闻文档中,
则连接节点Wa和W0获得邻边ea,e,令所述邻边ea,e的权重为;初始化权重=1;
所述权重^^.,、..的值为所述节点Wa和、在所述初始返回新闻列表X中不同新闻文档中出现的次数;
[0019]步骤2.3、删除文档频率DFr小于阈值node_min_df的节点以及权重小于阈值edge_min_df的邻边;
[0020]步骤2.4、利用式⑵和式(3)分别获得邻边ea,e的条件随机概率P (ka |ke)和p(ke |ka):
,,,DF,
[0021](2)

Uii β
,,、DF.
[0022]P(IillIka) ^(3)


a
[0023]式(2)中,条件随机概率p(ka |ke)表示在节点W0出现在任意新闻文档中时,节点1同时出现的条件概率;条件随机概率p(ke |ka)表示在节点Wa出现在任意新闻文档中时,节点W0同时出现的条件概率;若所述条件随机概率P(ka |ke)和P(ke |ka)均小于阈值edge_min_prob,则删除所述邻边ea,e ;从而构建词共现图G。
[0024]所述步骤3是按下步骤进行:
[0025]步骤3.1、利用式⑷获得所述词共现图G中邻边ea,e的介数Be,从而获得词共现图G中所有邻边的介数;
[0026]=(4)

C {(O, V)
[0027]式(4)中,介数表示所述词共现图G中任意两个节点^和^的最短路径中经过所述邻边ea,e的最短路径的次数的比重;(;(ω,ν)表示所述词共现图G中任意两个节点^和^之间的最短路径中经过邻边ea,e的次数;C(?,ν)表示所述词共现图G中任意两个节点和^间的最短路径的总数目;
[0028]步骤3.2、从所述词共现图G中所有邻边的介数中找到最大介数所对应的邻边,若最大介数小于阈值B_max,则跳到步骤3.3执行,否则,删除所述最大介数所对应的邻边,并跳到步骤3.1执行;
[0029]步骤3.3、由通过邻边连接的节点或单独的节点分别构成一个主题,从而形成主题集合Q = {Qi, Q2,…,Qn,…,Qy},Qn表示在所述主题集合Q中第η个主题,I ( n y, y表示所述主题的个数;第η个主题Qn中所包含的词语为{qi,q2,…,qf…,qj,记为Qn =Iqi, Q2,…,%...,Qil ;qf表示所述第rI个主题Qn中第f个词语, , I表示所述第η个主题Qn中词语的个数。
[0030]所述步骤4是按下步骤进行:
[0031]步骤4.1、将第i个新闻文档Xi所对应的发布时间\作为所述第i个新闻文档Xi的初始参考时间,将所述第i个新闻文档Xi中包含时间信息的句子提取出来,从而获得初始返回新闻列表X中所有新闻文档所包含时间信息的句子构成的句子集合S = {Sl,S2,…,δφ,…,SnI及对应的发生时间序列Ts = {tsl, ts2,…,?3φ..., tsN} ;N表示句子集合S中句子的数目;ts4>表示在所述发生时间序列Ts中与第Φ个句子S41所对应的发生时间;
[0032]步骤4.2、提取所述句子集合S和主题集合Q中所有不同的词语,获得词语特征序列Wg = (W1, W2,…,wh,…,wg} ;wh表示词语特征序列中第h个词语, ;
[0033]利用式(5)获得所述词语特征序列Wg中任意个词语Wh在所在句子或主题中的文档与反文档频率tf-1sf (Wh),从而利用所述文档与反文档频率表示所述句子集合S和主题集合Q中的每个句子和每个主题;

N
[0034]tfisf{\vh) =tfl X log— (5)


nh
[0035]式(5)中,表示词语wh在所在的句子或主题中出现的次数,nh表示在所述句子集合S和主题集合Q中出现词语Wh的次数;若每个句子或每个主题中不包含第h个词语wh,则 tf-1sf (wh) = O ;
[0036]步骤4.3、利用式(6)所示的余弦相似度计算方法分别获得第Φ个句子S41和第η个主题Qn的相似度c0Sine(S(i),Qn),从而获得每个句子与每个主题的相似度,若相似度cosine (s$, Qn)大于指定阈值min_sis,则第Φ个句子Sljl属于第η个主题Qn:

【权利要求】
1.一种新闻事件的动态跟踪和总结算法,其特征是按如下步骤进行: 步骤1、在搜索引擎上,输入与新闻事件相关的查询语句Q进行检索,并返回若干个新闻文档,利用爬虫工具从所述若干个新闻文档中爬取排序为前U个新闻文档及对应的发布时间,分别构成初始返回新闻列表X = {Xi, X2,…,Xi,..., XuI及对应的发布时间序列T =It1, t2,…,ti;…,tj , Xi表示在所述初始返回新闻列表X中第i个新闻文档,ti表示在所述发布时间序列T中与第i个新闻文档Xi所对应的发布时间;1 < i < U ; 步骤2、构建词共现图G ; 步骤3、采用社区发现算法从所述词共现图G中提取与新闻事件相关的多个主题Q ;步骤4、从所述初始返回新闻列表X及对应的发布时间序列T中选取所述主题集合Q中每个主题相对应的句子组序列及对应的发生时间标签; 步骤5、对所述主题集合Q中的每个主题进行处理,按照发生时间,从所对应的句子组序列中获得与各自主题相对应的摘要集合,从而生成与各自主题相对应的总结。
2.根据权利要求1所述的新闻事件的动态跟踪和总结算法,其特征是,所述步骤2是按下步骤进行: 步骤2.1、利用分词工具对初始返回新闻列表X中的新闻文档进行分词和词性标注,并选取名词词性的词语构成词语集合W = (W1, W2,…,Wr,…,WE} , Wr表示在所述词语集合W中第r个名词词性的词语,I ^ r ^ R ; 利用式(I)获得任一词语w,的文档频率DF,,从而获得文档频率集合DF= (DFdDF2^",DFr,…,DFJ ; DFr=H(I)

/-1式⑴中,若第r个名词词性的词语^属于新闻文档Xi,则Ike Xi} =1,否则为O;步骤2.2、将所述词语集合W中的每个词语分别作为节点并对所述返回新闻列表X进行扫描,若在所述词语集合W中存在任意两个节点Wa和?同时出现在一个新闻文档中,则连接节点Wa和?获得邻边ea,e,令所述邻边ea,e的权重为;初始化权重所述权重,.的值为所述节点Wa和?在所述初始返回新闻列表X中不同新闻文档中出现的次数; 步骤2.3、删除文档频率DF,小于阈值node_min_df的节点以及权重,小于阈值edge—min—df 的邻边; 步骤2.4、利用式⑵和式(3)分别获得邻边的条件随机概率p(kQ|k0)和p(k0 |ka): ,,x DF


(2)

β

a 式(2)中,条件随机概率p(ka |ke)表示在节点we出现在任意新闻文档中时,节点Wa同时出现的条件概率;条件随机概率P(ke |ka)表示在节点wa出现在任意新闻文档中时,节点W0同时出现的条件概率;若所述条件随机概率p(ka|ke)和p(ke|ka)均小于阈值edge_min_prob,则删除所述邻边ea,e ;从而构建词共现图G。
3.根据权利要求1所述的新闻事件的动态跟踪和总结算法,其特征是,所述步骤3是按下步骤进行: 步骤3.1、利用式(4)获得所述词共现图G中邻边ea,e的介数Be,从而获得词共现图G中所有邻边的介数;
式⑷中,介数表示所述词共现图G中任意两个节点^和^的最短路径中经过所述邻边ea,e的最短路径的次数的比重V)表示所述词共现图G中任意两个节点^和^之间的最短路径中经过邻边ea,e的次数;C(co,V)表示所述词共现图G中任意两个节点Wu和^间的最短路径的总数目; 步骤3.2、从所述词共现图G中所有邻边的介数中找到最大介数所对应的邻边,若最大介数小于阈值B_max,则跳到步骤3.3执行,否则,删除所述最大介数所对应的邻边,并跳到步骤3.1执行; 步骤3.3、由通过邻边连接的节点或单独的节点分别构成一个主题,从而形成主题集合Q = (Q1, Q2,…,Qn,…,QyI,Qn表示在所述主题集合Q中第η个主题,I < η≤y,y表示所述主题的个数;第η个主题Qn中所包含的词语为{qi,q2,…,qf…,qj,记为Qn =Iqi, Q2,…,%...,Qil ;qf表示所述第rI个主题Qn中第f个词语,I≤f≤I, I表示所述第n个主题Qn中词语的个数。
4.根据权利要求1所述的新闻事件的动态跟踪和总结算法,其特征是,所述步骤4是按下步骤进行: 步骤4.1、将第i个新闻文档Xi所对应的发布时间\作为所述第i个新闻文档Xi的初始参考时间,将所述第i个新闻文档Xi中包含时间信息的句子提取出来,从而获得初始返回新闻列表X中所有新闻文档所包含时间信息的句子构成的句子集合S = Is1, S2,…,δφ,…,SnI及对应的发生时间序列Ts = {tsl, ts2,…,?3φ..., tsN} ;N表示句子集合S中句子的数目;ts4>表示在所述发生时间序列Ts中与第Φ个句子S41所对应的发生时间; 步骤4.2、提取所述句子集合S和主题集合Q中所有不同的词语,获得词语特征序列Wg=Iw1, W2,…,wh,…,wg} ;wh表示词语特征序列中第h个词语,I≤h≤g ; 利用式(5)获得所述词语特征序列Wg中任意个词语Wh在所在句子或主题中的文档与反文档频率tf-1sf(wh),从而利用所述文档与反文档频率表示所述句子集合S和主题集合Q中的每个句子和每个主题;
式(5)中,?/;,表示词语wh在所在的句子或主题中出现的次数,nh表示在所述句子集合S和主题集合Q中出现词语Wh的次数;若每个句子或每个主题中不包含第h个词语wh,则tf-1sf (wh) = O ; 步骤4.3、利用式(6)所示的余弦相似度计算方法分别获得第Φ个句子S41和第η个主题Qn的相似度cosine (8φ, Qn),从而获得每个句子与每个主题的相似度,若相似度cosine (s$, Qn)大于指定阈值min_sis,则第Φ个句子Sljl属于第η个主题Qn:
式(6)中,第Φ个句子S41用所述的文档与反文档频率表示为示词语特征序列^中第h个词语Wh在第Φ个句子S41中的文档与反文档频率为?第Π个主题1用所述的文档与反文档频率表示为.(這,0,_._,O':'…,表示词语特征序列Wg中第h个词语Wh在第η个主题Qn中的文档与反文档频率为沪/Λ/( '4.); 步骤4.4、根据所述发生时间序列Ts,将第η个主题Qn中具有相同发生时间的句子进行聚合,并按照发生时间的先后进行排序,从而获得句子组序列及对应的发生时间标签{tsl,ts2,…,tsm,…,tsM} ;Fffl表示在发生时间标签tsm下的第m组句子;l^m^M ;从而获得每个主题中各自的句子组序列及对应的发生时间标签。
5.根据权利要求1所述的新闻事件的动态跟踪和总结算法,其特征是,所述步骤5是按下步骤进行: 步骤5.1、初始化m = I ; 步骤5.2、利用式(7)获得与所述第η个主题Qn相对应的句子组集合的,F2,…,Fm,…,FmI中第m组句子Fm所需提取的句子数目Mim(Fm);
式(7)中,|Fm|表示所述第m组句子Fm中包含句子的总个数; 步骤5.3、判断num(Fm)≥I是否成立,若成立,则执行步骤5.4 ;否则,将m+1赋值给m,并执行步骤5.2,直到m = M为止;步骤5.4、提取所述第m组句子Fm与所述第η个主题Qn中所有不同的词语,获得词语特征序列Wm= (W1, W2,…,wE,'W1J ;WE表示词语特征序列Wm中第ε个词语,1≤ε ≤b;利用式(8)和式(9)分别获得所述词语特征序列Wm中任意个词语We在所在句子S0和主题Qn中的文档与反文档频率?)'和#&/(^^),从而利用所述文档与反文档频率表示所述第m组句子Fm中的每个句子和所述第η个主题Qn ;
式⑶和式(9)中表示词语^在句子S0中出现的次数,表示词语^在主题Qn中出现的次数,nE表示在所述第m组句子Fm中出现词语wE的次数;若任意句子或任意主题中不包含第ε个词语wE,则相应的句子或主题的文档与反文档频率为O; 步骤5.5、利用式(10)所示的余弦相似度计算方法获得第m组句子Fm中任意两个句子se和Sp之间的相似度值;利用式(11)所示的余弦相似度计算方法获得第m组句子Fm中任意一个句子S0和所述第Π个主题Qn之间的相似度值;
式(10)和式(11)中,第Θ个句子S0用所述的文档与反文档频率表示为,.-,Si,.-,Si };<表示词语特征序列Wm中第ε个词语在第m组句子Fm中句子8Φ中的文档与反文档频率为O第P个句子Sp用所述的文档与反文档频率表示%{sp,s2p s yp }; <表示词语特征序列Wm中第ε个词语We在第m组句子Fm中句子%中的文档与反文档频率+A'A O;第Π个主题Qn用所述的文档与反文档频率表示为,…,Q:(?:;h β;表示词语特征序列Wm中第ε个词语在主题Qn中的文档与反文档频率柯(); 步骤5.6、定义方阵A表示第m组句子Fm中任意两个句子S0和Sp之间相似度,令方阵A 中的任意元素为 A0, p = cosine (se, sp),令 A0,0 = O ;1 ^ θ,ρ ( Fm ; 定义矩阵H,令方阵H中的任意元素为H。,0 = cosine (s e,Q q),I≤c≤| Fffl |,并对所述方阵A和方阵B进行归一化处理,使得每一行元素之和为I ;定义所述第m组句子Fm中作为摘要的句子数目E = O; 步骤5.7、迭代执行,获取向量V* ; 步骤5.7.1、定义向量V,所述向量V的维数为所述第m组句子Fm中包含句子的总个数Fm ;初始化V中每个元素的值为I/I F」; 步骤5.7.2、执行V*= [dA+(l-d)B]TV;d为自定义的调节因子; 步骤5.7.3、判断I |V*-V| I是否小于阈值min_iter,若小于则迭代终止;否则将Vl武值给V,并执行步骤5.7.2 ; 步骤5.8、根据所述向量V*中最大元素值所对应的维数Ψ,在第m组句子Fm中选择第V个句子sv作为摘要并移入所述摘要集合中,删除Fm中的第Ψ个句子Sv,并将E+1赋值给E ;1 ^ Ψ ^ Fj ; 步骤5.9、判断E是否等于num(Fm);若E等于num(Fm),则执行步骤5.10,否则,执行步骤 5.11 ; 步骤5.10、返回所述摘要集合Sum;;,从而生成了第η个主题Qn在发生时间标签tsm下的总结Sm吣;从而获得所述第η个主题Qn对应的总结siimU,, =丨.:从而获得所述主题集合 Q = IQ1, Q2, -,Qn,...,QyI中每个主题所对应的总结&=_@〃《a,&〃h 5""?.表示所述主题Q中第n个主题Qn相对应的总结;步骤5.11、利用式(12)对第m组句子Fm中的每个句子进行冗余惩罚后返回步骤5.8; r=rx-ALVxrw (12) 式(12)中,<表示向量V*在X维对应的值,X ( IFmI,广表示向量V*在Ψ维对应的值,X ( Fj , Ψ彡Fm ;ΑΧ,Ψ表示所述方阵A的第X行第Ψ列的值。
【文档编号】G06F17/30GK104182504SQ201410406784
【公开日】2014年12月3日 申请日期:2014年8月18日 优先权日:2014年8月18日
【发明者】吴信东, 强继朋, 谢飞 申请人:合肥工业大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1