一种用于体育比赛直播文字的体育新闻构建方法及系统与流程

文档序号:37208680发布日期:2024-03-05 14:47阅读:15来源:国知局
一种用于体育比赛直播文字的体育新闻构建方法及系统与流程

本发明涉及新闻构建,具体为一种用于体育比赛直播文字的体育新闻构建方法及系统。


背景技术:

1、体育比赛直播新闻数据的爆炸级增长使得人们难以获得总结性的信息,使人们丧失对信息的全局把控。因此对体育比赛直播新闻事件进行动态追踪并构建其发展脉络是如今迫切需要解决的问题。事件追踪是在后续新闻报道中辨认出给定事件所相关的报道。新闻脉络构建是根据接收到的新闻来对事件发展进行梳理,以一定的形式,比如时间线、事件线索等方式来呈现事件的发展过程。

2、然而现有的直播新闻构建方法存在以下问题:随着时间发展,事件重心会发生偏移,在事件追踪时容易遗漏相关新闻;事件脉络构建仅在时间以及内容相似度等层面做研究,没有从全局的角度来进行脉络构建,造成事件脉络不连贯,整体性较差。

3、现有技术cn105912526a通过在体育直播比赛结束后爬取大量体育比赛直播文字和对应比赛新闻预测该体育直播比赛新闻中直播文字句子的重要性,仅仅是对该体育直播比赛新闻进行构建和预测,没有从全局的角度来进行脉络构建。与cn105912526a相比本发明通过实时更新体育直播比赛文字中的关键词并通过对比寻找相似新闻构建完整故事树的方式,解决了构建体育直播比赛新闻造成事件脉络不连贯,整体性较差的问题。


技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种用于体育比赛直播文字的体育新闻构建方法及系统,具备实时性、整体性等优点,解决了事件追踪时容易遗漏相关新闻、事件脉络不连贯,整体性较差的问题。

3、(二)技术方案

4、为解决上述事件追踪时容易遗漏相关新闻、事件脉络不连贯,整体性较差的技术问题,本发明提供如下技术方案:

5、本实施例公开一种用于体育比赛直播文字的体育直播文字构建方法,具体包括以下步骤:

6、s1、基于体育直播文字的种类进行术语定义,所述术语定义包括体育术语定义和直播文字术语定义;

7、s2、当接收到新的体育直播文字时,基于体育直播文字的种类对接收到的直播文字进行数据预处理;

8、s3、继续接收新的体育直播文字并提取直播文字中的直播文字关键词,并反馈更新直播文字关键词;

9、s4、提取出直播文字关键词后通过聚类算法聚类出该直播文字中的子事件,并基于聚类出该直播文字中的子事件提取每个子事件中的事件关键词;

10、s5、根据实时更新事件关键词判断是否需要合并某些子事件,当实时更新的事件关键词集合与数据库中保存的各项事件关键词集合的差异超过设定的阈值时,不合并,反之,则合并,所述事件关键词是对直播文字关键词聚类后的关键词,所述数据库中保存的各项事件关键词集合来源于爬取大量体育比赛直播文字和对应比赛的新闻;

11、s6、基于事件发生时间先后顺序将事件连接起来,构建完整的体育直播文字;

12、优选地,所述体育术语定义包括体育运动中专业术语的描述包括位置描述、常用语描述、战术描述、规则描述以及解说词语描述;

13、优选地,所述直播文字术语定义用于表示一篇直播文字的组成部分包括:直播文字标题、正文、发布时间;

14、进一步地,所述正文部分包括子事件、事件、故事;

15、子事件指涉及特定的时间和地点、相关人物的某件具体事情,由四元组表示<tse,dse,kse,newsse>,tse表示子事件发生的时间,dse表示子事件的简要描述,kse表示子事件的关键词集合,newsse={d1,d2,...,dn}表示子事件的直播文字集合;

16、事件由一个种子子事件以及与其直接相关的子事件组成;

17、新闻树:每棵新闻树s={tree1,tree2,...,treen}对应一个事件,由多个分支按时间先后顺序连接而成,每个分支tree=<e,l,ktree,ttree>代表着事件的一个发展阶段,其中e={se1,se2,...,sen}表示分支的子事件集合;li,j=<sei,sej>表示有一条有向边从子事件sei指向子事件sej,代表着两个事件有着时间先后的关系;ktree表示分支的关键词集合;ttree表示分支时间,是分支中子事件的最早发生时间;

18、优选地,所述基于体育直播文字的种类对接收到的直播文字进行数据预处理步骤包括:

19、s21、基于实时接收到的直播文字,实时提取其候选关键词,所述实时提取其候选关键词权重计算公式为:

20、weighti=a×tfi+b×loci+c×numi

21、其中,weighti表示直播文字中第i个词语的权重,tfi表示第i个词语的词频,loci表示第i个词语的位置,numi表示第i个词语的词汇链词数;

22、s22、基于提取的候选关键词进一步确定关键词;

23、基于候选关键词出现的次数以及出现位置将特征向量映射成有向图;

24、设vi为给定文本中的任何一个词语,基于加权text-rank算法的权值迭代公式为:

25、

26、其中,d为调节系数,in(vi)表示指向节点vi的所有节点的集合;out(vj)表示节点vj指向所有节点的集合,ws(vi)表示任何一个词语vi在给定文本中的权重,ws(vj)表示与词语vi相关的词语vj的权重,vk表示集合vj中任意词语,wji为节点vj的词语重要性影响力传递到节点vi的权重,其计算公式如下:

27、

28、其中,i(vi)表示节点vi的重要性取值,设λ为对词语进行加权的参数,本发明中λ取2,则i(vi)赋值如下:

29、

30、

31、其中,icontent表示在正文出现;ititle表示在标题出现;

32、当加权text-rank算法的权值迭代公式的两次迭代结果之间的差异在0.0001之间是停止迭代,然后按照大小对ws(v)进行降序排列,选取前n个候选关键词作为直播文字的关键词;

33、s23、基于提取的关键词计算其与其他直播文字的相似度,并基于相似度判断接收到的直播文字与其他新闻的相关程度,根据直播文字与其他新闻的相关程度判断该直播文字是否是独立新闻;

34、将接收到的直播文字基于其关键词建立特征向量;

35、linkwa=<w1,w2,...,wl>

36、linkwa=<w1,w2,...,wn>

37、其中,linkwa表示特征向量wa,w1表示该直播文字中出现次数最多的关键词,基于关键词出现的次数以及出现位置将特征向量映射成有向图;

38、进一步地,通过计算两个特征向量的最大余弦相似度来判断两个直播文字的相似度;

39、

40、其中,len(wa)、len(wb)表示关键词在有向图中的广度优先的遍历信息;dep(wpab)表示关键词映射在有向图中的最近公共根节点;dep(wb)、dep(wa)表示关键词在所映射的有向图中的深度信息;

41、当相似度sim为[0,1]时表示两新闻相似,当相似度sim为[0,-1]时表示两新闻不相似;

42、进一步地,若两新闻相似则表示新接收的直播文字为其他新闻的子新闻,该新闻的事件为其他新闻的子事件;若两新闻不相似,则该新接收的直播文字为独立新闻;

43、优选地,所述继续提取直播文字中的直播文字关键词、并反馈更新事件关键词包括以下步骤:

44、当出现新的事件关键词,通过jaccard系数计算该事件关键词与直播文字的相似性,jaccard系数值越大说明相似度越高,相似度大于阈值的事件判定为与该直播文字相关,相似度低于阈值的则判定为与该直播文字不相关;

45、

46、其中,kt为事件关键词集合,kn为直播文字关键词集合;

47、基于相似度更新直播文字的关键词集合;

48、优选地,所述提取出直播文字中关键词后通过聚类算法聚类出该直播文字中的子事件包括以下步骤:

49、s41、计算直播文字中相关事件关键词中每个关键词的重要程度;

50、设m(vi)为关键词vi在直播文字关键词中出现的次数,ci为直播文字关键词vi出现的类别,计算公式如下:

51、

52、

53、tficf(vi)=tf(vi)×icf(vi)

54、其中,tf(vi)表示关键词vi在各类别出现频率,icf(vi)表示关键词vi的逆向类别频率,c为直播文字关键词的类别总数,tficf(vi)表示关键词vi在直播文字关键词中的重要程度值;

55、s42、获得各个关键词在直播文字关键词中的重要程度值后,按其重要程度值大小进行排列,挑选重要程度值前8的关键词作为直播文字的新关键词;

56、s43、基于聚类算法计算每一条新数据与直播文字中已有类的相似度,将相似度大于阈值的归纳入类中,否则新建一个类,将直播文字中的每个类作为一个子事件;

57、s44、聚类完成后,从直播文字中提取信息来对子事件进行封装;

58、封装详细过程如下:

59、s441、将子事件新闻最早的发布时间作为子事件的发生时间tse;

60、s442、将子事件新闻的关键词集合作为子事件的关键词kse;

61、s443、将聚类得到的子事件新闻集合作为子事件newsse;

62、s444、基于聚类后子事件的前5个关键词作为子事件的概要描述dse;

63、优选地,所述构建完整的体育直播文字包括以下步骤:

64、基于收集的子事件集合,当前数据库中保存的新闻树集合s、子事件关键词集合、当前实时直播文字关键词集合,基于关键词集合的对比,并设定阈值,根据阈值判断与当前直播文字事件相似的新闻树是否存在;

65、不存在则新建一颗新闻树,并为新闻树新建一个分支,将直播文字事件中的关键词设为分支关键词;

66、若当前直播文字事件的新闻树存在,根据当前直播文字事件关键词与新闻树关键词之间的相似程度判断是否需要创建新的故事树分支,然后对直播文字实时收集的事件关键词循环遍历,若检测到该直播文字事件关键词与新闻树相似度大于一定阈值则合并;

67、最后,将直播文字事件按照发生该直播文字所在分支时间先后顺序连接起来完成直播文字的构建。

68、(三)有益效果

69、与现有技术相比,本发明提供了一种用于体育比赛直播文字的体育新闻构建方法及系统,具备以下有益效果:

70、1、本发明通过提取体育比赛直播文字中的关键词的方法简单的概括该体育比赛直播的内容,并通过对不同类体育新闻中各个术语进行合理定义,解决了体育比赛直播中产生的文字的规范化的问题。

71、2、本发明通过对提取体育比赛直播文字的预处理,实时提取比赛直播文字中的关键词并进行合理的分析,同时通过将比赛直播文字中的关键词与其他新闻中的关键词进行对比的方式合理判断两个新闻之间的相关性,提高了直播文字的整体性。

72、3、本发明通过对提取体育比赛直播文字中的关键词的聚类处理和封装合理的分离了该体育比赛直播中的各个子事件,提高了该体育比赛直播的层次性。

73、4、本发明通过构建新闻树的方式将与该体育比赛直播文字的新闻进行整合,并根据新闻树中各个子事件发生的时间顺序进行排列,提高了体育比赛直播新闻的完整性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1