NBA赛事新闻的自动生成方法与流程

文档序号:11134073阅读:998来源:国知局
NBA赛事新闻的自动生成方法与制造工艺
本发明属于文字信息数据处理
技术领域
,具体涉及一种NBA赛事新闻的自动生成方法。
背景技术
:文字直播,一般是指利用电视直播信号或者网络视频信号为信息源,借助特定的输入输出系统,以网络平台作为传播媒介,用文字的形式向广大网民传播信息的一种在线演绎及生动的传播方式。随着2008年北京奥运会的成功举行,人们对于体育赛事的关注程度得到了空前的提高。在各大新闻网站,体育赛事的点击率远远高于其他板块,NBA比赛代表了篮球运动在世界上的一流水平,四大门户网站从20世纪末逐渐针对NBA赛事进行视频直播和文字直播。但当球迷没有时间去看这些直播信息,或者说用户只是想要对某一场比赛做一个大概的了解时,NBA赛事新闻就应运而生了。NBA比赛分为季前赛、常规赛和季后赛三大部分。季前赛大约在每年10月份举行。季前赛结束,举行常规赛,常规赛大约在每年4月份结束,然后是季后赛,也就是NBA比赛的决赛,比赛采用主、客场制。每场比赛至少有四节组成,这四节每节都是12分钟,如果前四节打成平局,则比赛进入加时赛,加时赛每场5分钟,如果第一个加时赛双方还是打成平局,则进入第二个5分钟的加时赛,以此类推。每一节比赛都有100-200条不等的文字直播来展现当时的赛况。在NBA比赛季节,会有大量的赛事新闻,赛事新闻包含的信息包括总体概况、成绩描述、各节动态和首发球员等。总体概况一般包括时间、比赛类型、赢队、输队、比分等。成绩描述的是当场比赛成绩比较优秀的球员和其取得的优异成绩。各节动态主要是指,在每一节中,比赛的详细状况,例如,比分越来愈大,进行反超,比赛比较胶着两队交替领先等情况。在撰写NBA赛事新闻时,记者或者编辑需要盯着多个电脑屏幕,搜集多方面资料,收集数据来撰写赛事新闻,这是一项工作量巨大的工作,且靠人工搜集资料进行撰写存在效率低下、出错率高的缺陷。当前亟待发明一种根据NBA文字直播的特点利用计算机自动写作技术来自动生成NBA赛事新闻的方法,以此来减轻新闻工作者的工作负担,提高新闻工作者的工作效率。技术实现要素:针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的NBA赛事新闻的自动生成方法。为了实现上述发明目的,本发明提供的技术方案如下:本发明提供的NBA赛事新闻的自动生成方法,能够生成以假乱真率高、真实率高和生动性强的NBA赛事新闻,大大减轻了新闻工作者的工作负担,提高了新闻工作者的工作效率,可以很好地满足实际应用的需要。附图说明图1为本发明的流程图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。如图1所示,本发明提供的NBA赛事新闻的自动生成方法,包括以下步骤:步骤1):解析和存储对NBA比赛进行文字直播的网站的内容,抽取比赛的基本信息;每一场NBA比赛的文字直播信息都对应于一个网址,比如ID为“2014101016”,文字直播信息的网址是http://data.sports.sohu.com/nba/live_html/nba_live_2014101016.htm,针对NBA比赛中的每一节都会有100-200条文字直播信息,将文字直播信息中的数据分为四个属性,分别为Time、Team、Player和Score,比如:“05:21火箭詹姆斯-哈登罚球2罚2中,得1分14-13”是一条文字直播信息,其中“05:21”代表距离本节比赛还剩余的时间,属性为Time,“火箭”代表当前活动的球队,属性为Team,“詹姆斯-哈登”表示的是球员名字,属性为Player,后面的“14-13”代表当前客队与主队的比分,属性为Score;对于赛事新闻的总体概况,需要抽取的基本信息包括比赛类型、赢队、输队、比分等信息,通过Jsoup解析工具把网站的内容进行解析和存储,通过“<h2>2016-01-3009:00:00开始比赛</h2>”这个标签可以获得比赛时间,通过比赛时间中的日期可以得到该场比赛的比赛类型,同理通过解析html可以得到进行比赛的两个球队的名称,两个球队各节的比分、总的比分、该场比赛中优秀球员的总成绩和首发球员的名字;步骤2):对比赛中的一节的多条文字直播信息进行预处理,得到该节的包含得分信息的文字直播信息集合;本发明把比赛中每一节的得分信息作为主要的报道内容,首先对没有得分的文字直播信息进行过滤,创建三个文字直播信息集合OldList、NewList和ScorechaList,分别代表过滤前、过滤后的文字直播信息集合和过滤后文字直播信息得分差集合;然后,把比赛中的一节的全部文字直播信息加入到OldList这个集合中去,对于OldList中的每一条文字直播信息,如果它的Score属性的值与上一条文字直播信息的属性值是不同的,则将其加入到NewList集合中,否则不加入,从而得到集合NewList={w1,w2…wn},其中n代表NewList的长度,wi代表一条文字直播信息{1≤i≤n};步骤3):将该节的文字直播信息集合分为开始数据块、中间数据块和结束数据块;对于一场比赛中各节的动态,从赛事新闻报道的角度来看,最重要的是对比赛最精彩的地方进行报道,并且一段报道是对文字直播信息集合的数据进行的总结,因此要进行数据分块;文字直播信息集合的数据块的种类主要分为比分持续拉大类、比分逐渐缩小类、进行反超类和比赛交替领先类四个类型;对于每场比赛中每一节的文字直播信息集合可以分为开始数据块、中间数据块和结束数据块三个数据块;对于一节的文字直播信息集合中的开始数据块、中间数据块和结束数据块三个数据块,要确定数据分块的分界线并判断每个数据块的类型,并抽取每一个数据块中的领先队、落后队、主要表现球员、表现优秀的球队打出来的成绩等信息数据;对NewList当中的比分进行处理,用主队的得分减去客队的得分,并加入到ScorechaListt中;在选取开始数据块时,首先取NewList的前三分之一数量的文字直播数据,存在以下两种情况:情况一,数据交替领先(得分差里面是正负交替)的次数大于等于3次,基本上可以认定开始数据块属于两队交替领先类,取index1为开始数据块和中间数据块的分界线;先取最后一条数据直播的符号,往上进行寻找与最后一条数据直播符号相反的第一个数据直播的点,index1的取值为刚刚得到的点增加1的值;情况二,在数据交替领先的次数小于3的情况下,找到差值的绝对值最大的点,如果最大的点不是NewList的第一个点,并判断现在的领先球队是否和NewList的第一个点的领先球队是一个,如果是一个则属于比分持续拉大类,否则属于进行反超类,index1是绝对值差值最大的那个点,如果最大的点是NewList的第一个点,找到差值的绝对值最小的点,并判断现在的领先球队是否和NewList的第一个点的领先球队是一个,如果是一个则属于比分逐渐缩小类,否则属于进行反超类,index1是差值的绝对值最小的点;这样就得到了开始数据块和中间数据块之间的文字直播信息的类型和分界线;对于中间数据块和结束数据块的分界线index2,使用同样的方法从index1到NewList的前三分之二数量的文字直播数据的点之间找到index2的位置;这样,比赛中的一节的文字直播信息就成功分成了开始数据块、中间数据块和结束数据块三个数据块;步骤4):从步骤3)中所分出的每一个数据块中抽取重要信息;对于每一个数据块都要抽取出领先队、落后队、主要表现球员、表现优秀的球队打出来的得分成绩等重要信息,统计从这个数据块开始到这个数据块结束时每一个队的得分情况,得分高的为领先队,低的为落后队,统计出每个球队每个球员在这个数据块中的得分情况,得出主要表现球员的信息数据等;步骤5):对每一个数据块构建模板,并将所述基本信息和所述重要信息填入模板;对于每一个数据块要构建不同的模板,使用html来构建模板,如下所示为一个比赛交替领先类的模板:<body><pclass=″Abstract″>次节,双方之间的争夺变得更为激烈,两队也交替着领先。<bclass=″lingxiandui1″>湖人</b>在<bclass=″linxianduiplayer11″>科比</b>的带领下取得<bclass=″zuidacha″>9</b>分的优势。</p></body>把步骤4)中抽取的重要信息保存成键值对的形式,本发明采用htmlparser这个开源工具,将解析过的html信息保存为一个树的结构,根据重要信息来改变html中节点的值来实现替换,完成重要信息的填入;步骤6):重复步骤2)一步骤5),得到比赛的所有节的模板并填入每一节对应的基本信息和重要信息,从而生成所需要的NBA赛事新闻。本发明的实验数据来源于搜狐网站,利用网络爬虫从搜狐网站的NBA板块爬取100篇文字直播,通过预处理、去除文档的HTML标签、解析标签内容得到基本信息并通过本发明所提出的NBA赛事新闻自动生成方法自动生成NBA赛事新闻。因为自动生成的NBA赛事新闻缺乏通用的评价标准,本发明采用人工评价的方法,请三名NBA球迷进行评价,采用三种评价标准,标准一是能否辨别是不是计算机写的,标准二是是否符合文字直播的真实情况,标准三语言是否生动。对于同一篇自动书写的赛事新闻稿,如果三个球迷都认为不是计算机写的,就认为不是计算机写的,同理后两个标准也采用这种方法。表示方法如下所示:Accuacycomputer=C/N(1);Accuacyreal=R/N(2);Accuacylanguage=L/N(3);其中,Accuacycomputer、Accuacyreal和Accuacylanguage分别代表以假乱真率、真实率和生动率,C代表三个球迷都认为不是计算机写的数量,R代表三个球迷都认为符合文字直播的真实情况的篇数,L代表三个球迷都认为语言生动的篇数。根据本发明提出的NBA赛事新闻的自动生成方法,首先对网站进行爬取,利用Jsoup开源工具解析html页面,并通过解析得到新闻稿件需要的基本信息,然后通过对文字直播进行预处理、数据分块、抽取重要信息和构建模板并把信息填入,进而自动生成NBA赛事新闻,例如利用本发明的方法从http://data.sports.sohu.com/nba/live_html/nba_live_2014120204.htm中自动生成了一篇NBA赛事新闻稿件,如下所示:北京时间2014年12月3日,NBA常规赛继续进行,公牛主场以129-132不敌小牛,以下是本场比赛的综述:全场比分如下(小牛在前):25-26、34-21、21-27、28-34、加时赛:13-13、11-8。小牛队:蒙塔-埃利斯38分,钱德勒-帕森斯24分7篮板,德克-诺维茨基22分7篮板10助攻,替补出场的德文-哈里斯20分8助攻,替补出场的乔西-巴里亚13分。公牛队:保罗-加索尔29分14篮板,吉米-巴特勒23分8篮板7助攻,麦克-邓利维20分,德里克-罗斯18分10助攻,替补出场的尼古拉-米罗蒂奇15分。首节开场之后双方杀得相当胶着,你来我往都有得分,小牛在钱德勒-帕森斯的带领下取得4分的优势,但是,公牛立马回敬7-2的攻击波取得领先,小牛首节25-26落后。第二节,小牛轰出26-10的高潮,成功控制局面,并领先13分。吉米-巴特勒的跳投成功帮助公牛打破僵局,随后保罗-加索尔、德里克-罗斯也有所表现,小牛上半场59-47领先。易地再战,小牛多面开花领先对手11分,控制着场上局面。接下来,公牛打出9-4的攻击波将比分追至74-80,前三场,公牛以74-80落后。第四节,小牛多点开花获得6分的优势。阿龙-布鲁克斯的罚球成功帮助公牛缩小差距,随后保罗-加索尔、吉米-巴特勒也纷纷建功,四节结束,双方战成108平,比赛进入加时赛。首个加时赛中,小牛凭借一波11-6攻击波取得优势,并领先3分。乔金姆-诺阿的扣篮成功帮助公牛缩小差距,随后德里克-罗斯也有得分入账,首个加时赛结束,双方战成121平,比赛进入第二个加时赛。第2个加时赛,小牛在蒙塔-埃利斯的带领下取得4的优势。但是,公牛立马回敬8-2的攻击波取得领先,最后的混战过后,比赛结束,小牛以132-129击败公牛。双方首发阵容:小牛:蒙塔-埃利斯、德克-诺维茨基、泰森-钱德勒、钱德勒-帕森斯、杰米尔-尼尔森。公牛:麦克-邓利维、乔金姆-诺阿、保罗-加索尔、德里克-罗斯、吉米-巴特勒。本发明以100篇文字直播作为实验数据,分别采用以假乱真率、真实率和生动率作为评价指标得到的实验结果如下表所示:表实验结果表C以假乱真率R真实率L生动率篇数940.94890.89770.77从实验结果表中可以看出,本发明提出的NBA赛事新闻的自动生成方法所生成的赛事新闻具有很高的以假乱真率,说明通过本发明自动生成的赛事新闻可以让人认为是人写的,具有89%的真实率,说明了本发明的有效性,77%的生动性也证明通过本发明自动生成的新闻质量高。本发明提供的NBA赛事新闻的自动生成方法,能够生成以假乱真率高、真实率高和生动性强的NBA赛事新闻,大大减轻了新闻工作者的工作负担,提高了新闻工作者的工作效率,可以很好地满足实际应用的需要。以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1