一种体育新闻自动生成方法与流程

文档序号:13876408阅读:2528来源:国知局
一种体育新闻自动生成方法与流程

本发明属于自然语言自动生成技术领域,具体涉及一种体育新闻自动生成方法。



背景技术:

在it行业和互联网高速发展的时代,ai和大数据的结合为自然语言处理技术带来前所未有的发展。人工智能机器人因其工作原理是基于规则进行逻辑推理,所以适用于程序化劳作,可以处理数据量较大、时效性要求高的工作。大数据支持一些破冰的想法打破了许多行业,甚至写作的传统框架。随着计算机技术和人工智能技术的发展,人类最高智慧而产生的文学写作,已经进入了“电脑制造”的时代。同时也带来写作观念、写作行为和写作思维方式的变化。

自然语言生成是诸如知识库或逻辑形式的机器表示系统生成自然语言的自然语言处理任务。可以说,自然语言生成系统就像一个将数据转换为自然语言表示的翻译器。然而,由于自然语言的固有表达性,产生最终语言的方法不同于编译器的方法。

体育新闻的自动生成是自然语言生成技术中的重要应用。因为新闻语体结构固定,语言规范,规律性强,适合用计算机算法来自动生成。也因新闻的自动生成效率高,速度快,可以大大增强新闻的时效性,因此,具有很高的研究价值。

每天都有大量的体育比赛产生,在比赛之后即可撰写出新闻报道是非常艰巨的挑战。与此同时,网络上提供实时的文字直播,受到因为版权原因而无法访问视频流的体育爱好者的强烈欢迎。有些人喜欢用便携式设备看实时的文字直播。网络上文字直播的出现,产生了大量的文本评论数据。据我们所知,关于利用这个丰富数据的研究,几乎还没有。手动撰写的赛事新闻通常和体育比赛的直播文本共用着同样的信息和语言。因此,体育新闻的直播文本和新闻报道可以看作是两个不同的描述来源。

体育新闻编辑的写作工作重复繁琐,目前还没有能够替代手动撰写体育新闻的、能够生成准确率高、可读性强的自动生成体育新闻的方法。因此,当前亟待研发一种能够解决现有技术的问题的自动生成体育新闻的方法。



技术实现要素:

针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的体育新闻自动生成方法。

为了实现上述发明目的,本发明提供的技术方案如下:

一种体育新闻自动生成方法,包括以下步骤:

步骤1)构建语料数据集;

步骤2)对语料数据集中的语料进行标注;

步骤3)训练生成模型;

步骤4)抽取自动识别出的信息,生成体育新闻。

进一步地,所述模型为rnn-lstm模型。

进一步地,rnn的计算公式如下:

xt是时间步长t的输入;

st是时间步长t的隐藏状态;

基于隐藏状态和当前步骤的输入计算st=f(uxt+wst-1);

其中,f是非线性的函数;

计算第一个隐藏状态所需要的s-1通常被初始化为0;

0t是步长t的输出,ot=softmax(vst)。

进一步地,x1可以是对应于序列中第二个元素的one-hot向量。

进一步地,在lstm模型中,对于每个存储单元,从输入以及前一时间步长的整个隐藏状态学习得到三组权重参数;一组送到输入节点,一组送到输入门,另一组送到输出门;每一个黑色节点与激活函数相关联,另一中节点表示乘法;单元中最中心的节点被称为内部状态,并以固定的权重1为跨越的时间步长。

本发明提供的体育新闻自动生成方法,能够替代手动撰写体育新闻,能够自动生成准确率高、可读性强的体育新闻,可以很好地满足实际应用的需要。

附图说明

图1为本发明的流程图;

图2为rnn网络结构图;

图3为lstm单元示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合附图和具体实施例对本发明做进一步说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,一种体育新闻自动生成方法,包括以下步骤:

步骤1)构建语料数据集;

从新浪网上收集1000场足球比赛的直播文本和对应的新浪网小编写的比赛战报,并收集这1000场比赛对应的搜狐网小编写的比赛战报。因此,数据集包含1000场足球比赛的直播文本,和2000篇小编战报。由于小编战报是新浪网和搜狐网专业的足球新闻编辑写的比赛战报,因此,可以看作是标准的足球新闻语料。

划分样本数据的80%作为训练数据集,20%作为测试数据集。选取其中的800场比赛的语料作为训练语料,其余的200场比赛的语料作为测试语料。

步骤2)对语料数据集中的语料进行标注;

根据新浪网和搜狐网的小编战报对比赛的直播文本进行人工标注。将小编战报中描写到的赛事信息,在直播文本中标记相应的信息,也就是在直播文本中,将小编战报和直播文本中信息的并集标记出来。这些标注过的直播文本作为训练生成模型的数据集。

步骤3)训练生成模型,让机器学会自动识别文字直播中的重要信息序列;

通过让rnn-lstm学习在直播文本中哪些信息是关键信息,需要写在新闻中,哪些是次要信息,无需在新闻中提及。首先需要将时间点信息进行数据化,将具体时间转化为时间段,然后再导入到rnn-lstm模型,进行训练。

给定一场比赛的直播文本,预测直播文本中的每条信息出现在新闻报道中的概率。训练的语言模型允许衡量每个句子的可能性。由于可以预测下一个序列,因此可以得到一个生产模型,它可以通过从输出概率中抽样生成新的文本。根据训练数据集,可以生成类似于小编战报的新闻报道。在构建生成模型的过程中,输入通常是一场比赛的直播文本,将其编码为one-hot向量。输出是预测新闻报道的序列。在训练神经网络时,选择设置ot=xt+1。

步骤4)抽取自动识别出的信息,生成体育新闻。

直播文本是比赛中,网络上的文字直播内容,它按照比赛当前进展的情况,用文字向观众实时描述战况和比分。一条一条的文本,是按照时间顺序来描述比赛状况,因此,直播文本里的信息有着很好的时序性。

递归神经网络(recurrentneuralnetwork,rnn)是时间序列模型最常用最强大的工具之一。在传统的神经网络中,我们假设所有的输入和输出是相互独立的,但是这种假设并不对很多任务都适用。例如,如果想要预测一个句子中的下一个单词,最好知道那些单词前面的单词是什么。rnn称为循环神经网络,因为他们对序列中的每个元素执行相同的任务,并且输出由前面的计算决定。在rnn中有一个记忆单元,用于存储到目前为止前面的计算。

典型的rnn网络结构如图2所示。图2表示了rnn正在展开到一个完整的网络。通过对网络的展开,正在写出完整序列的网络。例如,如果正在处理的序列包含5个元素,则网络被展开为5层的神经网络,每个元素为一层。rnn的计算公式如下:

xt是时间步长t的输入。例如,x1可以是对应于序列中第二个元素的one-hot向量。

st是时间步长t的隐藏状态。这是网络的记忆。可以基于前面的隐藏状态和当前步骤的输入计算:

st=f(ux1+wst-1)(3.1)

公式中的f是非线性的函数。计算第一个隐藏状态所需要的s-1通常被初始化为0。

0t是步长t的输出,例如,如果我们想要预测一个序列中的下一个元素,公式将是我们元素概率的向量。

ot=softmax(vst)(3.2)

理论上来讲,rnn能够处理“长期依赖”(long-termdependencies)的问题。但是,实际上来讲,rnn存在梯度消减问题(vanishinggradientproblem)。即随着网络变深,后面时间节点对于前面时间节点的感知能力下降。因此,选用lstm来改进rnn。

lstm模型(longshort-termmemory)长短期记忆模型。在该模型中,一个普通神经元,比如一个将s型激活应用于其输入线性组合的单元,用存储单元来代替它。每个存储器单元与输入门,输出门和内部状态相关联,其内部状态通过时间步长且无自身干扰。

在这个lstm模型中,对于每个存储单元,从输入以及前一时间步长的整个隐藏状态学习得到三组权重参数。一组送到输入节点,例如图3底部的单元所示;一组送到输入门,例如图3中最右侧底部的单元所示;另一组送到输出门,例如图中最右侧顶端的单元所示。每一个黑色节点与激活函数相关联,通常是s型,另一中节点,表示乘法。单元中最中心的节点被称为内部状态,并以固定的权重1为跨越的时间步长。

本发明提供的体育新闻自动生成方法,能够替代手动撰写体育新闻,能够自动生成准确率高、可读性强的体育新闻,可以很好地满足实际应用的需要。

以上所述实施例仅表达了本发明的实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1