语言数据处理方法、装置以及用于语言数据处理的装置与流程

文档序号:12837130阅读:204来源:国知局
语言数据处理方法、装置以及用于语言数据处理的装置与流程

本申请涉及语言数据处理技术领域,特别涉及一种语言数据处理方法、装置以及一种语言数据处理的装置。



背景技术:

随着互联网技术的飞速发展,越来越多的用户使用互联网设备浏览各个门户网站,借以获得最新的新闻资讯。很多门户网站在发布新闻的时候,通常会提供一个评论接口,例如,提供一个供用户点击打开的评论窗口,用户可以在该评论窗口中输入自己对于该条新闻内容的看法等。



技术实现要素:

但是发明人在研究过程中发现,很多用户更倾向于浏览评论条数多的新闻内容。例如,用户打开搜狐网,在搜狐网的首页推送的头条新闻中,包含同样内容的两条新闻的新闻标题,但是一条新闻的评论有上百条,用户就更有可能去浏览这条评论数较多的新闻,因为这样就可以在浏览完新闻正文内容之后,进一步的浏览一下其他用户对这条新闻内容发表的意见或建议。而有些新闻虽然可能内容更符合用户的浏览需求或者更有新闻价值,但是由于评论数不多而导致了用户点击浏览的可能性较低。

因此,在大多数情况下用户在打开某条评论数较多的新闻之后,如果发现这条新闻其实并不符合自己当初的浏览需求,就会重新返回网站首页,去查找自己更感兴趣或者更具有新闻价值的其他新闻内容。可见,这种重复与新闻网站进行的交互,无疑会使得新闻网站的服务器的处理压力增加,相应的,新闻网站的服务器的处理性能自然也就会下降,进一步,新闻网站的新闻页面的打开就可能存在延迟,还可能会影响用户浏览新闻网站的阅读体验。

基于此,本申请提供了一种语言数据处理方案,以使得新发布的新闻或者冷门新闻的评论数能够增多从而提升用户点击浏览的可能性,以及,某些可能成为热门新闻或重要新闻的新闻在一经发布就能自动具有评论,也提升了用户浏览的可能性。

本申请还提供了一种语言数据处理装置,用以保证上述方法在实际中的实现及应用。

本申请公开的一种语言数据处理方法,模型训练过程和数据处理过程,其中,所述模型训练过程包括:

获取符合预设训练条件的训练语言数据,所述训练语言数据包括:训练新闻内容数据,和,与所述训练新闻内容数据对应的训练新闻评论数据;

依据各个所述训练新闻内容数据分别到与其对应的训练新闻评论数据的映射关系,训练得到语言数据处理模型;

所述数据处理过程包括:

获取符合预设处理条件的目标新闻内容数据;

利用训练得到的所述语言数据处理模型,将所述目标新闻内容数据转换为目标新闻评论数据;

将所述目标新闻评论数据发布至目标展示位置以便展示。

本申请实施例公开了一种语言数据处理装置,包括:模型训练单元和数据处理单元,其中,

所述模型训练单元包括:

获取训练数据模块,用于获取符合预设训练条件的训练语言数据,所述训练语言数据包括:训练新闻内容数据,和,与所述训练新闻内容数据对应的训练新闻评论数据;

训练模型模块,用于依据各个所述训练新闻内容数据分别到与其对应的训练新闻评论数据的映射关系,训练得到语言数据处理模型;

所述数据处理单元包括:

获取新闻内容模块,用于获取符合预设处理条件的目标新闻内容数据;

语言处理模块,用于利用训练得到的所述语言数据处理模型,将所述目标新闻内容数据转换为目标新闻评论数据;

发布模块,用于将所述目标新闻评论数据发布至目标展示位置以便展示。

本申请实施例公开了一种用于语言数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

获取符合预设训练条件的训练语言数据,所述训练语言数据包括:训练新闻内容数据,和,与所述训练新闻内容数据对应的训练新闻评论数据;

依据各个所述训练新闻内容数据分别到与其对应的训练新闻评论数据的映射关系,训练得到语言数据处理模型;

获取符合预设处理条件的目标新闻内容数据;

利用训练得到的所述语言数据处理模型,将所述目标新闻内容数据转换为目标新闻评论数据;

将所述目标新闻评论数据发布至目标展示位置以便展示。

在本申请实施例中,通过预先训练出的语言数据处理模型,可以对实际中的新闻内容数据进行处理,从而无需用户手工输入就能得到与新闻内容数据相匹配的新闻评论数据,这样就可以在某些新闻的评论较少或者刚发布的新闻还没有用户进行评论等的情况下,将本实施例中得到的新闻评论数据也作为新闻的一部分进行发布;或者,在有些可能是热门新闻或者重要新闻的新闻还未发布之前,就生成这些新闻的评论,从而实现热门新闻和重要新闻等一经发布就具有若干条评论,从而提高用户点击浏览的可能性。也因此,实施本申请实施例的语言处理方法,就能使用户与新闻网站通过更少的交互或者更小的网络流量就找到或者浏览到符合需求的新闻内容,不仅能使服务器减少自身的数据处理负担和提升自身的数据处理性能,还能提升用户的网站浏览体验和阅读体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请的模型训练过程的方法实施例的流程图;

图2是本申请的模型训练过程中示例性的模型内部结构示意图;

图3是本申请的模型内部结构示意图中一个隐藏节点的结构示意图;

图4是本申请的语言数据处理方法实施例的流程图;

图5是本申请的模型训练单元的结构框图;

图6是本申请的语言数据处理装置实施例的结构框图;

图7是本申请中根据一示例性实施例示出的一种用于语言数据处理的装置800的框图;

图8是本申请实施例中服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

在本申请实施例中,首先可以依据训练语言数据训练得到一个语言数据处理模型,以便后续针对目标新闻内容数据进行转换,得到目标新闻评论数据。为了方便本领域技术人员对模型训练过程有一个详细的认识,下面首先介绍本申请中依据训练语言数据来训练语言数据处理模型的过程。

参考图1,示出了本申请中模型训练过程的实施例的流程图,本实施例中的模型训练过程可以包括以下步骤:

步骤101:获取符合预设训练条件的训练语言数据;所述训练语言数据包括:训练新闻内容数据,和,与所述训练新闻内容数据对应的训练 新闻评论数据。

在本实施例中,首先要从数据库,例如新闻库和评论库等,保存的历史语言数据中获取到符合训练条件的训练语言数据。其中,训练语言数据可以包括:训练新闻内容数据,和,与训练新闻内容数据对应的训练新闻评论数据。需要说明的是,本申请实施例中,训练语言数据需要同时包括新闻内容数据和与其对应的新闻评论数据,而那些没有对应的新闻评论数据的新闻内容数据则不符合预设训练条件,也不会作为本实施例中的训练语言数据。

具体的,步骤101可以包括步骤a1至a2:

步骤a1:从新闻库中获取新闻标题数据和/或新闻正文数据的摘要信息,作为训练新闻内容数据。

在实际应用中,可以从存储新闻数据的新闻库中获取到新闻标题数据作为训练新闻内容数据,这种情况下,就是依据新闻标题和与新闻标题对应的新闻评论来训练语言数据处理模型。当然,也可以从存储新闻数据的新闻库中获取到新闻正文数据,并对新闻正文数据进行提取从而得到新闻正文的摘要信息作为新闻内容数据,这种情况下,就是依据新闻正文的摘要信息和与摘要信息对应的新闻评论,来训练语言数据处理模型。当然,还可以从新闻库中将新闻标题数据和新闻正文数据的摘要信息都获取到,再利用对应的新闻评论数据来训练语言数据处理模型。

当然,新闻内容数据越丰富,训练的语言数据处理模型就越精确,例如,直接将新闻正文数据作为新闻内容数据,但是计算量也就越大,在实际应用中本领域技术人员可以根据机器性能和实际需求来自主确定新闻内容数据。

步骤a2:从与所述新闻库对应的评论库中,获取与所述新闻标题数据和/或新闻正文数据的摘要信息对应的评论数据,作为分别与所述训练新闻内容数据对应的训练新闻评论数据。

确定出新闻内容数据之后,再从存储新闻评论数据的评论库中,获取到与新闻标题数据和/或新闻正文数据的摘要信息对应的评论数据,作为分别与所述训练新闻内容数据对应的训练新闻评论数据。在实际中,每 一条新闻都可能会对应多条新闻评论,甚至有些热门新闻都会对应成千上万条新闻评论,因此,本申请实施例中的每一个训练新闻内容数据都至少对应一个训练新闻评论数据。

可以理解的是,这里的新闻库和评论库可以是第三方服务器的数据库,或者,本实施例中可以获取到的其他独立的新闻库和评论库,只要新闻库和评论库中的新闻内容数据和新闻评论数据可以用来作为训练新闻内容数据和训练新闻评论数据均可。本申请实施例不对新闻库和评论库的来源做限定,这也不会影响本申请实施例的实现。

步骤102:依据各个训练新闻内容数据分别到与其对应的训练新闻评论数据的映射关系,训练得到语言数据处理模型。

在本申请实施例中,将每一个训练新闻内容数据到与其对应的训练新闻评论数据的映射关系作为参考,通过对每一个映射关系的分析从而训练得到语言数据处理模型。在本实施例中,因为一个训练新闻内容数据对应了至少一个训练新闻评论数据,因此,一个训练新闻内容数据可能会对应多条映射关系,这些映射关系中的训练新闻内容数据是相同的,但是训练新闻评论数据都是不同的。例如,对于一条新闻标题为“宝马730li即将上市”的新闻,存在831条新闻评论,那么,如果将该新闻标题作为训练新闻内容数据,则可以建立831条映射关系,其中,新闻标题数据都为“宝马730li即将上市”,而每一条新闻评论都对应了一条映射关系。

具体的,步骤102可以包括步骤b1~步骤b3:

步骤b1:对所述训练新闻内容数据和训练新闻评论数据分别进行分词,得到训练新闻内容数据对应的内容词序列和所述训练新闻评论数据对应的评论词序列。

在具体训练语言数据处理模型的过程中,针对训练新闻内容数据和训练新闻评论数据,首先对其中的新闻标题和/或新闻正文的摘要信息以及新闻评论进行分词,从而得到训练新闻内容数据对应的内容词序列和训练新闻评论数据对应的评论词序列。例如,对新闻标题“宝马730li即将上市”进行分词,可以得到内容词序列“宝马,730li,即将,上市”;而 对该新闻的某条评论“宝马车性能不错”进行分词,可以得到评论词序列“宝马,车,性能,不错”。在实际应用中,本步骤可以采用分词工具实现,例如,极易中文分词,庖丁分词,或者,ikanalyzer3.0等。采用哪一种分词工具都可以实现本申请,因此本申请对此不做限定。

步骤b2:从词向量词典中,查询得到所述内容词序列对应的内容词向量序列。

在实际应用中,词序列是自然语言,如果要转化为机器语言进行机器学习过程,就需要找一种方法将这些自然语言符号化。例如,将词序列中的单个分词转换为词向量,即,将每一个单个分词表示为一个向量。词向量可以是一个多维向量(词向量的长度即是维度大小),这样,就可以将单个分词之间的关系和距离等特征,通过对词向量的处理来实现。

本步骤在将单个分词转化为词向量的时候,可以查询词向量词典,词向量词典可以采用单词嵌入(word-embedding)预处理的方法得到,且词向量词典可以由<分词,词向量>的元组构成。在词向量词典中可以以key-value的方式来对应存储单个分词和与其对应的词向量。那么,本步骤在查询词向量的时候,就可以分别以内容词序列中的每个单个分词为key,通过查询该key对应的value值来获取每个分词对应的内容词向量,进一步得到每一个训练新闻内容数据对应的各个内容词向量序列。

步骤b3:将所述内容词向量序列中的词向量分别作为语言数据处理模型的输入,以及,将对应的评论词序列中的评论词作为语言数据处理模型的输出,对所述语言数据处理模型进行训练。

其中,本申请实施例中,可以但不限于采用循环神经网络rnn(循环神经网络,recurrentneuralnetworks)模型作为该语言数据处理模型。

在得到内容词向量序列和评论词向量序列之后,将每一个内容词向量序列中的词向量作为rnn模型的输入,并且将与该内容词向量序列对应的评论词向量序列中的词向量作为rnn模型的输出,从而迭代每一个映射关系所包括的训练新闻内容数据和训练新闻评论数据,最终确定出模型参数接近最优的rnn模型,作为本申请实施例中的语言数据处理模型。其中,rnn是一种节点定向连接成环的人工神经网络,这种网络的内部 状态可以展示动态时序行为。不同于前馈神经网络的是,rnn可以利用它内部的记忆来处理任意时序的输入序列。

具体的,步骤b3可以包括步骤c1~步骤c2:

步骤c1:分别将第一个训练新闻内容数据中的每一个内容词向量作为输入,并且将第一个训练新闻评论数据中的每一个评论词作为输出,依据所述语言数据处理模型优化初始模型参数。

针对实际应用中可能存在的海量训练新闻内容数据,可以将任意一个未参与训练的训练新闻内容数据作为训练rnn模型的第一个数据,并在该训练新闻内容数据和与其对应的训练新闻评论数据训练完毕之后,再以任意一个未训练过的训练新闻内容数据作为第一个训练新闻内容数据即可,直至所有的训练新闻内容数据和与其对应的训练新闻评论数据训练完毕。

在实际应用中,rnn模型有很多,本领域技术人员选择哪一种模型均可。为了本领域技术人员更容易理解,本申请给出了一个rnn模型的具体例子。参考图2所示,为实际中的一个rnn模型的示例性结构图。在图2中,输入的内容词向量序列对应图2中的“x1,x2,...,xt”,而输出的评论词序列对应图2中的“y1,y2,...,yt’”,“c”为训练新闻内容数据的语义编码,也是一个实数向量,是对内容词向量序列“x1,x2,...,xt”适当压缩后的总结概括。其中,“t”的大小与训练新闻内容数据的分词的个数相等,“t’”的大小与训练新闻评论数据的分词的个数相等。

首先,在输入字符“encoder”一侧的示意图结构中,与“xt”连接的圆圈代表输入隐藏节点,其内部结构的示意图如图3所示,该输入隐藏节点的计算方式可以采用如下所示的公式(一)计算得到:

其中,表示当前时刻的输入隐藏节点的输出;则表示上一时刻的输入隐藏节点的输出;则表示内容词向量对应的内容词序列的当前计算状态,例如,内容词序列一共有10个词,j为5就表示当前计算状态 为:已经计算到第5个内容词,其中,j的取值范围为1~n,n为内容词序列中内容词的总个数;zj表示软开关,用于控制上一时刻的输入隐藏节点的输出,和,当前状态,两者对当前时刻的输入隐藏节点的输出的影响比例。

其中,公式(一)中的和zj分别采用如下所示的公式(二)和(三)计算:

zj=σ([wze(xt)]j+[uzh<t-1>]j)(三)

其中,公式(二)中的xt表示当前时刻的内容词向量的输入,而rj也是软开关,用于控制上一时刻内容词向量的输出对当前状态的影响。rj可以采用如下所示的公式(四)计算:

rj=σ([wre(xt)]j+[urh<t-1>]j)(四)

其中,we,wz,wr,u,uz,和,ur则是参与训练的模型参数,是为了将内容词向量从原始空间映射到目标空间得到评论词向量的转换参数,这些转换参数的取值可以由本领域技术人员根据现有技术或经验值初始化,并且这些转换参数会随着模型的训练过程而逐步更新。

其次,对于图2中所示的语义编码“c”,由如下所示的公式(五)可以计算得到:

c=tanh(vh<n>)(五)

其中,v也为参与训练的模型参数,也是为了将内容词向量从原始空间映射到目标空间得到评论词向量的转换参数。而h<n〉为第n时刻的输出,即一个内容词序列的最后一个内容词的输出,因此,n的取值与内容次序 列中的内容次个数有关。从图2中可以看出,从x1开始,每一个内容词向量都需要作用于下一个内容词向量,只有最后一个内容词向量xt的计算结果作用于语义编码c。

此外,在输出侧“decoder”的结构图中,与yt’连接圆圈的代表输出隐藏节点,输出隐藏节点的输出h’由如下所示的公式(六)得到:

h'〈0〉=tanh(v'c)(六)

其中,h'<0>为初始输出,即,语义编码c连接的、与评论词向量y1对应的第一个输出隐藏节点的输出;为评论词向量对应的评论词序列的当前计算状态,例如,评论词序列一共有10个词,j为5就表示当前状态已经计算到第5个评论词。可以由如下所示的公式(七)计算得到:

其中,为上一时刻的输出隐藏节点的输出;为评论词向量对应的评论词序列的当前计算状态,例如,评论词序列一共有10个词,j为5就表示当前状态已经计算到第5个评论词;z’j为软开关,控制上一时刻输出隐藏节点的输出,和,当前状态,两者对输出隐藏节点的当前时刻的输出的影响比例。

和z'j可以分别由如下所示的公式(八)和公式(九)计算得到:

z'j=σ([w'ze(yt-1)]j+[u'zh'<t-1>]j+[czc]j)(九)

其中,yt-1为上一时刻计算得到的评论词向量,r'j为软开关,也用于控制上一时刻的计算结果对当前状态的影响。r'j也可以由如下所示的公式(十)计算得到:

r'j=σ([w're(yt-1)]j+[u'rh'<t-1>]j+[crc]j)(十)

其中,w',u',c,w'z,u'z,cz,w'r,u'r,cr为参与训练的模型参数,也是为了将内容词向量从原始空间映射到目标空间得到评论词向量的转换参数,这些转换参数的数值也可以由本领域技术人员现有技术或经验值初始化,并且这些转换参数会随着模型的训练过程而逐步更新。

由此可知,在输出侧“decoder”最终得到评论词序列中的y,由如下所示的公式(十一)得到:

其中,s<t>通过如下所示的公式(十二)和(十三)计算得到:

s'<t>=ohh'<t>+oyyt-1+occ(十三)

其中,s’〈t〉为临时中间结果,i的取值为从1到s所表示的维度值的二分之一;gj,oh,oy,和,oc分别为参与训练的模型参数,也是为了将内容词向量从原始空间映射到目标空间得到评论词向量的转换参数,本 领域技术人员可以现有技术或经验值初始化,并且这些转换参数会随着模型的训练过程而逐步更新。

步骤c2:依次针对其他训练新闻内容数据对应的内容词向量,及,各训练新闻内容数据对应的训练新闻评论数据的评论词,执行所述语言数据处理模型迭代过程,直至最后一组训练新闻内容数据及训练新闻评论数据执行完毕,训练得到所述语言数据处理模型。

在本实施例中,rnn模型的相似度函数可以由如下所示的公式(十四)计算得到:

在得到使用梯度下降(sgd,stochasticgradientdescent)方法,按照图2所示的从公式(一)到公式(十三)的网络结构迭代rnn模型,更新参与训练的那些模型参数,使得公式(十四)相似度函数最大化,从而确定出模型参数的目标值,进而得到目标rnn模型。其中,在迭代过程中,当发现损失函数值的下降趋势符合迭代停止条件时,可以停止迭代,并将迭代停止时各个模型参数的值确定为模型参数的目标值。

一般情况下,当符合迭代停止条件时,模型参数的各个取值都接近最优值,因而得到的rnn模型也接近最优。这里的迭代停止条件,例如可以是,迭代过程中相邻的两个损失函数值满足预设的阈值关系。其中,该阈值关系,例如可以是,前一个损失函数值a与后一个损失函数值b之差,再除以前一个损失函数值a的商,小于0.01。当然,这里的0.01仅是一个数值示例,本领域技术人员也可以根据迭代需求来设置不同的数值。其中,损失函数可以取相似度函数(公式十四)的负数实现。

在实际应用中,在步骤102得到语言数据处理模型之后还可以包括:

步骤103:参考预设时间段内更新的新闻内容数据和对应的新闻评论数据,更新所述语言数据处理模型。

在本实施例中,因为新闻的特性是不断更新的,每天都会有实时新闻海量发布。因此,为了使得本申请实施例中训练得到的语言数据处理 模型也能对实时新闻内容数据进行更准确的处理,因此,还可以根据最近一段时间段内更新的新闻内容数据和对应的新闻评论数据,来更新语言数据处理模型,从而保证语言数据处理模型在语言数据处理上的准确性和实时性。例如,参考最近三天内发布的最新新闻涉及的新闻内容数据和对应的新闻评论数据,重新迭代步骤c1~步骤c2,以重新确定语言数据处理模型的模型参数。

在介绍完模型训练过程之后,参考图4,示出了本申请一种利用语言数据处理模型进行语言处理的方法实施例的流程图,在通过图1所示的训练过程得到语言数据处理模型之后,本实施例可以包括以下步骤:

步骤401:获取符合预设处理条件的目标新闻内容数据。

首先,获取到需要将新闻标题或者新闻正文的摘要信息转化为新闻评论的目标新闻。

在实际应用中,有一种情况是针对已经发布的冷门新闻进行处理,其中,符合预设处理条件的目标新闻内容即冷门新闻。因为有一些新闻在发布之后,可能由于关注度较低或者涉及的话题较少,所以没有用户对该新闻发表评论,或者用户发表的评论条数过少,例如,小于10条评论,那么将这些新闻可以划分为冷门新闻。本步骤直接获取到固定一段时间内的冷门新闻对应的新闻标题和/或新闻正文的摘要信息作为目标新闻内容数据即可,例如最近5天内的冷门新闻。

具体的,步骤401可以包括步骤d1至d3:

步骤d1:从已发布的新闻中获取符合预设时间条件的初始新闻内容数据。

具体的,首先获取到预先设置好的固定一段时间内的全部新闻内容数据作为初始新闻内容数据。

步骤d2:判断所述初始新闻内容数据对应的初始新闻评论数据是否满足预设评论条件,如果是,则进入步骤d3。

接着再判断这些初始新闻内容数据对应的初始新闻评论数据是否满足预设评论条件,例如,可以判断某个初始新闻内容对应的初始新闻评 论的条数是否小于一个预设的条数阈值,例如,10条,则在初始新闻评论小于10条的情况下,将该新闻确定为待处理的目标新闻内容数据。再例如,还可以判断某个初始新闻内容对应的初始新闻评论的评论字数是否小于一个预设的字数阈值,例如,一条新闻的评论条数虽然大于预设的条数阈值,但是每一条评论都是一个符号,而没有文字评论,即评论字数小于预设的字数阈值5,那么也可以将这条新闻的内容确定为本步骤中的目标新闻内容数据。当然,还可以在实际应用中将字数阈值和评论阈值都作为判断条件实施本步骤。本领域技术人员根据实际需求自主设置即可。

步骤d3:将满足预设评论条件的初始新闻内容数据确定为目标新闻内容数据。

接着将满足预设评论条件的初始新闻内容数据确定为,本申请实施例中待处理的目标新闻内容数据。当然,如果某个初始新闻内容数据不满足预设评论条件,则可以忽略该初始新闻的内容,无需将其作为目标新闻内容数据。

还有一种情况是,针对未发布的新闻生成对应的评论。有一些新闻在未发布之前就因为话题比较敏感,例如,可能涉及某明星的某个秘密曝光;或者,新闻内容涉及热门关键词,例如,涉及在人大会议召开期间某政协委员的提案;再或者,涉及重大信息的发布,等等,那么这些新闻可能一经发布就会是热门新闻或重要新闻,对于这类新闻,可以通过预设评论的方法,使得其一发布就能在最短的时间内获得大家的关注。具体的,步骤401可以包括步骤e1~步骤e3:

步骤e1:获取未发布的新闻数据作为初始新闻内容数据。

首先,在新闻数据准备完毕后,将所有未发布的新闻数据都作为初始新闻内容数据。

步骤e2:判断所述初始新闻内容数据是否满足预设的重要内容条件,如果是,则进入步骤e3。

判断初始新闻内容数据是否满足预设的重要内容条件,其中,预设的重要内容条件可以是,即将发布至网站的显著位置(例如,网站不需要 下拉就能看到的前面或者头条新闻的等位置)的新闻,涉及敏感话题的新闻,或者涉及重大信息发布的新闻,等等,符合这些重要内容条件的新闻数据都可以是本步骤中的重要新闻内容数据。将这些新闻筛选出来,以便对自动生成的新闻评论进一步优化,从而使得新闻评论的内容更符合用户的阅读习惯,从而提升用户对于自动生成的新闻评论的阅读体验。

步骤e3:将满足重要内容条件的重要新闻内容数据作为所述目标新闻内容数据。

将步骤e2中筛选出来的重要新闻内容数据作为需要生成评论的目标新闻内容数据。

步骤402:利用训练得到的所述语言数据处理模型,将所述目标新闻内容数据转换为目标新闻评论数据。

接着就可以利用图1所示的流程训练得到的语言数据处理模型,来对步骤401获取到的目标新闻内容数据进行处理,从而得到与目标新闻内容数据对应的目标新闻评论数据。

具体的,步骤402可以包括步骤e1至e4:

步骤e1:将所述目标新闻内容数据进行分词得到目标词序列。

本步骤现将目标新闻内容数据进行分词,从而得到与每一个目标新闻内容数据对应的目标词序列。具体分词过程可以参考步骤b1的介绍,在此不再赘述。

步骤e2:从词向量词典中查询得到所述目标词序列对应的目标词向量序列。

从词向量词典中再查询得到各个目标词序列对应的目标词向量序列,其中,每一个目标新闻内容数据都对应了一个目标词向量序列。具体的实现过程可以参考步骤b2的介绍,在此不再赘述。

步骤e3:将所述目标词向量序列作为所述训练的语言数据处理模型的输入,从而得到所述语言数据处理模型的输出评论词。

在本步骤中将目标词向量序列作为训练得到的语言数据处理模型的输入,进行计算得到一系列输出词向量序列的预测结果。参考图1所示的训练过程可知,语言数据处理模型的输出词向量序列包括一系列的分 词及对应的概率值,该概率值反映了对应的分词在评论中出现的可能性大小。

步骤e4:组合所述评论词得到所述目标新闻评论数据。

在本步骤中,参考分词对应的概率,来组合这些输出词序列中的分词即可得到目标新闻评论数据。例如,针对新闻标题数据“宝马730li即将上市”,最终经过语言数据处理模型的处理得到的第一个输出词序列为:{宝马0.97,性能0.34,不错0.21},第二个输出词序列为{宝马0.97,车0.41,操控0.37,好0.33}。则第一个输出词序列的概率的乘积为0.97*0.34*0.21=0.069,而第二个输出词序列概率的乘积为0.97*0.41*0.37*0.33=0.049。那么,从这两个句子中可以选取概率乘积较大的那一个句子“宝马性能不错”作为目标新闻评论数据。当然,在实际应用中,如果得到了海量的评论句子,也可以最终选取前n条概率乘积排名最大的评论句子作为目标新闻评论数据,其中,n可以由本领域技术人员自主设置为自然数即可。

可见,采用本申请实施例,该目标新闻评论数据由语言数据处理模型自动生成,无需人工编辑,以便后续可以直接发布或者和目标新闻内容一起发布出去,供用户点击浏览。

接着进入步骤403:将所述目标新闻评论数据发布至目标展示位置以便展示。

在本步骤中,对于已经发布过的新闻,例如一些冷门新闻,或者最开始还未受到用户关注的某个新闻,可以通过步骤401和402的方法自动生成评论的方式,得到冷门新闻的目标新闻评论数据,从而可以将这些评论发布到这些新闻对应的评论区。这样就通过为一些冷门新闻或刚刚发布的新闻增加评论条数和评论内容的方式,将用户有可能感兴趣却由于评论较少而无法方便地浏览的冷门新闻或实时新闻,也有可能排在各个新闻网站中较明显的位置,更方便用户点击浏览。那么,在为冷门新闻发布评论时,可以先将目标新闻内容数据对应的评论显示区域确定为评论的目标显示位置,接着再将得到的目标新闻评论数据发布至该目标显示位置。

而对于还未发布的重要新闻或者热门新闻,则可以同时发布新闻以及自动生成的评论。让这些重要新闻或者热门新闻等一经发布就能因为具有新闻评论而更有可能吸引更多的用户点击浏览。

进一步的,为了保证用户在阅读重要新闻或者热门新闻对应的评论时保证阅读的流畅性,还可以对初始生成的目标新闻评论数据进行筛选,将更符合用户阅读习惯或者更为重要的评论和新闻再对应发布。则相应的,在步骤402之后且步骤403之前,还可以包括步骤f1和步骤f2:

步骤f1:从重要新闻内容数据对应的新闻评论数据中,筛选出符合预设重要评论条件的重要新闻评论数据。

在筛选出重要新闻内容数据之后,从其对应的初始新闻评论数据中,再结合语句是否通顺、评论字数多少和/或评论内容的重要程度等维度来筛选出重要新闻评论数据。例如,结合上下文的语义表达是否完整来判断某个评论的语句是否通顺;某一条评论的字数是否超过10个字符,字符越多的评论的重要性越高;和/或,评论内容中如果存在某个关键字与新闻标题或新闻正文的摘要信息相匹配,例如,对于新闻“宝马730li即将上市”的一条评论中也有“宝马”一词,则认为该条评论的重要程度较高,等等。

在实际应用中,可以结合这几个参数或者本领域技术人员也可以设置其他参数来确定一条新闻评论是否为重要评论,从而得到符合预设重要评论条件的重要新闻评论数据。例如,依然以新闻标题数据“宝马730li即将上市”,且输出词序列为:{宝马0.97,性能0.86,好0.55,国产0.68}为例,可以组合得到“宝马性能国产好”的评论;当然,还可以选择某些输出词来组合得到评论,例如“宝马性能好”,“性能国产好”等。但是,这些评论中,只有“宝马性能好”这条评论的语句更为通顺,因此,从这些评论中仅筛选出“宝马性能好”这条评论作为本步骤中的重要新闻评论数据。

步骤f2:将所述重要新闻评论数据作为目标新闻评论数据。

经过步骤f2的处理,可以得到语句通顺且更有可能符合用户需求的重要新闻评论数据,那么,在需要发布热门新闻或者重要新闻的时候, 就可以同时将重要新闻内容数据和重要新闻评论数据一并发布至符合预设发布条件的目标网站,例如,门户网站搜狐网的头条新闻对应的发布位置等,或者,发布至新闻网站中的某些固定的位置,例如,头条新闻对应的位置,或者热门新闻对应的位置,等等。

可见,在本申请实施例中,通过预先训练出的语言数据处理模型,可以对实际中新闻内容数据进行处理,从而无需用户手工输入就能得到与新闻内容数据相匹配的新闻评论数据,这样就可以在某些新闻的评论较少或者刚发布的新闻还没有用户进行评论等的情况下,将本实施例中得到的新闻评论数据也作为新闻的一部分进行发布;或者,在有些可能是热门新闻或者重要新闻的新闻还未发布之前,就生成这些新闻的评论从而实现热门新闻和重要新闻等一经发布就具有若干条评论,从而提高用户点击浏览的可能性。也因此,实施本申请实施例的语言处理方法,就能使用户与新闻网站通过更少的交互或者更小的网络流量就能找到或者浏览到符合需求的新闻内容,不仅能使服务器减少自身的数据处理负担和提升自身的数据处理性能,还能提升用户的网站浏览体验和阅读体验。

对于前述的方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。

与上述本申请一种模型训练方法实施例所提供的方法相对应,参见图5,本申请还提供了一种模型训练装置实施例,在本实施例中,该模型训练装置可以包括:获取训练数据模块501和训练模型模块502。

获取训练数据模块501,用于获取符合预设训练条件的训练语言数据,所述训练语言数据包括:训练新闻内容数据,和,与所述训练新闻 内容数据对应的训练新闻评论数据。

其中,所述获取训练数据模块501具体可以包括:获取新闻内容子模块和获取新闻评论子模块。

获取新闻内容子模块,用于从新闻库中获取新闻标题数据和/或新闻正文数据的摘要信息,作为训练新闻内容数据。

获取新闻评论子模块,用于从与所述新闻库对应的评论库中,获取与所述新闻标题数据和/或新闻正文数据的摘要信息对应的评论数据,作为分别与新闻内容数据对应的新闻评论数据。

训练模型模块502,用于依据各个所述训练新闻内容数据分别到与其对应的训练新闻评论数据的映射关系,训练得到语言数据处理模型。

其中,所述训练模型模块602具体可以包括:分词子模块、查询子模块和训练子模块。

分词子模块,用于对所述训练新闻内容数据和训练新闻评论数据分别进行分词,得到训练新闻内容数据对应的内容词序列,和,训练新闻评论数据对应的评论词序列。

查询子模块,用于从词向量词典中查询得到所述内容词序列对应的内容词向量序列。

训练子模块,用于将所述内容词向量序列中的词向量分别作为语言数据处理模型的输入,以及,将对应的评论词向量序列中的评论词作为语言数据模型的输出,对所述语言数据处理模型进行训练。

其中,所述训练子模块,具体可以包括:确定子模块和迭代子模块。

确定子模块,用于分别将第一个训练新闻内容数据中的每一个内容词向量作为输入,并且将第一个训练新闻评论数据中的每一个评论词作为输出,依据所述语言数据处理模型优化初始模型参数。

迭代子模块,用于依次针对其他训练新闻内容数据及各训练新闻内容数据对应的训练新闻评论数据中的评论词,执行所述语言数据处理模型迭代过程,直至最后一组对应的训练新闻内容数据及对应的训练新闻评论数据执行完毕,训练得到所述语言数据处理模型。

所述模型训练装置还可以包括:模型更新模块503,用于参考预设时 间段内更新的新闻内容数据和对应的新闻评论数据,更新所述语言数据处理模型。

与上述本申请一种模型训练方法实施例所提供的方法相对应,参见图6,本申请还提供了一种语言数据处理装置实施例,在本实施例中,该装置可以包括:模型训练单元60和数据处理单元61,其中,

其中,所述模型训练单元60可以参考图5所示,而所述数据处理单元61可以包括:获取新闻内容模块611、语言处理模块612和发布模块613。

获取新闻内容模块611,用于获取符合预设处理条件的目标新闻内容数据。

在一实施例中,所述获取新闻内容模块611,具体可以包括:第一获取初始内容子模块、第一判断子模块和第一确定子模块。

第一获取初始内容子模块,用于从已发布的新闻中获取符合预设时间条件的初始新闻内容数据。

第一判断子模块,用于判断所述初始新闻内容数据对应的初始新闻评论数据是否满足预设评论条件。

第一确定子模块,用于在所述判断子模块的结果为是的情况下,将满足预设评论条件的初始新闻内容数据确定为目标新闻内容数据。

在另一实施例中,所述获取新闻内容模块611,具体可以包括:第二获取初始内容子模块、第一判断子模块和第二确定子模块。

第二获取初始内容子模块,用于获取未发布的新闻数据作为初始新闻内容数据。

第一判断子模块,用于判断所述初始新闻内容数据是否满足预设的重要内容条件。

第二确定子模块,用于在所述第二判断子模块的结果为是的情况下,将满足重要内容条件的重要新闻内容数据作为所述目标新闻内容数据。

语言处理模块612,用于利用训练得到的所述语言数据处理模型,将所述目标新闻内容数据转换为目标新闻评论数据。

其中,所述语言处理模块612具体可以包括:分词子模块、查询子模块和转换子模块。

分词子模块,用于将所述目标新闻内容数据进行分词得到目标词序列。查询子模块,用于从词向量词典中查询所述目标词序列对应的目标词向量。转换子模块,用于将所述目标词向量序列作为所述训练的语言数据处理模型的输入,得到所述语言数据处理模型的输出评论词;和,组合子模块,组合所述评论词得到所述目标新闻评论数据。

发布模块613,将所述目标新闻评论数据发布至目标展示位置以便展示。

其中,所述数据处理单元61还可以包括:筛选模块和发布重要新闻模块。

筛选模块,用于从所述重要新闻内容数据对应的新闻评论数据中,筛选出符合预设重要评论条件的重要新闻评论数据。发布重要新闻模块,用于将所述重要新闻评论数据作为目标新闻评论数据。

可见,在本申请实施例中,通过预先训练出的语言数据处理模型,可以对实际中新闻内容数据进行处理,从而无需用户手工输入就能得到与新闻内容数据相匹配的新闻评论数据,这样就可以在某些新闻的评论较少或者刚发布的新闻还没有用户进行评论等的情况下,将本实施例中得到的新闻评论数据也作为新闻的一部分进行发布;或者,在有些可能是热门新闻或者重要新闻的新闻还未发布之前,就生成这些新闻的评论从而实现热门新闻和重要新闻等一经发布就具有若干条评论,从而提高用户点击浏览的可能性。也因此,实施本申请实施例的语言处理方法,就能使用户与新闻网站通过更少的交互或者更小的网络流量就能找到或者浏览到符合需求的新闻内容,不仅能使服务器减少自身的数据处理负担和提升自身的数据处理性能,还能提升用户的网站浏览体验和阅读体验。

本申请还公开一种用于生成候选词的装置,包括有存储器,以及一个 或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

获取符合预设训练条件的训练语言数据,所述训练语言数据包括:训练新闻内容数据,和,与所述训练新闻内容数据对应的训练新闻评论数据;

参考各个所述训练新闻内容数据分别到与其对应的训练新闻评论数据的映射关系,训练得到语言数据处理模型;

获取符合预设处理条件的目标新闻内容数据;

利用训练得到的所述语言数据处理模型,将所述目标新闻内容数据转换为目标新闻评论数据;

将所述目标新闻评论数据发布至目标展示位置以便展示。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于语言数据处理的装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图7,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电源组件806,多媒体组件808,音频组件810,输入/输出(i/o)的接口812,传感器组件814,以及通信组件816。

处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理部件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联 系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(mic),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。

i/o接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件 814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信部件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件816还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频识别(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。

在示例性实施例中,装置800可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质,当所述存储介质中的指令由移动终端的处理器执行时,使得移动终端能够执行一种用于语言数据处理的方法,所述方法包括:获取符合预设训练条件的训练语言数据,所述训练语言数据包括:训练新闻内容数据,和,与所述训练新闻内容数据对应的训练新闻评论数据;依据各个所述训练新闻内容数据分别到与其对应的训练新闻评论数据的映射关系,训练得到语言数据处理模型;获取符合预设处理条件的目标新闻内容数据;利用训练得到的所述语言数据处理模型, 将所述目标新闻内容数据转换为目标新闻评论数据;将所述目标新闻评论数据发布至目标展示位置以便展示。

图8是本发明实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessingunits,cpu)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm等等。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1