一种可自适应输入的文本续写方法、存储介质和装置与流程

文档序号:33126874发布日期:2023-02-01 05:37阅读:49来源:国知局
一种可自适应输入的文本续写方法、存储介质和装置与流程

1.本发明涉及文本生成领域,尤其是一种可自适应输入的文本续写方法、存储介质和装置。


背景技术:

2.人类社会的发展伴随着媒体技术的交替与更迭,人工智能技术在新闻领域的渗透不断影 响着新闻生产和新闻舆论的发展。利用人工智能写新闻能极大的提高内容的生产效率,如财 经新闻、体育赛事报道、突发自然灾难性报道。而新闻从业者们从这些机械的内容写作中解 放出来,他们就会有更多的时间和精力致力于深度报道或专业评论。
3.在计算机科学领域,nlp(自然语言处理)将文本转换为结构化数据,nlg(自然语言生 成)将结构化数据转换为文本。最近,基于transformer模型的迁移学习,如bert,xlnet, gpt系列、和中文模型cpm_lm、pangu-alpha在大规模语料库上使用预先训练的语言模型后, 在各种任务上表现出色。两阶段框架(预训练和微调)非常有效,它被称为“nlp的imagenet 时刻”的到来。
4.nlg技术的迅猛发展和卓越成效为新闻续写任务提供了天然的基础,当前的文本生成算 法普遍使用了基于gpt(generative pre-training)的模型,与其他的深度学习算法相比, 其优势在于不依赖于大量的人工标注信息,仅需要在无监督的模式下进行学习就可以显著提 升模型的性能。简单来说,就是让机器自主阅读大量的文本,即所谓的预训练,然后再根据 具体的需求,给它一些现成的文本对模型进行微调。通常利用针对于中文的预训练模型 pangu-alpha进行微调,期望nlg能为新闻领域生成有价值的信息
5.考虑到在进行新闻文本续写任务时输入内容是不确定的,也就是说存在两种情况:1、输 入新闻内容为一个主题,后续输出也按照该主题进行续写;2、输入新闻内容包含两个或多个 主题的内容,如图1所示。图1左为单独一个主题的内容,主要讲述的是“公司夏日防疫工 作开展”,后续生成根据这个主题继续续写;而图1右则包含两个主题的内容,分别讲述了“酒 驾违法行为管理”和“强对流自然灾害应对”,按照正常书写习惯,后续生成应根据第二个内 容进行续写。如何对包括不同主题的文本进行有针对性的续写是一个新课题。


技术实现要素:

6.为了解决上述问题,本发明提供一种可自适应输入的文本续写方法、存储介质和装置。
7.第一方面,本发明提供一种可自适应输入的文本续写方法,包括以下步骤:
8.对训练用文本进行预处理,调整成文本续写模型可接收的格式;
9.将经过预处理的训练用文本输入所述文本续写模型,根据输出对模型参数进行调整,得 到训练好的模型;
10.将待续写文本输入所述训练后的模型,进行主题相似性度量,根据所述待续写文
本主题 微调文本,包括保留待续写文本中与最后一个主题相关的内容,删除与最后一个主题无关的 内容;
11.将微调后的文本输入所述训练好的模型,进行文本续写。
12.进一步的,文本续写后还包括结果分析步骤,分别将所述待续写文本和经过主题相似性 度量的所述微调文本作为所述训练好的模型的输入进行续写,生成不同的文本,将两种生成 文本进行对比。
13.进一步的,所述对训练用文本进行预处理具体包括,去除所述训练用文本中的重复样本 和特殊字符。
14.进一步的,所述将经过预处理的训练用文本输入所述文本续写模型,根据输出对模型参 数进行调整,得到训练后的模型具体包括,
15.s101、将所述训练用文本根据预定的分割比例划分为训练集、验证集和测试集;
16.s102、对模型参数进行初始化,所述模型参数包括批尺寸、学习率、保存间隔和验证间 隔;
17.s103、将训练集数据输入所述模型,得到预测值;
18.s104、将所述预测值和真实值进行对比,利用交叉熵损失函数计算误差,所述误差为损 失函数的损失值;
19.s105、根据所述误差计算模型参数对损失函数的梯度;
20.s106、根据所述损失函数的梯度进行反向传播,对模型参数进行调整;
21.s107、判断训练的迭代次数是否达到预定的验证间隔值和保存间隔值,达到预定的验证 间隔值则进入验证阶段,达到预定的保存间隔值则保存模型;
22.s108、进入验证阶段后,将训练用文本的验证集输入所述模型,记录验证集的损失值和 困惑度ppl值,其中,ppl是用于衡量模型好坏的指标;
23.s109、重复步骤s103~s108,直到所述模型出现过拟合或损失函数值不再下降,选取验 证集损失值和困惑度ppl值最小的模型作为训练好的模型。
24.进一步的,所述根据所述待续写文本主题微调文本具体包括,
25.s201、输入一段待续写文本,按照

。’、

!’、

?’、

.’、分句,得到分句列表;
26.s202、将最后一句话作为判断相似性的基准句;
27.s203、判断所述基准句在分词后长度是否小于第一设定值,如是则取出所述分句列表中 最后一句话与所述基准句拼接作为新的基准句,直到所述基准句的长度大于或等于所述第一 设定值;
28.s204、从所述分句列表的第一句起,判断分句与所述基准句的相似性是否大于第二设定 值,是则将当前分句与所述基准句拼接作为模型新的输入,否则丢弃当前分句,将所述分句 列表的下一分句作为新的输入,直到遍历所述分句列表。
29.进一步的,所述文本续写步骤包括,
30.s301、将微调后的文本基准句输入所述训练好的模型;
31.s302、判断生成文本的长度是否小于或等于第三设定值且当前生成的字符是否是终止字 符,如果生成文本的长度小于或等于第三设定值且当前生成的字符不是终止字符,则继续生 成文本,如果生成文本的长度大于第三设定值或当前生成的字符是终止字符,则停止生成, 输出结果。
32.更进一步的,结果分析步骤具体包括,
33.分别将所述待续写文本和所述微调文本输入到训练好的模型中,得到各自的生成文本长 度列表,计算长度正则化损失;
34.构建所述生成文本长度和所述长度正则化损失之间的关系,
35.ti=yi/log(lei)+α*(1/lei)
36.其中,i表示第i个样例,ti为第i个样例的目标函数,le表示生成文本分词后的长度 列表,y表示长度正则化损失列表。
37.第二方面,本发明提供一种计算机可读的存储介质,所述计算机可读的存储介质中存储 有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项技术方案所述的方法。
38.第三方面,本发明提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算 机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案所述的方法。
39.本发明的技术方案带来以下有益效果:多主题输入在经过主题相似性度量模块后,输入 由多主题转换为单一主题,进而输出也只与该单一主题相关,续写文本语义混乱的问题得到 解决;由于多主题输入产生的输入内容有长有短,因此为了衡量tsem的微调效果,本发明 的长度正则化loss考虑到了长度的影响,能更精确的衡量主题相似性度量模块的有效性。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一 些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些 附图获得其他的附图。
41.图1为单一主题和多主题文本的示例;
42.图2为本发明一实施例可自适应输入的文本续写方法的流程图;
43.图3为直接将待续写文本输入到模型的结果示例;
44.图4为将待续写文本进行微调后输入模型的结果示例;
45.图5(a)和图5(b)分别为待续写文本微调前后长度正则化损失值的直观曲线图。
具体实施方式
46.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图, 对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术 一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没 有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
47.需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含, 例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那 些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设
备固有的其 它步骤或单元。
48.本实施例提供一种可自适应输入的文本续写方法,如图2所示,包括以下步骤:
49.s1、对训练用文本进行预处理,调整成文本续写模型可接收的格式。
50.训练用文本数量庞大,作为训练样本基本都要先进行预处理,本实施例中的预处理包括 去除重复样本和特殊字符如多余的空格、换行符、重复标点等,将训练用文本处理成“干净
”ꢀ
的样本作为模型的输入。
51.s2、将经过预处理的训练用文本输入文本续写模型,根据输出对模型参数进行调整,得 到训练好的模型。
52.这一过程具体包括:
53.s101、将训练用文本根据预定的分割比例划分为训练集、验证集和测试集,分别用作模 型的训练、训练结果验证和模型性能测试;分割比例可以根据实际需要确定,本实施例里对 此不做限定。
54.s102、对模型参数进行初始化,所述模型参数包括批尺寸、学习率、保存间隔和验证间 隔;
55.s103、将训练集数据输入所述模型,得到预测值;
56.s104、将所述预测值和真实值进行对比,利用交叉熵损失函数计算误差,所述误差为损 失函数的损失值;
57.s105、根据所述误差计算模型参数对损失函数的梯度。
58.s106、根据所述损失函数的梯度进行反向传播,对模型参数进行调整。
59.s107、判断训练的迭代次数是否达到预定的验证间隔值和保存间隔值,达到预定的验证 间隔值则进入验证阶段,达到预定的保存间隔值则保存模型。
60.s108、进入验证阶段后,将训练用文本的验证集输入所述模型,记录验证集的损失值和 困惑度ppl值,其中,ppl是用于衡量模型好坏的指标,其根据每个词来估计所在句子出现 的概率,并用句子长度做normalize,ppl值越小越好,其公式为
[0061][0062]
其中,s表示当前句子,n表示句子长度,p(wi)表示第i个词出现的概率,p(wi|w1w2w3…ꢀwi-1
)表示基于前i-1个词,计算得出第i个词的概率。
[0063]
s109、重复步骤s103~s108,直到所述模型出现过拟合或损失函数值不再下降,选取验 证集损失值和困惑度ppl值最小的模型作为训练好的模型。
[0064]
s3、将待续写文本输入训练后的模型,进行主题相似性度量,根据待续写文本主题微调 文本,包括保留待续写文本中与最后一个主题相关的内容,删除与最后一个主题无关的内容。 具体包括以下步骤:
[0065]
s201、输入一段待续写文本,按照

。’、

!’、

?’、

.’分句,得到分句列表;
[0066]
s202、将待续写文本的最后一句话作为判断相似性的基准句;
[0067]
s203、判断基准句在分词后长度是否小于第一设定值,如是则取出分句列表中最
后一句 话与基准句拼接作为新的基准句,直到基准句的长度大于或等于第一设定值;
[0068]
s204、从分句列表的第一句起,判断当前分句与基准句的相似性是否大于第二设定值, 是则将当前分句与基准句拼接作为模型新的输入,否则丢弃当前分句,将分句列表的下一分 句作为新的输入,直到遍历整个分句列表。
[0069]
比如一段文本前半部分在讲“高温防暑”,后半部分在讲“供电设备日常维护项目”,则 进行文本微调时舍弃前半部分文本,这样后续的文本续写才会只根据“供电设备日常维护项 目”主题进行续写。
[0070]
s4、将微调后的文本输入训练好的模型,进行文本续写,包括
[0071]
s301、将微调后的文本基准句输入训练好的模型;
[0072]
s302、判断生成文本的长度是否小于或等于第三设定值且当前生成的字符是否是终止字 符,如果生成文本的长度小于或等于第三设定值且当前生成的字符不是终止字符,则继续生 成文本,如果生成文本的长度大于第三设定值或当前生成的字符是终止字符,则停止生成, 输出结果。
[0073]
上述第一设定值、第二设定值、第三设定值根据实际情况调整,本实施例中对此不作限 定,本领域技术人员知道应如何设定。
[0074]
作为优选的实施例,文本续写后还可以包括结果分析步骤,分别将待续写文本和经过主 题相似性度量的微调文本作为训练好的模型的输入进行续写,生成不同的文本,将两种生成 文本进行对比。可通过文本的方式和可视化的方式,直观的呈现出微调前与微调后的不同。
[0075]
包括:
[0076]
s401、分别将待续写文本和微调文本输入到训练好的模型中,得到各自的生成文本长度
[0077]
列表,计算长度正则化损失;
[0078]
s402、构建生成文本长度和长度正则化损失之间的关系,
[0079]
ti=yi/log(lei)+α*(1/lei)
[0080]
其中,i表示第i个样例,ti为第i个样例的目标函数,le表示生成文本分词后的长度 列表,y表示长度正则化损失列表。
[0081]
如果想直观观察两者的不同,可以使用画图工具并通过编程,对微调前和微调后输出长 度正则化损失值进行可视化,从而显示两者的不同。
[0082]
举例说明,图3是直接将待续写文本输入到模型的结果,没有进行主题相似性度量的微 调,可以看到模型输出的续写文本仅有一句话。
[0083]
图4是将待续写文本进行微调后输入模型,得到的续写文本与内容多且与待续写文本的 主题强相关。
[0084]
图5(a)和图5(b)分别是待续写文本微调前后长度正则化损失值的直观对比图,可见 主题相似性度量后的loss整体上小于主题相似性度量前的loss,主题相似性度量后的loss 平均值也比主题相似性度量前的loss小,表明了微调输入的有效性。
[0085]
另外,本发明还提供一种实施例,涉及计算机可读的存储介质,所述计算机可读的存储 介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项技术方案 所述的方法。
[0086]
本发明还提供一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序, 所述处理器被设置为运行所述计算机程序以执行上述任一项技术方案所述的方法。
[0087]
以上所述仅为本技术的优选实施例而已,并不用于限制本技术,对于本领域的技术人员 来说,本技术可以有各种更改和变化。凡在本技术的精神和原则之内,所作的任何修改、等 同替换、改进等,均应包含在本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1