一种写作方法、装置及存储介质与流程

文档序号：27977628发布日期：2021-12-15 01:15阅读：71来源：国知局

1.本发明涉及信息处理技术领域，特别涉及一种写作方法、装置及存储介质。

背景技术：

2.公文类文章写作需要大量素材，具有一定难度，传统的针对新媒体写作、论文写作等研发的方案在写作灵活性及写作方式方面都不能满足公文类文章写作要求。
3.现有的智能写作方案主要存在的缺陷在于：一是，写作灵活性差，由句子排列组合而来；二是，由于使用排列组合，文本越长，计算量会急剧增大，所以不适合生成较长的文本；三是，没有考虑文章目录的情况，只能生成一整段的文章。

技术实现要素：

4.本发明的目的在于提供一种智能写作方案，旨在解决现有技术写作灵活性差，无法生成多段落的文章的问题。
5.为实现以上目的，第一方面，提供一种写作方法，包括：
6.获取写作任务，所述写作任务包括文章标题；
7.根据所述文章标题，生成写作目录及与写作目录对应的列表内容；
8.将所述列表内容作为所述预先训练好的写作模型的输入，得到一组编码数组；
9.采用包含语料字符的字典对所述编码数组进行解码，得到与所述写作目录对应的分段落文章。
10.可选地，所述根据所述文章标题，生成写作目录及与写作目录对应的列表内容，包括：
11.提取所述文章标题的关键字；
12.从目录库中调取与所述关键字相关性排名前n位的目录作为待选择目录以供用户选择，并将用户选择目录作为所述写作目录；
13.对所述写作目录拆分得到所述列表内容。
14.可选地，所述采用包含语料字符的字典对所述编码数组进行解码，得到与所述写作目录对应的分段落文章，包括：
15.对所述编码数据进行归一化还原，得到还原后的整数数组；
16.采用所述包含语料字符的字典对所述整数数组进行解码，得到对应的段落文本；
17.将所述段落文本按照所述写作目录进行拼接，得到所述分段落文章。
18.可选地，所述写作模型采用gpt
‑
2模型，所述gpt
‑
2模型包括第一全连接层和基干网络，基干网络包括多层结构相同的transformer结构层，基干网络后接第一全连接层，所述transformer结构层包括依次连接的第二全连接网络层、自注意力层、第三全连接网络层和前馈神经网络层。
19.可选地，在所述将所述列表内容作为所述预先训练好的写作模型的输入，得到一组编码数组之前，还包括：
20.收集公文类素材，构建训练样本数据；
21.利用训练样本数据对所述写作模型进行训练，得到所述训练好的写作模型。
22.可选地，所述收集公文类素材，构建训练样本数据，包括：
23.将所述公文类素材切割为多篇文本语料；
24.遍历所有的所述文本语料，生成包含语料字符的字典；
25.采用berttokenizer结合所述包含语料字符的字典对所述所有的文本语料进行编码，生成样本数组；
26.对所述样本数组进行归一化处理，得到样本编码数组，构建得到所述训练样本数据。
27.可选地，所述利用训练样本数据对所述写作模型进行训练时，采用adam函数作为优化算法，采用的损失函数如下公式：
28.l1(u)＝∑
i logp(u
i
|u
i
‑
k
，...，u
i
‑1；θ)
29.其中，u＝[u1，...，u
n
]表示给定的句子，θ为模型参数，表示出现u的概率，i为编码数组的下标，取值范围为[1,数组长度]，k为预先设定的上下文窗口大小。
[0030]
可选地，所述利用训练样本数据对所述写作模型进行训练，确定所述写作模型的参数为：文本生成选词个数top
‑
k值，且取值范围为[1,字典长度]，概率过滤器参数top
‑
p大于零，生成温度大于零。
[0031]
此外，为实现上述目的，本发明还提供一种写作装置，包括：任务获取模块、目录生成模块、编码模块和文章生成模块，其中：
[0032]
任务获取模块用于获取写作任务，所述写作任务包括文章标题；
[0033]
目录生成模块用于根据所述文章标题，生成写作目录及与写作目录对应的列表内容；
[0034]
编码模块用于将所述列表内容作为所述预先训练好的写作模型的输入，得到一组编码数组；
[0035]
文章生成模块用于采用包含语料字符的字典对所述编码数组进行解码，得到与所述写作目录对应的分段落文章。
[0036]
此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前所述的写作方法。
[0037]
与现有技术相比，本发明存在以下技术效果：本发明通过根据文章标题生成写作目录，作为每个段落的开头，将写作目录对应的列表内容输入写作模型中，得到对应的编码数组，对编码数组进行解码得到对应的段落文本，再按照写作目录将文本进行拼接，得到分段落文章。
附图说明
[0038]
下面结合附图，对本发明的具体实施方式进行详细描述：
[0039]
图1是一种写作方法流程图；
[0040]
图2是写作模型训练流程图；
[0041]
图3是写作模型结构图；
[0042]
图4是一种写作装置结构图。
具体实施方式
[0043]
为了更进一步说明本发明的特征，请参阅以下有关本发明的详细说明与附图。所附图仅供参考与说明之用，并非用来对本发明的保护范围加以限制。
[0044]
如图1所示，本实施例提出了一种写作方法，包括如下步骤s10至s40：
[0045]
步骤s10，获取写作任务，所述写作任务包括文章标题；
[0046]
步骤s20，根据所述文章标题，生成写作目录及与写作目录对应的列表内容；
[0047]
步骤s30，将所述列表内容作为所述预先训练好的写作模型的输入，得到一组编码数组；
[0048]
步骤s40，采用包含语料字符的字典对所述编码数组进行解码，得到与所述写作目录对应的分段落文章。
[0049]
需要说明的是，本实施例通过根据文章标题生成写作目录，作为每个段落的开头，进而按照写作目录将段落文本进行拼接，得到分段落文章
[0050]
作为进一步优选的技术方案，所述步骤s20：根据所述文章标题，生成写作目录，包括如下细分步骤s201至s203：
[0051]
步骤s201，提取所述文章标题的关键字；
[0052]
需要说明的是，文章标题关键字的提取过程为：去除文章标题中的停用词和标点符号，保留语义主干。
[0053]
步骤s202，从目录库中调取与所述关键字相关性排名前n位的目录作为待选择目录以供用户选择，并将用户选择目录作为所述写作目录；
[0054]
需要说明的是，目录库中的目录与关键字的相关性计算过程为：
[0055]
(1)使用bert模型将关键字转换为一个特征向量，作为关键字特征向量；
[0056]
(2)计算关键字特征向量与目录库中预先转换好的目录特征向量的余弦夹角作为相关性，并按照夹角大小进行从小到大排序，其中，余弦夹角公式为：
[0057][0058]
其中，u为关键字特征向量，v为目录特征向量。
[0059]
(3)选取排名前n个目录作为待选择目录。
[0060]
需要说明的是，本实施例中n可取值范围为[1,50]，本领域技术人员也可根据实际应用情况选择其他不同的n取值。
[0061]
步骤s203，对所述写作目录拆分得到所述列表内容。
[0062]
作为进一步优选的技术方案，所述步骤s40：采用包含语料字符的字典对所述编码数组进行解码，得到与所述写作目录对应的分段落文章，包括如下细分步骤s401至s403：
[0063]
步骤s401，对所述编码数据进行归一化还原，得到还原后的整数数组；
[0064]
步骤s402，采用所述包含语料字符的字典对所述整数数组进行解码，得到对应的段落文本；
[0065]
步骤s403，将所述段落文本按照所述写作目录进行拼接，得到所述分段落文章。
[0066]
作为进一步优选的技术方案，本实施例获取的写作任务还包括有字数要求，在生成段落文本时，还需根据字数要求生成段落文本。
[0067]
需要说明的是，字数要求作为使用写作模型时的参数输入，用于限定文章的长度，
范围可为[1,1000]。
[0068]
作为进一步优选的技术方案，本实施例中的写作模型采用无监督nlp模型，具体为gpt
‑
2模型，如图3所示，所述gpt
‑
2模型包括第一全连接层和基干网络，基干网络包括多层结构相同的transformer结构层，基干网络后接第一全连接层，所述transformer结构层包括依次连接的第二全连接网络层、自注意力层、第三全连接网络层和前馈神经网络层。
[0069]
需要说明的是，gpt
‑
2模型在文本生成上有着惊艳的表现，其生成的文本在上下文连贯性和情感表达上都超过了人们的预期。而且gpt
‑
2有着超大的规模，是一个在海量数据集上基于transformer训练的巨大模型，自注意力(self
‑
attention)层是其中最关键的机制。
[0070]
本实施例通过使用gpt
‑
2模型来训练文本生成模型，逐字生成文章，生成的文章灵活性很强，且生成的每篇文章都不同，多样性也更强；而且gpt
‑
2模型擅长长文本生成。
[0071]
作为进一步优选的技术方案，由于cpu中整型计算优于浮点计算，所以本实施例在文本生成时使用longtensor来减低计算量，加快文本生成的速度。
[0072]
作为进一步优选的技术方案，如图2所示，本实施例在所述步骤s30：将所述列表内容作为所述预先训练好的写作模型的输入，得到一组编码数组之前，还包括如下步骤s’301至s’302：
[0073]
步骤s’301，收集公文类素材，构建训练样本数据；
[0074]
步骤s’302，利用训练样本数据对所述写作模型进行训练，得到所述训练好的写作模型。
[0075]
作为进一步优选的技术方案，所述步骤s’301：收集公文类素材，构建训练样本数据，包括如下细分步骤s’3011至s’3014：
[0076]
步骤s’3011、将所述公文类素材切割为多篇文本语料；
[0077]
需要说明的是，本实施例首先收集大量的公文类素材，按照一篇最长1024个字进行切割，多的部分切分为两篇，不足的进行补位，对其中的特殊字符(比如排除汉字，英语字母，常见标点符号之外的符号等)进行去除，降低其他的因素对模型训练的影响。
[0078]
步骤s’3012、遍历所有的所述文本语料，生成包含语料字符的字典；
[0079]
具体过程为：将文本中所包含的字符都取出来，生成一个字符一行的字典，每一行的字符均不同。
[0080]
步骤s’3013、采用berttokenizer结合所述包含语料字符的字典对所述所有的文本语料进行编码，生成样本数组；
[0081]
步骤s’3014、对所述样本数组进行归一化处理，得到样本编码数组，构建得到所述训练样本数据。
[0082]
需要说明的是，本实施例对样本数组进行归一化处理，可方便矩阵运算。
[0083]
作为进一步优选的技术方案，所述利用训练样本数据对所述写作模型进行训练时，采用adam函数作为优化算法，adam函数是sgd的扩展，可以代替经典的随机梯度下降法来更有效地更新网络权重，它有计算效率高、适合参数大的问题，自适应学习率等优点，可以加快模型的收敛速度。
[0084]
作为进一步优选的技术方案，在进行写作模型的训练过程中，采用的损失函数如下公式：
[0085]
l1(u)＝∑
i logp(u
i
|u
i
‑
k
，...，u
i
‑1；θ)
[0086]
其中，u＝[u1，...，u
n
]表示给定的句子，θ为模型参数，表示出现u的概率，i为编码数组的下标，取值范围为[1,数组长度]，k为预先设定的上下文窗口大小。
[0087]
需要说明的是，训练模型时需要最大化以上的似然函数，并编码得到的编码数组分批，比如一个批次大小为10，采取分批训练的方式进行，将所有文本语料训练一次为一个轮次。随着模型的训练，损失函数变化不再明显，便可停下训练，本次训练共进行100000个轮次。
[0088]
在训练完成后，需要对模型进行整体评估，调整相关文本生成的参数，主要为文本生成时选词个数top
‑
k值、概率过滤器参数top
‑
p和生成温度三个参数，可以控制文本的混乱程度，关联度，流畅度等效果，直至达到心中预期。
[0089]
较优地，本实施例中top
‑
k值取值范围为[1,字典长度]，概率过滤器参数top
‑
p大于零，生成温度大于零。
[0090]
如图4所示，本实施例还提出了一种写作装置，包括任务获取模块10、目录生成模块20、编码模块30和文章生成模块40，其中：
[0091]
任务获取模块10用于获取写作任务，所述写作任务包括文章标题；
[0092]
目录生成模块20用于根据所述文章标题，生成写作目录及与写作目录对应的列表内容；
[0093]
编码模块30用于将所述列表内容作为所述预先训练好的写作模型的输入，得到一组编码数组；
[0094]
文章生成模块40用于采用包含语料字符的字典对所述编码数组进行解码，得到与所述写作目录对应的分段落文章。
[0095]
需要说明的是，以上所描述的工作流程仅仅是示意性的，并不对本发明的保护范围构成限定，在实际应用中，本领域的技术人员可以根据实际的需要选择其中的部分或者全部来实现本实施例方案的目的，此处不做限制。
[0096]
另外，未在本实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的写作方法，此处不再赘述。
[0097]
此外，本发明实施例还提出一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前所述的写作方法的步骤。
[0098]
由于本存储介质采用了上述所有实施例的全部技术方案，因此至少具有上述实施例的技术方案所带来的所有有益效果，在此不再一一赘述。
[0099]
需要说明的是，本文中“第一”和“第二”仅仅用来区分名称相同的实体或操作，并不暗示这些实体或操作之间顺序或关系。
[0100]
通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如只读存储器(read only memory，rom)/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，写作设备，或者网络设备等)执行本发明各个实施例所述的方法。
[0101]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王康;冯海洪;毛德平
技术所有人：安徽咪鼠科技有限公司
我是此专利的发明人

上一篇：基于协方差度量因子的特征选择方法与流程
上一篇：一种病房语音呼救系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。