文本生成方法、装置、设备及计算机可读介质与流程

文档序号:34299647发布日期:2023-05-31 14:36阅读:34来源:国知局
文本生成方法、装置、设备及计算机可读介质与流程

本发明涉及人工智能,尤其涉及一种文本生成方法、装置、设备及计算机可读介质。


背景技术:

1、机器智能写作技术指的是通过多个关键词,能够自动生成与多个关键词相关的等文本的技术,该技术被广泛应用在创作营销文案、散文写作、自动写稿等场景中。现有的智能写作方式为:将多个关键词输入到写作模型中,由写作模型生成多个关键词的写作文本。其中,写作模型通过大量文本进行训练得到,多个关键词的写作文本可以理解为是写作模型根据多个关键词智能写作出的文本。

2、然而,当写作模型需要应用到新领域时,写作模型难以生成新领域的一些专有名词和概念,即无法生成适配于新领域的写作文本。虽然写作模型在经过新领域的文本进行训练之后,可以生成适配于新领域的写作文本,但训练过程的工作量较大、耗时较长,不能够使得写作模型快速的适配新领域,即现有的智能写作方式难以满足快速应用到多个新领域的场景的需求。


技术实现思路

1、有鉴于此,本发明实施例提供一种文本生成方法、装置、设备及计算机可读介质,以快速适配新领域的文本生成需求。

2、为实现上述目的,本发明实施例提供如下技术方案:

3、第一方面,本技术公开了一种文本生成方法,包括:

4、获取关键词组;其中,所述关键词组包括至少一个关键词;

5、根据所述关键词组,检索得到与所述关键词组匹配的文本段落;

6、将所述关键词组和与所述关键词组匹配的文本段落输入至智能写作模型中,由所述智能写作模型生成所述关键词组的写作文本;其中,所述关键词组的写作文本中的词由所述智能写作模型从词汇表、所述关键词组以及与所述关键词组匹配的文本段落中获取得到;所述智能写作模型通过多个句子样本、与所述句子样本匹配的文本段落以及所述句子样本的实际写作文本对初始写作模型进行训练得到。

7、可选地,在上述文本生成方法中,所述智能写作模型包括:目标编码器和目标解码器;所述将所述关键词组和与所述关键词组匹配的文本段落输入至智能写作模型中,由所述智能写作模型生成所述关键词组的写作文本,包括:

8、通过所述目标编码器,对所述关键词组、与所述关键词组匹配的文本段落、以及第一特殊字符进行语义表征处理,得到每一个所述待处理词的最终词向量和所述第一特殊字符的最终词向量;其中,所述待处理词为所述关键词组和与所述关键词组匹配的文本段落中的词;所述第一特殊字符用于代表所述关键词组以及与所述关键词组匹配的文本段落的整体语句;所述待处理词的初始词向量和所述第一特殊字符的初始词向量从词汇表中获取得到;

9、将每一个所述待处理词的最终词向量以及所述第一特殊字符的最终词向量输入至所述目标解码器中,由所述目标解码器得到并输出所述关键词组的写作文本。

10、可选地,在上述文本生成方法中,所述将每一个所述待处理词的最终词向量以及所述第一特殊字符的最终词向量输入至所述目标解码器中,由所述目标解码器得到并输出所述关键词组的写作文本,包括:

11、向所述目标解码器输入开始词的初始词向量、每一个所述待处理词的最终词向量以及所述第一特殊字符的最终词向量,由所述目标解码器融合得到所述开始词的最终词向量;

12、根据所述开始词的最终词向量,计算得到词汇表中每一个词的生成概率;并根据所述开始词的最终词向量,计算得到每一个所述待处理词的生成概率;

13、从词汇表中的每一个词以及每一个所述待处理词中,选取出生成概率最高的词,确定为所述目标解码器在当前生成的词;

14、将所述目标解码器在当前生成的词作为新的开始词,返回至所述向所述目标解码器输入开始词的初始词向量、每一个所述待处理词的最终词向量以及所述第一特殊字符的最终词向量,由所述解码器融合得到所述开始词的最终词向量的步骤,直至所述目标解码器生成的词为结束词为止;其中,所述关键词组的写作文本由所述解码器生成的词按照生成顺序拼接得到。

15、可选地,在上述文本生成方法中,所述根据所述关键词组,检索得到与所述关键词组匹配的文本段落,包括:

16、通过语义表征模型,对所述关键词组和第二特殊字符进行语义表征处理,得到第二特殊字符的最终词向量;并通过所述语义表征模型,对检索库中的每一个文本段落以及所述文本段落对应的第三特殊字符进行语义表征处理,得到每一个所述文本段落对应的第三特殊字符的最终词向量;其中,所述第二特殊字符用于代表所述关键词组的整体语句;所述文本段落对应的第三特殊字符用于代表所述文本段落的整体语句;所述语义表征模型通过多个句子样本、所述句子样本对应的正样例文本段落、以及所述句子样本对应的负样例文本段落对所述目标编码器进行对比学习训练后得到;所述句子样本对应的正样例文本段落为与所述句子样本的主题相关的文本段落;所述句子样本对应的负样例文本段落为与所述句子样本的主题不相关的文本段落;

17、分别计算所述第二特殊字符的最终词向量和每一个所述文本段落对应的第三特殊字符的最终词向量之间的相似度;

18、将计算出的相似度最高的文本段落,确定为与所述关键词组匹配的文本段落。

19、可选地,在上述文本生成方法中,所述目标编码器的训练过程,包括:

20、针对每一个句子样本,将所述句子样本中的至少一个词替换成标记字符,得到处理后的句子样本;

21、将所述处理后的句子样本进行分词处理,得到多个词样本和标记字符;

22、将每一个所述词样本的初始词向量、所述标记字符的初始词向量以及第四特殊字符的初始词向量输入至初始编码器中,由所述初始编码器通过n层编码层处理得到每一个所述词样本的第n层词向量、所述标记字符的第n层词向量以及所述第四特殊字符的第n层词向量;其中,所述第四特殊字符用于代表所述句子样本的整体语句;所述词样本的初始词向量、所述标记字符的初始词向量以及所述第四特殊字符的初始词向量从词汇表中获取得到;

23、将所述第四特殊字符的第n层词向量、每一个所述词样本的第k层词向量以及所述标记字符的第k层词向量输入至所述初始编码器的第n+1层编码层中,由所述第n+1层编码层得到并输出每一个所述词样本的最终词向量、所述标记字符的最终词向量以及所述第四特殊字符的最终词向量;其中,k为小于n的正整数;

24、根据所述标记字符的最终词向量所表征的语义与所述标记字符对应的替换前的词的语义之间的误差,对所述初始编码器的参数进行调整,直至调整后的初始编码器的所述误差满足预设的收敛条件时,将所述调整后的初始编码器确定为目标编码器。

25、可选地,在上述文本生成方法中,所述智能写作模型的训练过程,包括:

26、构建初始写作模型;其中,所述初始写作模型包括:目标编码器和初始解码器;所述目标编码器通过多个句子样本对初始编码器进行训练得到;

27、针对每一个句子样本,检索得到与所述句子样本匹配的文本段落;

28、通过所述目标编码器,对所述句子样本、与所述句子样本匹配的文本段落以及第四特殊字符进行语义表征处理,得到每一个所述词样本的最终词向量和所述第四特殊字符的最终词向量;其中,所述第四特殊字符用于代表所述句子样本的整体语句;所述词样本为所述句子样本和与所述句子样本匹配的文本段落中的词;所述词样本的初始词向量以及所述第四特殊字符的初始词向量从词汇表中获取得到;

29、向所述初始解码器输入开始词的初始词向量、每一个所述词样本的最终词向量以及所述第四特殊字符的最终词向量,由所述初始解码器融合得到所述开始词的最终词向量;

30、根据所述开始词的最终词向量,计算得到词汇表中每一个词的生成概率;并根据所述开始词的最终词向量,计算得到每一个所述词样本的生成概率;

31、从词汇表中的每一个词以及每一个所述词样本中,选取出生成概率最高的词,确定为所述初始解码器在当前生成的词;

32、根据所述初始解码器在当前生成的词和实际需生成的词之间的误差,对所述初始写作模型的参数进行调整,并从所述初始解码器在当前生成的词和实际需生成的词中选取出其中一个词作为新的开始词,返回至所述向所述初始解码器输入开始词的初始词向量、每一个所述词样本的最终词向量以及所述第四特殊字符的最终词向量,由所述初始解码器融合得到所述开始词的最终词向量的步骤,直至调整后的初始写作模型生成的所有词和实际需生成的词之间的误差满足收敛条件时,将所述调整后的初始写作模型确定为智能写作模型;其中,所述实际需生成的词从所述句子样本的实际写作文本中获取。

33、可选地,在上述文本生成方法中,所述语义表征模型的训练过程,包括:

34、针对每一个句子样本,通过目标编码器,对所述句子样本和第四特殊字符进行语义表征处理,得到所述第四特殊字符的最终词向量;通过目标编码器,对所述句子样本对应的正样例文本段落和第五特殊字符进行语义表征处理,得到所述第五特殊字符的最终词向量;并通过目标编码器,对所述句子样本对应的负样例文本段落和第六特殊字符进行语义表征处理,得到所述第六特殊字符的最终词向量;其中,所述第四特殊字符用于代表所述句子样本的整体语句;所述第五特殊字符用于代表所述句子样本对应的正样例文本段落的整体语句;所述第六特殊字符用于代表所述句子样本对应的负样例文本段落的整体语句;

35、根据所述第四特殊字符的最终词向量、所述第五特殊字符的最终词向量以及所述第六特殊字符的最终词向量,计算得到所述目标编码器的损失值;其中,所述目标编码器的损失值越低,则所述句子样本与所述句子样本对应的正样例文本段落之间的相似度越高、且所述句子样本与所述句子样本对应的负样例文本段落之间的相似度越低;

36、根据所述目标编码器的损失值,对所述目标编码器的参数进行调整,直至调整后的目标编码器的损失值满足预设的收敛条件时,将所述调整后的目标编码器确定为语义表征模型。

37、第二方面,本技术公开了一种文本生成装置,包括:

38、获取单元,用于获取关键词组;其中,所述关键词组包括至少一个关键词;

39、第一检索单元,用于根据所述关键词组,检索得到与所述关键词组匹配的文本段落;

40、第一生成单元,用于将所述关键词组和与所述关键词组匹配的文本段落输入至智能写作模型中,由所述智能写作模型生成所述关键词组的写作文本;其中,所述关键词组的写作文本中的词由所述智能写作模型从词汇表、所述关键词组以及与所述关键词组匹配的文本段落中获取得到;所述智能写作模型通过多个句子样本、与所述句子样本匹配的文本段落以及所述句子样本的实际写作文本对初始写作模型进行训练得到。

41、第三方面,本技术公开了一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如上述第一方面中任一所述的方法。

42、第四方面,本技术公开了一种文本生成设备,包括:

43、一个或多个处理器;

44、存储装置,其上存储有一个或多个程序;

45、当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述第一方面中任一所述的方法。

46、基于上述本发明实施例提供的文本生成方法,通过关键词组,检索得到与关键词组匹配的文本段落。然后将关键词组和与关键词组匹配的文本段落输入至智能写作模型中,由智能写作模型生成关键词组的写作文本。由于智能写作模型生成的写作文本是通过关键词组以及与关键词组匹配的文本段落生成的,且关键词组的写作文本中的词也是从智能写作模型从词汇表、关键词组以及与关键词组匹配的文本段落中获取得到的,因此智能写作模型生成的关键词组的写作文本参考了关键词组匹配的文本段落中使用的专有名词、概念等撰写用语,即使智能写作模型未采用该关键词组所属的领域的文本进行过训练,所生成的关键词组的写作文本依然可适配该关键词组所属的领域,满足了快速适配多个新领域的需求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1