对话模型训练方法、回复信息生成方法、装置及介质与流程

文档序号:35696979发布日期:2023-10-11 19:58阅读:41来源:国知局
对话模型训练方法、回复信息生成方法、装置及介质与流程

本公开涉及人工智能,尤其涉及自然语言处理、智能对话,具体涉及一种对话模型的训练方法、基于对话模型实现的回复信息生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品。


背景技术:

1、人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

2、基于超大规模语言模型的任务式对话生成技术是当前人工智能领域的研究热点之一。这种技术利用大规模语言模型的自然语言生成能力,结合任务式对话的特定需求,可以生成符合特定任务要求的对话内容。

3、在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。


技术实现思路

1、本公开提供了一种对话模型的训练方法、基于对话模型实现的回复信息生成方法、装置、电子设备、计算机可读存储介质和计算机程序产品。

2、根据本公开的一方面,提供了一种对话模型的训练方法,包括:获取第一样本数据集,第一样本数据集包括至少一个第一样本数据和至少一个第二样本数据,至少一个第一样本数据中的每个包括第一问题文本和第一回复文本,至少一个第二样本数据中的每个包括第二问题文本;利用第一样本数据集,执行如下第一训练过程以训练对话模型:将至少一个第一样本数据对应的至少一个第一问题文本分别输入对话模型,以获得对话模型输出的相应的至少一个第一回复预测结果;针对至少一个第二样本数据中的每个的第二问题文本,执行下述操作:将该第二问题文本输入对话模型,以获得对话模型输出的第二回复预测结果;以及将第二回复预测结果输入奖励模型中,以获得奖励模型输出的第二回复预测结果的得分,奖励模型基于至少一个样本问题、至少一个样本问题中的每个对应的多个回复文本以及多个回复文本中每个的标签训练获得,标签指示相应回复文本的用户满意度;基于至少一个第一回复预测结果、至少一个第一样本数据中的每个的第一回复文本以及至少一个第二样本数据中的每个对应的得分,确定综合损失;以及基于综合损失,调整对话模型的至少一个参数。

3、根据本公开的另一方面,提供了一种基于对话模型实现的回复信息生成方法,包括:获取用户的问题文本;将问题文本输入对话模型中,以获得对话模型生成的回复文本,其中,对话模型根据上述对话模型的训练方法训练得到。

4、根据本公开的另一方面,提供了一种对话模型的训练装置,包括:第一获取单元,被配置为获取第一样本数据集,第一样本数据集包括至少一个第一样本数据和至少一个第二样本数据,至少一个第一样本数据中的每个包括第一问题文本和第一回复文本,至少一个第二样本数据中的每个包括第二问题文本;第一训练单元,被配置为利用第一样本数据集,执行如下第一训练过程以训练对话模型:将至少一个第一样本数据对应的至少一个第一问题文本分别输入对话模型,以获得对话模型输出的相应的至少一个第一回复预测结果;针对至少一个第二样本数据中的每个的第二问题文本,执行下述操作:将该第二问题文本输入对话模型,以获得对话模型输出的第二回复预测结果;以及将第二回复预测结果输入奖励模型中,以获得奖励模型输出的第二回复预测结果的得分,奖励模型基于至少一个样本问题、至少一个样本问题中的每个对应的多个回复文本以及多个回复文本中每个的标签训练获得,标签指示相应回复文本的用户满意度;基于至少一个第一回复预测结果、至少一个第一样本数据中的每个的第一回复文本以及至少一个第二样本数据中的每个对应的得分,确定综合损失;以及基于综合损失,调整对话模型的至少一个参数。

5、根据本公开的另一方面,提供了一种基于对话模型实现的回复信息生成装置,包括:获取单元,被配置为获取用户的问题文本;生成单元,被配置为将问题文本输入对话模型中,以获得对话模型生成的回复文本,其中,对话模型根据上述对话模型的训练方法训练得到。

6、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述对话模型的训练方法或基于对话模型实现的回复信息生成方法。

7、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述对话模型的训练方法或基于对话模型实现的回复信息生成方法。

8、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述对话模型的训练方法或基于对话模型实现的回复信息生成方法。

9、根据本公开的一个或多个实施例,能够通过在对话模型的基于人工反馈的强化学习训练阶段,引入有监督微调训练的损失,使得强化学习阶段中不会遗忘有监督微调训练过程中学到的解决对话任务的能力,提升对话模型的事实准确性以及用户意图理解能力,从而能够整体上提升对话模型的回复信息生成效果。

10、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。



技术特征:

1.一种对话模型的训练方法,包括:

2.根据权利要求1所述的方法,其中,所述基于所述至少一个第一回复预测结果、所述至少一个第一样本数据中的每个的第一回复文本以及所述至少一个第二样本数据中的每个对应的得分,确定综合损失包括:

3.根据权利要求2所述的方法,其中,所述基于所述至少一个第二样本数据对应的至少一个得分,确定第二损失包括:

4.根据权利要求2或3所述的方法,其中,所述基于所述第一损失和所述第二损失,确定所述综合损失包括:

5.根据权利要求2至4中任一项所述的方法,还包括:

6.根据权利要求5所述的方法,其中,所述对话模型是在所述初始对话模型的基础上经过至少一次所述第一训练过程获得的,所述方法还包括:

7.根据权利要求1至6中任一项所述的方法,其中,所述至少一个第一样本数据的第一数量和所述至少一个第二样本数据的第二数量均为多个,并且所述第一数量和所述第二数量符合预设比例。

8.一种基于对话模型实现的回复信息生成方法,包括:

9.一种对话模型的训练装置,包括:

10.根据权利要求9所述的装置,其中,所述基于所述至少一个第一回复预测结果、所述至少一个第一样本数据中的每个的第一回复文本以及所述至少一个第二样本数据中的每个对应的得分,确定综合损失包括:

11.根据权利要求10所述的装置,其中,所述基于所述至少一个第二样本数据对应的至少一个得分,确定第二损失包括:

12.根据权利要求10或11所述的装置,其中,所述基于所述第一损失和所述第二损失,确定所述综合损失包括:

13.根据权利要求10至12中任一项所述的装置,还包括:

14.根据权利要求13所述的装置,其中,所述对话模型是在所述初始对话模型的基础上经过至少一次所述第一训练过程获得的,所述装置还包括:

15.根据权利要求9至14中任一项所述的装置,其中,所述至少一个第一样本数据的第一数量和所述至少一个第二样本数据的第二数量均为多个,并且所述第一数量和所述第二数量符合预设比例。

16.一种基于对话模型实现的回复信息生成装置,包括:

17.一种电子设备,包括:

18.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-8中任一项所述的方法。


技术总结
本公开提供了一种对话模型训练方法、回复信息生成方法、装置及介质,涉及人工智能技术领域,尤其涉及自然语言处理、智能对话技术领域。实现方案为:获取第一样本数据集;将至少一个第一样本数据对应的至少一个第一问题文本分别输入对话模型,以获得至少一个第一回复预测结果;将每个第二问题文本输入对话模型,以获得对话模型输出的第二回复预测结果;以及将第二回复预测结果输入奖励模型中,以获得奖励模型输出的第二回复预测结果的得分;基于至少一个第一回复预测结果、至少一个第一样本数据中的每个的第一回复文本以及至少一个第二样本数据中的每个对应的得分,确定综合损失;以及基于综合损失,调整对话模型的至少一个参数。

技术研发人员:赵晏彬,丁思宇,王硕寰,孙宇,田浩,吴华,王海峰
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1