一种对话模型优化方法、装置、计算机设备和存储介质与流程

文档序号：36231930发布日期：2023-12-01 04:47阅读：57来源：国知局

本技术涉及人工智能，特别是涉及一种对话模型优化方法、装置、计算机设备和存储介质。

背景技术：

1、人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术，也有软件层面的技术。人工智能基础技术一般包括例如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

2、自然语言处理(nature language processing，nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的学科。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

3、机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括：人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

4、随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

5、关于智能客服，由于设计人员的思维局限性以及数据、存储、计算能力的限制，智能对话系统无法完全考虑到用户提出的各式各样的问题。当智能对话系统遇到设计之初未考虑到的问题时，针对上述问题的应答动作可以被看作是随机应答，往往无法正确回应用户提出的问题，使用户感到答非所问。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高对话模型的对话质量，避免输出畸形结果的对话模型优化方法、装置、计算机设备和存储介质。

2、第一方面，提供一种对话模型优化方法，所述方法包括：

3、通过应用程序接口采集预训练对话模型中输入的问题数据，并将所述问题数据按照预设比例分为三部分，分别为第一数据、第二数据以及第三数据；

4、在所述预训练对话模型中设置第一损失函数，并基于标注答案的第一数据对所述预训练对话模型进行训练，获得训练后的对话模型，使得第一损失函数值最小；

5、将所述第二数据输入所述训练后的对话模型，获得对应的若干条回复并标注序号；

6、在所述预训练奖励模型中设置差值函数，并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练，获得训练后的奖励模型，使得差值函数值最大；

7、根据所述训练后的对话模型设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型。

8、在其中一个实施例中，所述获得对应的若干条回复并标注序号，包括：

9、根据预设规则，将所述对应的若干条回复根据正确程度按照从高到低的顺序进行排序，并标注上对应的序号；

10、其中，所述正确程度指的是与答案的接近程度。

11、在其中一个实施例中，所述根据所述训练后的对话模型设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型，包括：

12、根据所述训练后的奖励模型，获得对应的奖励值函数；

13、根据所述训练后的对话模型设置第二损失函数，并根据所述第二损失函数对所述对应的奖励值函数进行调整，获得调整后的奖励值函数；

14、根据所述调整后的奖励值函数，获得调整后的奖励模型；

15、将所述第三数据输入所述训练后的对话模型，输出回复结果；

16、将所述回复结果输入所述调整后的奖励模型，并根据所述调整后的奖励值函数输出奖励值；

17、根据所述奖励值对所述训练后的对话模型进行更新，获得优化后的对话模型；

18、其中，所述第二损失函数表示所述优化后的对话模型与所述训练后的对话模型之间的相似程度。

19、在其中一个实施例中，所述第一损失函数表示所述第一数据输入预训练对话模型获得的回复与所述第一数据标注的答案之间的相似程度。

20、在其中一个实施例中，所述根据所述奖励值对所述训练后的对话模型进行更新，获得优化后的对话模型，包括：

21、根据所述奖励值的大小，通过梯度下降法对所述训练后的对话模型进行更新，获得优化后的对话模型。

22、在其中一个实施例中，所述第二损失函数包括相对熵散度，所述强化学习算法包括近端策略优化算法。

23、在其中一个实施例中，所述预训练对话模型包括多头注意力层以及前馈神经网络层，所述前馈神经网络层对所述多头注意力层的输出进行非线性变换。

24、第二方面，提供了一种对话模型优化装置，所述装置包括：

25、采集划分模块，所述采集划分模块用于通过应用程序接口采集预训练对话模型中输入的问题数据，并将所述问题数据按照预设比例分为三部分，分别为第一数据、第二数据以及第三数据；

26、第一设置训练模块，所述第一设置训练模块用于在所述预训练对话模型中设置第一损失函数，并基于标注答案的第一数据对所述预训练对话模型进行训练，获得训练后的对话模型，使得第一损失函数值最小；

27、输入获取模块，所述输入获取模块用于将所述第二数据输入所述训练后的对话模型，获得对应的若干条回复并标注序号；

28、第二设置训练模块，所述第二设置训练模块用于在所述预训练奖励模型中设置差值函数，并基于标注序号的对应的若干条回复对所述预训练奖励模型进行训练，获得训练后的奖励模型，使得差值函数值最大；

29、设置获取模块，所述设置获取模块用于根据所述训练后的对话模型设置第二损失函数，并基于所述第三数据通过强化学习算法获得优化后的对话模型。

30、第三方面，提供了一种计算机设备，所述计算机设备包括一个或多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行如上述第一方面任意一项所述对话模型优化方法的步骤。

31、第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，执行如上述第一方面任意一项所述对话模型优化方法的步骤。

32、上述对话模型优化方法、装置、计算机设备和存储介质，通过设置第一损失函数和差值函数，并基于标注答案的第一数据和标准序号的若干条回复，分别对预训练对话模型和预训练奖励模型进行训练，获得训练后的对话模型和奖励模型，根据设置的第二损失函数和第三数据，通过强化学习算法获得优化后的对话模型，实现提高智能客服对话模型对话质量同时，避免产生畸形结果。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：罗建刚王申领
技术所有人：苏州浪潮智能科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。