对话生成方法、装置、电子设备及介质与流程

文档序号:35703576发布日期:2023-10-12 03:24阅读:26来源:国知局
对话生成方法、装置、电子设备及介质与流程

本发明涉及人工智能领域,尤其涉及一种对话生成方法、装置、电子设备及存储介质。


背景技术:

1、在数字医疗领域中,互联网医院也在普及,患者希望能够在互联网医院中进行问诊并得到准确的回复。在互联网医院问诊的背后,是通过医学对话模型来实现对患者进行回复,其中,医学对话模型可以学习海量的医学文本和医患对话,来模拟医生与患者进行沟通,同时收集症状信息来提供诊断或者提供用药建议。因此,医学对话模型的优化十分重要,现有的优化模型方法通常是通过有监督微调的方法实现,有监督微调的方法需要非常高质量的标注数据去训练模型,以激发大模型的生成能力,但是这种方法对标注数据的要求很高,进而导致对话生成的效率较低。因此,亟待提出一种效率更高的对话生成方法。


技术实现思路

1、本发明提供一种对话生成方法、装置、电子设备及存储介质,其主要目的在于提高数字医疗场景下对话生成的效率。

2、为实现上述目的,本发明提供的一种对话生成方法,包括:

3、获取对话数据集,提取所述对话数据集中的对话拼接数据和参考回复数据,并根据所述对话拼接数据和所述参考回复数据构建训练数据对;

4、将所述训练数据对中的对话拼接数据输入至预设对话生成模型中,并根据核采样算法生成所述对话拼接数据对应的多个模型回复;

5、利用预设指标公式计算所述多个模型回复与预设真实回复之间的相似度,得到多个相似度值,基于所述多个相似度值构建对话所述生成模型的最终优化损失函数,利用所述最终优化损失函数对所述对话生成模型进行训练处理,得到标准生成模型;

6、将待处理数据输入至所述标准生成模型中,得到所述待处理数据对应的对话集。

7、可选地,所述提取所述对话数据集中的对话拼接数据,包括:

8、识别所述对话数据集中不同对话数据对应的对话标识,并根据所述对话标识对所述对话数据集进行数据划分,得到多个对话数据;

9、将所述多个对话数据进行拼接处理,得到对话拼接数据。

10、可选地,所述根据核采样算法生成所述对话拼接数据对应的多个模型回复,包括:

11、将所述对话拼接数据输入至所述对话生成模型中,得到多个初始回复;

12、根据预构建的核采样矩阵对所述多个初始回复进行排序处理,得到排序后的初始回复;

13、抽取所述排序后的初始回复中符合预设筛选要求的回复作为筛选回复集,并对所述筛选回复集中的回复进行随机采样,得到多个模型回复。

14、可选地,所述根据预构建的核采样矩阵对所述多个初始回复进行排序处理之前,所述方法还包括:

15、获取预设参考阈值和温度参数,根据所述参考阈值和温度参数构造核采样函数;

16、根据所述核采样函数构造对应的核采样矩阵。

17、可选地,所述抽取所述排序后的初始回复中符合预设筛选要求的回复作为筛选回复集,包括:

18、识别所述排序后的初始回复中不同初始回复对应的回复概率,并按照排序后的初始回复的顺序对回复的概率进行逐个相加;

19、当逐个相加后的概率相加值大于预设参考阈值时,将相加之前的初始回复作为筛选回复集。

20、可选地,所述基于所述多个相似度值构建对话所述生成模型的最终优化损失函数,包括:

21、根据预设排序值计算公式计算所述训练数据对的训练排序值,根据所述训练排序值和所述多个相似度值构建排序损失函数;

22、构建所述真实回复对应的回复损失函数,将所述排序损失函数和所述回复损失函数进行求和处理,得到最终优化损失函数。

23、可选地,所述利用所述最终优化损失函数对所述对话生成模型进行训练处理,得到标准生成模型,包括:

24、根据所述最终优化损失函数计算所述对话生成模型中训练数据对的最终优化损失值;

25、将所述最终优化损失值与预设的参考阈值进行比较,当所述最终优化损失值大于或者等于所述参考阈值时,对所述对话生成模型进行参数调整,直至参数调整后的对话生成模型的最终优化损失值小于所述参考阈值时,将参数调整后的对话生成模型作为标准生成模型;

26、当所述最终优化损失值小于所述参考阈值时,将对话生成模型作为标准生成模型。

27、为了解决上述问题,本发明还提供一种对话生成装置,所述装置包括:

28、数据对构建模块,用于获取对话数据集,提取所述对话数据集中的对话拼接数据和参考回复数据,并根据所述对话拼接数据和所述参考回复数据构建训练数据对;

29、模型回复生成模块,用于将所述训练数据对中的对话拼接数据输入至预设对话生成模型中,并根据核采样算法生成所述对话拼接数据对应的多个模型回复;

30、模型训练模块,用于利用预设指标公式计算所述多个模型回复与预设真实回复之间的相似度,得到多个相似度值,基于所述多个相似度值构建对话所述生成模型的最终优化损失函数,利用所述最终优化损失函数对所述对话生成模型进行训练处理,得到标准生成模型;

31、对话生成模块,用于将待处理数据输入至所述标准生成模型中,得到所述待处理数据对应的对话集。

32、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:

33、至少一个处理器;以及,

34、与所述至少一个处理器通信连接的存储器;其中,

35、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的对话生成方法。

36、为了解决上述问题,本发明还提供一种存储介质,所述存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的对话生成方法。

37、本发明实施例中,通过核采样算法生成预设对话生成模型的多个模型回复,并根据模型回复对预设对话生成模型进行模型优化处理,在优化处理的过程中以指标公式作为衡量对话生成模型质量的奖励函数,不需要额外的复杂算法和网络结构,进一步提高了对话生成模型的优化效率。提升了根据对话生成模型生成待处理数据对应的对话集的效率。因此本发明提出的对话生成方法、装置、电子设备及存储介质,可以提高数字医疗场景下对话生成的效率低的问题。



技术特征:

1.一种对话生成方法,其特征在于,所述方法包括:

2.如权利要求1所述的对话生成方法,其特征在于,所述提取所述对话数据集中的对话拼接数据,包括:

3.如权利要求1所述的对话生成方法,其特征在于,所述根据核采样算法生成所述对话拼接数据对应的多个模型回复,包括:

4.如权利要求3所述的对话生成方法,其特征在于,所述根据预构建的核采样矩阵对所述多个初始回复进行排序处理之前,所述方法还包括:

5.如权利要求3所述的对话生成方法,其特征在于,所述抽取所述排序后的初始回复中符合预设筛选要求的回复作为筛选回复集,包括:

6.如权利要求1所述的对话生成方法,其特征在于,所述基于所述多个相似度值构建对话所述生成模型的最终优化损失函数,包括:

7.如权利要求1所述的对话生成方法,其特征在于,所述利用所述最终优化损失函数对所述对话生成模型进行训练处理,得到标准生成模型,包括:

8.一种对话生成装置,其特征在于,所述装置包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的对话生成方法。


技术总结
本发明涉及数字医疗场景下的人工智能技术,揭露一种对话生成方法,包括:提取对话数据集中的对话拼接数据和参考回复数据,根据对话拼接数据和参考回复数据构建训练数据对;将训练数据对中的对话拼接数据输入至对话生成模型中,根据核采样算法生成对话拼接数据对应的多个模型回复;计算多个模型回复与真实回复之间的相似度,得到多个相似度值,基于多个相似度值构建对话生成模型的最终优化损失函数,利用最终优化损失函数对对话生成模型进行训练得到标准生成模型;将待处理数据输入至标准生成模型中,得到待处理数据对应的对话集。本发明还提出一种对话生成装置、电子设备以及存储介质。本发明可以提高数字医疗场景下对话生成的效率。

技术研发人员:王世朋,刘佳瑞,姚海申
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1