会话应答方法和装置、电子设备、存储介质与流程

文档序号：36093458发布日期：2023-11-18 13:12阅读：56来源：国知局

本公开涉及信息处理，具体而言，涉及一种会话应答方法和装置、电子设备、存储介质。

背景技术：

1、智能客服是一种基于自然语言处理的技术，近年来，在各大互联网平台得到了广泛应用。相关技术中主要是基于自然语言处理技术，即对用户输入的文本内容进行理解和解答。但随着用户需求的多元化，用户输入呈多模态化，而单一的文本理解无法完整理解用户语境和意图，造成应答准确率低，用户体验差的问题。

2、需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开实施例的目的在于提供一种会话应答方法和装置、电子设备、存储介质，进而在一定程度上解决了相关技术中由于无法完整理解会话语境和意图而导致的应答准确率低，用户体验差的问题。

2、根据本公开的第一方面，提供了一种会话应答方法，包括：获取按照会话时序排列的多模态会话信息，多模态会话信息包括第一模态信息和第二模态信息；对第一模态信息中的至少两个模态特征进行多模态的语义表征，得到第一表征向量；对第二模态信息进行对应模态的语义表征，得到第二表征向量；将第一表征向量和第二表征向量及对应的会话时序分别输入会话匹配模型，获得匹配结果；根据匹配结果，对多模态会话信息进行应答。

3、可选地，对第一模态信息中的至少两个模态特征进行多模态的语义表征，包括：提取第一模态信息中的文本内容和文本位置信息；对第一模态信息进行分块，获得块信息及块位置坐标；对文本内容、文本位置信息以及块信息、块位置坐标分别进行向量化表示；通过多模态语义表征模型，对向量化表示结果进行多模态的语义表征，获得第一表征向量。

4、可选地，对文本内容、文本位置信息以及块信息、块位置坐标分别进行向量化表示，包括：对文本内容、文本位置信息和块位置坐标分别进行嵌入映射；对块信息进行线性映射。

5、可选地，多模态语义表征模型包括第一编码模型、第二编码模型和特征融合模型，对向量化表示结果进行多模态的语义表征，包括：通过第一编码模型，对块信息的向量表示结果和块位置坐标的向量表示结果分别进行编码处理，获得第一编码向量；通过第二编码模型，对文本内容的向量表示和文本位置信息的向量表示分别进行编码处理，获得第二编码向量；通过特征融合模型，对第一编码向量和第二编码向量的拼接向量进行特征融合，获得第一表征向量；其中，第一编码模型和第二编码模型为基于对比学习的预训练过程获得的。

6、可选地，方法还包括：获取目标业务的业务语料库，业务语料库包括至少两个第一模态语料；将一第一模态语料的图像特征和文本特征作为正例，将一第一模态语料的图像特征和另一第一模态语料的文本特征作为负例，构建得到第一训练样本；利用第一训练样本对第一编码模型和第二编码模型进行对比学习训练，得到预训练的多模态编码模型。

7、可选地，利用第一训练样本对第一编码模型和第二编码模型进行对比学习训练，包括：将第一训练样本中的正例和负例对应的图像特征输入第一编码模型，输出图像表征向量；将第一训练样本中的正例和负例对应的文本特征输入第二编码模型，输出文本表征向量；根据图像表征向量和文本表征向量，计算对比损失；根据对比损失，对第一编码模型和第二编码模型进行训练，得到预训练的多模态编码模型。

8、可选地，对第二模态信息进行对应模态的语义表征，包括：通过语义编码模型，对第二模态信息进行语义编码，得到第二表征向量，语义编码模型为对预训练的第三编码模型进行训练获得。

9、可选地，方法还包括：将业务语料库中的各多模态会话语料作为第二训练样本；在检索知识库中检索出第二训练样本的标签，检索知识库为根据业务语料库构建的，检索知识库包括领域维度、领域内的意图维度及意图下的问题答案对维度，标签包括各维度下的标签；利用第二训练样本及对应的标签，对预训练的第一编码模型、第二编码模型、第三编码模型及特征融合模型、会话匹配模型分别进行训练。

10、可选地，会话匹配模型包括上下文表征模型和多个预测头，一个预测头对应检索知识库中的一个维度，获得匹配结果，包括：通过上下文表征模型，对第一表征向量和第二表征向量及对应的会话时序进行基于多头注意力机制的特征编码，得到第三表征向量；将第三表征向量分别输入各预测头，获得对应各维度的匹配结果。

11、可选地，获得各维度的匹配结果，包括：利用各预测头，对第三表征向量进行全连接处理和非线性激活处理，获得各预测头对应的预测概率分数；确定各预测头中预测概率分数位于前n位的预测结果为匹配结果，n为正整数。

12、可选地，方法还包括：在领域关键词库中，对文本内容和第二模态信息分别进行关键词匹配；在意图关键词库中，对文本内容和第二模态信息分别进行关键词匹配；其中，领域关键词库和意图关键词库分别为基于检索知识库对应维度的知识信息构建的。

13、根据匹配结果，对多模态会话信息进行应答，包括：根据各预测头的匹配结果和关键词匹配结果，对问题答案对维度对应预测头的匹配结果进行重排，得到重排分数；将重排分数大于预设阈值的问题答案对作为应答内容进行会话应答。

14、根据本公开的第二方面，提供一种会话应答装置，装置包括：获取模块、第一表征模块、第二表征模块、和会话匹配模块和应答模块，其中：获取模块，被配置为获取按照会话时序排列的多模态会话信息，多模态会话信息包括第一模态信息和第二模态信息；第一表征模块，被配置为对第一模态信息中的至少两个模态特征进行多模态的语义表征，得到第一表征向量；第二表征模块，被配置为对第二模态信息进行对应模态的语义表征，得到第二表征向量；会话匹配模块，被配置为将第一表征向量和第二表征向量及对应的会话时序分别输入会话匹配模型，获得匹配结果；应答模块，被配置为根据匹配结果，对多模态会话信息进行应答。

15、根据本公开的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例的方法。

16、根据本公开的第四方面，提供一种电子设备，包括：一个或多个处理器；以及存储装置，用于一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器执行上述任一实施例的方法。

17、本公开示例性实施例可以具有以下部分或全部有益效果：

18、在本公开示例实施方式所提供的会话应答方法中，一方面，可以对多模态会话信息中的第一模态信息和第二模态信息分别进行语义表征，将表征结果及对应的会话时序输入会话匹配模型，获得匹配结果，基于匹配结果进行会话应答，能够融合多模态会话信息中的多个模态信息和会话时序进行应答，可以提高对用户上文语境的理解，进而提高应答的准确率。另一方面，通过对第一模态信息中的至少两个模态特征进行多模态的语义表征，可以挖掘第一模态信息中的多个模态特征，全面深入的理解第一模态信息中的语义，提高对第一模态信息的语义理解深度和全面性，从而提高应答的准确率。

19、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王秋霖张立平曹俊豪单新媛
技术所有人：京东科技控股股份有限公司
我是此专利的发明人

上一篇：论文检测方法及装置、存储介质、终端与流程
上一篇：激光软钎焊设备的温度控制方法、系统、设备和介质

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。