基于跨模态的问答对话方法、系统、设备及存储介质与流程

文档序号：36801093发布日期：2024-01-23 12:26阅读：16来源：国知局

本发明涉及金融问答，尤其涉及一种基于跨模态的问答对话方法、系统、电子设备及计算机可读存储介质。

背景技术：

1、随着金融行业的发展，金融相关的咨询问题的数量随之水涨船高，传统的人工问答具有开销大以及耗时长等特点，而随着模型规模、数据量和计算能力的大幅增加，预训练模型与大规模语言模型(large language model,简称llm)可以带来稳定而强大的语言理解能力和丰富的世界知识，使得大规模语言模型在金融问答领域得到了广泛的应用。

2、然而，目前的大规模语言模型仅依赖于单一数据模态，大多数现有系统仅利用非结构化文本数据,很难融合视觉信息如图像和视频，这限制了系统对知识的深入理解和跨模态关联，无法满足多数金融问答场景需求；并且，目前的大规模语言模型主要采用全解码器的架构，难以为文本直接提供高质量的向量化表示；其次，目前的视觉预训练模型往往作为编码器提供高质量的视觉表征，但由于缺少解码器结构，缺乏文本输出及生成能力；再次，由于使用大规模模型和数据进行端到端训练，大多数先进的视觉语言模型在预训练过程中会产生很高的计算成本，而在视觉与文本两种模态缺乏高效的对齐手段；最后，目前的大规模语言模型往往是基于某个时间节点之前收集的大规模文本数据进行预训练，所具有的金融知识缺失时效性，可能导致进行金融问答时的准确率较低。

技术实现思路

1、本发明提供一种基于跨模态的问答对话方法、系统及计算机可读存储介质，其主要目的在于解决进行金融问答时的准确率较低的问题。

2、为实现上述目的，本发明提供的一种基于跨模态的问答对话方法，包括：

3、从预先获取的金融查询请求中提取出图片查询请求和文本查询请求，将所述文本查询请求通过训练好的文本编码器编码成文本编码；

4、将所述图片查询请求通过训练好的图片编码器编码成图片编码，利用预设的提示学习器从所述图片编码中提取出图片文本特征；

5、利用预设的注意力语言模型从所述文本查询请求中提取出初级文本特征，将所述初级文本特征和所述图片文本特征拼接成跨模态特征；

6、根据所述文本编码和所述图片编码从预设的向量化数据库中检索出初级匹配回复，将所述跨模态特征联合解码成跨模态回复；

7、利用所述初级匹配回复和所述跨模态回复对所述金融查询请求进行答复。

8、可选地，所述将所述图片查询请求通过训练好的图片编码器编码成图片编码，包括：

9、利用预先联合训练后的图片编码器对所述图片查询请求进行均匀分块操作，得到提问图块集；

10、对所述提问图块集进行卷积排序操作，得到图块特征序列；

11、依次对所述图块特征序列进行位置编码和编码拼接操作，得到图片编码。

12、可选地，所述利用预设的提示学习器从所述图片编码中提取出图片文本特征，包括：

13、利用预设的提示学习器对所述图片编码进行高维映射，得到高维图片编码；

14、对所述高维图片编码进行前馈映射，得到兼容图片特征；

15、依次对所述兼容图片特征进行多级残差连接和全连接操作，得到图片文本特征。

16、可选地，在所述将所述文本查询请求通过训练好的文本编码器编码成文本编码之前，还包括：

17、获取对齐图文数据集，将所述对齐图文数据集拆分成对齐图集和对齐文本集；

18、利用预设的初级图片编码器将所述对齐图集编码成初级对齐图片编码集；

19、利用预设的初级文本编码器将所述对齐文本集编码成初级对齐文本编码集；

20、利用如下的对比损失函数根据所述初级对齐图片编码集及所述初级对齐文本编码集计算出对比损失值：

21、

22、

23、

24、其中，是指所述初级对齐图片编码集中的第i个初级对齐图片编码到所述初级对齐文本编码集的图文对比损失值，i、k是编码索引，i是指所述初级对齐图片编码集，t是指所述初级对齐文本编码集，log是对数函数符号，exp是指数函数符号，ii是指所述初级对齐图片编码集中的第i个初级对齐图片编码，ti是指所述初级对齐文本编码集中的第i个初级对齐文本编码，<，>是内积计算符号，τ是预设的平滑参数，n是所述初级对齐图片编码集的总元素个数，且所述初级对齐图片编码集的总元素个数等于所述初级对齐文本编码集的总元素格式，tk是指所述初级对齐文本编码集中的第k个初级对齐文本编码，是指所述初级对齐文本编码集中的第i个初级对齐文本编码到所述初级对齐图片编码集的文图对比损失值，ik是指所述初级对齐图片编码集中的第k个初级对齐图片编码，lx是指所述对比损失值，x是对比的英文缩写，d是指包括所述初级对齐图片编码集及所述初级对齐文本编码集的整体样本数据集；

25、利用所述对比损失值将所述初级图片编码器更新成图片编码器，利用所述对比损失值将所述初级文本编码器更新成文本编码器。

26、可选地，在所述利用预设的注意力语言模型从所述文本查询请求中提取出初级文本特征之前，还包括：

27、将预先获取的文本训练集拆分成输入文本集和输出文本集；

28、利用预设的初始语言模型对所述输入文本集进行分词，得到输入文本词序列集；

29、对所述输入文本词组集进行向量化操作，得到词向量序列集；

30、依次对所述词向量序列集进行位置编码和编码拼接操作，得到输入特征集；

31、利用所述输入特征集和所述输出文本集将所述初始语言模型训练成注意力语言模型。

32、可选地，所述利用所述输入特征集和所述输出文本集将所述初始语言模型训练成注意力语言模型，包括：

33、依次对所述输入特征集进行高维映射和多维特征提取操作，得到输入编码特征集：

34、依次对所述输入编码特征集进行全连接和归一化操作，得到预测输出特征集；

35、将所述预测输出特征集解码成预测输出文本集，根据所述预测输出文本集和所述输出文本集计算出所述初始语言模型的模型损失值；

36、根据所述模型损失值将所述初始语言模型更新成注意力语言模型。

37、可选地，所述根据所述文本编码和所述图片编码从预设的向量化数据库中检索出初级匹配回复，包括：

38、对预设的向量化数据库进行索引重建，得到索引数据库；

39、从所述索引数据库中匹配出所述文本编码对应的文本邻近向量；

40、从所述索引数据库中匹配出所述图片编码对应的图片邻近向量；

41、将所述文本邻近向量解码成文本匹配答复，将所述图片邻近向量解码成图片匹配答复；

42、将所述文本匹配答复和所述图片匹配答复拼接成初级匹配回复。

43、为了解决上述问题，本发明还提供一种基于跨模态的问答对话系统，所述系统包括：

44、文本编码模块，用于从预先获取的金融查询请求中提取出图片查询请求和文本查询请求，将所述文本查询请求通过训练好的文本编码器编码成文本编码；

45、特化学习模块，用于将所述图片查询请求通过训练好的图片编码器编码成图片编码，利用预设的提示学习器从所述图片编码中提取出图片文本特征；

46、特征拼接模块，用于利用预设的注意力语言模型从所述文本查询请求中提取出初级文本特征，将所述初级文本特征和所述图片文本特征拼接成跨模态特征；

47、问题检索模块，用于根据所述文本编码和所述图片编码从预设的向量化数据库中检索出初级匹配回复，将所述跨模态特征联合解码成跨模态回复；

48、问答对话模块，用于利用所述初级匹配回复和所述跨模态回复对所述金融查询请求进行答复。

49、为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：

50、至少一个处理器；以及，

51、与所述至少一个处理器通信连接的存储器；其中，

52、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述所述的基于跨模态的问答对话方法。

53、为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一个计算机程序，所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于跨模态的问答对话方法。

54、本发明实施例通过将所述文本查询请求通过训练好的文本编码器编码成文本编码，可以实现文本的跨模态编码，提高问答图文联合的匹配程度以及回答的准确性，通过将所述图片查询请求通过训练好的图片编码器编码成图片编码，可以提取图片的信息特征、位置特征以及图文对应特征，进而提高后续跨模块问答的图文跨模态的准确性，通过利用预设的提示学习器从所述图片编码中提取出图片文本特征，可以为提问图片添加提示文本，进而提高后续注意力语言模型的理解能力和输出的准确性，通过利用预设的注意力语言模型从所述文本查询请求中提取出初级文本特征，可以从文本查询请求中提取出文本的上下文特征以及语义特征，通过将所述初级文本特征和所述图片文本特征拼接成跨模态特征，可以将文本查询请求和图片查询请求进行结合，实现跨模态的问题特征提取，进而提高后续的回答的准确性。

55、通过根据所述文本编码和所述图片编码从预设的向量化数据库中检索出初级匹配回复，可以结合历史的问答数据匹配出最相关的问答需求，实现了数据库的实时更新，通过将所述跨模态特征联合解码成跨模态回复，可以结合文本特征和图片特征的跨模态特征得到文本的对应回答，提高了问答质量，通过利用所述初级匹配回复和所述跨模态回复对所述金融查询请求进行答复，可以结合过去问答的数据库的匹配问答需求以及注意力语言模型生成金融查询回复，从而提升用户问答的准确率。因此本发明提出的基于跨模态的问答对话方法、系统、电子设备及计算机可读存储介质，可以解决进行金融问答时的准确率较低的问题。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴颖楠,刘浩钰,李娜,王磊,谭韬,杨文静,杨余久
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。