基于对比学习的多模态意图识别方法及系统

文档序号：34536558发布日期：2023-06-27 12:45阅读：102来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明属于意图识别，尤其涉及一种基于对比学习的多模态意图识别方法及系统。

背景技术：

1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

2、基于多模态数据的意图识别模型，可以利用多个模态的信息对单一模态信息进行补充或者加强，使得模型学习到的特征更加完备，更有助于识别用户的意图。

3、现有的多模态数据的意图识别模型存在以下缺陷：

4、(1)现有的多模态意图识别模型在可用的标注数据固定有限时，没有学习到足够的意图相关特征，不能学习到好的特征表示，意图识别的显著进步通常依赖于大量的标注数据进行模型训练,人工标记数据成本高昂。

5、(2)一些低资源情况下的方法被提出用于意图识别，虽然这些模型在低资源情况下表现良好，但还是需要大量的未标记数据。

6、(3)在多模态融合过程中，融合成的多模态表征可能是冗余的，一些用于判别的单模态信息可能会被忽略，这会影响模型的性能。理想状况下，多模态表示应该具有不同模态的互补信息，融合完的多模态表示应该包含判别正确意图的最大信息，包含与判别正确意图无关的最小信息。但是，现有的模型由于生成的多模态表示的维度和复杂性较高，不可避免地存在冗余，导致多模态表示含有大量噪声影响模型性能，不能实现多模态特征的充分融合。

技术实现思路

1、为了解决上述背景技术中存在的至少一项技术问题，本发明提供基于对比学习的多模态意图识别方法及系统，其通过对比学习，让原样本靠近正样本，远离负样本，让模型在多模态融合过程中学习到更多意图相关的特征，同时通过最大化多模态表示和输出之间的互信息，约束多模态表示和输入数据之间的互信息，减少了多模态融合过程中的冗余信息，增大了有效信息占比。

2、为了实现上述目的，本发明采用如下技术方案：

3、本发明的第一个方面提供基于对比学习的多模态意图识别方法，包括如下步骤：

4、获取待识别数据内容的多模态数据，其中，多模态数据为文本数据、视频数据和音频数据；

5、分别对多模态数据中每个模态数据进行数据增强生成对应的增强数据；

6、基于多模态数据和对应的增强数据进行特征提取，得到多个模态数据的原始特征和对应模态增强数据的增强特征；

7、采用多模态融合模型对多个原始特征和增强特征分别进行多模态融合得到融合后的原始特征和增强特征；

8、基于融合后的原始特征和增强特征计算对比损失，根据对比损失对多模态融合模型进行修正得到修正后的多模态融合模型，采用修正后的多模态融合模型对多个原始特征进行多模态融合得到修正的原始特征；

9、将修正的原始特征进行解码得到待识别数据内容的意图识别结果。

10、本发明的第二个方面提供基于对比学习的多模态意图识别系统，包括：

11、数据获取模块，其被配置为：获取待识别数据内容的多模态数据，其中，多模态数据为文本数据、视频数据和音频数据；

12、数据增强模块，其被配置为：分别对多模态数据中每个模态数据进行数据增强生成对应的增强数据；

13、特征提取模块，其被配置为：基于多模态数据和对应的增强数据进行特征提取，得到多个模态数据的原始特征和对应模态增强数据的增强特征；

14、特征融合模块，其被配置为：采用多模态融合模型对多个原始特征和增强特征分别进行多模态融合得到融合后的原始特征和增强特征；

15、基于融合后的原始特征和增强特征计算对比损失，根据对比损失对多模态融合模型进行修正得到修正后的多模态融合模型，采用修正后的多模态融合模型对多个原始特征进行多模态融合得到修正的原始特征；

16、意图识别模块，其被配置为：将修正的原始特征进行解码得到待识别数据内容的意图识别结果。

17、本发明的第三个方面提供一种计算机可读存储介质。

18、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的基于对比学习的多模态意图识别方法中的步骤。

19、本发明的第四个方面提供一种计算机设备。

20、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一方面所述的基于对比学习的多模态意图识别方法中的步骤。

21、与现有技术相比，本发明的有益效果是：

22、(1)针对现实中获取大批量高质量的标注数据成本高昂，模型没有学习到足够的意图相关特征，不能学习到一个好的特征表示的问题，本发明通过数据增强生成增强样本进行判别式自监督学习，提高模型在多模态融合过程中学习意图特征的能力，基于对比学习，让原样本靠近正样本，远离负样本。在原始多模态数据的基础上进行数据增强，原始样本和增强样本通过相同的多模态模型得到多模态表示，将这些表示用于计算对比学习损失，让模型在多模态融合过程中学习到更多意图相关的特征。

23、(2)为了去除多模态融合过程中所产生负面影响的噪声信息，本发明改进了多模态意图识别的融合方法，通过最大化多模态表示和输出之间的互信息，同时约束多模态表示和输入数据之间的互信息，减少了多模态融合过程中的冗余信息，增大了有效信息占比，可以利用多个模态的信息对单一模态信息进行补充或者加强，使得模型学习到的特征更加完备，更有助于识别用户的意图。

24、本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.基于对比学习的多模态意图识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于对比学习的多模态意图识别方法，其特征在于，所述多模态融合模型的构建过程为：基于跨模态注意力机制将单模态融合成多模态特征，通过最大化多模态特征与输出之间的互信息，同时最小化多模态特征与输入之间的互信息的方式过滤掉单模态特征中的噪声信息。

3.如权利要求2所述的基于对比学习的多模态意图识别方法，其特征在于，采用ib正则化多模态表示过滤掉单模态表示中的噪声信息。

4.如权利要求1所述的基于对比学习的多模态意图识别方法，其特征在于，所述分别对多模态数据中每个模态数据进行数据增强生成对应的增强数据包括：

5.如权利要求1所述的基于对比学习的多模态意图识别方法，其特征在于，

6.如权利要求1所述的基于对比学习的多模态意图识别方法，其特征在于，对多个原始特征进行多模态融合的过程包括：

7.如权利要求1所述的基于对比学习的多模态意图识别方法，其特征在于，所述对比损失采用归一化温度尺度交叉熵计算，通过对比损失拉近相似样本，推远不同样本。

8.基于对比学习的多模态意图识别系统，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于对比学习的多模态意图识别方法中的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于对比学习的多模态意图识别方法中的步骤。

技术总结
本发明属于意图识别技术领域，提供了基于对比学习的多模态意图识别方法及系统，首先，与以往的工作相比，改进了跨模态Transformer模型，通过最大化多模态特征与标签之间的互信息以及最小化多模态特征与输入之间的互信息的方式过滤掉单模态表示中的噪声信息实现多模态特征的充分融合，改进后的模型减少了多模态融合过程中的冗余信息，增大了有效信息占比，更有利于多模态特征的充分融合。其次，针对用于训练的标记数量不足的问题，引入了对比学习的学习任务，通过数据增强获得增强样本，原始样本与增强样本之间拉近相似样本，推远不同样本，帮助模型在训练过程中学习到更多意图相关的特征，提高模型提取和融合多模态数据特征的能力。

技术研发人员：刘志中,吴宇轩,初佃辉,孟令强,孙宇航
受保护的技术使用者：烟台大学
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘志中吴宇轩初佃辉孟令强孙宇航
技术所有人：烟台大学
我是此专利的发明人

上一篇：一种燃料电池中冷增湿模块结构的制作方法
上一篇：一种暗管检测方法、装置、电子设备和存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。