基于低秩张量和自监督多任务的多模态情感分析方法

文档序号：37069636发布日期：2024-02-20 21:22阅读：10来源：国知局

本发明涉及情感分析领域，具体而言，尤其涉及基于多种模态的情感分析方法。

背景技术：

1、近年来，随着互联网和通信技术的更新迭代，媒体的业态逐渐多元化，在平台上，使用者表达观点的方式也不仅仅局限于传统的文字，而是通过文本、图像、声音等多种方式共同表达他们的情绪(emotion)和情感(sentiment)。这些视频中包含了同类产品的比较，产品的优点和缺点等，带有强烈的情感色彩和情感倾向。社交平台上潜在的用户则可以通过这些视频中的信息来推断大众对于该产品的看法，帮助自己提前了解并筛选有用的信息，购买到符合自己预期的产品；而商家也可以根据用户反馈的信息，对产品进行精准定位，改进产品存在的缺点，帮助商家做出更加明智的决断。

2、情感分析，又称为观点挖掘(opinion mining)，旨在确定说话者、作者或其他主体对象对于某个主题、文档或事件的观点和态度。目前情感分析的相关研究在单模态领域已经较为成熟，我们可以通过基于文本特征的情感分析技术分析用户评价，可以通过基于图像特征的情感分析对人脸表情进行识别，可以通过基于语音特征的情感分析技术将语音转为文字进行情感预测。但随着互联网技术的不断发展，单模态已经渐渐无法满足人们的日常行为需求，不仅因为它的形式单一，还因为单模态的信息量相对来说不是十分充分，并且很容易受到外界各种因素的干扰，比如识别面部表情的过程中关键部位被遮挡，语音提取时环境噪音过大等。后续研究发现，人们在表达情感时，不同模态之间是具有一定互补性的，比如当人们表达一个“悲伤”的观点时，首先他的话语中传递出了悲伤的情绪，其次，他的声音可能是小声微弱、带哭腔的，他的表情可能是皱着眉头、耷拉着嘴角。基于多模态之间密不可分的相关性与互补性，多模态数据已成为近年来数据资源的重要表现方式，研究热点也从各种基于单模态特征的情感分析转移到实际应用场合下的考虑多种不同模态之间相互影响的多模态情感分析。

3、因此，多模态情感分析是一个具有应用价值的研究课题，如何设计一个兼顾模态间相关性和互补性的多模态情感分析网络成为一个具有挑战性的问题。

技术实现思路

1、本发明提供了一种基于低秩张量融合和自监督的多任务多模态情感分析模型，该模型通过利用门循环单元gru(gate recurrent unit)进行特征表示，利用低秩张量融合网络和mish激活函数连接配合的方式来充分获取多模态的模态间相关性信息，并利用单模态标签生成模块进行自监督多任务学习，从而获取单模态间的互补性信息，从而构建出兼顾模态间相关性和互补性的多模态情感分析网络。在上述模型中涉及一种低秩张量融合和mish激活函数相结合的模块，进行模态间相关性信息的提取；涉及一种单模态标签生成模块，帮助网络辅助训练，得到输出最终的分割预测结果。其具体技术方案如下：

2、一种基于低秩张量和自监督多任务的多模态情感分析方法，包括以下步骤：

3、步骤1，对原始输入数据进行初始化特征提取，处理成可供计算机识别的数字序列向量，将提取到的特征输出到特征表示模块；

4、步骤2，将上述输出的特征编码成独立的单位长度的特征表示，并将数据分别输入到低秩张量融合模块和线性层模块；

5、步骤3，将上述各模态的特征表示数据输入到该模块中，经过低秩张量融合后，将结果输入到线性层模块；

6、步骤4，将特征表示模块输出的数据投影到一个新的特征空间，得到各个单模态相同维度的特征表示，并分别输出到单模态标签生成模块以及得到各个单模态所对应的预测结果；将低秩张量融合模块的输出数据投影到低维空间，并得到融合表征，该融合表征用于预测多模态情感；

7、步骤5，利用线性层模块中各个单模态相同维度的特征表示和多模态标签生成单模态标签，对网络的训练起到辅助作用。

8、进一步的，步骤1中提取的初始化特征包括视频、音频、文本数据特征，对于不同的模态采用不同的特征提取办法。

9、进一步的，步骤2中对于文本采用bert预训练语言模型，用12层的基础bert来提取句子的特征表示，并将bert的最后一层的词向量作为整个句子的特征表示；对于视频和音频，将初始化模块输出的特征提取结果通过单向的门控循环单元gru来捕获这两个模态的时序特征进行特征表示。

10、进一步的，步骤4中，所述低秩张量融合模块和基于mish激活函数的线性层模块相配合得到多模态情感预测结果，先将多种模态的特征表示作为输入融合为高维张量，再将其映射回一个低维度输出向量空间，得到融合特征，作为多模态的预测结果。

11、进一步的，步骤5中基于多模态标签和单模态标签的表征来自动生成各个模态的单模态标签，采用基于动量的更新策略，将新生成的值与历史值相结合，从而得到稳定的预测值，进而辅助整个网络的训练过程，得到更优的结果。

12、较现有技术相比，本发明具有以下有益效果：

13、1、本发明充分利用gru对输入的音频、视频特征进行特征表示，获取上下文的语义信息；

14、2、本发明通过低秩张量融合网络与mish激活函数相组合的方式进行融合，捕获了不同模态间的相关性；

15、3、本发明采用单模态标签生成模块与mish激活函数相结合的方式来辅助训练计算模型，捕获了不同模型的互补性；

16、4、本发明可对多模态的情感数据进行了有效的识别，在自动驾驶、智慧教育等领域上有着非常大的应用场景。

17、综上所述，本发明的技术方案利用gru进行特征表示，然后，利用低秩张量融合和mish激活函数连接配合的方式来充分获取多模态的模态间相关性信息，同时采用单模态标签生成模块进行自监督多任务学习，从而获取单模态的互补性信息，二者相互影响，提高了多模态情感分析的准确率。

技术特征：

1.一种基于低秩张量和自监督多任务的多模态情感分析方法，包括以下步骤：

2.根据权利要求1所述的基于低秩张量和自监督多任务的多模态情感分析方法，其特征在于：步骤1中提取的初始化特征包括视频、音频、文本数据特征，对于不同的模态采用不同的特征提取办法。

3.根据权利要求1所述的基于低秩张量和自监督多任务的多模态情感分析方法，其特征在于：步骤2中对于文本采用bert预训练语言模型，用12层的基础bert来提取句子的特征表示，并将bert的最后一层的词向量作为整个句子的特征表示；对于视频和音频，将初始化模块输出的特征提取结果通过单向的门控循环单元gru来捕获这两个模态的时序特征进行特征表示。

4.根据权利要求1所述的基于低秩张量和自监督多任务的多模态情感分析方法，其特征在于：步骤4中，所述低秩张量融合模块和基于mish激活函数的线性层模块相配合得到多模态情感预测结果，先将多种模态的特征表示作为输入融合为高维张量，再将其映射回一个低维度输出向量空间，得到融合特征，作为多模态的预测结果。

5.根据权利要求1所述的基于低秩张量和自监督多任务的多模态情感分析方法，其特征在于：步骤5中基于多模态标签和单模态标签的表征来自动生成各个模态的单模态标签，采用基于动量的更新策略，将新生成的值与历史值相结合，从而得到稳定的预测值，进而辅助整个网络的训练过程，得到更优的结果。

技术总结
本发明一种基于低秩张量融合和自监督的多任务多模态情感分析方法，该方法通过利用门循环单元GRU(Gate Recurrent Unit)进行特征表示，利用低秩张量融合网络和Mish激活函数连接配合的方式来充分获取多模态的模态间相关性信息，并利用单模态标签生成模块进行自监督多任务学习，从而获取单模态间的互补性信息，从而构建出兼顾模态间相关性和互补性的多模态情感分析网络。在上述模型中涉及一种低秩张量融合和Mish激活函数相结合的模块，进行模态间相关性信息的提取；涉及一种单模态标签生成模块，帮助网络辅助训练，得到输出最终的分割预测结果。本发明提高了多模态情感分析的准确率。

技术研发人员：张旭光,缪心蒙
受保护的技术使用者：杭州电子科技大学
技术研发日：
技术公布日：2024/2/19

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张旭光,缪心蒙
技术所有人：杭州电子科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。