一种面向机器的多模态协同编码装置及其运用方法

文档序号：36830371发布日期：2024-01-26 16:44阅读：14来源：国知局

本发明涉及协同编码，尤其涉及一种面向机器的多模态协同编码装置及其运用方法。

背景技术：

1、人工智能是当今科技领域炙手可热的话题之一，它已经被广泛应用于自然语言处理，计算机视觉和机器学习等领域中。随着人工智能应用不断扩大，许多人工智能系统需要机器和机器之间的大量通信，以处理海量的数据和信息。这样的情况导致占用了大量的带宽，因此减轻其中的带宽负载和网络计算也成为了人们关注的主要问题之一，编解码方法则是解决这一问题的重要方法。

2、多模态任务则是机器智能分析中一类具有广泛应用和研究价值的典型任务。它旨在让机器通过不同的多模态数据输入(例如图片，视频，文本和音频等)，从而理解及分析更丰富和准确的信息。现实生活中通常包含着复杂而又多样的信息，使用多模态技术可以更好地解决这些实际问题。

3、当前面向多模态任务，对多模态数据进行编码的方法主要分为两种，一种是传统编解码方法，一种是面向机器的编解码方法。传统编解码方法是一种常见的信息压缩和传输方式，它的主要目标是在保证数据重构质量的情况下，使用尽量少的比特数来表示信源信息，以降低带宽负载。这种方法强调数据级别的保真，能够对图像，音频和视频等数据进行编码压缩。传统编解码方法编码多模态数据时，将会对各个模态数据使用对应的编码器进行编码压缩，在解码端进行解码重构，重构数据作为模型的输入进行智能分析。

4、面向机器的编解码方法(video coding for machines，vcm)则是以完成智能任务为核心，旨在保证智能任务效能的同时减少带宽负载，强调语义级别的保真。中间特征压缩一直是vcm领域中备受关注的一个话题，图4展示的是vcm的三种实现方式：一是将网络模型拆分为两部分：模块1放在边缘设备中(编码端)，用于从数据中抓取中间特征；而模块2则放在云端中(解码端)，以特征为输入进行智能分析并获得分析结果。对特征的编解码方式，则是使用通用的数据压缩工具(gzip，zlib，bzip2和lzma等)对特征进行编码压缩，在解码端再进行解码获得特征；二是将网络模型分为模块1和模块2两个部分并分别放在编码端和解码端中，在编码端的特征会被打包成类似于fc×w×h的三维形式，将它看作一个视频并使用视频编码器进行压缩，在解码端解码对含有特征信息的视频进行解包，获得特征作为模块2的输入；三是利用信源信息和特征之间的相关性对信源信息和特征进行联合编码，上半部分使用前述方式的思想对特征进行编解码，下半部分则是对特征和信源信息进行协同分析以减少信源信息的冗余再对信源信息进行编码，在解码端则会同时重构信源信息和特征，既实现了vcm的目的，也实现了传统编解码的目的，它既保证了智能任务的效能又保证能够重构数据级信息，同时还降低了带宽负载。

5、对传统编解码方法，它提供良好的数据级保真。但是由于不同模态之间的性质不同，特定的模态只能使用特定的编解码方法进行编解码，直接使用传统编解码方法对多模态数据进行压缩，无法利用模态之间的相关性。此外由于数据保真的特性，压缩后的信息仍然有较多的冗余，这也会导致带宽的浪费。

6、vcm由于没有数据级保真的约束从而减少了更多的数据冗余。当前大多数vcm方法的实现方式主要是对特征进行编解码，因此可以简单拓展到多模态任务中，即将每个模态对应的特征独立使用vcm方法进行编码，但是这么做就无法利用多模态数据之间的相关性来降低带宽。

技术实现思路

1、本发明提供一种面向机器的多模态协同编码装置及其运用方法，舍弃数据级别的保真而采用了语义级别的保真，对中间特征进行压缩、传输来降低带宽负载；利用多模态的相关性，进一步降低带宽负载。

2、为了实现上述目的，第一方面，本发明实施例提供了一种面向机器的多模态协同编码装置，包括：

3、特征抓取模块，用于从各模态的原生特征中抓取对应的专属嵌入特征；

4、特征编解码模块，用于对所述专属嵌入特征进行编码压缩，通过信道传输在解码端进行特征解码获得重构特征；

5、模态想象模块，分为前向模态想象模块和后向模态想象模块，用于通过已有模态信息想象出丢弃模态信息；所述前向模态想象模块，以所述重构特征为输入，获得前向丢弃模态特征以及联合多模态特征；所述后向模态想象模块，以所述前向丢弃模态特征为输入，获得后向丢弃模态特征；

6、分类器模块，用于以所述联合多模态特征为输入，获得概率分布结果，以进行多模态任务情感识别；

7、所述各模态至少包括音频模态、视频模态和文本模态中的一种或以上。

8、第二方面，本发明实施例提供了一种面向机器的多模态协同编码装置的运用方法，将上述的面向机器的多模态协同编码装置运用于测试阶段，包括：

9、以各模态的原生特征为所述面向机器的多模态协同编码装置的输入，通过特征抓取模块从所述各模态原生特征中抓取对应的专属嵌入特征；

10、将所述专属嵌入特征输入至特征编解码模块进行编码压缩，通过信道传输在解码端进行特征解码得到重构特征；

11、以所述重构特征为模态想象模块的输入，通过已有模态信息想象出丢弃模态信息，获得前向丢弃模态特征以及联合多模态特征；

12、将所述联合多模态特征输入至分类器模块，获得概率分布结果，以进行多模态任务情感识别。

13、第三方面，本发明实施例还提供了一种面向机器的多模态协同编码装置的运用方法，将上述的面向机器的多模态协同编码装置运用于训练阶段，包括：

14、以各模态的原生特征和全零原生特征为所述面向机器的多模态协同编码装置的输入，通过特征抓取模块从所述原生特征中抓取对应的专属嵌入特征，通过预训练特征抓取模块从所述全零原生特征中获取对应的预训练专属嵌入特征；

15、对所述专属嵌入特征进行均匀噪声处理得到重构特征；

16、以所述重构特征为模态想象模块的输入，通过前向模态想象模块，获得前向丢弃模态特征以及联合多模态特征；以所述前向丢弃模态特征为后向模态想象模块的输入，获得后向丢弃模态特征，从而获取后向损失；

17、将所述联合多模态特征输入至分类器模块，获得分类损失；

18、基于所述预训练专属嵌入特征和所述前向丢弃模态特征计算得到前向损失，根据联合损失函数的计算公式得到所述面向机器的多模态协同编码装置的联合损失函数，以对所述面向机器的多模态协同编码装置进行优化训练。

19、与现有技术相比，本发明实施例公开的一种面向机器的多模态协同编码装置及其运用方法，包括特征抓取模块，用于从各模态的原生特征中抓取对应的专属嵌入特征；特征编解码模块，用于对所述专属嵌入特征进行编码压缩，通过信道传输在解码端进行特征解码获得重构特征；模态想象模块分为前向模态想象模块和后向模态想象模块，用于通过已有模态信息想象出丢弃模态信息；所述前向模态想象模块，以所述重构特征为输入，获得前向丢弃模态特征以及联合多模态特征；所述后向模态想象模块，以所述前向丢弃模态特征为输入，获得后向丢弃模态特征；分类器模块，用于以所述联合多模态特征为输入，获得概率分布结果，以进行多模态任务情感识别。因此，本发明实施例能够舍弃数据级别的保真而采用了语义级别的保真，对中间特征进行压缩、传输来降低带宽负载；在编码端丢弃部分模态信息来减轻数据传输时的带宽负载，在解码端时利用模态之间的相关性，通过其他模态来恢复丢弃的模态信息，以保证智能任务的效能。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宋晓丹,覃浩峻,高大化,谢雪梅,石光明
技术所有人：西安电子科技大学
我是此专利的发明人

上一篇：用于番茄钵苗质量的测定方法、控制装置及存储介质
上一篇：一种快速收紧型带线固定板的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。