本发明涉及数据处理,尤其是涉及一种基于多模态注意力融合的敏感信息分类方法及装置。
背景技术:
1、在处理多模态数据中的敏感信息分类问题时,我们面临着许多挑战。相比于单一模态的数据,多模态数据的特征更加丰富多样,涵盖了图像、音频和文本等多方面信息,因此其分类更为复杂。
2、传统的分类方法通常针对单一模态进行处理,难以全面地利用多模态数据中的丰富信息,从而导致分类效果的局限性。基于规则的信息抽取方法也无法很好地适应多模态数据的分类需求,因为这些方法在面对不同模态的数据时表现欠佳。
3、此外,随着数据规模的不断增大,采用人工手动分类变得非常耗时且不切实际。虽然人类可以通过阅读理解多模态数据中的敏感信息,但在海量数据的情况下,实现手动分类工作已经超出了人力的承受范围。
4、基于以上考虑,我们迫切需要一种能够高效、准确地识别多模态数据中的敏感信息的方法。
技术实现思路
1、为了克服背景技术中的不足,本发明公开了一种基于多模态注意力融合的敏感信息分类方法及装置。
2、为实现上述发明目的,本发明采用如下技术方案:
3、一种基于多模态注意力融合的敏感信息分类方法,包含以下步骤:
4、s1、对多模态数据进行处理和分类,提取出所述多模态数据中的文本数据、图片数据和音频数据;
5、s2、将所述文本数据、图片数据和音频数据输入至深度残差神经网络与卷积神经网络提取所述多模态数据的高层语义特征,所述高层语义包括文本特征 、图片特征及音频特征;
6、s3、将所述文本特征、所述图片特征和所述音频特征连接在一起,形成跨模态信息的特征向量,再通过多头自注意力机制融合所述跨模态信息的特征向量形成融合特征;
7、s4、将所述文本特征、所述图片特征、所述音频特征与所述融合特征输入至多标签混合决策分类器中基于规则加权法实现对所述多模态数据的敏感信息识别与分类。
8、具体的,步骤s2具体包括以下步骤:
9、s21、将所述文本数据输入到预训练erine模型中提取出初步文本特征,再将初步文本特征输入到残差全连接层网络,输出得到文本特征;
10、s22、将所述图片数据输入到resnet模型中提取出初步图像特征,再将初步图像特征输入到双向长短期记忆网络模型进行进一步语义建模,输出得到图片特征;
11、s23、将所述音频数据输入到vgg模型中提取出初步音频特征,再将初步音频特征输入到双向长短期记忆网络模型进行进一步的语义建模,输出得到音频特征;
12、具体的,步骤s1中提取出所述多模态数据中的文本数据包括以下步骤:
13、s11、获取所述多模态数据中的文本信息作为第一文本信息;
14、s12、将所述多模态数据中的视频分解为视频图片与视频音频;
15、s13、获取所述多模态数据中的图片与所述视频图片中文本信息作为第二文本信息;
16、s14、获取所述多模态数据中的音频与所述视频音频中文本信息作为第三文本信息;
17、s15、将所述第一文本信息、第二文本信息及第三文本信息作为所述文本数据。
18、具体的,步骤s3具体包括以下步骤:
19、s31、特征连接,将文本特征、图片特征和音频特征连接在一起,形成一个具备跨模态信息的特征向量,如公式(4)所示:
20、;
21、其中,代表序列之间的串联运算;
22、s32、特征变换与多头注意力权重计算,通过线性变换将特征向量映射到查询、键和值空间,如公式(5)-(7)所示:
23、;
24、其中,,,代表特征向量的查询,键和值的映射,,,分别表示注意头 i的对应查询,键和值的权重矩阵,,,分别表示注意头 i的对应查询,键和值的偏差矩阵;
25、然后对每个注意力头 i计算注意分数并获得注意力权重,如公式(8)所示:
26、;
27、其中,表示注意头 i的对敏感信息的注意力分数,softmax为归一化指数函数,是键的维度,表示注意头 i的注意力权重;
28、s33、多头权重加权与特征融合:利用注意力权重对值进行加权求和,如公式(9)所示:
29、;
30、其中,得到表示融合后的注意头 i的所包含特征;
31、然后,将多头融合特征进行拼接进行线性逆变换后映射到原始特征空间,得到最终的融合特征,如公式(10)所示:
32、;
33、其中,代表最终的融合特征, n代表总共的注意力头数,和代表进行逆线性变换的权重矩阵与偏差。
34、具体的,步骤s4具体包括如下步骤:
35、s41、对敏感信息进行了 j种类别的分类;
36、s42、根据所述文本特征、所述图片特征和所述音频特征与所述融合特征计算所述多模态数据在每个敏感标签的置信度,如公式(11)所示:
37、;
38、其中,,,,代表相应特征经过多层全连接层处理后的结果;,,,代表在 i类标签下混合特征、文本特征、图片特征与音频特征的权重因子,这些权重因子通过网格搜索法确定;代表sigmoid激活函数;代表第 i个敏感标签的置信度;
39、s43、根据所述多模态数据在每个敏感标签的置信度判断其所属的敏感信息类别,
40、如果大于某类别敏感信息阈值,表示所述多模态数据属于该敏感信息类别;
41、如果小于等于某类别敏感信息阈值,表示所述多模态数据不属于该敏感信息类别,如公式(12)所示:
42、;
43、其中,对应标签 i的阈值,当所有的都小于对应的阈值时,那么说明该多模态数据不涉及任何敏感信息。
44、具体的,步骤s13中通过ocr获取图片中的文本信息;
45、具体的,步骤s14中通过asr获取音频中的文本信息。
46、本发明还公开了一种基于多模态注意力融合的敏感信息分类装置,包含如下单元:
47、预处理单元,用于对多模态数据进行处理和分类,提取出所述多模态数据中的文本数据、图片数据和音频数据;
48、高层语义特征提取单元,用于将所述文本数据、图片数据和音频数据输入至深度残差神经网络与卷积神经网络提取所述多模态数据的高层语义特征,所述高层语义特征包括文本特征 、图片特征及音频特征;
49、特征融合单元,用于将所述文本特征、所述图片特征和所述音频特征连接在一起,形成跨模态信息的特征向量,再通过多头自注意力机制融合所述跨模态信息的特征向量形成融合特征;
50、识别与分类单元,用于将所述文本特征、所述图片特征、所述音频特征与所述融合特征输入至多标签混合决策分类器中基于规则加权法实现对所述多模态数据的敏感信息识别与分类。
51、本发明公开的一种基于多模态注意力融合的敏感信息分类方法,包括以下步骤:s1、对多模态数据进行处理和分类,提取出所述多模态数据中的文本数据、图片数据和音频数据;s2、将所述文本数据、图片数据和音频数据输入至深度残差神经网络与卷积神经网络提取所述多模态数据的高层语义特征,所述高层语义特征包括文本特征、图片特征及音频特征;s3、将所述文本特征、图片特征和音频特征连接在一起,形成跨模态信息的特征向量,再通过多头自注意力机制融合所述跨模态信息的特征向量形成融合特征;s4、将所述文本特征、所述图片特征、所述音频特征与所述融合特征输入至多标签混合决策分类器中基于规则加权法实现对所述多模态数据的敏感信息识别与分类。本发明基于综合的神经网络框架提取多模态语义特征并利用自注意力机制融合跨模态信息,实现了跨模态信息的深度融合,不仅能够充分挖掘不同模态之间的丰富信息,还能将来自不同模态的信息有机地融合在一起,从而获得更具代表性和高层次的语义特征,从而可以更全面地理解数据的内容,从而提高了对敏感信息识别与分类的准确性。
52、进一步的,本发明不仅提取了直接显现的信息,更是通过深入挖掘图片、视频和音频中蕴含的文本信息,从而扩展了多模态数据的应用领域。这样做不仅提升了信息获取的全面性和准确性,也为进一步的语义分析和深度理解提供了稳固的技术基础隐含信息的全面挖掘;
53、进一步的,本发明基于多标签混合决策模型实现了对敏感信息的识别与分类。该模型不仅能够综合考虑多种特征的信息,还能够在决策过程中充分利用各个特征的优势,从而提升了对敏感信息的准确识别;
54、进一步的,本发明通过整合文本、图片和音频等非结构化数据,采用了先进的多模态数据处理技术。这使得计算机能够以高效的方式获取并准确识别实体信息,满足了大数据时代人们快速获取关键信息的紧迫需求。