一种基于多模态掩码自编码器的刑侦物证鉴定方法与流程

文档序号：37795938发布日期：2024-04-30 17:06阅读：4来源：国知局

本发明涉及图文多模态融合刑侦物证鉴定，具体为一种基于多模态掩码自编码器的刑侦物证鉴定方法。

背景技术：

1、目前大多的刑侦物证鉴定技术需要经验丰富的公安领域专家进行刑侦物证的人工分析和鉴定，这在实际办案中效率往往难以满足要求。因此，能够适应自动化、高效辅助刑侦物证数据的自动化物证鉴定技术，尤其是图像、文本等多模态形式的物证线索关联分析，成为当前研究的热点。

2、目前，基于大数据集的图像分类主流方法是深度卷积神经网络（cnn），然而该类方法存在依赖标注信息的问题；为了解决上述问题，基于迁移学习的图像识别方法在小样本数据集上取得了显著成果，然而，该类方法需要源域和目标域的数据尽量相似，对于细粒度识别往往难以满足，从而影响到对图片伤口进行识别并作出有效的判断。

技术实现思路

1、本发明的目的在于克服现有技术的不足，提供了一种基于多模态掩码自编码器的刑侦物证鉴定方法，能够很好的对图片伤口进行识别并作出有效的判断，有助于发现刑侦线索。

2、为实现上述发明目的，本发明提供一种基于多模态掩码自编码器的刑侦物证鉴定方法，包括以下步骤：

3、s1、构建图像模型mae；

4、mae是一种自编码方法，包括有编码器和解码器；

5、所述s1中包括以下子步骤：

6、1-1、首先根据vit将图像划分为不重叠的小块，然后对这些小块遵循均匀分布的原则进行随机采样，并掩码剩余的小块；

7、其中，编码器采用vit通过添加位置嵌入的线性投影嵌入补丁，然后通过一系列transformer块处理结果集；解码器的输入是一整套tokens，由编码的可见补丁和掩码token组成；

8、每个掩码token是一个共享的学习向量，表示存在待预测的缺失补丁；

9、1-2、mae通过预测每个被遮盖补丁的像素值来重建输入，解码器输出中的每个元素都是代表一个patch的像素值向量，对编码器的输出进行重构形成重构图像，利用损失函数在像素空间中计算重建图像和原始图像之间的均方误差mse，可以有效预训练时间，并减少内存消耗；

10、1-3、通过添加位置嵌入的线性投影为每个输入补丁生成一个标记，然后，随机打乱token列表，并根据屏蔽比率删除列表的最后一部分；这个过程为编码器生成一小部分标记，相当于采样补丁而不进行替换；

11、1-4、编码后，将一个掩码token列表添加到编码补丁列表中，利用反转随机洗牌操作取消完整列表，以使所有token与其目标对齐；

12、其中，解码器应用于整个完整的列表，添加了位置嵌入；

13、s2、构建文本模型albert；所述s2中包括以下子步骤：

14、2-1、使用albert对文本信息进行编码，albert的输入是每个标记对应的表示，记为e；表示由标记嵌入、段嵌入和位置嵌入组成；单词字典是使用wordpiece算法构造；

15、其中，将词汇表大小记为，词汇表嵌入大小记为，隐藏层大小记为；albert改进了因式嵌入参数化和跨层参数共享；

16、2-2、albert使用嵌入参数的分解；

17、通过这种分解，嵌入参数从降为；

18、其中，，从而减少了参数的数量；此外，albert跨层共享所有参数，进一步减少了参数的数量；

19、s3、融合多模态特征；所述s3中包括以下子步骤：

20、3-1、使用早期融合方式融合多模态特征；早期融合由单个分析单元从输入数据中提取特征，之后，来自不同模式的特征通过一个特征融合单元进行组合；

21、3-2、将文本编码器输出的文本特征经过mlp层得到特征，再与图像特征进行拼接，得到最终的多模态特征，然后再对多模态特征进行分类，得到预测类别，多模态输出公式如式（1）所示：

22、（1）

23、优选的，所述s1中，编码器将观察到的信号映射为隐表示，解码器从隐表示重建原始信号。

24、优选的，所述s2中，albert简化了模型参数，减少了内存消耗，提高了训练速度，解决了gpu内存有限的问题。

25、优选的，所述3-1中，mae模型和albert模型分别从不同角度提取图像文本中不同模态的特征，进行特征融合后可以结合两种模态的特征，进而使大概率分类值和小概率分类值之间的差值进一步加大，从而提高识别准确率。

26、与现有技术相比，本发明的有益效果是：

27、本发明方法，提供了一种基于多模态掩码自编码器的刑侦物证鉴定方法，通过mae模型和albert模型分别从不同角度提取图像文本中不同模态的特征，进行特征融合后可以结合两种模态的特征，进而使大概率分类值和小概率分类值之间的差值进一步加大，从而提高识别准确率，能够很好的对图片伤口进行识别并作出有效的判断，而且能够提高细粒度刑侦物证鉴定的性能；与现有图像识别方法相比，将注意力集中到刑侦物证图像的细分区域，有效关联图像文本信息，有助于发现刑侦线索。

技术特征：

1.一种基于多模态掩码自编码器的刑侦物证鉴定方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多模态掩码自编码器的刑侦物证鉴定方法，其特征在于，所述s1中，编码器将观察到的信号映射为隐表示，解码器从隐表示重建原始信号。

3.根据权利要求1所述的一种基于多模态掩码自编码器的刑侦物证鉴定方法，其特征在于，所述s2中，albert简化了模型参数，减少了内存消耗，提高了训练速度，解决了gpu内存有限的问题。

4.根据权利要求1所述的一种基于多模态掩码自编码器的刑侦物证鉴定方法，其特征在于，所述3-1中，mae模型和albert模型分别从不同角度提取图像文本中不同模态的特征，进行特征融合后可以结合两种模态的特征，进而使大概率分类值和小概率分类值之间的差值进一步加大，从而提高识别准确率。

技术总结
本申请提供了一种基于多模态掩码自编码器的刑侦物证鉴定方法，涉及图文多模态融合刑侦物证鉴定技术领域，本发明方法，通过构建图像模型MAE；构建文本模型ALBERT；然后融合多模态特征进行分析，其中，MAE模型和ALBERT模型分别从不同角度提取图像文本中不同模态的特征，进行特征融合后可以结合两种模态的特征，进而使大概率分类值和小概率分类值之间的差值进一步加大，从而提高识别准确率，能够很好的对图片伤口进行识别并作出有效的判断，而且能够提高细粒度刑侦物证鉴定的性能；与现有图像识别方法相比，将注意力集中到刑侦物证图像的细分区域，有效关联图像文本信息，有助于发现刑侦线索。

技术研发人员：郑涛,陈雷,肖圣兵,张玉党
受保护的技术使用者：安徽鹿鼎科技有限公司
技术研发日：
技术公布日：2024/4/29

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郑涛,陈雷,肖圣兵,张玉党
技术所有人：安徽鹿鼎科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。