本发明涉及数据处理,尤其涉及一种多模态工业质检方法、装置、电子设备及存储介质。
背景技术:
1、工业质检是新型生产制造的重要环节,也是守护产品质量的关键防线。传统工业质检以工业图像采集和机器视觉图像处理技术手段为主,因技术机制的灵活性与泛化能力受限,导致长尾化应用趋势明显、落地缓慢,极大阻碍了工业质检应用的规模普及。
技术实现思路
1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明提出一种多模态工业质检方法、装置、电子设备及存储介质,能够高效准确进行多模态工业质检。
2、一方面,本发明实施例提供了一种多模态工业质检方法,包括:
3、获取质检规则提示文本,对质检规则提示文本进行第一特征编码,得到第一嵌入特征;
4、获取待检工件图像,对待检工件图像进行第二特征编码,得到第二嵌入特征;
5、基于第一嵌入特征,结合第二嵌入特征进行基于注意力关注的第一融合处理,得到第一融合嵌入特征;
6、对待检工件图像进行异常检测,得到异常检测图;对异常检测图进行第三特征编码,得到第三嵌入特征;
7、基于第三嵌入特征,结合第一融合嵌入特征进行基于注意力关注的第二融合处理,得到第二融合嵌入特征;
8、基于第二融合嵌入特征,结合预设提示模板拼接得到提示嵌入特征序列;将提示特征序列输入预训练的大语言模型进行应答整理,得到异常检测结果的应答文本。
9、可选地,对质检规则提示文本进行第一特征编码,得到第一嵌入特征,包括:
10、对质检规则提示文本进行脱敏序列化处理,获得脱敏数据;
11、将脱敏数据输入预训练的文本编码器进行文本特征编码,转换得到第一嵌入特征。
12、可选地,对待检工件图像进行第二特征编码,得到第二嵌入特征,包括:
13、将待检工件图像输入预训练的图像编码器进行第一图像编码,得到第一图像特征;
14、通过线性层对第一图像特征进行线性转换,得到第二嵌入特征。
15、可选地,注意力关注包括自注意力关注和互注意力的交叉关注;基于第一嵌入特征,结合第二嵌入特征进行基于注意力的融合处理,得到第一融合嵌入特征,包括:
16、通过映射层对第一嵌入特征进行映射转换,得到第一嵌入矢量;
17、通过自注意力层对第一嵌入矢量进行自注意力关注;
18、通过互注意力层对自注意力关注的结果和第二嵌入特征进行互注意力的交叉关注;
19、将交叉关注的结果输入前馈层进行特征空间对齐和特征融合,得到第一融合嵌入特征。
20、可选地,对待检工件图像进行异常检测,得到异常检测图;对异常检测图进行第三特征编码,得到第三嵌入特征,包括:
21、通过预训练的视觉专家算法对待检工件图像进行异常检测,得到异常检测图;
22、将异常检测图输入预训练的图像编码器进行第二图像编码,得到第二图像特征;
23、通过线性层对第二图像特征进行线性转换,得到第三嵌入特征。
24、可选地,注意力关注包括自注意力关注和互注意力的交叉关注;基于第三嵌入特征,结合第一融合嵌入特征进行基于注意力关注的第二融合处理,得到第二融合嵌入特征,包括:
25、通过映射层对第二嵌入特征进行映射转换,得到第二嵌入矢量;
26、通过自注意力层对第二嵌入矢量进行自注意力关注;
27、通过互注意力层对自注意力关注的结果和第一融合嵌入特征进行互注意力的交叉关注;
28、将交叉关注的结果输入前馈层进行特征空间对齐和特征融合,得到第二融合嵌入特征。
29、可选地,基于第二融合嵌入特征,结合预设提示模板拼接得到提示嵌入特征序列,包括:
30、基于第二融合嵌入特征对预设提示模板的指定部分进行填充;进而对预设提示模板的其它文本部分采用与大语言模型的输入格式对应的脱敏序列化处理,拼接得到提示嵌入特征序列。
31、另一方面,本发明实施例提供了一种多模态工业质检装置,包括:
32、第一模块,用于获取质检规则提示文本,对质检规则提示文本进行第一特征编码,得到第一嵌入特征;
33、第二模块,用于获取待检工件图像,对待检工件图像进行第二特征编码,得到第二嵌入特征;
34、第三模块,用于基于第一嵌入特征,结合第二嵌入特征进行基于注意力关注的第一融合处理,得到第一融合嵌入特征;
35、第四模块,用于对待检工件图像进行异常检测,得到异常检测图;对异常检测图进行第三特征编码,得到第三嵌入特征;
36、第五模块,用于基于第三嵌入特征,结合第一融合嵌入特征进行基于注意力关注的第二融合处理,得到第二融合嵌入特征;
37、第六模块,用于基于第二融合嵌入特征,结合预设提示模板拼接得到提示嵌入特征序列;将提示特征序列输入预训练的大语言模型进行应答整理,得到异常检测结果的应答文本。
38、另一方面,本发明实施例提供了一种电子设备,包括:处理器以及存储器;存储器用于存储程序;处理器执行程序实现上述多模态工业质检方法。
39、另一方面,本发明实施例提供了一种计算机存储介质,其中存储有处理器可执行的程序,处理器可执行的程序在由处理器执行时用于实现上述多模态工业质检方法。
40、本发明实施例通过获取质检规则提示文本,对质检规则提示文本进行第一特征编码,得到第一嵌入特征;获取待检工件图像,对待检工件图像进行第二特征编码,得到第二嵌入特征;基于第一嵌入特征,结合第二嵌入特征进行基于注意力关注的第一融合处理,得到第一融合嵌入特征;对待检工件图像进行异常检测,得到异常检测图;对异常检测图进行第三特征编码,得到第三嵌入特征;基于第三嵌入特征,结合第一融合嵌入特征进行基于注意力关注的第二融合处理,得到第二融合嵌入特征;基于第二融合嵌入特征,结合预设提示模板拼接得到提示嵌入特征序列;将提示特征序列输入预训练的大语言模型进行应答整理,得到异常检测结果的应答文本。本发明实施例充分复用图像、语言预训练模型能力,降低训练成本,同时提升工业质检结果准确性与泛化能力,本发明能够实现智能化程度更高、可定制化程度要求更高的工业质检应用,帮助传统质检应用克服场景泛化能力差、配置定制碎片化严重的难题,从而提升工业质检机制落地与场景适配效率。本发明实施例能够高效准确的实现多模态工业质检。
1.一种多模态工业质检方法,其特征在于,所述方法包括:
2.根据权利要求1所述的多模态工业质检方法,其特征在于,所述对所述质检规则提示文本进行第一特征编码,得到第一嵌入特征,包括:
3.根据权利要求1所述的多模态工业质检方法,其特征在于,所述对所述待检工件图像进行第二特征编码,得到第二嵌入特征,包括:
4.根据权利要求1所述的多模态工业质检方法,其特征在于,所述注意力关注包括自注意力关注和互注意力的交叉关注;所述基于所述第一嵌入特征,结合所述第二嵌入特征进行基于注意力的融合处理,得到第一融合嵌入特征,包括:
5.根据权利要求1所述的多模态工业质检方法,其特征在于,所述对所述待检工件图像进行异常检测,得到异常检测图;对所述异常检测图进行第三特征编码,得到第三嵌入特征,包括:
6.根据权利要求1所述的多模态工业质检方法,其特征在于,所述注意力关注包括自注意力关注和互注意力的交叉关注;所述基于所述第三嵌入特征,结合所述第一融合嵌入特征进行基于注意力关注的第二融合处理,得到第二融合嵌入特征,包括:
7.根据权利要求1所述的多模态工业质检方法,其特征在于,所述基于所述第二融合嵌入特征,结合预设提示模板拼接得到提示嵌入特征序列,包括:
8.一种多模态工业质检装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括处理器以及存储器;
10.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1至7任一项所述的方法。