基于大型视觉语言模型的异常检测方法及装置与流程

文档序号：37415702发布日期：2024-03-25 19:03阅读：22来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及人工智能，尤其涉及一种基于大型视觉语言模型的异常检测方法及装置。

背景技术：

1、工业异常检测是在工业生产过程中识别和检测异常情况的技术。工业异常检测不仅可以提高生产效率和产品质量，还可以降低生产成本、保障安全生产，因此如何高效精准地进行工业异常检测对工业生产亟待解决的技术问题。

2、在工业异常检测中，需要充足的样本才能够检测和定位工业产品图像中的异常区域。然而，由于工厂中异常样本通常稀缺且缺陷类型难以预测，进而难以精准高效地进行异常检测。

3、亟需一种基于大型视觉语言模型的异常检测方法及装置来解决上述技术问题。

技术实现思路

1、本发明提供一种基于大型视觉语言模型的异常检测方法及装置，用以解决现有技术中异常样本稀缺，难以精准高效地进行异常检测的缺陷，实现在异常样本稀缺的情况下，提高异常检测的效率和精准性。

2、本发明提供一种基于大型视觉语言模型的异常检测方法，包括：

3、将待检测工业图像输入至目标视觉语言模型中的目标图像编码模块，得到所述待检测工业图像的多尺度图像特征；

4、将所述多尺度图像特征输入至所述目标视觉语言模型中的目标特征融合模块，得到融合特征；

5、将所述融合特征和所述待检测工业图像对应的异常检测问题文本输入至所述目标视觉语言模型中的目标语言模块，得到所述异常检测问题文本对应的异常检测答案文本；

6、其中，所述目标视觉语言模型是基于多种不同缺陷类型的模拟样本图像、各所述模拟样本图像对应的异常检测问题文本、图像描述文本、异常检测定位标签和异常检测答案标签进行训练得到的；各所述模拟样本图像是基于各种模拟缺陷形态和各正常样本生成的样本图像；各所述模拟缺陷形态是基于贝塞尔曲线生成算法对各种不同类型的工业缺陷形态进行模拟生成的；所述正常样本为不存在缺陷区域的样本工业图像。

7、根据本发明提供的一种基于大型视觉语言模型的异常检测方法，所述目标视觉语言模型是基于如下步骤训练得到：

8、按照各样本工业图像的缺陷标记，分别将各所述样本工业图像，划分为正常样本或者异常样本；

9、对各异常样本对应的工业缺陷形态进行统计，得到多种不同缺陷类型的工业缺陷形态；

10、基于所述贝塞尔曲线生成算法，分别对各所述工业缺陷形态进行模拟，生成各所述工业缺陷形态对应的至少一种模拟缺陷形态；

11、将各所述模拟缺陷形态和各所述正常样本进行融合，生成各所述模拟缺陷形态对应的所述模拟样本图像；

12、生成各所述模拟样本图像对应的异常检测问题文本、图像描述文本、异常检测定位标签和异常检测答案标签；

13、基于各所述模拟样本图像、所述异常检测问题文本、所述图像描述文本、所述异常检测定位标签和所述异常检测答案标签，构建样本数据集；

14、基于所述样本数据集，对初始视觉语言模型进行迭代训练，得到所述目标视觉语言模型。

15、根据本发明提供的一种基于大型视觉语言模型的异常检测方法，所述初始视觉语言模型包括初始图像编码模块、初始图像解码模块、初始文本编码模块、初始特征提取模块、初始特征融合模块和初始语言模块；

16、所述基于所述样本数据集，对初始视觉语言模型进行迭代训练，得到所述目标视觉语言模型，包括：

17、将所述样本数据集中各所述模拟样本图像输入至所述初始图像编码模块，得到各所述模拟样本图像的第一多尺度图像特征，将所述样本数据集中各所述模拟样本图像对应的图像描述文本输入至所述初始文本编码模块，得到各所述模拟样本图像对应的第一文本特征，将所述第一多尺度图像特征和所述第一文本特征输入至所述初始图像解码模块，得到各所述模拟样本图像对应的异常检测定位预测结果；

18、基于所述异常检测定位预测结果和所述异常检测定位标签，对所述初始图像编码模块、所述初始图像解码模块、所述初始文本编码模块进行迭代训练；

19、将各所述模拟样本图像输入至训练后的初始图像编码模块，得到各所述模拟样本图像的第二多尺度图像特征，将各所述模拟样本图像对应的图像描述文本输入至训练后的初始文本编码模块，得到各所述模拟样本图像对应的第二文本特征，将所述第二多尺度图像特征和所述第二文本特征输入至训练后的初始图像解码模块的特征对齐层，得到各所述模拟样本图像对应的第一融合特征；

20、将所述第一融合特征输入至初始特征提取模块，得到第二融合特征，将所述第二融合特征和所述第二多尺度图像特征输入至所述初始特征融合模块，得到各所述模拟样本图像对应的目标融合特征；

21、将所述目标融合特征和各所述模拟样本图像对应的异常检测问题文本输入至所述初始语言模块，得到各所述模拟样本图像对应的异常检测答案预测结果；

22、基于所述异常检测答案预测结果和所述异常检测答案标签，对所述初始特征提取模块和初始特征融合模块进行迭代训练；

23、基于训练后的初始图像编码模块构建所述目标图像编码模块，基于训练后的初始特征融合模块构建所述目标特征融合模块，基于所述初始语言模块，构建所述目标语言模块。

24、根据本发明提供的一种基于大型视觉语言模型的异常检测方法，所述初始图像解码模块包括特征对齐层和异常定位层，所述特征对齐层包括特征金字塔层和第一特征融合层；

25、所述将所述第一多尺度图像特征和所述第一文本特征输入至所述初始图像解码模块，得到各所述模拟样本图像对应的异常检测定位预测结果，包括：

26、将所述第一多尺度图像特征输入至所述特征金字塔层，得到多尺度融合图像特征；

27、将所述多尺度融合图像特征和所述第一文本特征输入至所述第一特征融合层，得到第三融合特征；

28、将所述第三融合特征输入至所述异常定位层，得到所述异常检测定位预测结果。

29、根据本发明提供的一种基于大型视觉语言模型的异常检测方法，所述初始特征融合模块包括第二特征融合层和自注意力层；

30、所述将所述第二融合特征和所述第二多尺度图像特征输入至所述初始特征融合模块，得到各所述模拟样本图像对应的目标融合特征，包括：

31、将所述第二融合特征和所述第二多尺度图像特征输入至所述第二特征融合层，得到第四融合特征；

32、将所述第四融合特征输入至所述自注意力层，得到所述目标融合特征。

33、根据本发明提供的一种基于大型视觉语言模型的异常检测方法，所述基于所述样本数据集，对初始视觉语言模型进行迭代训练，得到所述目标视觉语言模型，包括：

34、对所述样本数据集中的各模拟样本图像进行数据预处理；

35、基于预处理后的样本数据集，对所述初始视觉语言模型进行迭代训练，得到所述目标视觉语言模型；

36、其中，所述数据预处理包括对比度增强处理、边缘锐化处理、平滑滤波处理和归一化处理中的至少一项。

37、根据本发明提供的一种基于大型视觉语言模型的异常检测方法，所述基于预处理后的样本数据集，对所述初始视觉语言模型进行迭代训练，得到所述目标视觉语言模型，包括：

38、对预处理后的样本数据集中的各模拟样本图像进行数据增强；

39、基于数据增强后的样本数据集，对所述初始视觉语言模型进行迭代训练，得到所述目标视觉语言模型；

40、其中，所述数据增强包括随机旋转、随机翻转、随机缩放和随机裁剪中的至少一项。

41、本发明还提供一种基于大型视觉语言模型的异常检测装置，包括：

42、特征提取单元，用于将待检测工业图像输入至目标视觉语言模型中的目标图像编码模块，得到所述待检测工业图像的多尺度图像特征；

43、特征融合单元，用于将所述多尺度图像特征输入至所述目标视觉语言模型中的目标特征融合模块，得到融合特征；

44、检测单元，用于将所述融合特征和所述待检测工业图像对应的异常检测问题文本输入至所述目标视觉语言模型中的目标语言模块，得到所述异常检测问题文本对应的异常检测答案文本；

45、其中，所述目标视觉语言模型是基于多种不同缺陷类型的模拟样本图像、各所述模拟样本图像对应的异常检测问题文本、图像描述文本、异常检测定位标签和异常检测答案标签进行训练得到的；各所述模拟样本图像是基于各种模拟缺陷形态和各正常样本生成的样本图像；各所述模拟缺陷形态是基于贝塞尔曲线生成算法对各种不同类型的工业缺陷形态进行模拟生成的；所述正常样本为不存在缺陷区域的样本工业图像。

46、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于大型视觉语言模型的异常检测方法。

47、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于大型视觉语言模型的异常检测方法。

48、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述基于大型视觉语言模型的异常检测方法。

49、本发明提供的基于大型视觉语言模型的异常检测方法及装置，一方面通过贝塞尔曲线生成算法对各种不同类型的工业缺陷形态进行模拟生成多种模拟缺陷形态，并将各种模拟缺陷形态与各种正常样本进行结合，以得到丰富的多种不同缺陷类型的模拟样本图像，然后，基于多种不同缺陷类型的模拟样本图像对初始视觉语言模型进行训练，实现即使在异常样本稀缺的情况下，也可有效提高异常检测的效率和精准性；另一方面，通过目标视觉语言模型对待检测工业图像进行多尺度图像特征提取和特征融合，以及基于融合特征和异常检测问题文本联合进行异常检测，实现通过将工业缺陷的图像特征整合到大型视觉语言模型中，使其能够迅速精准地适用于各类工业场景的异常检测，由此进一步提高异常检测的效率和精准性。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：袁烨,张永,兰儒恺,周晨,金骏阳,王茂霖
技术所有人：元始智能科技（南通）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。