多模态目标检测方法、装置、计算机设备及存储介质与流程

文档序号：36427212发布日期：2023-12-20 22:44阅读：42来源：国知局

本发明涉及多模态大模型处理方法，更具体地说是指多模态目标检测方法、装置、计算机设备及存储介质。

背景技术：

1、近年来，多模态生成式大模型在机器学习领域引起了广泛的关注和研究，并取得了显著的突破，已广泛应用于各行各业。然而，当前多模态大模型仅可实现针对不同模态的文字描述，缺乏对关注目标的定位能力，无法准确输出框或掩码。多模态生成式大模型的定位方式有两种，一种是将图片切分成多个子图，每个子图分别进入多模态生成式大模型进行判断，最终依靠子图在原图的位置进行目标粗定位，这种方法的定位精度不高，同时由于缺乏全图信息，可能造成模型的误判；第二种是将多模态生成式大模型与传统的目标检测框架串联，先用多模态生成式大模型判断目标是否存在，再调用目标检测模型进行定位，然而，引入传统的目标检测模型增加了计算负担，并且传统的目标检测模型的性能经常较差，误检漏检频繁，无法满足电力行业高标准的业务需求。

2、对于上述的两种定位方式存在以下的问题，一是已存在的定位方法仅仅是对预设种类的定位，如预设种类为苹果，那么对于西瓜是无法做到准确定位的；二是已存在的定位方法是没有和用户指令联动的，如检测苹果的模型会将图中所有的苹果检测出来，如果用户发出的指令为仅仅检测桌子上的苹果，那么已存在的方法就会失效，因为它们无法理解用户的精细化指令。而在电力设备缺陷运维、通道安全监测、人员行为监控的应用领域需要对设备缺陷位置、通道隐患位置、违规人员位置进行精准定位，辅助人员快速聚焦目标区域，当前的大模型无法满足这些业务需求。

3、因此，有必要设计一种新的方法，实现采用改进后的多模态生成式大模型进行多模态目标检测，对设备缺陷、环境隐患、人员违规行为进行精准描述和精准定位。

技术实现思路

1、本发明的目的在于克服现有技术的缺陷，提供多模态目标检测方法、装置、计算机设备及存储介质。

2、为实现上述目的，本发明采用以下技术方案：多模态目标检测方法，包括：

3、获取待检测图像以及文本指令；

4、将所述待检测图像以及文本指令输入至目标检测模型中进行目标检测，以得到检测结果；

5、输出所述检测结果；

6、其中，所述目标检测模型包括编码模型、向量变换模型、大语言模型以及位置解码模型；

7、所述目标检测模型是通过带有标注的图像以及文本指令作为样本集训练编码模型、向量变换模型、大语言模型以及位置解码模型形成的。

8、其进一步技术方案为：所述将所述待检测图像以及文本指令输入至目标检测模型中进行目标检测，以得到检测结果，包括：

9、对所述待检测图像通过编码模型进行编码处理，以得到特征图；

10、对所述文本指令进行标注化操作，以得到标记序列；

11、将所述特征图以及所述标记序列通过向量变换模型结合后，输入至训练后的大语言模型中进行文本指令的回复，以得到文本回复结果；

12、将所述文本回复结果进行标注化操作后，形成新标记序列；

13、将所述特征图、所述标记序列以及所述新标记序列输入至位置解码模型中进行目标位置信息的识别，以得到监测结果。

14、其进一步技术方案为：所述目标检测模型是通过带有标注的图像以及文本指令作为样本集训练编码模型、向量变换模型、大语言模型以及位置解码模型形成的，包括：

15、获取初始图像，并对所述初始图像中相同背景的图像进行去除，以得到训练图像；

16、对所述训练图像进行文字描述标注以及目标定位信息标注，以得到标注结果；

17、获取训练时的文本指令；

18、构建编码模型、向量变换模型、大语言模型以及位置解码模型；

19、将所述标注结果以及训练时的文本指令对所述编码模型、向量变换模型、大语言模型以及位置解码模型进行前向传播训练，以得到目标的种类和位置信息；

20、构建损失函数；

21、利用损失函数以及目标的种类和位置信息采用回传梯度方式更新所述大语言模型以及位置解码模型，并将更新后的所述大语言模型以及位置解码模型与所述编码模型、向量变换模型结合，以得到目标检测模型。

22、其进一步技术方案为：所述将所述标注结果以及训练时的文本指令对所述编码模型、向量变换模型、大语言模型以及位置解码模型进行前向传播训练，以得到目标的种类和位置信息，包括：

23、对所述标注结果通过编码模型进行编码处理，以得到相关特征图；

24、对训练时的文本指令进行标注化操作，以得到训练时的标记序列；

25、将所述相关特征图以及所述训练时的标记序列通过向量变换模型结合后，输入至所述大语言模型中进行文本指令的回复，以得到训练时的文本回复结果；

26、将训练时的文本回复结果进行标注化操作后，形成训练时的新标记序列；

27、将相关特征图、训练时的标记序列以及训练时的新标记序列输入至位置解码模型中进行目标位置信息的识别，以得到目标的种类和位置信息。

28、其进一步技术方案为：所述损失函数包括语言大模型的输出与标注结果中文本描述内容的损失函数、位置解码模型的输出与标注结果中目标定位信息的损失函数。

29、其进一步技术方案为：所述利用损失函数以及目标的种类和位置信息采用回传梯度方式更新所述大语言模型以及位置解码模型，并将更新后的所述大语言模型以及位置解码模型与所述编码模型、向量变换模型结合，以得到目标检测模型，包括：

30、对所述损失函数求梯度信息；

31、利用所述梯度信息更新所述大语言模型以及位置解码模型；

32、将更新后的所述大语言模型以及位置解码模型与所述编码模型、向量变换模型结合，以得到目标检测模型。

33、本发明还提供了多模态目标检测装置，包括：

34、获取单元，用于获取待检测图像以及文本指令；

35、目标检测单元，用于将所述待检测图像以及文本指令输入至目标检测模型中进行目标检测，以得到检测结果；

36、输出单元，用于输出所述检测结果。

37、其进一步技术方案为：还包括目标检测模型生成单元，用于通过带有标注的图像以及文本指令作为样本集训练编码模型、向量变换模型、大语言模型以及位置解码模型，以得到目标检测模型。

38、本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

39、本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

40、本发明与现有技术相比的有益效果是：本发明通过获取电力运维过程的待检测图像以及文本指令，采用大语言模型与视觉定位结合在一起的目标检测模型，对文本指令关联的目标进行精准定位，文本指令由终端根据实际需求输入，不仅可以定位到训练数据中出现的目标种类，对于没有出现的目标种类也可以有效定位，实现采用改进后的多模态生成式大模型进行多模态目标检测，对设备缺陷、环境隐患、人员违规行为进行精准描述和精准定位。

41、下面结合附图和具体实施例对本发明作进一步描述。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：豆泽阳庞磊蒋阳
技术所有人：珠高智能科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。