一种视觉语言目标检测数据自动标注方法及系统

文档序号:42790425发布日期:2025-08-19 18:14阅读:42来源:国知局

本发明属于视觉检测,具体涉一种视觉语言目标检测数据自动标注方法及系统。


背景技术:

1、目标检测任务在图像理解、机器人和自动驾驶等领域有着广泛的应用。现有技术中,目标检测任务基于视觉语言模型来实现,视觉语言模型能够有效融合视觉和文本的跨模态特征,利用语言提示的可扩展性来解决开放词汇难以检测的问题。但是,视觉语言模型的泛化能力主要依赖于大规模的数据集,而现有数据集的标注方法主要依赖于人工标注,其效率低下且成本高昂,严重制约了视觉语言模型在目标检测任务中的发展和应用。

2、因此,实有必要提供一种视觉语言目标检测数据自动标注方法及系统以解决上述问题。


技术实现思路

1、本发明提供一种视觉语言目标检测数据自动标注方法及系统,能够快速高效的实现多模态目标检测数据集的自动标注,解决人工标注效率低下且成本高昂的问题。

2、为了解决上述技术问题,本发明是这样实现的:

3、一种视觉语言目标检测数据自动标注方法,包括如下步骤:

4、步骤s1,提供待标注的图像数据集,利用视觉语言多模态文本生成大模型生成图像数据集中每个图像的文本描述;

5、步骤s2,自定义名词提示模板,利用n-gram算法将每个图像的文本描述拆分为连续的n-gram序列,从名词提示模板中抽取目标词汇,判断n-gram序列中是否出现目标词汇,若是,则保留该图像及其对应的文本描述,并利用clip模型计算该图像及其对应文本描述的相似度,将其作为图像的原始分类置信度;反之,则删除该图像及其对应的文本描述,遍历图像数据集中的所有图像,对所述图像数据集进行筛选,得到与目标词汇相匹配的图像子集;

6、步骤s3,将与目标词汇相匹配的图像子集输入到开放世界目标检测模型中进行图像伪标注,输出边界框、边界框的类别以及边界框的原始置信度;

7、步骤s4,根据边界框的尺寸对每张图像进行裁剪得到区域图像,利用clip模型计算区域图像及其对应类别名词的相似度,将其作为修正因子,对每个边界框的原始置信度进行修正;

8、步骤s5,利用高斯加权的柔性化非极大值抑制算法对边界框进行过滤,去除重复的边界框,具体包括:计算边界框的相对置信度,设定置信度阈值对边界框进行筛选,保留相对置信度高于置信度阈值的边界框;

9、步骤s6,计算每张图像上所有边界框相对置信度的均值,作为区域级分类置信度,将图像的原始分类置信度作为图像级分类置信度,计算区域级分类置信度和图像级分类置信度的几何平均数,得到图像的最终分类置信度,设定置信度阈值对图像进行筛选,保留最终分类置信度大于置信度阈值的图像,并将其对应的目标类别作为图像的标注。

10、作为一种优选的改进,视觉语言多模态文本生成大模型采用双塔结构,包括分别用于处理图像和文本描述的图像编码器和文本编码器,图像编码器使用cnn网络或visiontransformer网络提取图像的视觉特征,文本编码器基于bert或gpt架构生成文本描述的语义嵌入,然后通过对比学习让视觉特征和语义嵌入在共享空间中对齐,使语义嵌入与视觉特征接近,实现对图像的描述功能。

11、作为一种优选的改进,clip模型包括文本和图像两个独立编码器,分别将文本和图像编码成特征向量,并利用海量互联网图文对进行预训练,将图像和文本映射到统一嵌入空间中,在该空间中,将图像-文本匹配对相似度最大化、不匹配对相似度最小化,从而实现跨模态的对比学习。

12、作为一种优选的改进,步骤s2具体包括如下步骤:

13、步骤s21,自定义包括多种名词类别的名词提示模板;

14、步骤s22,对每个图像的文本描述进行分词,将文本描述的长句子拆分为词汇列表;

15、步骤s23,使用滑动窗口将词汇列表划分为连续长度为n的n-gram序列;

16、步骤s24,从名词提示模板中抽取目标词汇,判断n-gram序列中是否出现目标词汇,若是,则保留该图像及其对应文本描述,并利用clip模型计算该图像及其对应文本描述的相似度,将其作为图像的原始分类置信度;反之,则删除该图像及其对应的文本描述,遍历图像数据集中的所有图像,对所述图像数据集进行筛选,得到与目标词汇相匹配的图像子集;

17、图像和文本描述的相似度通过如下方式计算:

18、;

19、式中, i表示图像的序号索引。

20、作为一种优选的改进,伪标注的结果表示为:,式中、、分别表示图像对应的边界框、边界框类别和边界框的原始置信度;表示边界框的总数量。

21、作为一种优选的改进,边界框对应的区域图像与其独赢的类别名词的第二相似度通过如下方式计算:

22、;

23、边界框的修正置信度表示为:

24、。

25、作为一种优选的改进,高斯加权的柔性化非极大值抑制算法对边界框的过滤过程具体包括如下步骤:

26、步骤s51,按照边界框的目标类别定义输入列表和输出列表,每种目标类别的边界框对应一个唯一的输入列表和一个唯一的输出列表;针对任意一种目标类别,将所有的边界框划入输入列表中并按照置信度降序排列;

27、步骤s52,选择输入列表中置信度最高的边界框,将其从输入列表中移除并加入输出列表,从输入列表中逐个选择边界框,计算边界框相对于边界框的相对置信度,将相对置信度赋值给边界框,然后将边界框从输入列表中移除并加入输出列表;边界框相对于边界框的相对置信度通过如下方式计算:

28、;

29、式中,表示边界框的修正置信度;表示修正因子,用于进一步调整损失函数,;表示边界框和边界框的完全交并比,通过如下方式计算:

30、;

31、式中,表示边界框和边界框的交并比;表示边界框和边界框中心点的距离;c表示同时覆盖边界框和边界框的最小封闭矩形的对角线长度;表示宽高比一致性指标,用于考虑边界框形状和方向的影响;

32、其中:

33、;

34、;

35、式中,、分别表示边界框的宽和高;、分别表示边界框的宽和高;表示权重系数,用于平衡在损失中的重要性;

36、步骤s53,重复步骤s52直至该目标类别的输入列表为空,然后返回步骤s51选择下一目标类别,遍历所有的目标类别;

37、步骤s54,设定置信度阈值对边界框进行筛选,保留相对置信度高于置信度阈值的边界框,完成边界框的过滤。

38、作为一种优选的改进,图像的最终分类置信度表示为:

39、;

40、式中,表示图像级分类置信度;表示区域级分类置信度。

41、一种用于执行上述的视觉语言目标检测数据自动标注方法的系统,包括:

42、文本描述生成模块,提供待标注的图像数据集,利用视觉语言多模态文本生成大模型生成图像数据集中每个图像的文本描述;

43、图像筛选模块,用于自定义名词提示模板,利用n-gram算法将每个图像的文本描述拆分为连续的n-gram序列,从名词提示模板中抽取目标词汇,判断n-gram序列中是否出现目标词汇,若是,则保留该图像及其对应的文本描述,并利用clip模型计算该图像及其对应文本描述的相似度,将其作为图像的原始分类置信度;反之,则删除该图像及其对应的文本描述,遍历图像数据集中的所有图像,对所述图像数据集进行筛选,得到与目标词汇相匹配的图像子集;

44、伪标注模块,用于将与目标词汇相匹配的图像子集输入到开放世界目标检测模型中进行图像伪标注,输出边界框、边界框的类别以及边界框的原始置信度;

45、修正模块,用于根据边界框的尺寸对每张图像进行裁剪得到区域图像,利用clip模型计算区域图像及其对应类别名词的相似度,将其作为修正因子,对每个边界框的原始置信度进行修正;

46、过滤模块,用于利用高斯加权的柔性化非极大值抑制算法对边界框进行过滤,去除重复的边界框,具体包括:计算边界框的相对置信度,设定置信度阈值对边界框进行筛选,保留相对置信度高于置信度阈值的边界框;

47、输出模块,用于计算每张图像上所有边界框相对置信度的均值,作为区域级分类置信度,将图像的原始分类置信度作为图像级分类置信度,计算区域级分类置信度和图像级分类置信度的几何平均数,得到图像的最终分类置信度,设定置信度阈值对图像进行筛选,保留最终分类置信度大于置信度阈值的图像,并将其对应的目标类别作为图像的标注。

48、本发明的有益效果在于:

49、(1)提出一种视觉语言目标检测数据自动标注方法及系统,可解决人工数据标注效率低下且成本高昂问题,能够快速高效的实现多模态目标检测数据集的构建;

50、(2)基于n-gram算法通过自定义提示模板筛选图像,为用户提供了个性化的快速图像筛选方式,用户可根据自己的需求定义提示,从而快速的选择相关图像,并增强了搜索结果的相关性;

51、(3)在区域级与图像级层面联合过滤标注图像,解决开放世界目标检测模型可能存在的误检问题,提高了图像的标注质量。

当前第1页1 2 
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!