基于多模态表征的图像训练数据集生成方法及终端与流程

文档序号：37053289发布日期：2024-02-20 20:54阅读：8来源：国知局

本发明涉及图像处理，尤其涉及一种基于多模态表征的图像训练数据集生成方法及终端。

背景技术：

1、山火是一种具有巨大危害性的自然灾害，不仅给人们的生命财产带来严重威胁，还对生态环境造成严重破坏。山火具有快速蔓延、强大的热辐射能力和高温燃烧等特点，能够瞬间破坏大片林地、农田和居民区，威胁人们的生命和财产安全，以及破坏生态环境。因此需要对经常发生山火的区域进行监测，争取在发生山火的第一时间进行灭火处理，降低山火的影响范围。

2、随着深度学习算法的发展，利用卷积神经网络（cnn）和其他深度学习模型辅助摄像机拍摄的图像进行山火检测成为可能。深度学习模型可以通过大规模图像数据集进行训练，并具备良好的特征提取和表示能力，从而提高山火目标的识别准确性和鲁棒性。但是山火的形状多样化且不规则，可能表现为火线、火点、火球、热点等形态，在不同的时间段内形态也会发生变化，这增加了山火目标的识别难度，使得在图像中准确地检测山火变得更具挑战性。并且，山火的发生点往往位于较为偏远的地区或复杂的地形地貌中，这使得采集大规模、多样化的山火图像数据集变得困难。

技术实现思路

1、本发明所要解决的技术问题是：提供一种基于多模态表征的图像训练数据集生成方法及终端，提高用于训练深度学习模型的数据集的多样性，避免由于训练样本匮乏而造成的模型过拟合问题。

2、为了解决上述技术问题，本发明采用的技术方案为：

3、基于多模态表征的图像训练数据集生成方法，包括：

4、获取目标文本信息和区域图像；

5、通过预设的语义图像模型根据所述目标文本信息生成目标图像；

6、对所述目标图像进行裁剪得到待检测目标；

7、通过预设的语义分割模型在所述区域图像中确定候选位置；

8、将所述待检测目标贴附至所述候选位置，并对所述待检测目标进行标注，得到目标数据集样本。

9、为了解决上述技术问题，本发明采用的另一种技术方案为：

10、基于多模态表征的图像训练数据集生成终端，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于多模态表征的图像训练数据集生成方法中的各个步骤。

11、本发明的有益效果在于：获取目标文本信息和区域图像，基于语义图像模型的多模态特性根据目标文本信息生成多种形态的目标图像，从而通过语义图像模型拓展目标图像的多样性，避免训练数据集样本特征单一的问题。对目标图像进行裁剪得到待检测目标，避免引入目标图像中的其他干扰因素。同时基于语义分割模型在区域图像中筛选出待检测目标在实际场景中可能出现的候选位置，从而将待检测目标贴附到候选位置，避免将待检测目标贴附到不可能检测到的目标区域中，影响后续模型的特征提取与识别，提高待检测目标与实际场景的融合性，增强训练数据集样本的真实性。由此，同一个待检测目标贴附在多个不同的候选位置中，即可生成多个不同目标数据集样本，不仅不需要人工生成额外的待检测目标图像，还解决了待检测目标图像难以搜集的问题，提高了用于训练深度学习模型的数据集的多样性，避免由于训练样本匮乏而造成的模型过拟合问题。

技术特征：

1.基于多模态表征的图像训练数据集生成方法，其特征在于，包括：

2.根据权利要求1所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述通过预设的语义图像模型根据所述目标文本信息生成目标图像包括：

3.根据权利要求1所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述对所述目标图像进行裁剪得到待检测目标包括：

4.根据权利要求1所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述通过预设的语义分割模型在所述区域图像中确定候选位置包括：

5.根据权利要求3所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述将所述待检测目标贴附至所述候选位置，并对所述待检测目标进行标注，得到目标数据集样本包括：

6.根据权利要求2所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述将所述待检测目标进行缩放处理，得到标准尺寸的待检测目标包括：

7.根据权利要求6所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述幂律分布函数具体为：

8.根据权利要求5所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述将所述标准尺寸的待检测目标贴附至所述候选位置，确定所述待检测目标在所述候选位置的标准边界框具体为：

9.根据权利要求2所述的基于多模态表征的图像训练数据集生成方法，其特征在于，所述去噪网络包括多头自注意力机制模块、通道注意力模块、上采样模块以及下采样模块。

10.基于多模态表征的图像训练数据集生成终端，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-9任意一项所述的基于多模态表征的图像训练数据集生成方法中的各个步骤。

技术总结
本发明公开的基于多模态表征的图像训练数据集生成方法及终端，该方法包括：获取目标文本信息和区域图像；通过预设的语义图像模型根据所述目标文本信息生成目标图像；对所述目标图像进行裁剪得到待检测目标；通过预设的语义分割模型在所述区域图像中确定候选位置；将所述待检测目标贴附至所述候选位置，并对所述待检测目标进行标注，得到目标数据集样本。由同一个待检测目标贴附在多个不同的候选位置中，生成多个不同目标数据集样本，不仅不需要人工生成额外的待检测目标图像，还解决了待检测目标图像难以搜集的问题，提高了用于训练深度学习模型的数据集的多样性，避免由于训练样本匮乏而造成的模型过拟合问题。

技术研发人员：张宇,吴庆耀,杨伟强,邓景良,刘东剑
受保护的技术使用者：深圳金三立视频科技股份有限公司
技术研发日：
技术公布日：2024/2/19

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张宇,吴庆耀,杨伟强,邓景良,刘东剑
技术所有人：深圳金三立视频科技股份有限公司
我是此专利的发明人

上一篇：多孔生物质碳电极材料及其电极片的制备方法以及电极片
上一篇：基于涡流技术的热交换系统及控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。