一种基于开放环境的零样本目标检测算法

文档序号：42356128发布日期：2025-07-04 17:21阅读：23来源：国知局

本发明涉及一种基于开放环境的零样本目标检测方法，属于深度学习中的目标检测领域，主要实现零样本目标检测。

背景技术：

1、基于开放环境的零样本目标检测是最近新兴的一个研究领域，它具有十分广泛的应用场景，例如：

2、安防监控：在安防监控领域，开放目标检测技术可以极大地提高系统对异常

3、情况的响应能力。传统监控系统往往依赖特定模式的识别来发现威胁或异常行为，例如已知形态的可疑包裹或者特定类型的行人行为。然而，真实世界中的威胁可能呈现出多种不可预测的形态，开放目标检测使得系统能够检测到这些之前未定义的异常物体或行为，并及时警示监控人员。

4、自动驾驶：自动驾驶汽车依赖精确的物体检测来导航和避免碰撞。当前的自

5、动驾驶系统训练集中包含的物体类别相对有限，但现实世界充满了未知和意外。比如，在道路上可能会出现新的交通标志、非标准的工程设施或其他未知障碍物。开放目标检测技术可以帮助自动驾驶系统在面对未知对象时保持警觉，做出适当反应，增强安全性。

6、生态监测：生物生态学研究。对于生物学家和生态学家来说，能够在野外调查中识别未知的动植物种类至关重要。随着地球生物多样性的持续变化，新物种的发现是常态。利用开放目标检测技术，研究人员可以在野外调查的图像数据中自动检测到潜在的新物种，加快物种识别的进程，促进生物多样性的记录和保护工作。

7、军事领域：开放目标检测在军事领域的应用包括增强态势感知、目标识别和跟踪、威胁评估和监控、提高自动化防护能力，以及提供战术支援。这些应用可以提升指挥和控制系统的智能化水平，增强军队的反应速度和作战能力。尽管当前的开放环境目标检测模型在一定程度上实现了对零样本目标的自动识别，但仍存在一些显著的不足之处：

8、1.泛化能力弱：现有的目标检测模型大多依赖于大量的标注数据进行训练，然而在实际应用中，收集和标注海量的零样本目标图像往往困难且耗时。这导致模型在遇到未曾见过的环境或背景时，容易出现识别错误或检测失败的问题。

9、2.长尾效应：由于不同类别的零样本目标在自然界中的分布差异很大，一些稀有物体的样本数量尤其匮乏。这种样本不平衡导致的长尾效应，使得模型对少数类别的检测性能不佳，影响整体识别准确性。

10、3.未知类别识别准确率低：开放环境目标检测的一个核心挑战是在识别已知类别的同时，正确处理未被训练过的未知类别。然而，目前的模型在面对新的或未见过的动物物种时，其检测精度和准确性仍有待提高，这限制了技术在实际应用场景中的可靠性。

11、综上所述，为了提升零样本目标检测的效能，亟需一种基于开放环境目标检测的新型算法，该算法能够克服现有技术的局限性，提高对零样本目标的识别速度和准确性。

技术实现思路

1、针对以上问题，本发明提供了一种基于开放环境的零样本目标检测算法，旨在克服现有技术的局限性，提高样本目标识别的速度和准确性。该算法融合了最新的计算机视觉技术，包括vit(vision transformer)模型和生成对抗网络(gans)，并引入了创新性的辅助定位模块。

2、首先，本发明基于vit模型，该模型在计算机视觉任务中因其优越的特征提取能力而备受关注。vit模型通过自注意力机制有效捕捉图像中的重要特征，从而提高了目标检测器的性能。同时，本发明采用一种基于gans网络的学生教师模型，以实现检测器参数的动态更新。学生教师模型通过模拟真实场景下的知识传递过程，能够有效提升检测器对不同类别的泛化能力，尤其是在样本数量较少的长尾分布情况下，依然保持良好的检测效果。

3、其次，为了增强对未知类别物体的识别能力，本发明设计了一个辅助定位模块。该模块专门用于分析和定位图像中可能存在的未见过的类别，并区分前景和背景。通过引入这一模块，系统能够更准确地识别并分类不在训练数据集中的新物种或异常个体，从而显著提高检测器在开放环境环境下的可靠性和适用性。本发明所采用的技术方案是：

4、步骤一：基于vit模型的零样本目标检测算法设计

5、vit采取了一种不同的策略，它借鉴了nlp(自然语言处理)中transformer模型的思想，将图像视为一系列的“单词”(patch)，并通过self-attention机制学习不同patch之间的长距离依赖关系。此外在处理图像之前，对图像进行翻转、裁剪加噪等图像增强操作。

6、步骤s10:输入图片预处理：将输入的零样本目标图片输入到resnet骨干网络，提取特征后分为两路。

7、步骤s11:特征定位与回归损失计算：上面一路通过rpn网络生成初步候选框位置，随后引入基于selective search算法的arpn(辅助定位网络)进行进一步优化。综合两模块的输出结果，提供精确的物体定位信息，并计算回归损失。步骤s12:特征分类与聚类：下面一路通过vit网络处理，获取倒数第二个注意力头的输出。该输出被送入专门设计的分类头以实现已知类别的分类，同时分配一部分特征至聚类头，识别并聚类未知类别向量。

8、步骤s13:教师学生网络学习更新：将从聚类头获得的未知类别向量簇输入基于gans的教师学生网络中进行学习。此过程旨在通过知识迁移更新检测器参数，以增强对多变环境中未见过对象的敏感性。

9、步骤s14:总损失计算：将回归损失和分类损失进行求和，得到整体检测模型的总损失，用于指导模型训练和参数调整。

10、步骤二：辅助定位模块设计

11、步骤s20:引入arpn模块：结合现有rpn网络，引入基于selective search算法的辅助定位模块(arpn)，用于进一步提升对于潜在未知类别区域的关注度。通过前后景区分提高定位准确率。

12、步骤三：基于gans的教师学生网络

13、步骤s30:构建教师学生网络：设计并训练一个基于gans架构的教师学生网络，使其能够从聚类后的向量簇中学习未知类别之间的表示差异。

14、步骤s31:检测器参数更新：利用教师学生网络的学习成果，为检测器提供有效的参数更新，从而显著提升开集环境下的鲁棒性。

技术特征：

1.一种基于开放环境下的零样本目标检测算法，包括以下步骤：

2.根据权利要求1所述的零样本目标检测算法，其特征在于，所述辅助定位网络用于在图像中区分前后景以定位潜在的未知类别。

3.根据权利要求1或2所述的零样本目标检测算法，其特征在于，所述分类头基于knn算法来增强分类精度。

4.根据权利要求1至3任一项所述的零样本目标检测算法，其特征在于，所述基于gans的教师学生网络用于提升模型对未知类别的泛化能力。

5.根据权利要求1至4任一项所述的零样本目标检测算法，其特征在于，所述检测器适用于移动设备或云端平台，以实现快速现场识别或远程监测零样本目标。

6.根据权利要求1至5任一项所述的零样本目标检测算法，其特征在于，通过数据增强技术提高模型对样本图像的泛化能力，以应对不同光照和环境条件。

7.一种零样本目标检测系统，包括：

8.根据权利要求7所述的零样本目标检测系统，其特征在于，所述图像采集单元具有自动调节曝光和焦点的自适应控制模块，以适应各种环境条件下的拍摄需求。

9.根据权利要求7或8所述的零样本目标检测系统，其特征在于，所述输出单元是触摸屏显示器，用于接收用户指令并展示相关的零样本目标信息。

技术总结
本发明公开一种开放环境零样本目标检测方法，结合ViT与GANs构建双分支架构。传统方法因依赖人工标注或弱泛化模型，在动态场景中检测精度不足。该方法通过ResNet分流图像：上分支集成区域建议网络(ARPN)和辅助定位网(ARPN)定位并计算回归损失；下分支ViT的倒数第二注意力头分类，另一路聚类后输入基于GANs的师生网络优化参数。该方法通过联合回归损失与分类损失完成端到端训练，显著提升检测效率。创新性提出开放环境专用数据集构建方法及多尺度数据增强策略，强化模型对复杂背景的适应性。相较于传统技术，本方案突破零样本场景检测精度瓶颈，为开放环境目标检测提供新范式。

技术研发人员：贾海涛,孙沐阳,许文波,任利,王少江,周焕来
受保护的技术使用者：电子科技大学
技术研发日：
技术公布日：2025/7/3

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：贾海涛,孙沐阳,许文波,任利,王少江,周焕来
技术所有人：电子科技大学
我是此专利的发明人

该领域下的技术专家

1、李老师：1.计算力学 2.无损检测

2、毕老师：机构动力学与控制

3、袁老师：1.计算机视觉 2.无线网络及物联网

4、王老师：1.计算机网络安全 2.计算机仿真技术

5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！