一种用于小目标检测的网络模型及应用

文档序号：37623915发布日期：2024-04-18 17:38阅读：8来源：国知局

本发明属于计算机视觉中的目标检测领域，涉及一种用于小目标检测的网络模型及应用。

背景技术：

1、近些年来，随着社会的发展，人们对体育竞技活动的关注度越来越高。在网球比赛的过程中，能否实时全程地对网球进行检测尤为重要。通过在比赛过程中，不断地对网球进行实时检测，能够及时反馈和辅助裁判进行判罚，增加了比赛的公正性，也可以通过实时检测进行赛后的及时复盘，帮助球员提高训练效率。

2、目前对于网球比赛通过人工肉眼辨别或者使用摄像机的方法，主观性强、效率低。大多数的球类检测，都是正常速度下的检测，然而网球目标具有运动速度快、体积小的特点，同时可能存在拖影、形变等问题，网球在高速条件下与静止条件下的外观有着巨大的区别，这给网球目标检测的研究带来了不小的挑战。

3、另一方面来说，网球相对于整个网球球场来说属于小目标，小目标通常没有很完善的特征，同时存在分辨率低的问题，那么意味着可以学习的特征就少，难以很好地提取到特征，再加上极其容易受到周围环境的影响和干扰，如受到光线、遮挡和尺寸变化等问题的影响，从而导致了模型很难精准定位和识别出小目标，进一步加大了小目标检测的难度。

4、基于图像和文本的多模态模型作为近些年来的研究热点，最近在目标检测领域开始有了许多应用。多模态目标检测是利用多种感官信息(如视觉、听觉、触觉)进行目标识别和定位的技术，通过融合不同模态的信息，将不同模态的输入数据映射到一个共同的特征空间，实现信息的融合，提高了目标检测的准确性和鲁棒性，有着广泛的应用前景和良好的目标检测效果。

5、以glip为首的多模态目标检测模型，已经成为了当下多模态目标检测的新范式。但由于网球小目标本身存在的尺寸小、易发生形变、速度快的特性，在实际应用中单纯利用图像和文本多模态模型的网球检测效果做不到令人满意，仍然存在许多改进的空间。

技术实现思路

1、本发明针对现有技术的不足，提供了一种用于小目标检测的网络模型及应用。

2、第一方面，本发明提供了一种用于小目标检测的网络模型，该网络模型基于glip结构，将多模态的查询方式替换原本的文本的查询方式，并利用跨模态的多头注意力机制使得文本特征中包含视觉引导，文本特征能够感知视觉细节。

3、第二方面，本发明提供了一种小目标检测的网络模型在网球检测中的应用。

4、本发明的有益效果：

5、本发明提出的基于glip的结构采用了添加跨模态的多头注意力机制把文本特征和图像特征进行交互，将多模态的查询方式替换了原本的文本的查询方式。并且利用跨模态的多头注意力机制使得文本特征中包含了视觉引导，文本特征感知视觉细节，使网络提取特征更完整丰富，增加了特征的表现力。

6、同时模型提出了新的多模态深度融合模块deep_fusion，替换了原有的多模态融合fusion结构，增强了多模态特征的融合能力，添加了把浅层特征加到深层特征的分支，深层网络更多地保留了小目标特征信息，使网络能更好地学习到网球小目标的关键特征，关键特征信息得以保留到深层结构中，更适配于本发明所提出的对网球小目标的实施准确检测。

技术特征：

1.一种用于小目标检测的网络模型，该网络模型基于glip结构，其特征在于：将多模态的查询方式替换原本的文本的查询方式，并利用跨模态的多头注意力机制使得文本特征中包含视觉引导，文本特征能够感知视觉细节。

2.根据权利要求1所述的一种用于小目标检测的网络模型，其特征在于：将文本特征和图像特征通过跨模态的多头注意力机制进行交互，提取出的文本特征中包含了图像特征的引导。

3.根据权利要求1或2所述的一种用于小目标检测的网络模型，其特征在于：在网络模型的多模态融合模块中，添加把浅层特征加到深层特征的分支，进而形成多模态深度融合模块，使网络能更好地学习到小目标的关键特征，关键特征信息得以保留到深层结构中。

4.根据权利要求3所述的一种用于小目标检测的网络模型，其特征在于：将输入的图像特征记为v0，输入的文本特征记为t0；

5.根据权利要求4所述的一种用于小目标检测的网络模型，其特征在于：所述的第一短路分支和第二短路分支分别有四条，用于把浅层的小目标特征信息更好地加入到了深层网络中。

6.一种权利要求1至5中任一项所述的用于小目标检测的网络模型在网球检测中的应用。

7.根据权利要求6所述的应用，其特征在于：

技术总结
本发明公开了一种用于小目标检测的网络模型及应用。本发明中的网络模型基于GLIP结构，将多模态的查询方式替换了原本的文本的查询方式，并利用跨模态的多头注意力机制使得文本特征中包含视觉引导，文本特征能够感知视觉细节。本发明还提供了一种小目标检测的网络模型在网球检测中的应用。本发明提出的基于GLIP的结构采用了添加跨模态的多头注意力机制把文本特征和图像特征进行交互，将多模态的查询方式替换了原本的文本的查询方式；并且利用跨模态的多头注意力机制使得文本特征中包含了视觉引导，文本特征感知视觉细节，使网络提取特征更完整丰富，增加了特征的表现力。

技术研发人员：李笑岚,应铭
受保护的技术使用者：浙江工商大学
技术研发日：
技术公布日：2024/4/17

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李笑岚,应铭
技术所有人：浙江工商大学
我是此专利的发明人

上一篇：一种酒花投放的啤酒生产设备的制作方法
上一篇：一种用于人腺病毒检测的特异引物及快速检测方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。