基于深度学习的远景镜头足球检测方法与流程

文档序号:37746693发布日期:2024-04-25 10:33阅读:4来源:国知局
基于深度学习的远景镜头足球检测方法与流程

本发明属于计算机视觉,具体涉及一种基于深度学习的远景镜头足球检测方法。


背景技术:

1、足球作为全球最为流行的体育赛事之一,有着极大的关注群体和商业价值。在足球运动中,足球的定位与跟踪是十分关键的技术,它既可以提供专业的体育分析,也可以用于丰富转播内容,提升观赛体验。同时,足球位置的检测和跟踪情况也会直接影响后续应用的开展和效果,例如控球检测,门线技术等等。随着目标检测技术的快速发展,中近景镜头的足球检测已经得到了良好的解决并在商业上越发成熟。与之相反的是,要从足球比赛的远景镜头中检测并跟踪足球并不是一件易事。在远景镜头中,观测目标(足球)于观察场景中的其他物体相比,其尺寸十分小,通常只占据8到20像素边长的正方形块,其纹理信息稀少;同时,由于透视投影,球的大小会随着球在场上的位置而快速变化;球的形态并不总是圆形,例如当球在高速运动时,其图像通常呈现椭圆形或是有着拖影;其外观可能与场上物体有着极高的相似程度,例如边线圆点或者球员的脚部。

2、针对这些问题,传统算法通常使用亮度特征、颜色对比特征来构建显著图,同时加以画面的纹理、方向、大小等信息找到近似足球物体,并通过后处理过滤结果得到足球位置,主要的工作流程集中在手工特征的提取、特征分类器的学习和后处理等方面。传统算法的精度差、效率低,对场内灯光、圆形地标等有着较高误检。而现有的基于神经网络的实时足球目标检测方法对于类似足球的微小物体检测能力不足,有着较高的误检率,同时由于其模型计算量大的特点,检测耗时较高,难以衔接下游任务。另有人工辅助的检测方法,通常用于赛事回放等场景,人力成本高昂,难以长时间运行。


技术实现思路

1、鉴于以上存在的问题,本发明提供一种基于深度学习的远景镜头足球检测方法。

2、为解决上述技术问题,本发明采用如下的技术方案:

3、一种基于深度学习的远景镜头足球检测方法,包括以下步骤:

4、进行数据预处理,包括:对比赛视频进行间隔采样,得到多帧图像,随后通过人工筛选的方式得到多帧远景镜头图像;对得到的数据进行人工标注,同时进行数据清洗和数据增强,得到图像和标注文件的数据对准备训练;

5、进行模型训练,包括:根据输入的图像信息,经多层下采样得到不同大小的特征图,通过特征增强模块增强对小目标物体的检测能力,随后在传统特征金字塔结构上通过注意力机制计算相邻层级特征图的融合权重,使得小目标信息可以有效的在层间流动,最后得到的特征图经过并行的分类检测头和位置回归检测头确定图像位置,通过和标注信息计算损失函数,不断迭代进行端到端训练,最终得到远景镜头足球检测模型网络;

6、进行模型推理,在完成网络训练后,将视频流输入网络进行推理运算检测足球位置。

7、一种可能的实施方式中,进行模型训练包括:将数据预处理得到的训练数据图片经下采样层进行卷积操作,其得到的输出分辨率为原始尺寸的1/4;将下采样层得到的特征图依次输入第一特征提取层、第二特征提取层和第三特征提取层,经过每个特征提取层,其输出分辨率减少为输入尺寸的1/2,则第一特征提取层、第二特征提取层和第三特征特征提取层得到的分辨率分别为原图的1/8、1/16、1/32;由p1、p2、p3分别代指第一特征特征提取层、第二特征特征提取层和第三特征特征提取层输出的特征图,在特征提取完成后,各特征图分别经过对应的第一特征增强模块、第二特征增强模块和第三特征增强模块,提升网络感受野和对小目标物体的检测能力,得到增强后的特征图,随后,将和送入第一加权融合模块,在第一加权融合模块中,首先被上采样至相同尺寸,随后基于注意力机制计算的融合因子将用于控制不同特征图之间融合的权重,二者形成的特征图f1将和一同被送入第二加权融合模块,f2将被上采样至相同尺寸,并经基于注意力机制计算加权融合形成特征图f2,f2将被用于检测足球位置。

8、一种可能的实施方式中,进行模型训练包括:特征增强模块包括残差连接结构和三条并行支路,首先,输入的特征图首先经过1×1的卷积操作进行初步处理并调整通道数,其中三条支路则分别由不同卷积操作级联组成,使用1×3和3×1的卷积操作提取小目标的细节尺寸,其中两条支路中级联的3×3-5则代表扩张率为5的3×3空洞卷积,用于扩大感受野,增加上下文信息和语义特征;三条支路的特征使用拼接操作形成新的特征后,残差连接结构相加得到特征图,得到的特征图显著增加了小目标特征并且融入了更多上下文信息,其过程表示为:

9、x=add(concat(y1(x),y2(x),y3(x)),conv1×1(x))

10、y1(x)=conv3×3([conv1×1(x)])

11、y2(x)=dconv3×3-5{conv1×3{conv3×1([conv1×1(x)])}}

12、y3(x)=dconv3×3-5{conv3×1{conv1×3([conv1×1(x)])}}

13、其中,add表示按位相加,concat则表示拼接操作,conv以及其下标则表示不同卷积核的卷积操作,dconv及其下标表示不同扩张率的空洞卷积。

14、一种可能的实施方式中,进行模型训练包括:加权融合模块包括上采样,融合因子计算和加权融合操作,首先使用双线性差值方法将深层特征上采样至浅层特征图大小,随后将深层特征和浅层特征分别送入并行的空间注意力模块和通道注意力模块,空间注意力模块中,两层信息分别进行全局平均池化和全局最大池化,通过卷积操作后分别得到两个二维特征图,随后将两个二维特征图相减得到一个二维特征图,随后经过sigmoid函数归一化后得到空间注意力图表述如下:

15、as(p,p′)=σ(conv5×5(maxpool(p),avgpool(p))-conv5×5(maxpool(p′),avgpool(p′)))

16、其中p,p′分别代表浅层特征和上采样后的深层特征,σ表示sigmoid函数,maxpool和avgpool则表示全局最大池化和全局平均池化;

17、将空间注意力图和通道注意力向量点乘即可得到融合因子,在加权融合操作中,根据融合因子进行深层特征和浅层特征的加权相加操作,记·为矩阵点乘运算,表述如下:

18、

19、在经过第一加权融合模块和第二加权融合模块后,得到的特征图即被用于检测足球位置,采用无锚框的检测方式,使用并行的两路级联全卷积结构分别回归检测框位置和目标类别,分类分支所使用的的损失函数为bce loss,回归分支所使用的损失函数为ciouloss,具体公式如下:

20、

21、

22、

23、

24、其中上标表示预测值,iou即为交并比,a和b分别表示预测框和真值框,β为权重,c代表的是能够同时包含预测框和真实框的最小闭包区域的对角线距离;y,b,w,h分别表示类别标签,检测框中心点,检测框的宽和高;ρ2表示欧式距离;v代表长宽比的相似性。

25、一种可能的实施方式中,进行模型推理具体包括:将视频流输入网络,对图像进行检测,依据对检测速度的要求,选择是否开启加速模式,如若不开启加速模式,则对全图进行足球检测,根据是否检出足球选择输出足球位置或者报出本帧未检出;若开启加速模式,将根据前若干帧的数据计算可能的检测范围,若前序检测缺少,则需要进行全图检测确认足球的位置;若有充足的前序数据,系统将根据前序若干帧的数据计算可能的检测范围,截取范围内图像用于足球检测,同时记录图像坐标用于恢复原始坐标,根据是否检出足球选择坐标换算后输出足球位置还是报出本帧未检出。

26、采用本发明具有如下的有益效果:针对于足球赛事中的远景镜头,可以实时检测足球位置并持续跟踪的基于深度学习的远景镜头足球检测与跟踪。使用该技术方案可以实时的、高质量的检测远景镜头中的足球位置,其结果可以用于下游任务如轨迹显示、赛事分析。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1