一种基于深度学习的台标检测方法与流程

文档序号:12670909阅读:428来源:国知局
一种基于深度学习的台标检测方法与流程

本发明涉及一种基于深度学习的台标检测方法,尤其涉及一种数字视频信号处理和图像识别领域的方法。



背景技术:

随着大量视频信息涌入人们的现实生活,视频台标检测作为对视频来源分析的一个有效手段。通过视频的台标,可以相对容易的确定视频的发布者,通过节目中的标识又能定位到具体的节目。通过这些重要语义信息,可以提供精确的视频搜索。此外,通过检测视频节目中的台标可以去除广告片段(国外很多电视节目广告片段中不含有台标),提高观赏性。同时,在视频安全领域,视频台标检测技术可以有效的确定视频来源,为过滤固定电视台的节目提供了自动监测手段。

现有的台标检测方法有提取台标的全局特征(颜色特征、纹理特征和梯度特征)和局部特征(SURF特征),并通过SVM模型将这些特征融合,训练得到一个完整的台标检测模型。但是这种传统的算法处理速度慢、步骤繁多且检测准确度不高。



技术实现要素:

针对传统台标检测模型算法存在的不足,本发明一种基于深度学习的台标检测方法,提出一种通过对包含台标标志的图片进行缩放、裁剪、平移、加黑边等处理后,采用卷积、池化、全连接等技术手段对这些图片进行反复离线台标检测训练,并采用GPU来完成这一训练过程,在训练中不断调整参数使得训练收敛,从而获取最优参数配置并使用该参数集初始化台标检测系统进行视频图像的在线台标检测的基于深度学习的台标检测方法。在训练时对图像人为进行多种变换处理可有效提高检测结果的鲁棒性,同时采用深度卷积和池化处理手段有效提高检测的范化能力,加之采用GPU完成离线训练过程大大提高训练速度和效率,使得该方法相对传统检测方法更具高效、高速、简单和高精度的优势。

本发明解决其技术问题所采用的技术方案包括以下步骤:

训练图片输入步骤,向离线训练系统输入训练所需类型的图片。

优选的,所述所需类型的图片是指包含台标标志的图片。

图片变换处理步骤,对输入的图片按照特定方式进行变换处理生成新的图片。

优选的,所述特定方式包括对图片进行缩放、平移、加黑边和裁剪等,其目的是增强对台标图片识别能力的鲁棒性。

图片标注步骤,对图片的特定信息进行标注。

优选的,所述特定信息包括:台标的中心点坐标及台标的宽、高等及类别信息。

离线训练步骤,向离线训练系统输入特定图片进行检测训练直到训练收敛。

优选的,所述离线训练系统包括:图像缩放单元、单卷积及池化单元、多卷积及池化单元、多卷积单元和全连接层单元,所述训练使用GPU处理完成。

优选的,所述图像缩放单元负责将输入图像的大小缩放为448*448大小。

优选的,所述单卷积采用的卷积核包括:7*7、3*3和1*1三种,所述多卷积单元为多个卷积层形成的卷积单元,本离线训练系统使用了24个级联卷积层,单卷积和多卷积处理均为局部连接。

优选的,所述池化处理的作用是增强鲁棒性并减少参数输入、防止过拟合现象发生,其输入为上一次卷积产生的结果,且不需要参数输入。

优选的,所述全连接层共两个,为全网络连接,负责将本层每个节点和上层的所有节点建立连接以提高特征的范化能力,且第二个全连接层维度较第一个低,作用是降维。

优选的,所述离线训练步骤中,输入训练图片进行循环检测训练,结束条件为:在当前参数配置下,训练收敛,冻结此时使用的参数集,用于初始化在线台标检测模型。

在线检测步骤,利用离线训练系统生成的参数集初始化在线检测系统,并采用该系统对视频台标进行在线检测。

采用上述技术方案,本发明具有以下优点:

本发明涉及一种基于深度学习的台标检测方法,通过对包含台标标志的图片进行缩放、裁剪、平移、加黑边等处理后,采用卷积、池化、全连接等技术手段对这些图片进行反复离线台标检测训练,并使用GPU来完成这一训练过程,在训练中不断调整参数使得训练收敛,从而获取最优参数配置并使用该参数集初始化台标检测系统进行视频图像的在线台标检测。在训练时对图像人为进行多种变换处理可有效提高检测结果的鲁棒性,同时采用深度卷积和池化处理手段有效提高检测的范化能力,采用GPU完成离线训练过程大大提高训练速度和效率,使得该方法相对传统检测方法更具高效、高速、简单和高精度的优势。

附图说明

图1为本发明较佳实施方式的一种基于深度学习的台标检测方法的步骤示意图。

图2为本发明较佳实施方式的一种基于深度学习的台标检测方法的详细流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一个实施例,而不是全部实施例。基于本发明中的实施例,本领域的一般技术人员在没有做出创造性劳动的前提下所获得的其他实施例,都属于本发明保护的范围。

本发明实施例公开了一种基于深度学习的台标检测方法,参见图1所示,该方法包括:

步骤S1:训练图片输入。

步骤S2:对目标图片进行多种形式图像变换。

步骤S3:对台标位置参数进行标注处理。

步骤S4:利用训练模型进行离线训练获取台标检测模型初始化参数集。

步骤S5:应用指定参数集初始化台标检测模型在线检测视频图片台标。

本发明实施例中,通过对包含台标标志的图片进行缩放、裁剪、平移、加黑边等技术处理后,采用卷积、池化、全连接等技术手段对这些图片进行反复离线台标检测训练,并使用GPU来完成这一训练过程,在训练中不断调整参数使得训练收敛,从而获取最优参数配置并使用该参数集初始化台标检测系统进行视频图像的在线台标检测。

可见,本发明实施例中,在训练时对图像人为进行多种变换处理可有效提高检测结果的鲁棒性,同时采用深度卷积和池化处理手段有效提高检测的范化能力,采用GPU完成离线训练过程大大提高训练速度和效率,使得该方法相对传统检测方法更具高效、高速、简单和高精度的优势。

本发明实施例公开了一种基于深度学习的台标检测方法,参见图2,相对上一实施例,本实施例对技术方案作了进一步的说明和优化。具体的,本实施例中一种基于深度学习的台标检测方法包含以下步骤:

S1:训练图片输入。

优选的,通过所述步骤向离线训练系统输入带台标标识的图像。

S2:图片变换处理。

优选的,通过该步骤对步骤S1输入的所有图片进行缩放、平移、加黑边和裁剪等处理,形成新的图片输入步骤S3。

S3:图片标注。

优选的,获取图片的台标标识位置中心坐标、台标的宽、高和类别信息,并将这些信息输入步骤S4。

S4:离线训练。

优选的,该步骤的目的是利用步骤S3产生的图像为输入,利用GPU进行离线训练直到训练收敛产生最优检测参数集。

优选的,通过步骤S41将步骤S3输入的图片缩放至448*448大小,并根据S3输入的台标标识位置信息确定台标位置区域,然后执行步骤S42。

优选的,通过步骤S42对步骤S41处理形成的图片进行连续两次单卷积及池化处理,产生的输出流入步骤S43。

优选的,通过步骤S43对输入的图片进行连续三次多卷积和池化处理,并将处理结果输入到步骤S44。

优选的,步骤S44为对输入图像进行连续两次多卷积处理工作,将处理结果输入步骤S45。

优选的,所述步骤S42中,单卷积采用的卷积核包括7*7、3*3、1*1三种,通过采用不同的卷积核,可以有效提高检测鲁棒性和精度。

优选的,步骤S43、S44中多卷积是指多层单卷积形成的卷积单元,在步骤S4中使用了24个级联卷积层。

优选的,步骤S42、S43中的池化处理目的是提高检测的范化能力,从而防止过拟合现象以确保检测精度。

优选的,所述步骤S42、S43、S44的处理过程均为局部连接处理。

优选的,步骤S45对步骤S44产生的结果进行两次全连接处理,该处理过程为全局连接模式,将步骤S42、S43、S44处理后得到的结果进行系统归纳,得出检测结果输入步骤S46进行判定。

优选的,所述步骤S45中的全局连接是指本层的每个节点与上层所有节点建立连接以提高特征的范化能力,所述第二次全连接过程较第一次全连接过程维度要小,可以实现降维。

优选的,步骤S46对步骤S45输入的检测结果进行判定,训练收敛,则冻结此时的检测参数集并将其输入步骤S5进行在线台标标识检测;否则跳转执行步骤S41开始新一轮离线检测训练直到训练收敛结束离线训练过程。

S5:在线检测。

优选的,利用步骤S4训练得到的最优台标检测参数集对视频图像的台标标识进行实时在线检测。

优选的,通过执行步骤S51将步骤S4产生的最优检测参数集配置到台标标识检测模型,实现初始化过程。

优选的,通过执行步骤S52将视频图像信息实时传入所述检测模型。

优选的,通过执行步骤S53对步骤S52输入的图片进行实时台标标识检测并形成检测结果。

综上所述,通过执行步骤S1向台标标识离线检测系统输入包含台标标识信息的图片,并执行步骤S2对所述图片进行缩放、裁剪、平移、加黑边等处理生成新的图片,将这些图片注入步骤S3,步骤S3对图片的位置信息进行标注,所述位置信息包括台标位置中心点坐标信息、台标的宽和高以及类别信息,对经过标注后的图片执行步骤S4完利用GPU成一次或多次离线台标标识检测处理过程,具体地,首先执行步骤S41将输入图片缩放至448*448大小,然后执行步骤S42对缩放处理后的图片执行两次单卷积和池化处理,卷积为局部连接的处理过程,采用的卷积核包括7*7、3*3、1*1三种,对步骤S42处理结果执行步骤S43,完成连续三次多卷积和池化处理过程,该过程是局部连接的处理过程,其中多卷积为多层单卷积形成的卷基层,步骤S4共采用了24个级联卷积层进行处理,步骤S43处理的结果进一步输入给步骤S44完成两个多卷积层处理过程,该过程是局部连接的处理过程,处理结果输送至步骤S45执行连续两个全连接层处理过程,所述全连接是指将本层的每个节点跟上层的所有节点建立连接,以提高特征的范化能力,其中第二个全连接层为降维全连接,其执行维度较第一个要低,对于步骤S45产生的结果执行步骤S46,判断训练是否收敛,若收敛则冻结当前配置参数并传递个步骤S5,否则跳转执行步骤S41进行新一轮离线训练过程,通过不断调整参数直到步骤S45执行的训练收敛,通过执行步骤S5实现对视频图像的实时在线台标标识检测处理过程,具体的,通过执行步骤S51来利用步骤S4产生的最优检测参数集初始化在线台标检测模型,然后执行步骤S52,向该模型实时输入视频图像,最后执行步骤S53完成对所述图像的实时在线台标标识检测与识别处理过程。在离线训练时对图像人为进行缩放、裁剪、平移、加黑边等变换处理可有效提高检测结果的鲁棒性,同时采用深度卷积和池化处理手段有效提高检测的范化能力,采用GPU完成离线训练过程大大提高训练速度和效率,使得该方法相对传统检测方法更具高效、高速、简单和高精度的优势。

以上所述仅为举例性,而非为限制性。本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1