图像分类识别方法、识别装置以及存储介质

文档序号:31759271发布日期:2022-10-12 02:29阅读:70来源:国知局
图像分类识别方法、识别装置以及存储介质
sinθ;sinθ,cosθ)
t
是旋转矩阵,用来控制对旋转角度的切换,n为正整数。
12.其中,采用以下公式对目标检测区域进行下采样:
[0013][0014]
其中,f为第一特征图对应的特征函数,w(k)表示使用的卷积核上每个位置的权重,k表示卷积计算的位置范围,k的取值控制对像素点的遍历过程。
[0015]
其中,在多个候选特征区域中,确定与目标检测区域的边界相匹配的旋转特征区域,包括:构建每一候选特征区域对应多个角度通道的得分图;确定每一得分图所对应的响应值;根据每个候选特征区域的得分图和响应值,确定与目标检测区域的边界相匹配的旋转特征区域。
[0016]
其中,构建每一候选特征区域对应多个角度通道的得分图,包括:将每一候选特征区域划分为d2个子块区域;其中,d为正整数;分别对每个子块区域进行池化操作;将d2个子块区域池化操作后的结果拼接构成候选特征区域的对应一角度通道的得分图。
[0017]
其中,采用以下公式对子块区域进行池化操作:
[0018][0019]
其中,表示在角度通道cn上第(i,j)个子块区域b
i,j
中的池化输出,表示n
×
k2个得分图中的其中一个,w为学习参数,p是子块区域b
i,
中的像素数,(u,v)是特征点p
i,
的全局坐标。
[0020]
其中,特征点p
i,j
的全局坐标(u,v)可用以下公式定义:
[0021][0022]
其中(u

,v

)表示特征点p
i,j
的局部坐标,(u0,v0)表示对齐特征区域的左上角点坐标,当(u,v)∈b
i,j
时,其范围由以下公式限定:
[0023][0024][0025]
其中w,h分别为常规卷积区域的长和宽。
[0026]
其中,采用以下公式将子块区域池化操作后的结果拼接构成候选特征区域的得分图:
[0027][0028]
采用以下公式计算角度通道的响应值:
[0029]
[0030]
其中,根据每个候选特征区域的得分图和响应值,确定与目标检测区域的边界相匹配的旋转特征区域,包括:采用以下公式获得第三特征图:
[0031][0032]
其中fa为所选择的与目标检测区域的边界最匹配的旋转特征区域,f
om
为取得乘积最大值的角度通道cn上的区域特征。
[0033]
为解决上述技术问题,本技术采用的另一个技术方案是:提供一种图像分类识别装置,该图像分类识别装置包括处理器和存储器,存储器存储有程序数据,处理器用于执行程序数据以实现如上述的图像分类识别方法。
[0034]
为解决上述技术问题,本技术采用的另一个技术方案是:提供一种计算机可读存储介质,该计算机可读存储介质存储有程序数据,程序数据在被执行时,用于实现上述的图像分类识别方法。
[0035]
本技术的有益效果是:区别于现有技术的情况,本发明提供图像分类识别方法应用于图像分类识别装置,图像分类识别装置根据对待识别图像进行特征提取,得到第一特征图;基于第一特征图进行下采样操作,得到第二特征图;对第二特征图进行旋转,以使特征区域的边界与目标检测区域的边界相匹配,得到第三特征图;再进一步利用第三特征图,得到待识别图像的分类识别结果。通过上述方式,与常规卷积操作的处理区域相比,本技术基于角度通道切换的方法让原有卷积处理区域通过角度旋转与目标检测区域相贴合,并通过构建特征得分图以获得与目标区域最匹配的特征区域,解决了常规卷积所得特征区域和目标检测区域严重不对齐的问题,以更高效的进行图像的分类识别。
附图说明
[0036]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
[0037]
图1是本技术提供的图像分类识别的方法一实施例的流程示意图;
[0038]
图2是常规卷积中的旋转特征不对齐(左图)和旋转特征对齐效果(右图)的示意图;
[0039]
图3是本技术提供的图像分类识别的方法步骤13一实施例的流程示意图;
[0040]
图4是本技术提供的图像分类识别的方法步骤132一实施例的流程示意图;
[0041]
图5是本技术提供的图像分类识别的方法中基于角度通道切换的旋转特征对齐模块的示意图;
[0042]
图6是是本技术提供的图像分类识别的方法步骤133一实施例的流程示意图;
[0043]
图7是本技术提供的图像分类识别的方法步骤1331一实施例的流程示意图;
[0044]
图8是本技术提供的图像分类识别的方法中特征得分图构建过程示意图;
[0045]
图9为本技术提供的图像分类识别模型的结构示意图;
[0046]
图10是本技术提供的图像分类识别装置一实施例的结构示意图;
[0047]
图11是本技术提供的计算机可读存储介质一实施例的结构示意图。
具体实施方式
[0048]
下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术的一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0049]
参阅图1,图1是本技术提供的图像分类识别的方法一实施例的流程示意图,该方法包括:
[0050]
步骤11:对待识别图像进行特征提取,得到第一特征图。
[0051]
其中,所述待识别图像包括目标检测区域。
[0052]
可选地,该待识别图像为摄像头拍摄得到的图像,在港口船只监测的实施例中,该待识别图像可以为无人机上的摄像头拍摄得到的图像。
[0053]
具体地,该待识别图像经过目标检测,且目标检测结果包含对应的目标检测区域(或目标检测框),该目标检测区域一般为矩形,该矩形一般是待检测目标的外接矩形,以大致表示待检测目标的位置、方向、大小等情况。以船只为例,船只在港口的停泊的位置多种多样,因此形成的目标检测区域的矩形也具有不同的形状。在本实施例中,可以定义该矩形的长边与图像x轴之间的夹角为目标检测区域的旋转角度。
[0054]
具体地,特征提取是使用计算机提取图像信息,如亮度、边缘、纹理和色彩等数据,以实现图像的分类。在本实施例中,主要是对待识别的图像特征进行提取,以获取需要检测的目标区域。以航拍船只图为例,提取航拍图中的具体数据以对图像中的物体进行分类获得船只所在区域。
[0055]
步骤12:对所第一特征图进行下采样操作,得到第二特征图。
[0056]
其中,所述第二特征图包括特征区域。
[0057]
具体地,下采样是指缩小图像的处理。通过下采样可以使得图像符合显示区域的大小,生成对应图像的缩略图。
[0058]
在一实施例中,以使用3x3的卷积核:
[0059]
k={(-1,-1),(0,-1),...,(0,1),(1,1)}
[0060]
为例对输入的特征图进行下采样,输出缩小后的特征图。
[0061]
可选地,在一实施例中,采用以下公式对目标检测区域进行下采样:
[0062][0063]
其中,f为第一特征图对应的特征函数,w(k)表示使用的卷积核上每个位置的权重,k表示卷积计算的位置范围,k的取值控制对像素点的遍历过程。
[0064]
步骤13:对第二特征图进行旋转,以使特征区域的边界与目标检测区域的边界相匹配,得到第三特征图。
[0065]
其中,第三特征图是与目标检测区域的边界最匹配的特征区域。
[0066]
具体地,传统的卷积核形状为正方形,且在操作时只会进行水平和垂直的平移,通常无法完美的与目标检测区域边界相匹配。如图2所示,左图中a框为根据特征提取范围提取到的卷积特征区域,b框为目标物体实际区域,可见两者间明显存在特征不对齐问题,因此需要通过对特征区域卷积后的区域进行旋转以实现特征区域与目标实际区域对齐,实现
效果如图2中右图所示。
[0067]
可选地,在一实施例中,如图3所示,图3是步骤13一实施例的流程示意图,该步骤13可以具体包括:
[0068]
步骤131:确定第二特征图中的目标特征区域。
[0069]
其中,目标特征区域为经过下采样后符合目标检测区域的大小的特征图。例如,第二特征图的尺寸为3*3,那么该目标特征区域可以是9个矩形(或正方形)区域中的任意一个,进一步,也可以采用遍历的方式依次确定第二特征图中的每一个特征区域,依次基于每一个特征区域进行后续的步骤。
[0070]
步骤132:基于设定的多个旋转角度,分别对目标特征区域进行旋转,以分别得到对应的多个候选特征区域。
[0071]
具体地,旋转是通过角度分类的方法,按照角度通道进行划分后的结果对原始特征边框旋转。其中旋转的角度值在既定角度通道中进行循环切换。
[0072]
可以理解地,设定的多个旋转角度(角度通道)的数量,决定了后续确定的旋转后的特征区域的边界与目标检测区域的边界的匹配度,因此,可以设置尽可能多的角度通道。
[0073]
可选地,在一实施例中,如图4所示,图4是步骤132一实施例的流程示意图,该步骤132可以具体包括:
[0074]
步骤1321:确定多个角度通道,每一角度通道对应一角度区间。
[0075]
可选地,在一实施例中,可以将1
°
~90
°
划分为10个角度通道,依角度大小可以依次包括:1
°
~10
°
、11
°
~20
°
、21
°
~30
°……
81
°
~90
°

[0076]
可以理解地,旋转的中心点可以确定为特征区域的矩形中心,即矩形两个对角线的交点,该特征区域以该中心进行旋转,每个角度通道对应一个10
°
的扇形区域,该扇形区域具有边界。
[0077]
当然,上述仅仅为举例,在其他实施例中,也可以决定基于360
°
的多个角度通道。
[0078]
步骤1322:基于多个角度通道,分别对目标特征区域进行旋转,以分别得到对应的多个候选特征区域。
[0079]
步骤1323:对于每一候选特征区域,利用对应的角度通道的边界,对候选特征区域进行像素插值处理。
[0080]
具体地,插值计算是在离散数据的基础上补插连续函数,使得这条连续曲线通过全部给定的离散数据点,作用是填充图像变换时像素之间的空隙。由于角度通道是区间,无法精确计算,角度分类处理会导致特征区域计算产生误差,所以需要通过对区域进行插值处理以解决特征区域旋转后的像素点偏移。
[0081]
可选地,在一实施例中,采用以下公式对输入的目标特征区域进行旋转:
[0082]fon
=int(sa(y(p)
·rt
(θ),cn),θ),n=0,1,....,n-1;
[0083]
其中,cn表示第n个角度通道,f
on
表示在角度通道cn下的候选特征区域,int表示插值函数,sa表示角度通道切换函数,y(p)表示第二特征图对应的特征函数,r(θ)=(cosθ,-sinθ;sinθ,cosθ)
t
是旋转矩阵,用来控制对旋转角度的切换,n为正整数。
[0084]
具体地,如图5所示,对于输入的候选特征区域,按划分的角度通道,选择其角度区间的边界对其区域进行像素的插值计算以实现特征区域的旋转。
[0085]
步骤133:在多个候选特征区域中,确定与所述目标检测区域的边界相匹配的旋转
特征区域。
[0086]
本步骤的目的就是在于在多个候选特征区域中,确定最终需要的一个特征区域。
[0087]
具体地,可以通过一定的方法对多个候选特征区域进行评估。例如,可以计算每一个候选特征区域与原始待检测图像的相似度,或者计算每一个候选特征区域的边界与原始待检测图像的目标区域的重合度等等方式。下面介绍一种对多个候选特征区域进行评分的方式:
[0088]
可选地,在一实施例中,如图6所示,图6是步骤133一实施例的流程示意图,该步骤133可以具体包括:
[0089]
步骤1331:构建每一候选特征区域对应多个角度通道的得分图。
[0090]
可选地,在一实施例中,如图7所示,图7是步骤1331一实施例的流程示意图,该步骤1331可以具体包括:
[0091]
步骤13311:将每一候选特征区域划分为d2个子块区域。
[0092]
步骤13312:分别对每个子块区域进行池化操作。
[0093]
具体地,池化是指将平面内某未知及其相邻位置的特征值进行统计汇总,并将汇总后的结果作为这一位置在该平面的值。
[0094]
具体地,如图8所示,以d=3为例,对每个角度通道所对应的特征区域划分为3
×
3个子块区域,计算每个子块区域的得分以构建得分图。
[0095]
可选地,在一实施例中,采用以下公式对子块区域进行池化操作:
[0096][0097]
其中,表示在角度通道cn上第(i,j)个子块区域b
i,j
中的池化输出,表示n
×
d2个得分图中的其中一个,w为学习参数,p是子块区域b
i,j
中的像素数,(u,v)是特征点p
i,j
的全局坐标。
[0098]
具体地,特征点p
i,j
的全局坐标(u,v)可用以下公式定义:
[0099][0100]
其中(u

,v

)表示特征点p
i,j
的局部坐标,(u0,v0)表示对齐特征区域的左上角点坐标,当(u,v)∈bi,j时,其范围由以下公式限定:
[0101][0102][0103]
其中w,h分别为常规卷积区域的长和宽。
[0104]
步骤13313:将d2个子块区域池化操作后的结果拼接构成候选特征区域的对应一角度通道的得分图。
[0105]
可选地,在一实施例中,采用以下公式将子块区域池化操作后的结果拼接构成候
选特征区域的得分图:
[0106][0107]
步骤1332:确定每一得分图所对应的响应值。
[0108]
具体地,响应值是指每个子块区域与目标检测区域边界的匹配程度。
[0109]
可选地,在一实施例中,采用以下公式确定每一得分图所对应的响应值:
[0110][0111]
步骤1333:根据每个候选特征区域的得分图和响应值,确定与目标检测区域的边界相匹配的旋转特征区域。
[0112]
步骤134:基于第二特征图中,多个目标特征区域分别对应的多个旋转特征区域,确定第三特征图。
[0113]
可选地,在一实施例中,采用以下公式获得第三特征图:
[0114][0115]
其中fa为所选择的与所述目标检测区域的边界最匹配的旋转特征区域,f
om
为取得乘积最大值的角度通道cn上的区域特征。
[0116]
步骤14:根据第三特征图,得到待识别图像的分类识别结果。
[0117]
其中,可以基于第三特征图进行图像中目标物体的角度和坐标的预测,从而对目标物体进行分类。
[0118]
具体地,分类的结果可以为船只的种类,例如货运船、工程船、渔业船、军用船、民用船等。
[0119]
具体地,损失函数是用于度量神经网络的输出的预测值与实际值之间的差距的一种方式。其中,使用交叉熵损失函数作为分类损失函数,以便更准确地得到目标物体的类别信息。熵是表示随机变量是某种可能情况的不确定性。交叉熵损失函数是用来评估两个样本分布之间的距离。
[0120]
可以理解地,我们使用交叉熵来评估当前训练得到的目标类别概率分布与真实类比分布的差异情况,也就是使用交叉熵损失函数刻画实际输出(概率)与期望输出(概率)的距离,即交叉熵的值越小,两个概率分布就越接近。
[0121]
具体地,在目标检测的锚框的设计上,采用自适应锚框计算方法,即在每次训练时,会自适应计算不同数据集中的最佳锚框值,从而提高预设锚框质量。
[0122]
具体地,目标的边界框损失函数使用ciou_loss,该函数能够同时考虑边界框不重合问题、边界框中心点距离信息和边界框的长宽比尺度信息。
[0123]
具体地,在目标框的筛选过程中,使用加权nms方法,从而输出最终的预测框信息。加权nms是在进行矩形框剔除的过程中,根据网络预测的置信度进行加权,得到新的矩形框,把该矩形框作为最终预测的矩形框,再将那些框剔除。
[0124]
区别于现有技术,本实施例提供的图像分类识别方法应用于图像分类识别装置,图像分类识别装置根据对待识别图像进行特征提取,得到第一特征图;基于第一特征图进行下采样操作,得到第二特征图;对第二特征图进行旋转,以使特征区域的边界与目标检测
区域的边界相匹配,得到第三特征图;再进一步利用第三特征图,得到待识别图像的分类识别结果。通过上述方式,与常规卷积操作的处理区域相比,本技术基于角度通道切换的方法让原有卷积处理区域通过角度旋转与目标检测区域相贴合,并通过构建特征得分图以获得与目标区域最匹配的特征区域,解决了常规卷积所得特征区域和目标检测区域严重不对齐的问题,以更高效的进行图像的分类识别。
[0125]
上述实施例的方法,可以利用一网络模型来实现,
[0126]
下面结合图9,图9为本技术提供的图像分类识别模型的结构示意图,该图像分类识别模型90可以包括特征提取模块91、旋转特征对齐模块92、全连接模块93和预测结果模块94。
[0127]
其中,特征提取模块91用于对待识别图像进行特征提取,得到第一特征图,所述待识别图像包括目标检测区域;进一步,对所述第一特征图进行下采样操作,得到第二特征图,所述第二特征图包括特征区域;旋转特征对齐模块92用于对所述第二特征图进行旋转,以使所述特征区域的边界与所述目标检测区域的边界相匹配,得到第三特征图;全连接模块93用于对第三特征图进行全连接操作,预测结果模块94根据所述第三特征图,得到所述待识别图像的分类识别结果。
[0128]
可选地,该旋转特征对齐模块92可以具体包括切换角度通道模块921、角度插值模块922和特征得分图模块923,其中,切换角度通道模块921用于设定多个角度通道,并让特征区域基于所述角度通道的角度范围进行旋转;角度插值模块922用于对所述旋转所得的特征区域基于所述角度通道的边界进行插值处理;特征得分图模块923用于在多个候选特征区域中,通过构建特征得分图的方法对所述候选特征区域进行评分以确定最终需要的特征区域。
[0129]
具体地,针对上层网络传递而来的初始目标图像,首先确定目标所在的区域的特征区域,然后通过角度分类计算特征区域的偏移,其中角度值在既定角度通道中进行循环切换。角度分类处理会导致特征区域的计算产生误差,因此要以每个角度区间的边界对其对应旋转后的特征区域进行插值处理。在得到对应不同角度通道的旋转对齐特征后,针对每个通道对齐特征,构建位置敏感的得分图,其中对得分图使用分块处理简化计算,并计算对应角度通道的响应值。对于每个角度通道,计算累计得分值和响应值,并将两者乘积值作为角度通道选择的依据,该值最大的角度通道即为选定的与目标区域最匹配的特征区域所在的通道。将该通道对应的得分图进行全连接操作,插入已有目标检测模型中,优化旋转特征的提取,有助于减小角度分类处理的误差,并且可以提高分类效果。
[0130]
可以理解地,本实施例的具体实施步骤和实施原理可以参阅上述图1的实施例,这里不再赘述。
[0131]
参阅图10,图10是本技术提供的图像分类识别装置一实施例的结构示意图,该图像分类识别装置100包括存储器101和处理器102,存储器101用于存储程序数据,处理器102用于执行程序数据以实现如下的方法:
[0132]
根据对待识别图像进行特征提取,得到第一特征图;基于第一特征图进行下采样操作,得到第二特征图;对第二特征图进行旋转,以使特征区域的边界与目标检测区域的边界相匹配,得到第三特征图;再进一步利用第三特征图,得到待识别图像的分类识别结果。
[0133]
参阅图11,图11是本技术提供的计算机可读存储介质一实施例的结构示意图,该
计算机可读存储介质110存储有程序数据111,程序数据111在被处理器执行时,用于实现如下的方法:
[0134]
根据对待识别图像进行特征提取,得到第一特征图;基于第一特征图进行下采样操作,得到第二特征图;对第二特征图进行旋转,以使特征区域的边界与目标检测区域的边界相匹配,得到第三特征图;再进一步利用第三特征图,得到待识别图像的分类识别结果。
[0135]
本技术的实施例以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0136]
以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1