一种实景地标识别方法与流程

文档序号:33713852发布日期:2023-04-01 02:51阅读:79来源:国知局
一种实景地标识别方法与流程

1.本发明属于地标识别技术领域,尤其涉及一种实景地标识别方法。


背景技术:

2.随着智能手机兴起,地标也作为城市的名片常常出现在网络中,也激发出了地标识别的需求。并根据识别结果获取地标附近的衣食住行信息,方便了人们的生活。
3.现有技术中,地标识别方法往往采用检索的方法进行,首先对已有地标图片进行整图特征提取,形成一个地标检索库,然后使用新的地标图片进行特征提取并从地标检索库中检索,提取其中靠前的结果进行判断,另外一种方法也类似于提取特征方式,并对特征进行分类,从而识别出相应地标。
4.现有的地标识别方法,如特征检索和特征分类,都是直接对整张图片进行提取特征,而地标所在图片区域的重要特征无法有效体现。同时,整图中包含了很多环境干扰信息,如天气变化,周围人车以及光线的变化,导致了提取的全局特征表述性不强,使得检出的地标结果准确率不高。


技术实现要素:

5.本发明实施例的目的在于提供一种实景地标识别方法,旨在解决上述背景技术中提出的问题。
6.本发明实施例是这样实现的,一方面,一种实景地标识别方法,所述方法包括以下步骤:
7.通过地标定位网络对地标区域进行定位,并提取出地标区域的区域特征;
8.通过整图特征网络提取地标的整图特征;
9.对所述区域特征和整图特征进行双特征判断,生成地标的识别结果。
10.作为本发明的进一步方案,所述通过定位网络对地标区域进行定位具体包括:
11.采用特征金字塔结构进行多尺度区域检索,输出为3个尺度的特征图,分别为19*19,38*38和76*76,其中,每个尺度中的一点包含:左上角和右下角坐标、地标的置信度以及各个地标的分类置信度,全部的数据维度使用n表,每一种尺度的输出特征均通过底层特征和高层特征进行拼接,使得每个特征图均包含低层基础信息和高层语义信息。
12.作为本发明的再进一步方案,3个尺度分别对应9个区域框,每个尺度对应3个区域框,该区域框通过kmeans算法计算而来。
13.作为本发明的又进一步方案,在通过地标定位网络对地标区域进行定位的训练中使用的回归方法,包含若干种损失函数,分别是坐标框中心点回归、坐标高宽回归、坐标框重合回归。
14.作为本发明的进一步方案,所述提取出地标区域的区域特征具体包括:
15.计算真实框和对应的多个预测框宽高比例和,然后计算出这些比例和他们倒数之间的最大值和,获取真实框和预测框在宽度和高度方向的最大差异;
16.计算宽度方向和高度方向最大差异之间的最大值。
17.作为本发明的进一步方案,所述方法还包括:对地标特征进行学习,采用了loss
cls
进行分类优化,采用loss
conf
进行了目标过滤的优化,loss
cls
和loss
conf
之和作为特征损失进行模型优化,其中,
[0018][0019][0020]
上式中,n表示地标类别数量,作为真实类别置信度,表示为1或者0;表示预测的类别置信度;y表示二分类中的真实类别置信度,表示预测的类别置信度。
[0021]
作为本发明的进一步方案,整图特征的提取网络和区域定位网络使用相同的主干网络,在训练时,整图特征网络和区域定位网络分别使用不同的训练数据,在训练的前期阶段,采用二阶段训练的方式进行网络更新,整图特征优化时采用冻结主干网络的方式进行优化;在训练的后期阶段,训练图片的批处理包含整图训练数据定位训练数据,并使用相同的归一化预处理方式,同时根据对应的训练数据进行损失计算并更新对应网络,而主干网络则会同时进行更新。
[0022]
作为本发明的进一步方案,,所述整图特征优化损失函数为:
[0023][0024]
其中,表示预测的类别置信度。
[0025]
本发明实施例提供的一种实景地标识别方法,通过基于深度神经网络识别实景地标的技术,并针对图片中的地标位置进行定位和局部特征分类,同时进行整图特征分类,并利用其中特有地标定位技术,精准提取图片的地标局部特征,有效减少无效特征干扰,提高地标识别的准确率;同时利用整图特征进行真实场景判断,可以有效地过滤掉非实景类的图片,让检索结果更加具有真实性。
附图说明
[0026]
图1是一种实景地标识别方法的主流程图。
[0027]
图2是一种实景地标识别方法中实景地标网络结构图。
[0028]
图3是一种实景地标识别方法中正样本匹配图。
具体实施方式
[0029]
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
[0030]
以下结合具体实施例对本发明的具体实现进行详细描述。
[0031]
本发明提供的一种实景地标识别方法,为了更加准确的识别真实地标场景,我们提出了一种全新的实景地标识别方法,fh-ldnet是一种基于深度神经网络识别实景地标的技术,并针对图片中的地标位置进行定位和局部特征分类,同时进行整图特征分类,并利用
其中特有地标定位技术,精准提取图片的地标局部特征,有效减少无效特征干扰,提高地标识别的准确率;同时利用整图特征进行真实场景判断,可以有效地过滤掉非实景类的图片,让检索结果更加具有真实性。
[0032]
在进行实景地标识别时,应用fh-ldnet进行实景地标识别,主要步骤如下图1所示:
[0033]
步骤a.收集预设数量的各类地标图片,并对图片中出现的地标进行标注,记录地标位置和地标类别以及是否实景。
[0034]
步骤b.选择合适的卷积网络进行前向传播,并利用loss
xy
、loss
wh
、loss
iou
、loss
cls
和loss
conf
进行反向传播,训练地标区域定位模型。训练结束以后,冻结主干网络,采用loss
real-cls
进行反向传播,训练实景地标识别网络。
[0035]
步骤c.分别从标注位置的数据和标注实景的数据中选取相同数量的图片,并对图片进行相同归一化操作,分别进行各自的数据增强操作,并把处理后的数据拼接为一个batch数据作为训练数据,同时根据对应的训练数据进行损失计算并更新全部网络,从而获得实景地标识别模型。
[0036]
执行步骤i到iii提取实景地标识别结果:
[0037]
步骤i.对地标图片进行地标定位和类型识别,进入步骤ii。
[0038]
步骤ii.使用实景识别网络,对地标图片进行识别,获得实景识别结果。
[0039]
步骤ii.判断地标定位后的识别类型和置信度,以及实景的置信度,两者均超过设定阈值则输出识别结果。
[0040]
下面结合详细的实施例上述步骤进行描述。
[0041]
我们首先通过地标定位网络对地标区域进行定位,并提取出地标的区域特征;然后再通过整图特征网络提取地标的整图特征;最后对区域特征和整图特征进行双特征判断,最终获取到地标识别的结果。
[0042]
实景地标识别网络:fh-ldnet
[0043]
fh-ldnet主要包含三个部分:地标区域定位、地标区域特征提取和整图特征提取,如图2所示;
[0044]
1)地标区域定位;
[0045]
地标区域定位采用特征金字塔结构进行多尺度区域检索,输出为3个尺度的特征图,分别为19*19,38*38,76*76。其中,每个尺度中的一点包含:左上角和右下角坐标、是否包含地标的置信度、各个地标的分类置信度,全部的数据维度使用n表示。每一种尺度的输出特征均通过底层特征和高层特征进行拼接,使得每个特征图均包含低层基础信息和高层语义信息,从而提供更加准确的位置信息。
[0046]
3个尺度分别对应9个区域框,每个尺度对应3个区域框,该区域框通过kmeans算法计算而来。最小的尺度19*19具有最大的感受野,并且使用了大的区域框,分别为:609*206,359*562,562*372。中等尺度38*38使用的区域框分别为:129*469,466*144,299*300。最大的尺度76*76对应了最小的感受野,使用的区域框分别为:62*241,134*113,313*108。
[0047]
为了获得更加准确的区域位置,本方法在训练中使用了更加丰富的回归方法,包含四种损失函数:
[0048]
坐标框中心点回归:
[0049][0050]
其中,β
xy
表示损失权重值,初始化为0.3;s表示尺度大小;b表示区域框数量,此处为3;表示第i个网格的第j个区域框是否负责这个地标框,如果负责则为1,否则为0。xi和yi表示训练图像中的地标的中心点坐标,和表示预测的地标中心点坐标。
[0051]
坐标高宽回归:
[0052][0053]
其中,β
wh
表示损失权重值,初始化为0.3;s表示尺度大小;b表示区域框数量,此处为3;表示第i个网格的第j个区域框是否负责这个地标框,如果负责则为1,否则为0。和表示训练图像中的地标框的宽和高,和表示预测的地标框的宽和高。
[0054]
坐标框重合回归:
[0055][0056][0057][0058]
其中,β
iou
表示损失权重值,初始化为0.4;s表示尺度大小;b表示区域框数量,此处为3;表示第i个网格的第j个区域框是否负责这个地标框,如果负责则为1,否则为0。和表示训练图像中的地标框的宽和高,和表示预测的地标框的宽和高。iou表示预测框和真实框的交并比,d
gt,prd
表示预测框和真实框的中心点的欧式距离,c
gt,prd
表示能够同时包含预测框和真实框的最小闭包区域的对角线距离。
[0059]
2)地标区域特征提取;
[0060]
地标区域特征提取和区域定位使用相同的网络结构,地标区域特征提取采用监督学习的方式进行,需要额外对地标类别进行标注,本方法采取分配更多正样本的方式进行关键特征提取。
[0061]
首先计算真实框和对应的多个预测框宽高比例rw和rh,然后计算出这些比例和他们倒数之间的最大值和此处获得真实框和预测框在宽度和高度方向的最大差异。然后,再计算宽度方向和高度方向最大差异之间的最大值r
max
,如下所示:
[0062][0063][0064]
[0065][0066][0067]
由于地标建筑的部分局部特征常常具有普遍性,因此对r
max
的阈值设置为2,保证重叠区域不低于1/4。即当真实框满足在某个预测框的宽高的1/2倍和2倍之间就算匹配成功,此时预测框中包含了大部分特征,可以作为正样本参与到模型训练当中,该匹配方式如下所示,符合如下条件均可作为正样本。如图3所示的正样本匹配图。
[0068]
地标区域特征损失函数;
[0069]
为了更好的学习到地标特征,本方法中采用了loss
cls
进行分类优化,采用loss
conf
进行了目标过滤的优化。loss
cls
和loss
conf
之和作为特征损失进行模型优化。
[0070][0071][0072]
其中,n表示地标类别数量,yi作为真实类别置信度,表示为1或者0;表示预测的类别置信度;y表示二分类中的真实类别置信度,表示预测的类别置信度。
[0073]
3)整图特征提取
[0074]
整图特征提取网络和区域定位网络使用相同的主干网络。在训练时,整图特征网络和区域定位网络分别使用不同的训练数据。在训练的前期阶段,采用二阶段训练的方式进行网络更新,整图特征优化时采用冻结主干网络的方式进行优化。在训练的后期阶段,以训练图片的批处理32为例,包含16张整图训练数据和16张区域定位训练数据,并使用相同的归一化预处理方式,同时根据对应的训练数据进行损失计算并更新对应网络,而主干网络则会同时进行更新。整图特征优化损失函数loss
real-cls
如下:
[0075][0076]
其中,表示预测的类别置信度.
[0077]
本发明上述实施例中提供了一种实景地标识别方法,通过基于深度神经网络识别实景地标的技术,并针对图片中的地标位置进行定位和局部特征分类,同时进行整图特征分类,并利用其中特有地标定位技术,精准提取图片的地标局部特征,有效减少无效特征干扰,提高地标识别的准确率;同时利用整图特征进行真实场景判断,可以有效地过滤掉非实景类的图片,让检索结果更加具有真实性。
[0078]
为了能够加载上述方法和系统能够顺利运行,该系统除了包括上述各种模块之外,还可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线、处理器和存储器等。
[0079]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0080]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保
护范围。因此,本发明专利的保护范围应以所附权利要求为准。
[0081]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1