数字图像的识别方法、装置、电子设备及可读存储介质与流程

文档序号:33192240发布日期:2023-02-04 09:02阅读:42来源:国知局
数字图像的识别方法、装置、电子设备及可读存储介质与流程

1.本技术涉及计算机技术领域,具体而言,本技术涉及一种数字图像的识别方法、装置、电子设备及可读存储介质。


背景技术:

2.人类正在进入信息时代,计算机将越来越广泛地进入几乎所有领域。而计算机视觉就是用各种成像系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。计算机视觉的最终研究目标是使计算机能象人那样通过视觉观察和理解世界,具有自主适应环境的能力,这样才就能实现使计算机替代人类做更多的工作。
3.其中,数显表识别是计算机视觉领域的常见任务,本质可以理解为对数字图像的识别,现有技术中,面对复杂的数字表盘结构以及多样的数字字符时,使得识别的准确性不够高,难以满足实际应用需求。


技术实现要素:

4.本技术实施例的目的旨在能解决识别数字字符的准确性不够高的问题。
5.本技术实施例提供了一种数字图像的识别方法,该方法包括:
6.获取待识别图像,确定待识别图像的图像类型;
7.确定待识别图像的多个第一特征点,并获取各个第一特征点对应的描述符;其中,所述第一特征点为所述待识别图像中的关键点;
8.确定预设的特征库中与待识别图像的图像类型对应的多个第二特征点的描述符,将多个第一特征点的描述符与多个第二特征点的描述符进行匹配,将匹配成功的第一特征点作为目标特征点;
9.基于目标特征点从待识别图像中确定出数字字符图像;基于训练好的数字图像识别模型识别数字字符图像中的数字信息。
10.在第一方面的可选实施例中,方法还包括:
11.获取各个图像类型分别对应的至少一个模板图像;
12.基于特征点检测算法确定各个模板图像的第二特征点,并获取各个第二特征点对应的描述符;
13.基于各个图像类型分别对应的模板图像、各个模板图像的第二特征点和各个第二特征点对应的描述符建立特征库。
14.在第一方面的可选实施例中,方法还包括:
15.确定各个模板图像对应的图形的角点坐标,并提取各个模板图像的第二图像特征;基于各个模板图像、各个模板图像的角点坐标和第二图像特征建立模板库;
16.基于第一图像特征确定待识别图像的图像类型,包括:
17.计算第一图像特征与模板库中的各个第二图像特征之间的相似度;
18.基于计算得到的相似度从模板库中确定与待识别图像最相似的目标模板图像,将
目标模板图像对应的图像类型作为所述待识别图像的图像类型。
19.在第一方面的可选实施例中,将多个第一特征点的描述符与多个第二特征点的描述符进行匹配,将匹配成功的第一特征点作为目标特征点,包括:
20.将多个第一特征点的描述符与多个第二特征点的描述符进行匹配,确定各个第二特征点匹配的第一特征点;
21.针对每个第二特征点,计算第二特征点的描述符与相匹配的至少一个第一特征点的描述符之间的相似度,并将小于预设阈值的相似度对应的第一特征点作为候选特征点,从候选特征点中确定出与第二特征点距离最小的目标特征点。
22.在第一方面的可选实施例中,基于目标特征点从待识别图像中确定出数字字符图像,包括:
23.从模板库中获取待识别图像对应的目标模板图像的角点坐标;待识别图像的图像类型对应的多个第二特征点为待识别图像对应的目标模板图像的特征点;
24.获取第二特征点与目标特征点之间的变换关系;
25.基于所变换关系和目标模板图像的角点坐标获取待识别图像的角点坐标;
26.基于待识别图像的角点坐标从待识别图像中确定出数字字符图像。
27.在第一方面的可选实施例中,基于待识别图像的角点坐标从待识别图像中确定出数字字符图像,包括:
28.根据待识别图像的对应的图形的角点坐标,从待识别图像中裁剪出数字区域图像;
29.通过透视变换操作对数字区域图像进行矫正,得到矫正后的数字区域图像;
30.对矫正后的数字区域图像进行预处理,通过垂直投影方法从预处理后的数字区域图像分割出数字字符图像。
31.在第一方面的可选实施例中,基于训练好的数字图像识别模型识别数字字符图像中的数字信息,包括:
32.将数字字符图像输入数字图像识别模型,得到数字识别结果,数字识别结果包括数字字符图像中的数字信息。
33.第二方面,提供了一种数字图像的识别装置,该装置包括:
34.类型确定模块,用于获取待识别图像,确定待识别图像的图像类型;
35.特征点检测模块,用于确定待识别图像的多个第一特征点,并获取各个第一特征点对应的描述符;
36.特征点匹配模块,用于确定预设的特征库中与待识别图像的图像类型对应的多个第二特征点的描述符,将多个第一特征点的描述符与多个第二特征点的描述符进行匹配,将匹配成功的第一特征点作为目标特征点;其中,所述第一特征点为所述待识别图像中的关键点;
37.数字识别模块,用于基于目标特征点从待识别图像中确定出数字字符图像;基于训练好的数字图像识别模型识别数字字符图像中的数字信息。
38.第三方面,提供了一种电子设备,该电子设备包括:
39.存储器、处理器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现上述任一实施例的数字图像的识别方法。
40.第四方面,提供了一种可读存储介质,可读存储介质上存储有程序,该程序被处理器执行时实现上述任一实施例的数字图像的识别方法。
41.上述的数字图像的识别方法,包括:确定待识别图像的图像类型,然后确定待识别图像的第一特征点,并获取各个第一特征点对应的描述符。在特征库中确定出与待识别图像的图像类型对应的第二特征点的描述符,通过将第一特征点的描述符与第二特征点的描述符进行匹配,确定出目标特征点,并基于目标特征点从待识别图像中确定出数字字符图像,最后通过数字图像识别模型识别数字字符图像中的数字信息,实现了基于待识别图像特征点快速准确地定位数字区域,提高了数字字符识别的准确度。
附图说明
42.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
43.图1a为本技术实施例提供的一种数字图像的识别方法的应用环境图;
44.图1b为本技术实施例提供的一种数字图像的识别方法的流程示意图;
45.图2a为本技术实施例提供的一种数字图像的识别方法的流程示意图;
46.图2b为本技术实施例提供的一种数字图像的识别方法中标注四角点坐标的示意图;
47.图2c为本技术实施例提供的一种数字图像的识别方法中矫正后的数字区域图像的示意图;
48.图2d为本技术实施例提供的一种数字图像的识别方法中数字字符分割结果的示意图;
49.图2e为本技术实施例提供的一种数字图像的识别方法中数字字符识别结果的示意图;
50.图3为本技术实施例提供的一种数字图像的识别装置的结构示意图;
51.图4为本技术实施例提供的一种数字图像的识别的电子设备的结构示意图。
具体实施方式
52.下面结合本技术中的附图描述本技术的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本技术实施例的技术方案的示例性描述,对本技术实施例的技术方案不构成限制。
53.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“a和/或b”可以实现为“a”,或者实现为“b”,或者实现为“a和b”。
54.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
55.首先对本技术涉及的几个名词进行介绍和解释:
56.数显表是数字式显示仪表的简称,因其视觉直观、设置便捷及智能化控制程度高等特性,加之随着当前传感技术的高速发展,数字式显示仪表的功能不断强大及精度不断地提高,数字式显示仪表正在大量代替传统的机械仪表,已经广泛应用于各行各业及日常生活。
57.图像特征可以指对图像的特点或内容进行表征的一系列属性的集合,主要包括图像自然特征(如亮度、色彩、纹理等)和图像人为特征(如图像频谱、图像直方图等)。图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征。
58.尺度不变特征转换(scale-invariant feature transform,sift)算法是一种计算机视觉的算法,用来侦测与描述影像中的局部性特征,它在空间尺度中寻找极值点,并提取出其位置、尺度、旋转不变量。
59.形态学是图像处理中应用最为广泛的技术之一,主要用于从图像中提取对表达和描绘区域形状有意义的图像分量,使后续的识别工作能够抓住目标对象最为本质的形状特征,如边界和连通区域等。同时像细化、像素化和修剪毛刺等技术也常应用于图像的预处理和后处理中,成为图像增强技术的有力补充。基本的形态学处理方法包括图像腐蚀、图像膨胀、开运算和闭运算。
60.数显表识别是计算机视觉领域的常见任务,本质可以理解为对数字图像的识别,可以包括两个主要阶段:数字区域定位与数字字符识别。
61.对于数字区域定位任务,现有的方法包括基于目标检测的方法和基于分割的方法,通常是直接使用单一的检测或识别算法直接对数字图像进行识别。其中,基于检测的方法速度更快,但数字区域的定位精度差;基于分割的方法在表盘较干净时定位数字区域的精度高,但当表盘出现大量遮挡时,数字区域的定位精度差。
62.对于数字字符识别任务,现有的方法包括基于循环神经网络的序列识别方法和基于卷积神经网络的单个数字识别方法。其中,序列识别方法流程简单,输入整个数字区域,输出读数,但对于半字符识别效果不佳;单个数字识别方法包括单个数字分割和识别,虽然全字符和半字符的识别效果较好,但流程较复杂。
63.现有技术中,通常是直接使用单一的检测或者识别算法直接对数字图像进行识别,面对复杂的数字表盘结构、多样的数字字符时,数字区域的定位精度差,识别数字字符的准确性不够高,难以满足实际应用需求。
64.本技术提供的数字图像的识别方法、装置、电子设备及可读存储介质,旨在解决现有技术的如上技术问题。
65.下面通过对几个示例性实施方式的描述,对本技术实施例的技术方案以及本技术的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
66.图1a是本发明实施例提供的一种数字图像识别方法的应用环境的示意图,参见图1a,应用环境中可以包括终端101和服务器102,终端101将待识别图像发送至服务器102,服
务器102确定待识别图像的图像类型;确定待识别图像的多个第一特征点,并获取各个第一特征点对应的描述符。服务器102确定预设的特征库中与待识别图像的图像类型对应的多个第二特征点的描述符,将多个第一特征点的描述符与多个第二特征点的描述符进行匹配,将匹配成功的第一特征点作为目标特征点;服务器102基于目标特征点从待识别图像中确定出数字字符图像;基于训练好的数字图像识别模型识别数字字符图像中的数字信息。
67.可以理解的是,图1a表示的是一个示例中的应用场景,并不对本技术的图像处理方法的应用场景进行限定。在其他应用场景中,可以是终端直接对待识别图像进行处理得到数字信息;还可以是图像采集设备采集到待识别图像发送到服务器进行处理,得到数字图像信息等。
68.本技术领域技术人员可以理解,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn(content delivery network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。终端可以是智能手机(如android手机、ios手机等)、平板电脑、笔记本电脑、数字广播接收器、mid(mobile internet devices,移动互联网设备)、pda(个人数字助理)、台式计算机、智能家电、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等,终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,但并不局限于此。具体也可基于实际应用场景需求确定,在此不作限定。
69.本技术实施例提供的图像处理方法,可以应用于终端中,也可以应用于服务器中。
70.本技术实施例中提供了一种数字图像的识别方法,以执行主体为服务器为例,如图1b所示,该方法包括:
71.步骤s101,获取待识别图像,确定待识别图像的图像类型。
72.在本技术实施例中,待识别图像可以是网络图像或者本地图像,也可以是由图像采集设备,例如通过摄像头实时采集到的图像,本技术不做限制。
73.具体的,服务器可以先提取待识别图像的第一图像特征,然后根据第一图像特征来确定图像类型。
74.在具体实施过程中,服务器可以通过预先训练好的卷积神经网络模型,提取待识别图像的第一图像特征,第一图像特征可以用于描述待识别图像的自身特征,包括但不限于亮度、边缘、纹理和色彩等特征。第一图像特征的表现形式可以为特征向量。
75.其中,卷积神经网络模型可以使用的算法包括但不限于vggnet算法和resnet算法。
76.在本技术实施例中,可以根据预设的模板库和第一图像特征确定待识别图像的图像类型。模板库的配置方法将在下文进行说明。
77.具体的,在对待识别图像处理之前,对于不同类型的数字图像,可以预先建立模板库及对应的特征库。
78.其中,各个图像类型分别对应的特征库可以通过以下方式建立:
79.(1)获取各个图像类型分别对应的至少一个模板图像。例如,在数显表识别的应用场景中,可以根据数显表类型确定图像类型,并获取各个数显表类型对应的一张数显表图像作为该类型对应的模板图像。
80.(2)基于特征点检测算法确定各个模板图像的第二特征点,并获取各个第二特征点对应的描述符。
81.预设的特征点检测算法可以为尺度不变特征转换(sift,scale-invariant feature transform)算法,用来侦测与描述影像中的局部性特征,在本技术中,可以用于确定待识别图像的第一特征点以及各个模板图像的第二特征点,以及各个特征点的描述符。
82.其中,第一特征点是待检测图像中的坐标点,为所述待识别图像中的关键点,第一特征描述符是待检测图中的坐标点对应的高维向量。同样的,第二特征点为模板图像的坐标点,第二特征点的描述符为模板图像中的坐标点对应的高维向量。作为示例,使用sift算法进行特征点检测的方法可以包括如下几步:
83.①
尺度空间的极值检测:搜索所有尺度空间上的图像,通过高斯微分函数来识别图像中潜在的对尺度和旋转不变的候选点。
84.②
特征点定位:在每个候选点的位置上,通过一个拟合精细模型来确定位置尺度,特征点的选取依据他们的稳定程度。
85.③
特征方向赋值:基于图像局部的梯度方向,分配给每个特征点位置一个或多个方向,后续的所有操作都是对于特征点的方向、尺度和位置进行变换,从而提供这些特征的不变性。
86.④
特征点描述:在每个特征点周围的邻域内,在选定的尺度上测量图像的局部梯度,这些梯度被变换成一种表示,这种表示允许比较大的局部形状的变形和光照变换,可以将该种表示称作描述符。使用描述符进行特征描述的目的是在特征点计算后,用一组向量将这个特征点描述出来,这个描述不但包括特征点,也包括特征点周围对其有贡献的像素点。描述符可以用来作为目标匹配的依据,也可以使特征点具有更多的不变特性,如光照变化、3d视点变化等。
87.通过sift算法对各个模板图像进行特征点检测,可以得到各个模板图像对应的第二特征点以及各个第二特征点的描述符。
88.由于各个模板图像对应于不同的图像类型,因此,当确定出待识别的图像类型,可以进一步根据图像类型确定出该图像类型对应的第二特征点。
89.(3)基于各个图像类型分别对应的模板图像、各个模板图像的第二特征点和各个第二特征点对应的描述符建立特征库。
90.在建立好的特征库中,各个模板图像以及模板图像的第二特征点与相应的图像类型存在关联关系,根据图像类型可以确定出该图像类型对应的第二特征点。
91.而各个图像类型分别对应的模板库可以通过以下方式建立:
92.(1)可以确定各个模板图像对应的四角点坐标,并提取各个模板图像的第二图像特征。其中,各个模板图像对应的四角点坐标可以为各个模板图像中数字区域的四角点坐标,记为x1,y1,x2,y2,x3,y3,x4,y4。提取各个模板图像的第二图像特征的方法可以与提取待识别图像的第一图像特征的方法一致。作为示例,可以采用在imagenet上预训练的深度卷积神经网络模型进行特征提取,具体的,可以将各个模板图像输入到深度卷积神经网络中,得到深度特征x=(x1,
……
,x
p
),其中p表示所述深度特征的维度。
93.(2)基于各个模板图像、各个模板图像的四角点坐标和第二图像特征建立模板库。
94.在本技术实施例中,基于第一图像特征确定待识别图像的图像类型,可以包括如
下步骤:
95.(1)基于预设的相似度算法,计算第一图像特征与模板库中的各个第二图像特征之间的相似度。具体的,可以采用欧式范数作为相似度准则,计算待识别图像的第一图像特征与各个模板图像的第二图像特征之间的相似度。
96.(2)基于计算得到的相似度从模板库中确定与待识别图像最相似的目标模板图像,将目标模板图像对应的图像类型作为待识别图像的图像类型。
97.其中,不同的相似度计算方法计算得到的相似度可能对应于不同的比较标准,如使用l2范数作为相似度准则时,结果越小越相似;而使用cos余弦相似度时,结果越大越相似,对此,本技术不做限制,将根据相似度确定出的与待识别图像最相似的模板图像作为目标模板图像。
98.各个模板图像都有对应的图像类型,可以将目标模板图像对应的图像类型作为待识别图像的图像类型,以便根据图像类型确定待识别图像在特征库中对应的第二特征点。
99.步骤s102,确定待识别图像的多个第一特征点,并获取各个第一特征点对应的描述符。
100.其中,第一特征点为待识别图像中的关键点。
101.具体的,服务器可以基于预设的特征点算法,例如可以通过sift算法对待识别图像进行特征点检测,可以得到待识别图像对应的第一特征点以及各个第一特征点的描述符。
102.步骤s103,确定预设的特征库中与待识别图像的图像类型对应的多个第二特征点的描述符,将多个第一特征点的描述符与多个第二特征点的描述符进行匹配,将匹配成功的第一特征点作为目标特征点。
103.其中,预设的特征库中包括各个模板图像以及模板图像的第二特征点与相应的图像类型之间的关联关系,根据关联关系可以确定出待识别图像的图像类型对应的第二特征点以及描述符。
104.在本技术实施例中,将多个第一特征点的描述符与多个第二特征点的描述符进行匹配,将匹配成功的第一特征点作为目标特征点,可以包括如下步骤:
105.针对每个第二特征点,计算每个第二特征点的描述符与所有第一特征点的描述符之间的距离,如果最近距离与次近距离的比值小于一个预设阈值,则距离第二特征点的描述符最近的第一特征点的描述符为最终匹配的描述符,对应的第一特征点为第二特征点的匹配点。
106.作为示例,本技术可以使用邻近算法(knn,k-nearestneighbor)将多个第一特征点的描述符与多个第二特征点的描述符进行匹配,得到第二特征点对应的第一特征点。
107.模板图像包括多个第二特征点的描述符(k个),待识别图像包含多个第一特征点的描述符(d个)。其中,k和d均为正整数。第一步是计算第一特征点的描述符与第二特征点的描述符之间的距离,可以得到k行d列的距离矩阵;第二步是按行从小到大排序;第三步,k可以取2,则取每行的前两个,对应待识别图像的两个描述符;第四步,如果每行取出的第一个值和第二个值的比值小于预设阈值,则取第一个值作为模板图像的一个特征描述符匹配到的最终描述符,也就是距离第二特征点的描述符最近的第一特征点的描述符为最终匹配的描述符,则匹配到的描述符对应的第一特征点为第二特征点的匹配点;否则一个模板图
像的特征描述符可能匹配不到待识别图像的特征描述符。
108.按照上述步骤得到的过滤之后的匹配的描述符要小于初始的模板图像上的第二特征点的描述符。
109.根据上述方法,可以确定出各个第二特征点分别对应的目标特征点。
110.步骤s104,基于目标特征点从待识别图像中确定出数字字符图像;基于训练好的数字图像识别模型识别数字字符图像中的数字信息。
111.具体的,服务器可以基于目标特征点与相应的第二特征点之间的变换关系,从待识别图像中确定出数字字符图像,数字字符图像为包含了待识别图像中的数字区域的图像。
112.可以将数字字符图像输入训练好的数字图像识别模型中,获取待识别图像的数字信息。
113.在本技术实施例中,基于训练好的数字图像识别模型识别数字字符图像中的数字信息,可以包括如下步骤:将数字字符图像输入数字图像识别模型,得到数字识别结果,数字识别结果包括数字字符图像中的数字信息。
114.上述的数字图像的识别方法,包括:确定待识别图像的图像类型,然后确定待识别图像的第一特征点,并获取各个第一特征点对应的描述符。在特征库中确定出与待识别图像的图像类型对应的第二特征点的描述符,通过将第一特征点的描述符与第二特征点的描述符进行匹配,确定出目标特征点,并基于目标特征点从待识别图像中确定出数字字符图像,最后通过数字图像识别模型识别数字字符图像中的数字信息,实现了基于待识别图像的特征点快速准确地定位数字区域,提高了数字字符识别的准确度。
115.本技术实施例中提供了一种可能的实现方式,基于目标特征点从待识别图像中确定出数字字符图像,可以包括如下步骤:
116.(1)从模板库中获取待识别图像对应的目标模板图像的图形的角点坐标。
117.其中,目标模板图像对应的图形可以具有多个角点,例如,目标模板图像对应的图形为四边形,则可以具有四个角点坐标。
118.其中,待识别图像的图像类型对应的多个第二特征点为待识别图像对应的目标模板图像的特征点。
119.具体的,待识别图像的图像类型与目标模板图像的图像类型一致,而目标模板图像的第二特征点与目标模板图像的图像类型之间存在对应关系,因此,待识别图像的图像类型对应的第二特征点即为目标模板图像的特征点。
120.模板库中可以包括各个模板图像的角点坐标,可以从模板库中确定目标模板图像的角点坐标。
121.(2)获取第二特征点与目标特征点之间的变换关系。前述步骤可以确定各个第二特征点分别对应的目标特征点,然后可以确定各个第二特征点与相应的目标特征点之间的变换关系。变换关系可以描述第二特征点和相应的目标特征点之间的对应关系。
122.(3)基于所变换关系和目标模板图像的角点坐标获取待识别图像的角点坐标。
123.以目标模板图像的角点坐标包括四个为例,假设变换关系表示为h,目标模板图像的四个角点坐标写为齐次坐标qi=(xi,ti,1)
t
,其中,i=1,2,3,4;根据变换关系,计算得到待识别图像的角点坐标的方式可以为:
124.根据公式1,计算得到待识别图像的齐次坐标q
′i=(x
′i,y
′i,zi)
t
,其中,i=1,2,3,4。
125.q
′i=h*qiꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(公式1)
126.然后可以将待识别图像的齐次坐标转换为角点坐标,具体的,通过(x
′i/zi,y
′i/zi)得到待识别图像的角点坐标其中,i=1,2,3,4。
127.(4)基于待识别图像的角点坐标从待识别图像中确定出数字字符图像。
128.本技术实施例中提供了一种可能的实现方式,基于待识别图像的角点坐标从待识别图像中确定出数字字符图像,可以包括如下步骤:
129.(1)根据待识别图像的角点坐标,从待识别图像中裁剪出数字区域图像。
130.(2)通过透视变换操作对数字区域图像进行矫正,得到矫正后的数字区域图像。
131.(3)对矫正后的数字区域图像进行预处理,通过垂直投影方法从预处理后的数字区域图像分割出数字字符图像。其中,预处理过程可以包括但不限于:先对矫正后的数字区域图像进行灰度处理,然后用高斯滤波减少噪声的影响,随后使用形态学操作中的开运算和闭运算,去除数字区域图像数字外部和内部的杂质,最后对数字区域图像做自适应二值化处理,得到预处理后的数字区域图像。
132.在上述经过预处理后的数字区域图像中使用垂直投影方法分割出数字字符图像。
133.可以基于预设的数字图像数据集,训练出一个针对数字图像分类的深度卷积神经网络模型,将分割出的数字字符图像输入到卷积神经网络模型中,输出对应的数字识别结果,数字识别结果包括数字字符图像中的数字信息。
134.本技术所提供的数字图像的识别方法,可以应用于识别数显表的读数,以提升计算机针对数显表的实时检测和分析能力,具体可以如图2a所示,包括如下步骤:
135.步骤s201,针对不同类型的数显表,建立数显表模板库以及对应的数显表特征库。
136.数显表是数字式显示仪表的简称,因其视觉直观、设置便捷及智能化控制程度高等特性,加之随着当前传感技术的高速发展,数字式显示仪表的功能不断强大及精度不断地提高,数字式显示仪表正在大量代替传统的机械仪表,已经广泛应用于各行各业及日常生活。
137.而数显表可以涵盖多种类型,分类方式可以根据功能分类,如水表、电流表、电压表和蒸汽表等,本技术不做限制。不同类型的数显表的数字显示形式、样式可能不同,因此,可以针对不同类型的数显表建立数显表模板库以及对应的数显表特征库。
138.步骤s201具体可以包括如下子步骤:
139.步骤s2011,以某种类型水表为例,给定该类型水表图像一张,顺时针标注出数字区域的四个角点,如图2b所示。
140.步骤s2012,在上述水表图像上基于sift算法检测特征点,并计算sift特征描述符m个(例如,m=128)。sift特征描述符具有旋转不变性和尺度变化不变性以及对投影变换具有较好地不变性等优良特性。可以根据sift特征描述符构建特征库。
141.步骤s2013,采用预训练模型,如resnet34,提取上述水表图像特征x=(x1,...,x
p
),p表示提取特征的维度(如p=1000)。resnet系列模型在图像分类任务上达到了很高的精度,并且经常被用作目标检测框架的基础(backbone),因此可以选用resnet系列模型进行特征提取。
142.步骤s2014,建立模板库和特征库,其中,模板库可以包含图像特征及角点坐标,特征库可以包含sift特征描述符m个(如m=128)。
143.步骤s202,获取待识别图像,提取待识别图像的图像特征,并基于待识别图像的图像特征确定待识别图像的图像类型。
144.具体的,步骤s202可以包括如下子步骤:
145.步骤s2021,通过摄像头采集得到待识别图像,待识别图像具体可以为待识别的数显表图像。
146.步骤s2022,采用预训练模型,如resnet34,提取测试图像特征y=(y1,...,y
p
),p表示提取特征的维度。此处使用的预训练模型可以与s2013中采用的预训练模型一致。不同的预训练模型会提取到不同类型的特征,因此,使用差异化的预训练模型会给模板匹配带来不确定性因素。
147.步骤s2023,使用预设的相似度算法,计算待识别的数显表的图像特征与模板库中图像特征的相似度,确定该待识别的数显表图像所对应的数显表类型。
148.当预设的相似度算法选用l2范数作为相似度准则时,结果越小越相似,l2范数表达式为其中x=(x1,...,x
p
)表示某个模板的图像特征,y=(y1,...,y
p
)表示测试图像的特征。此步可以选用不同的相似度准则,如还可使用cos余弦相似度,l1范数等,本技术不做限制。
149.步骤s203,进行特征点匹配,获取待识别图像的角点坐标。
150.具体的,步骤s203可以包括如下子步骤:
151.步骤s2031,基于预设的特征点检测算法确定待识别的数显表图像的特征点,并获取各个特征点对应的sift特征描述符n个(例如n=m或n=200)。
152.步骤s2032,将待识别的数显表图像和模板图像的sift特征描述符进行匹配。
153.具体地,可以使用knn方法进行匹配,k可以取2,然后对匹配到的sift特征描述符按照一定准则进行过滤,得到最终匹配到的sift特征描述符n个。过滤准则可以为:使用knn方法,模板图像的每个sift特征描述符可以匹配到待识别的数显表图像上的k个sift特征描述符,如果这k个sift特征描述符到模板图像的sift特征描述符的距离比值小于一个预设距离阈值,则保留待识别的数显表图像的sift特征描述符到模板图像sift特征描述符距离最小的sift特征描述符。本技术可以选用近似的knn匹配算法,相较于选用最佳匹配算法,可以提高泛化性能,使本技术中的技术方案更加适用于复杂的场景。
154.步骤s204,根据待识别的数显表图像(待识别图像)角点坐标,从待识别图像中裁剪出数字区域图像;通过透视变换操作对数字区域图像进行矫正,得到矫正后的数字区域图像。
155.步骤s204具体可以包括如下子步骤:
156.步骤s2041,根据上一步得到的角点坐标,裁剪出待识别的数显表图像中的数字区域图像,数字区域图像可以为矩形;
157.步骤s2042,使用透视变换操作对该数字区域图像进行规则化矫正,矫正实例如图2c所示。矫正数字区域图有利于提升数字分割和识别准确率。
158.步骤s205,识别矫正后的数字区域图像中的数字字符。
159.具体的,步骤s205可以包括如下子步骤:
160.步骤s2051,使用搜集的数显表数据集构建数字图像识别模型的训练集和验证集,预训练一个20类的resnet50模型,用于进行数字图像识别。
161.步骤s2052,获取上述矫正后的数字区域图像的宽度w,然后基于数字区域的数字个数,准确计算出每个数字所在的左右边界索引,基于边界索引,裁剪得到单个数字,分割实例如图2d所示。
162.步骤s2053,将上述步骤得到的单个数字输入到预训练的resnet50模型,输出识别结果,识别实例如图2e所示。
163.本技术实施例提供了一种数字图像的识别装置,如图3所示,该数字图像的识别装置30可以包括:类型确定模块301、特征点检测模块302、特征点匹配模块303以及数字识别模块304,其中,
164.类型确定模块301,用于获取待识别图像,确定待识别图像的图像类型;
165.特征点检测模块302,用于确定待识别图像的多个第一特征点,并获取各个第一特征点对应的描述符;其中,第一特征点为所述待识别图像中的关键点;
166.特征点匹配模块303,用于确定预设的特征库中与待识别图像的图像类型对应的多个第二特征点的描述符,将多个第一特征点的描述符与多个第二特征点的描述符进行匹配,将匹配成功的第一特征点作为目标特征点;
167.数字识别模块304,用于基于目标特征点从待识别图像中确定出数字字符图像;基于训练好的数字图像识别模型识别数字字符图像中的数字信息。
168.上述的数字图像的识别装置,包括:确定待识别图像的图像类型,然后确定待识别图像的第一特征点,并获取各个第一特征点对应的描述符。在特征库中确定出与待识别图像的图像类型对应的第二特征点的描述符,通过将第一特征点的描述符与第二特征点的描述符进行匹配,确定出目标特征点,并基于目标特征点从待识别图像中确定出数字字符图像,最后通过数字图像识别模型识别数字字符图像中的数字信息,实现了基于待识别图像的特征点快速准确地定位数字区域,提高了数字字符识别的准确度。
169.在本技术实施例中,还包括特征库建立模块,具体用于:
170.获取各个图像类型分别对应的至少一个模板图像;
171.基于特征点检测算法确定各个模板图像的第二特征点,并获取各个第二特征点对应的描述符;
172.基于各个图像类型分别对应的模板图像、各个模板图像的第二特征点和各个第二特征点对应的描述符建立特征库。
173.在本技术实施例中,还包括模板库建立模块,具体用于:
174.确定各个模板图像对应的图形的角点坐标,并提取各个模板图像的第二图像特征;基于各个模板图像、各个模板图像的角点坐标和第二图像特征建立模板库;
175.类型确定模块在基于第一图像特征确定待识别图像的图像类型时,具体用于:
176.基于预设的相似度算法,计算第一图像特征与模板库中的各个第二图像特征之间的相似度;
177.基于计算得到的相似度从模板库中确定与待识别图像最相似的目标模板图像,将目标模板图像对应的图像类型作为所述待识别图像的图像类型。
178.在本技术实施例中,特征点匹配模块在将多个第一特征点的描述符与多个第二特
征点的描述符进行匹配,将匹配成功的第一特征点作为目标特征点时,具体用于:
179.将多个第一特征点的描述符与多个第二特征点的描述符进行匹配,确定各个第二特征点匹配的第一特征点;
180.针对每个第二特征点,计算第二特征点的描述符与相匹配的至少一个第一特征点的描述符之间的距离,并将小于预设距离阈值的距离对应的第一特征点作为候选特征点,从候选特征点中确定出与第二特征点距离最小的目标特征点。
181.在本技术实施例中,数字识别模块在基于目标特征点从待识别图像中确定出数字字符图像时,具体用于:
182.从模板库中获取待识别图像对应的目标模板图像的角点坐标;待识别图像的图像类型对应的多个第二特征点为待识别图像对应的目标模板图像的特征点;
183.获取第二特征点与目标特征点之间的变换关系;
184.基于所变换关系和目标模板图像的角点坐标获取待识别图像的角点坐标;
185.基于待识别图像的角点坐标从待识别图像中确定出数字字符图像。
186.在本技术实施例中,数字识别模块在基于待识别图像的角点坐标从待识别图像中确定出数字字符图像时,具体用于:
187.根据待识别图像的角点坐标,从待识别图像中裁剪出数字区域图像;
188.通过透视变换操作对数字区域图像进行矫正,得到矫正后的数字区域图像;
189.对矫正后的数字区域图像进行预处理,通过垂直投影方法从预处理后的数字区域图像分割出数字字符图像。
190.在本技术实施例中,数字识别模块在基于训练好的数字图像识别模型识别数字字符图像中的数字信息时,具体用于:
191.将数字字符图像输入数字图像识别模型,得到数字识别结果,数字识别结果包括数字字符图像中的数字信息。
192.本技术实施例的装置可执行本技术实施例所提供的方法,其实现原理相类似,本技术各实施例的装置中的各模块所执行的动作是与本技术各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
193.本技术实施例中提供了一种电子设备(计算机装置/设备/系统),包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现数字图像的识别方法的步骤,与相关技术相比可实现:基于待识别图像的图像特征和特征点快速准确地定位数字区域,提高了数字字符识别的准确度。
194.在一个可选实施例中提供了一种电子设备,如图4所示,图4所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
195.处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编
程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
196.总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
197.存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
198.存储器4003用于存储执行本技术实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
199.其中,电子设备包括但不限于:移动电话、笔记本电脑、pad等等移动终端以及诸如数字tv、台式计算机等等固定终端。
200.本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
201.本技术实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
202.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除图示或文字描述以外的顺序实施。
203.应该理解的是,虽然本技术实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本技术实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本技术实施例对此不限制。
204.以上所述仅是本技术部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术的方案技术构思的前提下,采用基于本技术技术思想的其他类似实施手段,同样属于本技术实施例的保护范畴。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1