一种基于OCR技术的识别方法及系统与流程

文档序号:33119637发布日期:2023-02-01 03:28阅读:31来源:国知局
一种基于OCR技术的识别方法及系统与流程
一种基于ocr技术的识别方法及系统
技术领域
1.本发明涉及通讯领域,具体地说,涉及一种基于ocr技术的识别方法及系统。


背景技术:

2.机器人流程自动化,是一种能够模拟人类来执行重复性任务的解决方案。rpa可实现统筹安排、自动化业务处理,并提升业务工作流处理效率。用户只需通过图形方式显示的计算机操作界面对rpa软件进行动态设定即可。借助rpa(robotic process automation)可以提高工作效率、节省成本、大程度降低出錯率、节省时间、并从重复性的后台任务中解放劳动力。rpa机器人已经在银行、保险、证券、电商、物流、财务、人事、it运维、系统预警等方面具有广泛的应用。
3.目前,企业为应对内部部分业务在远程桌面或虚拟机等环境执行的情况,需要在rpa平台基础能力上开展基于图像设备技术、界面识别技术的研究。然而,现有的图像识别技术主要采用的模式是集中式识别,终端获取的图像需要传输到服务器识别,部署成本高,识别效率低。
4.有鉴于此特提出本发明。


技术实现要素:

5.本发明要解决的技术问题在于克服现有技术的不足,提供一种基于 ocr技术的识别方法及系统,通过通过搜索初始化,接收搜索图像,对图像进行滤波和降采以形成多级分辨率图像,图像搜索,以分辨率由低到高的顺序,将搜索范围约束在边缘窄带中,实现类边缘技术的识别能力,大大降低了图像识别服务的部署成本,提升机器人界面识别的效率。
6.为解决上述技术问题,本发明采用技术方案的基本构思是:
7.一种基于ocr技术的识别方法,所述识别方法包括以下步骤:
8.构建目标对象的模型;
9.搜索初始化,接收搜索图像,对图像进行滤波和降采以形成多级分辨率图像;
10.图像搜索,以分辨率由低到高的顺序,将搜索范围约束在边缘窄带中。
11.在上述任一方案中优选的实施例,所述对图像进行滤波和降采以形成多级分辨率图像,包括:
12.将经过滤波的图像按照横向和纵向每隔一个像素取点,构成上一级的分辨率图像。
13.在上述任一方案中优选的实施例,所述的基于ocr技术的识别方法,还包括:
14.应用边缘检测算子,分别计算每一级分辨率图像的边缘像素;
15.将每一级的边缘膨胀为边缘窄带,形成多分辨率框架下的边缘窄带,将窄带中的像素记录为边缘像素。
16.在上述任一方案中优选的实施例,所述的基于ocr技术的识别方法,还包括:
17.在选取关键轮廓法线向量时考察向量中的像素点,若为边缘像素,则保留;
18.否则再从轮廓法线方向上往外延伸选取,直至轮廓法线向量中的像素全部为边缘点;
19.计算图像局部纹理特征,以寻找关键点的最佳匹配位置。
20.在上述任一方案中优选的实施例,所述在选取关键轮廓法线向量时考察向量中的像素点,包括:
21.对于关键点pi取长度为2l+1的轮廓法线向量,其中,l小于边缘窄带的1/2宽度;
22.考察位置为pi+1的像素,若该像素为边缘像素,则沿向量(pi,pi+1) 的方向考察下一个像素pi+2,否则,将点pi+1从轮廓法线向量中忽略,将点pi+2至点pi+l+1列入轮廓法线向量中,再考点pi+2,以此类推,直至点pi与最末端的像素点之间的距离大于边缘窄带1/2宽度;
23.以同样的方法考察(pi,pi-1)方向上的像素点,直至离关键点pi最近的l个像素都是边缘像素。
24.在上述任一方案中优选的实施例,所述图像搜索,以分辨率由低到高的顺序,将搜索范围约束在边缘窄带中,包括:
25.构造目标对象的点分布模型;
26.计算样本集关键点的局部纹理特征;
27.搜索图像初始化,具体包括:设定分辨率级数l
max
,滤波算子、降采算子及边缘膨胀算子,计算图像的边缘像素,将边缘像素膨胀为边缘窄带,将图像进行滤波处理,将经过滤波的图像降采,计算降采后的图像的边缘像素,将边缘像素膨胀为边缘窄带,直到满足需要的分辨率级数。
28.在上述任一方案中优选的实施例,所述的基于ocr技术的识别方法,还包括:
29.设定当前搜索层l=0,每层最大迭代次数k
max

30.在第l层中计算形状模型的初始位置x
i=l

31.对于x
i=l
的每个关键点pi,从边缘窄带中计算其轮廓法线向量;
32.计算出所有关键点的新位置,直至当前层达到最大迭代次数或位移收敛;
33.将搜索层l=l+1,直到l>l
max

34.采用上述技术方案后,本发明与现有技术相比具有以下有益效果。
35.通过通过搜索初始化,接收搜索图像,对图像进行滤波和降采以形成多级分辨率图像,图像搜索,以分辨率由低到高的顺序,将搜索范围约束在边缘窄带中,实现类边缘技术的识别能力,大大降低了图像识别服务的部署成本,提升机器人界面识别的效率。
36.下面结合附图对本发明的具体实施方式作进一步详细的描述。
附图说明
37.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。后文将参照附图以示例性而非限制性的方式详细描述本技术的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分,本领域技术人员应该理解的是,这些附图未必是按比例绘制的,在附图中:
38.图1是本发明基于ocr技术的识别方法示意图。
39.需要说明的是,这些附图和文字描述并不旨在以任何方式限制本发明的构思范围,而是通过参考特定实施例为本领域技术人员说明本发明的概念。
具体实施方式
40.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
41.需要说明的是,当元件被称为“固定于”或“设置于”另一个元件,它可以直接在另一个元件上或者间接在该另一个元件上。当一个元件被称为是“连接于”另一个元件,它可以是直接连接到另一个元件或间接连接至该另一个元件上。
42.在本技术的描述中,需要理解的是,术语“长度”、“宽度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
43.此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
44.本技术下述实施例以基于ocr技术的识别方法及系统为例进行详细说明本技术的方案,但是此实施例并不能限制本技术保护范围。
45.实施例
46.如图1所示,本发明提供了一种基于ocr技术的识别方法,所述识别方法包括以下步骤:
47.构建目标对象的模型;
48.搜索初始化,接收搜索图像,对图像进行滤波和降采以形成多级分辨率图像;
49.图像搜索,以分辨率由低到高的顺序,将搜索范围约束在边缘窄带中。
50.本发明通过通过搜索初始化,接收搜索图像,对图像进行滤波和降采以形成多级分辨率图像,图像搜索,以分辨率由低到高的顺序,将搜索范围约束在边缘窄带中,实现类边缘技术的识别能力,大大降低了图像识别服务的部署成本,提升机器人界面识别的效率。
51.在本发明实施例所述的基于ocr技术的识别方法中,所述对图像进行滤波和降采以形成多级分辨率图像,包括:
52.将经过滤波的图像按照横向和纵向每隔一个像素取点,构成上一级的分辨率图像,其中,使用高斯滤波,模板大小为5*5,sigma=1.6,降采步长取2,因此,新的图像尺寸为上一级图像尺寸的1/4,在将边缘膨胀时,使用膨胀系数为3。
53.在本发明实施例所述的基于ocr技术的识别方法中,所述的基于ocr 技术的识别方法,还包括:
54.应用边缘检测算子,分别计算每一级分辨率图像的边缘像素;
55.将每一级的边缘膨胀为边缘窄带,形成多分辨率框架下的边缘窄带,将窄带中的像素记录为边缘像素。
56.在本发明实施例所述的基于ocr技术的识别方法中,所述的基于ocr 技术的识别方法,还包括:
57.在选取关键轮廓法线向量时考察向量中的像素点,若为边缘像素,则保留;
58.否则再从轮廓法线方向上往外延伸选取,直至轮廓法线向量中的像素全部为边缘点;
59.计算图像局部纹理特征,以寻找关键点的最佳匹配位置。
60.在本发明实施例所述的基于ocr技术的识别方法中,所述在选取关键轮廓法线向量时考察向量中的像素点,包括:
61.对于关键点pi取长度为2l+1的轮廓法线向量,其中,l小于边缘窄带的1/2宽度;
62.考察位置为pi+1的像素,若该像素为边缘像素,则沿向量(pi,pi+1) 的方向考察下一个像素pi+2,否则,将点pi+1从轮廓法线向量中忽略,将点pi+2至点pi+l+1列入轮廓法线向量中,再考点pi+2,以此类推,直至点pi与最末端的像素点之间的距离大于边缘窄带1/2宽度;
63.以同样的方法考察(pi,pi-1)方向上的像素点,直至离关键点pi最近的l个像素都是边缘像素。
64.在本发明实施例所述的基于ocr技术的识别方法中,所述图像搜索,以分辨率由低到高的顺序,将搜索范围约束在边缘窄带中,包括:
65.构造目标对象的点分布模型;
66.计算样本集关键点的局部纹理特征;
67.搜索图像初始化,具体包括:设定分辨率级数l
max
,滤波算子、降采算子及边缘膨胀算子,计算图像的边缘像素,将边缘像素膨胀为边缘窄带,将图像进行滤波处理,将经过滤波的图像降采,计算降采后的图像的边缘像素,将边缘像素膨胀为边缘窄带,直到满足需要的分辨率级数。
68.在本发明实施例所述的基于ocr技术的识别方法中,所述的基于ocr 技术的识别方法,还包括:
69.设定当前搜索层l=0,每层最大迭代次数k
max

70.在第l层中计算形状模型的初始位置x
i=l

71.对于x
i=l
的每个关键点pi,从边缘窄带中计算其轮廓法线向量;
72.计算出所有关键点的新位置,直至当前层达到最大迭代次数或位移收敛;
73.将搜索层l=l+1,直到l>l
max

74.采用上述技术方案后,本发明与现有技术相比具有以下有益效果。
75.通过通过搜索初始化,接收搜索图像,对图像进行滤波和降采以形成多级分辨率图像,图像搜索,以分辨率由低到高的顺序,将搜索范围约束在边缘窄带中,实现类边缘技术的识别能力,大大降低了图像识别服务的部署成本,提升机器人界面识别的效率。
76.在本发明实施例中,基于ocr技术的识别设备以通用计算设备的形式表现。基于ocr技术的识别设备的组件可以包括但不限于:一个或者多个处理器或者处理单元,存储器,连接不同系统组件(包括存储器和处理单元)的总线。
77.总线表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。
78.基于ocr技术的识别设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被基于ocr技术的识别设备访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
79.存储器可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)30和/或高速缓存存储器。基于ocr技术的识别设备可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
80.具有一组(至少一个)程序模块的程序/实用工具,可以存储在例如存储器中,这样的程序模块包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块通常执行本发明所描述的实施例中的功能和/或方法。
81.基于ocr技术的识别设备也可以与一个或多个外部设备(例如键盘、指向设备、显示器等)通信,还可与一个或者多个使得用户能与该基于ocr 技术的识别设备交互的设备通信,和/或与使得该基于ocr技术的识别设备能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口进行。并且,基于ocr技术的识别设备还可以通过网络适配器与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。网络适配器通过总线与基于ocr技术的识别设备的其它模块通信。应当明白,尽管图中未示出,可以结合基于ocr技术的识别设备使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。
82.处理单元通过运行存储在存储器中的程序,从而执行各种功能应用以及数据处理。
83.本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有程序,该程序被处理器执行时实现如本发明任意实施例所述的堆叠分裂的处理方法。
84.本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质,例如可以是,但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可
以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
85.计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
86.计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、rf等等,或者上述的任意合适的组合。
87.可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、smalltalk、c++,还包括常规的过程式程序设计语言,诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
88.最后应说明的是:以上各实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述各实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1