图像处理方法、装置、设备及计算机可读存储介质与流程

文档序号:30621815发布日期:2022-07-02 03:33阅读:136来源:国知局
图像处理方法、装置、设备及计算机可读存储介质与流程

1.本技术实施例涉及人工智能技术领域,涉及但不限于一种图像处理方法、 装置、设备及计算机可读存储介质。


背景技术:

2.随着人工智能技术在图像处理、文本识别等领域的发展,目前利用人工智 能技术来进行场景文本识别已经成为主流的方法。但是,对于各种场景文本, 通常存在大量的大弧度弯曲和大幅度透视变换的不规则文字,这给本身就复杂 的场景文本识别增加了很大的难度。
3.相关技术中,对不规则文本进行矫正和识别时,一种实现方法是将文本行 中的每个字符作为最小的目标单位粒度,通过单字符检测的方法进行字符检测, 再使用单字符分类的识别算法对文本进行识别;另一种实现方法是通过网络模 型进行不规则文本关键点的回归任务,基于网络模型输出的关键点位置对不规 则文本的区域进行矫正。
4.但是,相关技术中的方法,单字符检测的方法由于单字符在图片中的目标 较小,在图像的前景噪声与背景噪声较大时,字符检测准确度较低;通过网络 模型进行矫正和识别的方法由于网络模型中的定位网络缺少显式的监督损失, 矫正效果依赖于识别结果,对于大弧度弯曲和很长的弯曲文本的识别和矫正效 果不佳且效率较低。因此,相关技术中的方法均存在文本检测和识别的准确度 和矫正效率较低的问题。


技术实现要素:

5.本技术实施例提供一种图像处理方法、装置、设备及计算机可读存储介质, 至少应用于人工智能技术领域,能够得到准确矫正的拼接文本图像,实现对待 处理图像中的目标文本的文本图像进行准确的矫正处理,并能够提高文本矫正 的效率。
6.本技术实施例的技术方案是这样实现的:
7.本技术实施例提供一种图像处理方法,所述方法包括:
8.对待处理图像进行文本区域识别,得到与所述待处理图像中的目标文本对 应的文本连通域;
9.对所述文本连通域进行递归分割处理,得到所述文本连通域的上边界线和 下边界线;
10.基于所述上边界线与所述下边界线之间的间距,对所述目标文本对应的文 本图像进行划分,形成多个文本子图像;
11.对每一所述文本子图像进行图像变换处理,得到变换后的文本子图像;
12.对所述变换后的文本子图像进行拼接,形成拼接文本图像。
13.本技术实施例提供一种图像处理装置,所述装置包括:
14.识别模块,用于对待处理图像进行文本区域识别,得到与所述待处理图像 中的目标文本对应的文本连通域;
15.递归分割处理模块,用于对所述文本连通域进行递归分割处理,得到所述 文本连通域的上边界线和下边界线;
16.划分模块,用于基于所述上边界线与所述下边界线之间的间距,对所述目 标文本对应的文本图像进行划分,形成多个文本子图像;
17.变换处理模块,用于对每一所述文本子图像进行图像变换处理,得到变换 后的文本子图像;
18.拼接模块,用于对所述变换后的文本子图像进行拼接,形成拼接文本图像。
19.本技术实施例提供一种图像处理设备,包括:
20.存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可 执行指令时,实现上述图像处理方法。
21.本技术实施例提供一种计算机程序产品或计算机程序,所述计算机程序产 品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质 中;其中,计算机设备的处理器从所述计算机可读存储介质中读取所述计算机 指令,所述处理器用于执行所述计算机指令,实现上述的图像处理方法。
22.本技术实施例提供一种计算机可读存储介质,存储有可执行指令,用于引 起处理器执行所述可执行指令时,实现上述图像处理方法。
23.本技术实施例具有以下有益效果:通过对文本连通域进行递归分割处理得 到上边界线和下边界线,从而基于上边界线和下边界线之间的间距,对目标文 本的文本图像进行划分,得到多个文本子图像,然后对每个文本子图像进行图 像变换处理,从而根据变换后的文本子图像能够得到准确矫正的拼接文本图像, 实现对待处理图像中的目标文本的文本图像进行准确的矫正处理,并且,由于 对多个文本子图像可以并行的进行图像变换处理,因此能够极大地提高文本矫 正的效率。
附图说明
24.图1a和图1b是本技术实施例提供的不规则文本示意图;
25.图2是本技术实施例提供的图像处理系统的一个可选的架构示意图;
26.图3是本技术实施例提供的图像处理设备的结构示意图;
27.图4是本技术实施例提供的图像处理方法的一个可选的流程示意图;
28.图5是本技术实施例提供的图像处理方法的另一个可选的流程示意图;
29.图6是本技术实施例提供的图像处理方法的再一个可选的流程示意图;
30.图7是本技术实施例提供的一种应用场景示意图;
31.图8是本技术实施例提供的另一种应用场景示意图;
32.图9a至图9c是本技术实施例提供的图像处理方法在不同图片上的矫正效 果展示图;
33.图10是本技术实施例文本矫正方法的流程示意图;
34.图11是本技术实施例提供的确定上边界线和下边界线的流程示意图;
35.图12是本技术实施例提供的不规则文本上下两条边界线的获取过程示意 图;
36.图13分别表示第一次和第二次进行等分操作时的截线长度说明;
37.图14是本技术实施例文本边界轮廓获取步骤中获取的不规则文本的上下 边界
线;
38.图15是本技术实施例提供的采样点的获取示意图;
39.图16是本技术实施例提供的分段并行tps变换处理的示意图;
40.图17a和17b是本技术实施例提供的文本矫正结果示意图。
具体实施方式
41.为了使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本申 请作进一步地详细描述,所描述的实施例不应视为对本技术的限制,本领域普 通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本 申请保护的范围。
42.在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集, 但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集, 并且可以在不冲突的情况下相互结合。除非另有定义,本技术实施例所使用的 所有的技术和科学术语与属于本技术实施例的技术领域的技术人员通常理解的 含义相同。本技术实施例所使用的术语只是为了描述本技术实施例的目的,不 是旨在限制本技术。
43.在说明本技术实施例的方案之前,首先对本技术实施例涉及的名词进行解 释:
44.(1)光学字符识别(ocr,optical character recognition):是指通过对文 本资料进行扫描,然后对图像文件进行分析处理,从而获取文字以及版面信息 的过程。
45.(2)薄板样条插值(tps,thin plate spline):薄板样条插值是插值方法 的一种,是常用的2d插值方法。薄板样条插值假设在原形状中有n个点an, 这n个点在形变之后的新坐标之下对应新的n个点bn,用一个薄钢板的形变 来模拟2d形变,确保这n个点能够正确匹配,其中,tps插值就是要说明怎 样的形变可以使钢板的弯曲能量最小的数值解法。
46.(3)连通域:即连通区域(connected component),一般是指图像中具有 相同像素值且位置相邻的前景像素点组成的图像区域。
47.(4)不规则文本:通常是指曲型文本、方向不确定、字体大小差别很大、 排列没有规则的文本。
48.在解释本技术实施例的图像处理方法之前,首先对相关技术中的方法进行 说明。
49.相关技术中,在对不规则文本进行矫正和识别时,第一种实现方式是基于 单字检测的不规则文字识别技术,该技术在文本检测部分,将文本行中的每个 字符视为最小的目标单位粒度,通过单字符检测的方法进行字符检测,再使用 单字符分类的识别算法对文本进行识别,最后通过后处理策略合并属于同一文 本行的字符识别结果得到完整结果。
50.但是,对单个字符进行定位检测的任务相对于将整个文本行进行检测的方 法,字符相比整个文本行在图片中的目标会更小,那么,在前景噪声与背景噪 声较大时,字符检测的效果不会很好;且基于模型的字符检测方法需要额外的 字符标注,增加了标注成本;该方案使得识别算法失去了序列建模的能力;获 得单个字符识别结果后,需要基于一定规则策略将属于同一个文本行的字符按 顺序聚集在一起,这个后处理步骤通常在复杂场景中鲁棒性不强,尤其是对于 弯曲的不规则文本。
51.在对不规则文本进行矫正和识别时,第二种实现方式是基于关键点定位网 络模型的文字矫正识别方法,该方法通过网络模型进行不规则文本关键点的回 归任务,基于网络输出的关键点位置对不规则文本的区域进行矫正,定位网络 和识别网络在一个模型中
能够对每个文本子图像并行的进行图像变换处理,从而能够极大地提高文本矫 正的效率;并且,根据变换后的文本子图像能够得到准确矫正的拼接文本图像, 实现对待处理图像中的目标文本的文本图像进行准确的矫正处理。
59.下面说明本技术实施例的图像处理设备的示例性应用,本技术实施例提供 的图像处理设备可以实施为终端,也可以实施为服务器。在一种实现方式中, 本技术实施例提供的图像处理设备可以实施为笔记本电脑,平板电脑,台式计 算机,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用 消息设备,便携式游戏设备)、智能机器人、智能家电和车载终端等任意的具备 图像显示功能、图像识别功能和文本处理功能的终端;在另一种实现方式中, 本技术实施例提供的图像处理设备还可以实施为服务器,其中,服务器可以是 独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系 统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、 云通信、中间件服务、域名服务、安全服务、内容分发网络(cdn,content deliverynetwork)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以 及服务器可以通过有线或无线通信方式进行直接或间接地连接,本技术实施例 中不做限制。下面,将说明图像处理设备实施为服务器时的示例性应用。
60.参见图2,图2是本技术实施例提供的图像处理系统10的一个可选的架构 示意图,为实现支撑一个图像处理应用,并通过该图像处理应用对待处理图像 中的不规则文本进行矫正和识别,本技术实施例中,图像处理系统10中至少包 括终端100、网络200和服务器300,其中服务器300构成本技术实施例的图像 处理设备。终端100通过网络200连接服务器300,网络200可以是广域网或 者局域网,又或者是二者的组合。终端100上安装有至少一个图像处理应用, 图像处理应用可以是任意一种具备图像显示功能的应用,服务器300可以通过 网络200获取终端100发送的待处理图像;并对待处理图像进行文本区域识别, 得到与待处理图像中的目标文本对应的文本连通域;其中,目标文本可以是不 规则文本。并且,服务器还对文本连通域进行递归分割处理,得到文本连通域 的上边界线和下边界线;基于上边界线与下边界线之间的间距,对目标文本对 应的文本图像进行划分,形成多个文本子图像;以及,对每一文本子图像进行 图像变换处理,得到变换后的文本子图像;对变换后的文本子图像进行拼接, 形成拼接文本图像。服务器300在得到拼接文本图像之后,可以基于得到的拼 接文本图像进行文本识别,得到不规则文本对应的文本内容,也可以将拼接文 本图像通过网络200发送给终端100,由终端对拼接文本图像进行文本识别, 得到不规则文本对应的文本内容,或者,在终端上显示该拼接文本图像,以分 析本次图像处理过程的准确性。
61.在一些实施例中,当图像处理设备实施为终端时,终端可以获取当前界面 上所显示的待处理图像,或者终端可以接收图像处理请求,该图像处理请求中 包括待处理图像,并进一步采用本技术实施例提供的图像处理方法对待处理图 像进行矫正处理,得到拼接文本图像。并且,在得到拼接文本图像之后,终端 还可以对拼接文本图像进行文本识别,得到不规则文本对应的文本内容,并输 出该文本内容。
62.本技术实施例所提供的图像处理方法还可以基于云平台并通过云技术来实 现,例如,上述服务器300可以是云端服务器,通过云端服务器对待处理图像 进行区域识别,或者,通过云端服务器对文本连通域进行递归分割处理,或者, 通过云端服务器对目标文本
对应的文本图像进行划分,形成多个文本子图像, 或者,通过云端服务器对每一文本子图像进行图像变换处理,或者,通过云端 服务器对变换后的文本子图像进行拼接。在一些实施例,还可以具有云端存储 器,可以将拼接文本图像存储至云端存储器中,或者可以将待处理图像与拼接 文本图像映射存储至云端存储器中。这样,在后续对待处理图像进行文本识别 时,可以从云端存储器中直接获取到对应于该待处理图像的拼接文本图像,并 基于该拼接文本图像进行文本识别,得到待处理图像对应的不规则文本的文本 内容,实现对待处理图像的快速准确识别。
63.这里需要说明的是,云技术(cloud technology)是指在广域网或局域网内 将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共 享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、 整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用, 灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的 计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网 行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要 传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业 数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
64.图3是本技术实施例提供的图像处理设备的结构示意图,图3所示的图像 处理设备包括:至少一个处理器310、存储器350、至少一个网络接口320和用 户接口330。图像处理设备中的各个组件通过总线系统340耦合在一起。可理 解,总线系统340用于实现这些组件之间的连接通信。总线系统340除包括数 据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明 起见,在图3中将各种总线都标为总线系统340。
65.处理器310可以是一种集成电路芯片,具有信号的处理能力,例如通用处 理器、数字信号处理器(dsp,digital signal processor),或者其他可编程逻辑 器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以 是微处理器或者任何常规的处理器等。
66.用户接口330包括使得能够呈现媒体内容的一个或多个输出装置331,包 括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口330还包括一个或 多个输入装置332,包括有助于用户输入的用户接口部件,比如键盘、鼠标、 麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
67.存储器350可以是可移除的,不可移除的或其组合。示例性的硬件设备包 括固态存储器,硬盘驱动器,光盘驱动器等。存储器350可选地包括在物理位 置上远离处理器310的一个或多个存储设备。存储器350包括易失性存储器或 非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可 以是只读存储器(rom,read only memory),易失性存储器可以是随机存取 存储器(ram,random access memory)。本技术实施例描述的存储器350旨 在包括任意适合类型的存储器。在一些实施例中,存储器350能够存储数据以 支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集, 下面示例性说明。
68.操作系统351,包括用于处理各种基本系统服务和执行硬件相关任务的系 统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理 基于硬件的任务;
69.网络通信模块352,用于经由一个或多个(有线或无线)网络接口320到 达其他计
算设备,示例性的网络接口320包括:蓝牙、无线相容性认证(wifi)、 和通用串行总线(usb,universal serial bus)等;
70.输入处理模块353,用于对一个或多个来自一个或多个输入装置332之一 的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
71.在一些实施例中,本技术实施例提供的装置可采用软件方式实现,图3示 出了存储在存储器350中的一种图像处理装置354,该图像处理装置354可以 是图像处理设备中的图像处理装置,其可以是程序和插件等形式的软件,包括 以下软件模块:识别模块3541、递归分割处理模块3542、划分模块3543、变 换处理模块3544和拼接模块3545,这些模块是逻辑上的,因此根据所实现的 功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
72.在另一些实施例中,本技术实施例提供的装置可以采用硬件方式实现,作 为示例,本技术实施例提供的装置可以是采用硬件译码处理器形式的处理器, 其被编程以执行本技术实施例提供的图像处理方法,例如,硬件译码处理器形 式的处理器可以采用一个或多个应用专用集成电路(asic,application specificintegrated circuit)、dsp、可编程逻辑器件(pld,programmable logic device)、 复杂可编程逻辑器件(cpld,complex programmable logic device)、现场可编 程门阵列(fpga,field-programmable gate array)或其他电子元件。
73.下面将结合本技术实施例提供的图像处理设备的示例性应用和实施,说明 本技术实施例提供的图像处理方法,其中,该图像处理设备可以是任意一种具 备图像显示功能、图像识别功能和文本处理功能的终端,或者也可以是服务器, 即本技术实施例的图像处理方法可以通过终端来执行,也可以通过服务器来执 行,或者还可以通过终端与服务器进行交互来执行。
74.参见图4,图4是本技术实施例提供的图像处理方法的一个可选的流程示 意图,下面将结合图4示出的步骤进行说明,需要说明的是,图4中的图像处 理方法是通过服务器作为执行主体来实现的。
75.步骤s401,对待处理图像进行文本区域识别,得到与待处理图像中的目标 文本对应的文本连通域。
76.这里,待处理图像可以是具有文本信息的图像,其中,待处理图像上的文 本信息包括不规则文本和规则文本,不规则文本是指具有一定程度的文字方向 弯曲或者具有一定的透视程度的文本,例如,不规则文本可以是曲型文本、方 向不确定、字体大小差别很大、排列没有规则的文本等;规则文本是指文字按 照横向排列或者纵向排列的文本。
77.文本区域识别是指识别目标文本所在的区域,本技术实施例中,可以采用 图像处理技术中的灰度二值法来实现,也可以通过基于深度神经网络的方法, 如mask-rcnn,pixellink等检测方法提取到文本的前景连通域(即文本连通 域)。其中,在灰度二值法中,可以让图像的像素点矩阵中的每个像素点的灰度 值为0(黑色)或者1(白色),也就是让整个图像呈现只有黑和白的效果,在 灰度化的图像中灰度值的范围为0~255,在二值化后的图像中的灰度值范围是0 或者1。当任一像素点的灰度值为1时表明该像素点是文本连通域中的像素点, 当任一像素点的灰度值为0时表明该像素点不是文本连通域中的像素点。
78.本技术实施例中,文本连通域可以理解成是文本所在的区域,文本连通域 是经过
二值化后的区域,也就是说,文本连通域是前景像素点所在的区域。
79.由于知道了文本连通域,是知道了文本完整的轮廓线,但是不知道轮廓线 中哪一部分是上边界,哪一部分是下边界,因为在得到文本连通域时,只能得 到一个完整的轮廓线,但是在本技术实施例的图像处理方法中,需要将完整的 轮廓线得拆分成上边界线和下边界线,因此需要通过后续步骤对文本连通域进 行递归分割处理。本技术实施例中,文本连通域的轮廓线可以理解成是一个任 意形状的封闭曲线,但是这个曲线哪个部分,也就是哪些点属于上边界线,哪 些点属于下边界线是未知的。
80.步骤s402,对文本连通域进行递归分割处理,得到文本连通域的上边界线 和下边界线。
81.这里,递归分割处理是指对目标文本对应的文本连通域进行多次分割处理。 递归分割处理可以是基于文本连通域对应的外接多边形对文本连通域进行逐次 递归分割,其中,外接多边形至少存在一条边与文本连通域的轮廓线相切。外 接多边形的面积大于或等于文本连通域的面积。
82.在递归分割处理过程中,在每一次分割处理之前均需要确定出当前的待分 割的连通域的外接多边形,也就是说,在第一次分割处理时,是对待处理图像 中的目标文本对应的文本连通域进行分割,在第二次到最后一次分割处理时, 均是基于前一次分割处理后的连通域进行再次分割处理。
83.举例来说,在第n次分割处理时,获取第n-1次分割处理后得到的连通域, 然后确定该连通域的外接多边形,并基于所确定的外接多边形对该连通域进行 分割处理,其中,n为大于1的整数。
84.在每次分割处理时,均得到一对分割点对和分割点对的坐标,其中,分割 点对中包括至少两个分割点,分割点是目标文本对应的文本连通域的轮廓线上 的点。在完成递归分割处理之后,最终得到文本连通域的轮廓线最两端的两个 多边形。本技术实施例中,可以基于最终得到的两个多边形和每次分割处理时 得到的分割点对的坐标,确定出文本连通域的上边界线和下边界线。
85.步骤s403,基于上边界线与下边界线之间的间距,对目标文本对应的文本 图像进行划分,形成多个文本子图像。
86.这里,当上边界线与下边界线平行时,上边界线与下边界线之间的间距可 以是上边界线与下边界线之间的距离;当上边界线与下边界线不平行时,或者 上边界线与下边界线一部分平行、另一部分不平行时,上边界线与下边界线之 间的间距,可以是上边界线与下边界线上的多个对应点对之间的距离的平均值。
87.本技术实施例中,可以根据上边界线与下边界线之间的间距确定文本图像 的采样间距,并基于该采样间距对文本图像进行采样,得到多个采样点对,然 后,基于采样点对对文本图像进行划分,形成多个文本子图像。
88.步骤s404,对每一文本子图像进行图像变换处理,得到变换后的文本子图 像。
89.这里,图像变换处理用于对文本子图像进行矫正处理,使得变换后的文本 子图像更加容易识别。图像变换处理可以是任意一种图像矫正处理方式,例如, 横向拉伸、纵向拉伸、反向弯折、反向扭曲、局部形变、整体形变等。本技术 实施例中,可以采用tps变换处理对文本子图像进行矫正拉伸。
90.本技术实施例中,每一文本子图像具有一不规则度,该不规则度用于表征 对应的文本子图像中不规则文本相对于规则图像中的相同的规则文本的形变程 度或者透视程度。不规则度越高,对应的文本子图像的形变程度或透视程度越 大,对该文本子图像进行文本识别时的难度越大,识别准确度越低;不规则度 越低,对应的文本子图像的形变程度或透视程度越小,文本子图像越接近于规 则图像,对该文本子图像进行文本识别时的难度越小,识别准确度越高。
91.同一文本图像中的多个文本子图像的不规则度可以相同也可以不同,因此, 在进行图像变换处理时,变换处理的程度可以相同也可以不同。变换处理的程 度基于文本子图像的不规则度确定,文本子图像的不规则度越高,变换处理的 程度越高;文本子图像的不规则度越低,变换处理的程度越低。
92.步骤s405,对变换后的文本子图像进行拼接,形成拼接文本图像。
93.本技术实施例中,可以按照文字子图像在文本图像中的顺序,依次对变换 后的文本子图像进行拼接,形成拼接文本图像。
94.本技术实施例提供的图像处理方法,通过对文本连通域进行递归分割处理 得到上边界线和下边界线,从而基于上边界线和下边界线之间的间距,对目标 文本的文本图像进行划分,得到多个文本子图像,然后对每个文本子图像进行 图像变换处理,从而根据变换后的文本子图像能够得到准确矫正的拼接文本图 像,实现对待处理图像中的目标文本的文本图像进行准确的矫正处理,并且, 由于对多个文本子图像可以并行的进行图像变换处理,因此能够极大地提高文 本矫正的效率。
95.在一些实施例中,图像处理系统至少包括终端和服务器,终端用于采集待 处理图像,服务器用于对待处理图像进行图像处理。图5是本技术实施例提供 的图像处理方法的另一个可选的流程示意图,如图5所示,方法包括以下步骤:
96.步骤s501,终端采集待处理图像。
97.本技术实施例中,终端上可以具有图像采集装置,通过图像采集装置实时 采集待处理图像,并通过服务器对实时采集的待处理图像进行图像处理,得到 最终的拼接文本图像。或者,终端采集待处理图像也可以是通过终端上的图像 浏览或者图像下载客户端从网络上下载得到待处理图像,或者,终端采集待处 理图像还可以是通过终端上的即时通信应用接收其他用户发送的图片,得到待 处理图像。
98.步骤s502,终端基于待处理图像生成图像处理请求。
99.终端上可以安装有图像处理应用,用户可以在图像处理应用的客户端进行 操作,触发生成图像处理请求。例如,可以在客户端选择待处理图像并选择图 像处理按键,从而使得终端基于用户选择的待处理图像生成图像处理请求。
100.本技术实施例中,可以将待处理图像封装至图像处理请求中,图像处理请 求用于请求图像处理应用的服务器对该待处理图像进行矫正处理。
101.步骤s503,终端将图像处理请求发送给服务器。
102.步骤s504,服务器对待处理图像进行文本区域识别,得到与待处理图像中 的目标文本对应的文本连通域。
103.本技术实施例中,服务器响应于图像处理请求并解析图像处理请求,得到 待处理图像,对待处理图像进行文本区域识别,其中,文本区域识别是指识别 目标文本所在的区
域,本技术实施例中,可以采用图像处理技术中的灰度二值 法来实现,也可以通过基于深度神经网络的方法实现对待处理图像进行文本区 域识别。
104.步骤s505,服务器确定文本连通域对应的外接多边形。
105.这里,外接多边形是指处于文本连通域之外且完全包裹文本连通域的多边 形,外接多边形至少具有一条边与文本连通域的轮廓线相切。外接多边形的面 积大于或等于文本连通域的面积,当外接多边形的面积等于文本连通域的面积 时,文本连通域的轮廓线与外接多边形的每条边重合。当外接多边形为外接矩 形时,如果外接多边形的面积等于文本连通域的面积,则表明目标文本为规则 文本。
106.步骤s506,服务器计算文本连通域的面积与外接多边形的面积之间的比值。
107.文本连通域的面积与外接多边形的面积之间的比值大于0小于等于1。
108.步骤s507,判断比值是否小于预设阈值。
109.这里,预设阈值可以是人工预先设置的值,可以是一经验值。
110.如果判断结果为是,则确定出目标文本为不规则文本;如果判断结果为否, 则确定出目标文本为规则文本。当目标文本为规则文本时,不采用本技术实施 例的方法对目标文本进行矫正处理。
111.步骤s508,当目标文本为不规则文本时,服务器采用外接多边形对文本连 通域进行递归分割处理,得到文本连通域的上边界线和下边界线。
112.在一些实施例中,外接多边形可以为外接矩形,步骤s508可以通过以下步 骤实现:
113.步骤s5081,在递归分割处理的每一次分割处理过程中,确定当前的文本 连通域对应的外接矩形的等分线。
114.需要说明的是,在第一次分割处理时,当前的文本连通域就是目标文本对 应的文本连通域;在第n次(n为大于1的整数)分割处理时,当前的文本连 通域就是第n-1次分割处理后所得到的一个子轮廓对应的连通域。
115.步骤s5082,确定外接矩形的等分线与文本连通域的交点。
116.外接矩形的等分线是指垂直于外接矩形长边且等分外接矩形长边的线,外 接矩形的等分线与文本连通域的交点为两个。在确定出交点之后,即可确定出 每一交点的坐标。
117.步骤s5083,基于交点的坐标将文本连通域划分为两个子轮廓。
118.本技术实施例中,可以采用两个交点之间的连线,将文本连通域划分为两 个子轮廓。
119.步骤s5084,将两个子轮廓中靠近目标文本的文本连通域外侧的一个子轮 廓,确定为下一次递归分割处理的文本连通域。
120.本技术实施例中,当递归分割处理未结束时,可以循环上述步骤s5081至 步骤s5084,直至达到递归分割处理的结束条件。
121.步骤s5085,当任意一次分割处理后所得到的子轮廓的外接矩形的长宽比 小于1时,停止递归分割处理。
122.这里,递归分割处理的结束条件是当前分割处理后所得到的子轮廓的外接 矩形的长宽比小于1。
123.步骤s5086,根据每次分割处理过程中得到的交点的坐标,确定目标文本 的文本连通域的上边界线和下边界线。
124.在一些实施例中,每次分割处理过程中得到两个交点;在确定上边界线和 下边界线时,可以通过以下步骤实现:
125.步骤s11,基于递归分割处理的最后一次分割处理过程所得到的两个终点 子轮廓,确定目标文本的文本连通域的四个端点坐标。
126.在一些实施例中,步骤s11可以通过以下步骤实现:
127.步骤s111,获取每一终点子轮廓的外接矩形的四个矩形端点。
128.由于具有两个终点子轮廓,每个终点子轮廓的外接矩形具有四个矩形端点, 因此总共获取八个矩形端点。
129.步骤s112,获取最后一次分割处理过程中等分线与文本连通域的交点。
130.步骤s113,确定每一矩形端点与交点之间的距离。
131.本技术实施例中,对于每个终点子轮廓的外接矩形的四个矩形端点,其中 有两个矩形端点与交点重合,因此,这两个矩形端点与交点之间的距离为0; 而另外两个矩形端点不与交点重合,因此,这两个矩形端点与交点之间的距离 大于0。
132.步骤s114,将每一终点子轮廓的外接矩形中具有最大距离的两个矩形端点 的坐标,确定为目标文本的文本连通域的端点坐标。
133.这里,每一终点子轮廓的外接矩形中具有最大距离的两个矩形端点,即不 与交点重合的两个矩形端点。
134.步骤s12,基于四个端点坐标,对每次分割处理过程中得到的两个交点进 行划分,形成两组交点组。
135.本技术实施例中,每次分割处理过程中得到的两个交点分别被划分至一个 交点组中,也就是说,每次分割处理过程中得到的两个交点不在同一交点组中, 分割处理过程中得到的两个交点分别是上边界线和下边界线中的一个点。
136.步骤s13,分别根据两组交点组中的交点的坐标,确定出目标文本的文本 连通域的上边界线和下边界线。
137.本技术实施例中,在获取到四个端点坐标之后,即可知道上边界线和下边 界线的四个端点,因此,可以基于两组交点组中的交点的坐标,依次连接四个 端点,形成四条曲线,并将与两组交点组中的交点重合的两条曲线分别确定为 上边界线和下边界线。
138.步骤s509,服务器基于上边界线与下边界线之间的间距,对目标文本对应 的文本图像进行划分,形成多个文本子图像。
139.步骤s510,服务器对每一文本子图像进行图像变换处理,得到变换后的文 本子图像。
140.步骤s511,服务器对变换后的文本子图像进行拼接,形成拼接文本图像。
141.步骤s512,服务器对拼接文本图像进行文本识别,得到目标文本的文本内 容。
142.本技术实施例中,拼接文本图像是经过矫正处理后的文本图像,因此相比 于待处理图像,文本识别过程更加容易进行,且识别结果更加准确。
143.步骤s513,服务器将文本内容发送给终端。
144.本技术实施例提供的图像处理方法,采用外接矩阵对文本连通域进行递归 分割
处理,从而能够准确的得到文本连通域的上边界线和下边界线,并且基于 上边界线和下边界线对目标文本对应的文本图像进行划分,形成多个文本子图 像,从而能够实现对多个文本子图像并行进行图像变换处理,提高矫正处理的 效率。由于本技术实施例能够准确的得到矫正处理后的拼接文本图像,因此, 在需要对待处理图像中的不规则文本进行文本识别时,可以基于拼接文本图像 进行文本识别,从而提高了文本识别的准确度。
145.图6是本技术实施例提供的图像处理方法的再一个可选的流程示意图,如 图6所示,方法包括以下步骤:
146.步骤s601,终端采集待处理图像。
147.步骤s602,终端基于待处理图像生成图像处理请求。
148.步骤s603,终端将图像处理请求发送给服务器。
149.步骤s604,服务器对待处理图像进行文本区域识别,得到与待处理图像中 的目标文本对应的文本连通域。
150.步骤s605,服务器采用外接矩形对文本连通域进行递归分割处理,得到文 本连通域的上边界线和下边界线。
151.步骤s606,服务器获取每一次分割处理过程中等分线与文本连通域的两个 交点之间的截线长度。
152.这里,截线长度是指分割处理过程中等分线与文本连通域的两个交点之间 的线段的长度。
153.步骤s607,服务器确定全部截线长度的平均值,得到平均截线长度。
154.步骤s608,服务器将平均截线长度确定为上边界线与下边界线之间的间距。
155.本技术实施例中,通过对全部截线长度求均值,能够保证在不规则文本中 的多个文字的字体大小不一致,或者,预测出来的文本连通域不是光滑的延伸 曲线的情况下,也能够对文本图像进行准确的划分。也就是说,当所确定出的 上边界线与下边界线不平行时,或者,上边界线与下边界线一部分平行,另一 部分不平行时,也能够对文本图像进行准确的划分。
156.在一些实施例中,当不规则文本中的多个文字的字体大小一致,且预测出 来的文本连通域是光滑的延伸曲线时,此时,所确定出的上边界线与下边界线 平行,每一次分割处理过程中等分线与文本连通域的两个交点之间的截线长度 相同,则平均截线长度等于每一次分割处理过程中等分线与文本连通域的两个 交点之间的截线长度。
157.步骤s609,服务器基于上边界线与下边界线之间的间距,分别对上边界线 和下边界线进行等距离采样,得到多个采样点对。
158.在一些实施例中,步骤s609可以通过以下步骤实现:
159.步骤s6091,确定上边界线的第一长度和下边界线的第二长度。
160.步骤s6092,根据第一长度、第二长度和所述间距,确定采样分段数。
161.步骤s6093,根据第一长度和采样分段数,确定上边界线的第一等分间隔 长度。
162.步骤s6094,根据第二长度和采样分段数,确定下边界线的第二等分间隔 长度。
163.本技术实施例中,第一等分间隔长度与第二等分间隔长度可以相同也可以 不同,当上边界线的第一长度与下边界线的第二长度相同时,第一等分间隔长 度与第二等分间隔长度相同;当上边界线的第一长度与下边界线的第二长度不 同时,第一等分间隔长度与
第二等分间隔长度不同。
164.步骤s6095,根据第一等分间隔长度和第二等分间隔长度,通过最近邻插 值法确定上边界线和下边界线上每一采样点的坐标,得到多个采样点对。
165.这里,可以根据第一等分间隔长度和第二等分间隔长度,按照上边界线和 下边界线上的像素点的顺序,分别遍历上边界线和下边界线上的像素点,并计 算所遍历的像素点经过的累积距离。
166.针对上边界线上的像素点,当遍历到任一第一目标像素点时,如果第一目 标像素点对应的累积距离大于已确定的采样点个数与第一等分间隔长度的第一 乘积,且第一目标像素点的前一像素点对应的累积距离小于第一乘积,通过最 近邻插值法确定上边界线的当前采样点的坐标。
167.针对下边界线上的像素点,当遍历到任一第二目标像素点时,如果第二目 标像素点对应的累积距离大于已确定的采样点个数与第二等分间隔长度的第二 乘积,且第二目标像素点的前一像素点对应的累积距离小于第二乘积,通过最 近邻插值法确定下边界线的当前采样点的坐标。最后,将上边界线的当前采样 点和下边界线的当前采样点,确定为一对采样点对。
168.步骤s610,服务器基于多个采样点对,对目标文本对应的文本图像进行划 分,形成多个文本子图像。
169.步骤s611,服务器对每一文本子图像进行图像变换处理,得到变换后的文 本子图像。
170.步骤s612,服务器对变换后的文本子图像进行拼接,形成拼接文本图像。
171.步骤s613,服务器对拼接文本图像进行文本识别,得到目标文本的文本内 容。
172.步骤s614,服务器将文本内容发送给终端。
173.本技术实施例提供的图像处理方法,通过给定算法准确的计算上边界线与 下边界线之间的间距,并基于该间距对目标文本对应的文本图像进行准确的划 分,形成多个文本子图像,进而对多个文本子图像进行并行的图像变换处理, 提高了对待处理图像进行矫正处理的效率。
174.需要说明的是,本技术实施例提供的图像处理方法,可以作为一个独立的 模块实现对目标文本的矫正,也就是说,本技术实施例的图像处理方法可以通 过一个独立的矫正模块来实现,而无需与文本定位网络和文本识别网络绑定在 一起。因此,可以采用任意的文本定位网络对目标文本进行定位,确定目标文 本的文本连通域;并且,也可以采用任意的文本识别网络来进行文本识别。即 可以作为一个独立的单元完成文本矫正过程,在矫正处理完成之后,得到拼接 文本图像,可以采用任意的文本识别网络对拼接文本图像进行文本识别。这样, 针对于文本定位网络和文本识别网络,均可以独立于矫正模块来进行训练,矫 正模型的矫正结果可以实现拿来即用,使得针对待处理图像的文本处理过程更 加灵活。
175.下面,将说明本技术实施例在一个实际的应用场景中的示例性应用。本申 请实施例提供一种图像处理方法,该方法可以直接嵌入到文本检测模块和识别 模块之间,不需要进行网络模型训练且与识别模块解耦开,解决了需要训练模 型和不够灵活的问题。并且,可解决具有大弧度弯曲和大幅度透视变换的不规 则文字矫正问题,可以处理任意类型语
言文本场景下任意长度的不规则文本。
176.本技术实施例提供的图像处理方法可以应用于不同场景下的文字识别工具 和系统中。图7是本技术实施例提供的一种应用场景示意图,用户输入一张图 片701,采用本技术实施例的方法对图片701中的不规则文本702进行ocr检 测703,框出不规则文本的位置,然后进行ocr识别704,识别出图片701中 的每个文字,得到并输出图片中文字的识别结果序列705。
177.图8是本技术实施例提供的另一种应用场景示意图,在该场景下支持曲型 文本检测、矫正和识别,如图8所示,对于输入的待处理图像801,采用本申 请实施例提供的方法进行图像处理之后,再进行文本识别,得到待处理图像中 的曲型文本的文本内容802。
178.图9a至图9c是本技术实施例提供的图像处理方法在不同图片上的矫正效 果展示图,如图9a所示,英文的目标文本901“northwestern”为具有大 弧度弯曲的不规则文本,采用本技术实施例的方法进行矫正之后,得到矫正后 的图像902,矫正后的图像902为规则排布的水平文本;如图9b所示,中文的 目标文本903“快速还信用卡”为具有大弧度弯曲和大程度透视的不规则文本, 采用本技术实施例的方法进行矫正之后,得到矫正后的图像904,矫正后的图 像904为规则排布的水平文本;如图9c所示,中文的目标文本905“赏德云大 戏鉴领誉精品”为具有大弧度弯曲的不规则文本,采用本技术实施例的方法进 行矫正之后,得到矫正后的图像906,矫正后的图像906为规则排布的水平文 本。
179.文本矫正技术是识别不规则文本的关键,文本矫正技术的作用是对文本检 测模块输出的不规则文本进行矫正,将弯曲变形的不规则文字变成规整的水平 或垂直文本。本技术实施例提出的方法适用于大弧度的弯曲和大程度的透视变 换文本,并且能够处理任意长度的文本。本技术实施例的方法整体上采用文本 关键控制点生成加tps变换插值的流程,通过图像处理的方法来寻找搜索文本 关键控制点,并针对长文本场景改进薄条样本插值变换算法。本技术实施例可 应用在存在不规则文本识别需求的场景,如广告艺术字识别、文件印章识别、 街景广告牌识别、网络图片艺术字识别等。
180.下面对本技术实施例的文本矫正方法(即图像处理方法)进行说明。
181.图10是本技术实施例文本矫正方法的流程示意图,如图10所示,文本矫 正方法可以划分为三个核心步骤,分别是文本边界轮廓获取步骤s1001、边界 关键控制点生成步骤s1002和多段并行tps插值步骤s1003。首先,对文本检 测模块输出的待处理图像1000的文本前景连通域(即文本连通域)1001求取 轮廓和最小外接矩形,递归地向两端等分最小外接矩形,以定位四个端点并划 分上下边界线。然后,通过关键控制点生成模块1002,对确定的两条边界线分 别进行等距离采样,采样点位置通过最近邻插值的方法得到。最后,采用tps 变换模块1003,通过tps插值的方法分别对多组控制点并行地进行处理,最后 再将处理后的子图按顺序拼接到一起,形成矫正后的文本图像1004(对应上述 拼接文本图像)。
182.下面,对文本边界轮廓获取步骤s1001、边界关键控制点生成步骤s1002 和多段并行tps插值步骤s1003分别进行说明。
183.在文本边界轮廓获取步骤中,基于文本检测模块得到的文本连通域,生成 不规则文本上下两条分离的文本边界线(即上边界线和下边界线),例如,可以 通过实例分割算法mask-rcnn输出的mask分支预测结果来提取文本连通域。
184.这里需要说明的是,文本连通域是经过二值化后的像素点区域,也就是前 景像素
点所在的区域。由于知道了文本连通域,仅是知道了文本完整的轮廓线, 但是不知道轮廓线中哪一部分是上边界,哪一部分是下边界,因为只能得到一 个完整的轮廓线,但是得拆分成上边界线和下边界线,因此,需要进一步确定 出文本连通域的上边界线和下边界线。
185.本技术实施例中,确定上边界线和下边界线时采用的算法思想是通过等分 外接矩形的方法递归地朝两侧切分文本连通域的轮廓点,来逼近两端得到文本 最外侧的四个顶点,同时确定上下边界线的起始点和结束点,将完整的文本轮 廓一分为二,得到上下边界线。参见图11,是本技术实施例提供的确定上边界 线和下边界线的流程示意图,具体步骤如下:
186.步骤s101,判定待处理图像中的词条(即目标文本)是否为不规则文本, 这里,可以记连通域面积为sc,外接矩形面积为sr,计算文本连通域1101与外 接矩形1102的面积比值r=sc/sr,若r小于阈值t则判定为不规则文本词条,进 行后续矫正步骤。
187.步骤s102,通过步骤s101中计算的最小外接矩形的长边的等分线l1,计算 l1与文本连通域的轮廓c的交点,将轮廓c二分为子轮廓c1和子轮廓c2。轮廓 切分可以采用基于sutherland

hodgman算法的多边形求交的思想,用等分线 或外接矩形与文本的轮廓求交得到分成两部分的子轮廓。
188.步骤s103,对新得到的子轮廓c1和c2,重复步骤s102,分别进行最小外 接矩形框求取、沿着长边平分外接矩形求长边的等分线l2的操作,此时各自只 保留靠近外侧的文本轮廓。重复此过程,直到旋转外接矩形的长宽比小于1, 此时保留下的是整个词条最外侧两端处的最小外接矩形框r
left
和r
right

189.步骤s104,对两端的外接矩形框r
left
和r
right
的各自4个坐标点,根据到最后 等分线交点的距离,各保留距离最大的2个点记为整个不规则文本轮廓的四个 最外侧端点。
190.步骤s105,基于四个外侧端点将全部轮廓点划分为2组,得到有序的上下 两条分离边界线。
191.这里,在进行划分时,由于已经知道了4个最外侧端点,而整个完整的轮 廓是已知的,那么,此时知道4个最外侧端点,就可以基于这4个最外侧端点 两两划分,将整个文本连通域划分成4段。同时由于4个最外侧端点之间的顺 序是已知的,所以上边界线就是左上端点和右上端点之间的一段,下边界线就 是左下端点和右下端点之间的一段。图12是本技术实施例提供的不规则文本上 下两条边界线的获取过程示意图,如图12所示,根据外接矩形框r
left
和r
right
, 可以确定出四个最外侧端点121、122、123和124,然后,基于四个最外侧端 点121、122、123和124划分得到上边界线125和下边界线126。
192.在边界关键控制点生成步骤中,对目标文本的上边界线和下边界线进行等 间隔点采样,生成的点记为不规则文本的关键控制点。采样过程是以高h为间 隔长度来等分目标文本上边界线和下边界线的轮廓,采样点使用的是最近邻插 值法。在实现的过程中,可以通过以下步骤进行操作:
193.步骤s201,在步骤s102和步骤s103中向两边递归地等分最小外接矩形的 同时,记录每一次的等分线与轮廓之间的截线长度hi,最后通过求取平均值来 近似不规则文本轮廓的上下边界的间距h,即可以通过以下公式(1)确定上下 边界距离:
194.195.其中,n表示等分最小外接矩形的操作进行了n次。
196.图13分别表示第一次和第二次进行等分操作时的截线长度说明,其中实线 131为不规则文本的文本连通域的轮廓,实线132表示不规则文本的文本连通 域的最小外接矩形,实线133表示每次进行等分操作的分割线(即等分线l), 粗实线134表示本次进行等分外接矩形的分割线与本次文本连通域的轮廓之间 的截线长度hi。
197.步骤s202,计算不规则文本的上边界线的曲线长度len1以及下边界线的曲 线长度len2。
198.步骤s203,计算需要进行采样的等分段数n。如图14所示,是文本边界 轮廓获取步骤中获取的不规则文本的上下边界线,采样点的预估等分长度设置 为h。采样点的等分长度设置成上下边界线的距离h,是因为中文绝大部分的字 符都是等宽高的,而且弯曲往往会发生在字符之间,以字符粒度进行分段和矫 正操作,取得的效果最好。因此,采样的等分段数n可以通过以下公式(2) 计算:
[0199][0200]
其中:k是下限,例如可以取值为10,即最少分为10段进行采样;表示以h为等分长度计算出的分段数,向下取整。
[0201]
步骤s204,分别对不规则文本的上下边界线进行等距离均匀采样,采样点 的坐标通过最近邻插值的方法计算得到。具体采样过程如下:
[0202]
1)通过上下边界线的曲线长度len1和len2,以及采样的分段数n,分别计 算需要进行采样的等分间隔长度d1和d2,即:
[0203]
2)分别按序遍历上下边界轮廓上的点pi(i=1,2,3

)并计算经过的累积距离 和di,当遍历到点pn时若满足条件dn>k*d且d
n-1
<k*d,k∈(1,n),k为已 确定的采样点个数,通过最近邻插值法计算当前第k个采样点的坐标。
[0204]
最近邻插值法是指将目标图像中的点,对应到原图像中后,找到最相邻的 整数点,作为插值后的输出。插值的目的是根据已知的图像的像素值获得未知 目标图像的像素值,即:将变换后的图像中的原像素点最邻近像素的灰度值赋 给原像素点。最近邻插值算法公式(3)如下:
[0205][0206]
其中,src_x、src_y分别表示原图像中的x和y坐标;dst_x、dst_y分别 表示目标图像中的x和y坐标;src_width、src_height分别表示原图像的宽和高; dst_width、dst_height分别表示目标图像的宽和高。
[0207]
因为采样点的获取是在原图大小上进行采样操作,所以目标图像的宽高和 原图像的宽高是一致的。对于坐标值是浮点数的情况,采取四舍五入的取整操 作进行最近邻插值采样。如图15所示,是本技术实施例提供的采样点的获取示 意图,对于上下边界线151进
行采样点获取后,得到多个采样点152,映射到 待处理图像上,即采样点153。
[0208]
在多段并行tps插值步骤中,采用tps插值算法进行分段矫正,这里可以 将目标文本等分成n段,并行地进行tps处理,然后将n段变换后的结果进 行拼接作为最后的完整结果。这种分段处理的策略可以使得算法在文本长度很 长或者弯曲弧度很大的情况亦能够取得很好的拉伸效果。具体包括以下步骤:
[0209]
步骤s301,根据采样的分段数n,可以将两条边界线的相邻采样点划分成 n组有序的点对,每一组上下边界线各两个相邻点构成,对应n段文本图像区 域。
[0210]
步骤s302,对这n段文本图像区域分别通过tps变换处理,该操作可以 并行执行,进行不规则文本的矫正拉伸。如图16所示,是本技术实施例提供的 分段并行tps变换处理的示意图,针对原始的待处理图像分段后的多个文本图 像区域161分段拟合,然后并行进行tps变换处理后再拼接,得到拼接文本图 像162。
[0211]
步骤s303,将n段矫正拉伸后的输出结果按序进行拼接,拼回成完整的文 本图像,即最后完成拉伸操作的规整文本行图像(即拼接文本图像)。文本矫正 结果示例如图17a和17b所示。
[0212]
由于tps变换存在的缺陷是对弯曲度较大、较长的曲线文本的效果差。而 本本技术实施例所采用的方法是先对文本区域进行切分成弧度和长度较小的图 像片段,然后再并行地分别进行tps变换,再对变换后的结果进行拼接,这种 改进算法可以有效规避tps变换的这一缺陷,取得很好的矫正拉伸效果,提升 后续文字识别的结果。
[0213]
本技术实施例提供的图像处理方法,是一种全新的不规则曲形文本的矫正 方法,适用于大弧度的弯曲以及大程度的透视变换场景。本方法是即插即用的, 针对中英文场景下的不规则文本都可以取得很好的效果,适用场景更加广泛, 且速度快。由于不规则文本已通过本技术实施例的方法矫正处理,因此可以直 接采用基于序列识别方法的文本识别模型对矫正后的文本词条进行识别处理, 并获得较好的识别结果,不再需要收集大量不规则文本的标注数据并重新训练 识别模型。
[0214]
需要说明的是,本技术实施例的方法中最初获取文本连通域的方法,既可 以通过图像处理的灰度二值方法来实现,也可以通过基于深度神经网络的方法, 如mask-rcnn、pixellink等检测方法提取到文本前景连通域。此外,采用等 分线对文本轮廓进行切分的步骤,不仅可以采用sutherland

hodgman算法, 也可以通过其它的多边形求切的算法思想,如vatti clipping算法。
[0215]
可以理解的是,在本技术实施例中,涉及到用户信息的内容,例如,待处 理图像、目标文本或者文本内容等信息中,如果涉及与用户信息相关的数据, 当本技术实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且 相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0216]
下面继续说明本技术实施例提供的图像处理装置354实施为软件模块的示 例性结构,在一些实施例中,如图3所示,图像处理装置354包括:
[0217]
识别模块3541,用于对待处理图像进行文本区域识别,得到与所述待处理 图像中的目标文本对应的文本连通域;递归分割处理模块3542,用于对所述文 本连通域进行递归分割处理,得到所述文本连通域的上边界线和下边界线;划 分模块3543,用于基于所述上边界线与所述下边界线之间的间距,对所述目标 文本对应的文本图像进行划分,形成多个
文本子图像;变换处理模块3544,用 于对每一所述文本子图像进行图像变换处理,得到变换后的文本子图像;拼接 模块3545,用于对所述变换后的文本子图像进行拼接,形成拼接文本图像。
[0218]
在一些实施例中,所述装置还包括:外接多边形确定模块,用于确定所述 文本连通域对应的外接多边形;计算模块,用于计算所述文本连通域的面积与 所述外接多边形的面积之间的比值;确定模块,用于当所述比值小于预设阈值 时,确定出所述目标文本为不规则文本;所述递归分割处理模块还用于:当所 述目标文本为不规则文本时,采用所述外接多边形对所述文本连通域进行递归 分割处理,得到所述文本连通域的上边界线和下边界线。
[0219]
在一些实施例中,所述外接多边形为外接矩形;所述递归分割处理模块还 用于:在所述递归分割处理的每一次分割处理过程中,确定当前的文本连通域 对应的所述外接矩形的等分线;确定所述外接矩形的等分线与所述文本连通域 的交点;基于所述交点的坐标将所述文本连通域划分为两个子轮廓;将所述两 个子轮廓中靠近所述目标文本的文本连通域外侧的一个子轮廓,确定为下一次 递归分割处理的文本连通域;当任意一次分割处理后所得到的子轮廓的外接矩 形的长宽比小于1时,停止所述递归分割处理;根据每次分割处理过程中得到 的所述交点的坐标,确定所述目标文本的文本连通域的上边界线和下边界线。
[0220]
在一些实施例中,每次分割处理过程中得到两个交点;所述递归分割处理 模块还用于:基于所述递归分割处理的最后一次分割处理过程所得到的两个终 点子轮廓,确定所述目标文本的文本连通域的四个端点坐标;基于所述四个端 点坐标,对每次分割处理过程中得到的两个交点进行划分,形成两组交点组; 分别根据所述两组交点组中的交点的坐标,确定出所述目标文本的文本连通域 的上边界线和下边界线。
[0221]
在一些实施例中,所述递归分割处理模块还用于:获取每一所述终点子轮 廓的外接矩形的四个矩形端点;获取最后一次分割处理过程中所述等分线与所 述文本连通域的交点;确定每一所述矩形端点与所述交点之间的距离;将每一 所述终点子轮廓的外接矩形中具有最大距离的两个矩形端点的坐标,确定为所 述目标文本的文本连通域的端点坐标。
[0222]
在一些实施例中,所述划分模块还用于:基于所述上边界线与所述下边界 线之间的间距,分别对所述上边界线和所述下边界线进行等距离采样,得到多 个采样点对;基于所述多个采样点对,对所述目标文本对应的文本图像进行划 分,形成所述多个文本子图像。
[0223]
在一些实施例中,所述装置还包括:截线长度获取模块,用于获取每一次 分割处理过程中所述等分线与所述文本连通域的两个交点之间的截线长度;平 均值确定模块,用于确定全部截线长度的平均值,得到平均截线长度;间距确 定模块,用于将所述平均截线长度确定为所述上边界线与所述下边界线之间的 间距。
[0224]
在一些实施例中,所述划分模块还用于:确定所述上边界线的第一长度和 所述下边界线的第二长度;根据所述第一长度、所述第二长度和所述间距,确 定采样分段数;根据所述第一长度和所述采样分段数,确定所述上边界线的第 一等分间隔长度;根据所述第二长度和所述采样分段数,确定所述下边界线的 第二等分间隔长度;根据所述第一等分间隔长度和所述第二等分间隔长度,通 过最近邻插值法确定所述上边界线和所述下边界线上
每一采样点的坐标,得到 多个采样点对。
[0225]
在一些实施例中,所述划分模块还用于:根据所述第一等分间隔长度和所 述第二等分间隔长度,按照所述上边界线和所述下边界线上的像素点的顺序, 分别遍历所述上边界线和所述下边界线上的像素点,并计算所遍历的像素点经 过的累积距离;针对所述上边界线上的像素点,当遍历到任一第一目标像素点 时,如果所述第一目标像素点对应的累积距离大于已确定的采样点个数与所述 第一等分间隔长度的第一乘积,且所述第一目标像素点的前一像素点对应的累 积距离小于所述第一乘积,通过所述最近邻插值法确定所述上边界线的当前采 样点的坐标;针对所述下边界线上的像素点,当遍历到任一第二目标像素点时, 如果所述第二目标像素点对应的累积距离大于已确定的采样点个数与所述第二 等分间隔长度的第二乘积,且所述第二目标像素点的前一像素点对应的累积距 离小于所述第二乘积,通过所述最近邻插值法确定所述下边界线的当前采样点 的坐标;将所述上边界线的当前采样点和所述下边界线的当前采样点,确定为 一对采样点对。
[0226]
在一些实施例中,所述装置还包括:文本识别模块,用于对所述拼接文本 图像进行文本识别,得到所述目标文本的文本内容。
[0227]
需要说明的是,本技术实施例装置的描述,与上述方法实施例的描述是类 似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本装置实施例 中未披露的技术细节,请参照本技术方法实施例的描述而理解。
[0228]
本技术实施例提供了一种计算机程序产品或计算机程序,该计算机程序产 品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。 计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该 计算机指令,使得该计算机设备执行本技术实施例上述的方法。
[0229]
本技术实施例提供一种存储有可执行指令的存储介质,其中存储有可执行 指令,当可执行指令被处理器执行时,将引起处理器执行本技术实施例提供的 方法,例如,如图4示出的方法。
[0230]
在一些实施例中,存储介质可以是计算机可读存储介质,例如,铁电存储 器(fram,ferromagnetic random access memory)、只读存储器(rom,readonly memory)、可编程只读存储器(prom,programmable read only memory)、 可擦除可编程只读存储器(eprom,erasable programmable read only memory)、 带电可擦可编程只读存储器(eeprom,electrically erasable programmable readonly memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(cd-rom, compact disk-read only memory)等存储器;也可以是包括上述存储器之一或 任意组合的各种设备。
[0231]
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代 码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程 性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被 部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
[0232]
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被 存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言 (html,hyper text markup language)文档中的一个或多个脚本中,存储在 专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储 一个或多个模块、子程序或代码部分的文件)
中。作为示例,可执行指令可被 部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行, 又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
[0233]
以上所述,仅为本技术的实施例而已,并非用于限定本技术的保护范围。 凡在本技术的精神和范围之内所作的任何修改、等同替换和改进等,均包含在 本技术的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1