图片处理方法及装置与流程

文档序号：12468573阅读：238来源：国知局

本发明涉及图片处理技术领域，尤其涉及一种图片处理方法及装置。

背景技术：

光学字符识别(Optical Character Recognition，OCR)是指通过图像处理和模式识别技术对光学字符进行识别，并将光学字符翻译成计算机文字的过程。通过OCR技术进行光学字符识别的图片通常被称为OCR图片。

为了提高OCR识别结果的准确率，在进行OCR识别之前，通常要对图片进行预处理。预处理方式的选择直接影响OCR识别结果。在同样的识别算法下，预处理方式越合适，OCR识别结果的准确率也越高。

现有的OCR图片预处理技术，是对所有图片均采用相同的预处理方式。然而，对于不同的图片，可能一部分图片经某一预处理方式处理后，会使OCR识别结果的准确率提高；而另一部分图片经同样的预处理方式处理后，可能会使OCR识别结果的准确率降低。因此，现有的OCR图片预处理技术忽视了不同图片特征对预处理方式的适用性，难以保证OCR识别结果的准确率。

技术实现要素：

本发明的目的旨在至少在一定程度上解决上述的技术问题之一。

为此，本发明提出一种图片处理方法及装置，能够针对不同的图片选择不同的预处理方式，通过对图片选择最优的预处理方式，进而达到提高OCR识别结果准确率的目的。

为了实现上述目的，本发明第一方面实施例提出了一种图片处理方法，包括：获取输入的图片；提取图片的特征；将特征输入至三分类预测模型中，并根据三分类预测模型确定预处理方式；根据预处理方式对图片进行预处理；对预处理后的图片进行OCR识别。

本发明第一方面实施例提出的图片处理方法，通过提取输入图片的特征，将特征输入至三分类预测模型中，并根据三分类预测模型确定预处理方式，进而根据预处理方式对图片进行预处理，并对预处理后的图片进行OCR识别。由此，能够针对不同的图片所包含的特征不同，选择不同的预处理方式，实现对图片预处理方式的最优选择，提高OCR识别结果的准确率。

为了实现上述目的，本发明第二方面实施例提出了一种图片处理装置，包括：获取模块，用于获取输入的图片；提取模块，用于提取图片的特征；确定模块，用于将特征输入至三分类预测模型中，并根据三分类预测模型确定预处理方式；预处理模块，用于根据预处理方式对图片进行预处理；识别模块，用于对预处理后的图片进行OCR识别。

本发明第二方面实施例提出的图片处理装置，通过提取输入图片的特征，将特征输入至三分类预测模型中，并根据三分类预测模型确定预处理方式，进而根据预处理方式对图片进行预处理，并对预处理后的图片进行OCR识别。由此，能够针对不同的图片所包含的特征不同，选择不同的预处理方式，实现对图片预处理方式的最优选择，提高OCR识别结果的准确率。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的图片处理方法的流程示意图；

图2是本发明另一实施例提出的图片处理方法的流程示意图；

图3是训练三分类预测模型的流程示意图；

图4是三分类预测模型的训练过程示例图；

图5是本发明一实施例提出的图片处理装置的结构示意图；

图6是本发明另一实施例提出的图片处理装置的结构示意图；

图7是本发明又一实施例提出的图片处理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

OCR技术作为自动识别技术研究和应用领域中的一个重要方面，OCR识别结果的准确率一直是相关领域研究人员关注的焦点。

为了提高OCR识别结果的准确率，在进行OCR识别之前，通常要对图片进行预处理。图片的预处理方式包括：①图片方向校正，当检测到图片方向旋转时，对图片方向进行校正；②图片歪斜校正，当检测到图片歪斜时，对图片进行梯形校正；③去模糊处理，当检测到图片存在抖动模糊时，对图片进行去除模糊处理；④去除白噪音处理，用于去除图片因过度压缩带来的白噪音；⑤锐化处理，用于增强图片的边缘及灰度跳变，增强图片的清晰度；⑥对比度处理；⑦图片阴影与亮度处理。预处理方式的选择直接影响OCR识别结果。在同样的识别算法下，预处理方式越合适，OCR识别结果的准确率也越高。

为了弥补现有OCR图片预处理技术存在的不足，本发明提出一种图片处理方法，能够针对不同的图片选择不同的预处理方式，实现对图片预处理方式的最优选择，提高OCR识别结果的准确率。

图1是本发明一实施例提出的图片处理方法的流程示意图。

如图1所示，该图片处理方法可以包括以下步骤：

S11：获取输入的图片。

本实施例中，首先获取待识别的OCR图片作为输入的图片。

其中，输入的图片可以是医学领域的OCR图片，也可以是其他专业领域的OCR图片，本发明对此不作限制。

S12：提取图片的特征。

本实施例中，在获取到输入的图片之后，进一步提取图片的特征。

其中，提取的图片特征包括形态学特征和纹理特征。具体而言，形态学特征包括纵横轴比、面税凹凸比、周长凹凸比、球状性、偏心率、图片旋转角度等特征中的一种或多种；纹理特征包括梯度优势、灰度分布、梯度分布、灰度平均、梯度平均、灰度均方差、梯度均方差等特征中的一种或多种。

需要说明的是，本实施例中提取的形态学特征和纹理特征并不限于上述罗列的几种特征，还可以包括其他特征，比如模糊度，此处不再一一列举。

S13：将特征输入至三分类预测模型中，并根据三分类预测模型确定预处理方式。

本实施例中，在提取到图片的特征之后，将提取的特征输入至三分类预测模型中，并根据三分类预测模型确定预处理方式。

其中，预处理方式包括第一处理方式、第二处理方式和第三处理方式。第一处理方式为方向校正、梯形校正、去除模糊处理以及锐化的组合；第二处理方式为方向校正、梯形校正、去除模糊处理以及去除白噪音的组合；第三处理方式为方向校正、梯形校正、去除模糊处理以及阴影与亮度处理的组合。

需要说明的是，根据三分类预测模型确定的预处理方式并不限于上述三种处理方式，还可以对已有的预处理方法进行其他组合，形成新的处理方式，以实现不同的预处理功能。本发明对预处理方法的组合方法和组合个数均不作限制。

另外，需要说明的是，本实施例中使用的三分类预测模型是通过训练得到的，具体的训练过程将在后续内容中说明。

S14：根据预处理方式对图片进行预处理。

本实施例中，在确定了图片的预处理方式之后，即可根据确定的预处理方式对图片进行预处理。举例说明如下：

示例一：预处理方式为第一处理方式。

对输入的图片进行特征提取后，将提取的特征输入至三分类预测模型中。若三分类预测模型根据输入的特征所确定的最优预处理方式为第一处理方式，则以第一处理方式对输入的图片进行预处理，即对输入的图片分别进行方向校正处理、梯形校正处理、去除模糊处理和锐化处理。

示例二：预处理方式为第二处理方式。

对输入的图片进行特征提取后，将提取的特征输入至三分类预测模型中。若三分类预测模型根据输入的特征所确定的最优预处理方式为第二处理方式，则以第二处理方式对输入的图片进行预处理，即对输入的图片分别进行方向校正处理、梯形校正处理、去除模糊处理和去除白噪音处理。

示例三：预处理方式为第三处理方式。

对输入的图片进行特征提取后，将提取的特征输入至三分类预测模型中。若三分类预测模型根据输入的特征所确定的最优预处理方式为第三处理方式，则以第三处理方式对输入的图片进行预处理，即对输入的图片分别进行方向校正处理、梯形校正处理、去除模糊处理和阴影与亮度处理。

S15：对预处理后的图片进行OCR识别。

本实施例中，根据确定的预处理方式对图片进行预处理后，即可进一步对预处理后的图片进行OCR识别，以提高识别的准确率。

本发明实施例提出的图片处理方法，通过提取输入图片的特征，将特征输入至三分类预测模型中，并根据三分类预测模型确定预处理方式，进而根据预处理方式对图片进行预处理，并对预处理后的图片进行OCR识别。由此，能够针对不同的图片所包含的特征不同，选择不同的预处理方式，实现对图片预处理方式的最优选择，提高OCR识别结果的准确率。

图2是本发明另一实施例提出的图片处理方法的流程示意图。

如图2所示，基于上述实施例，该图片处理方法，还可以包括以下步骤：

S16：训练三分类预测模型。

本实施例中，为了能够利用三分类预测模型确定合适的预处理方式，需要对三分类预测模型进行训练。

具体地，参见图3，图3是训练三分类预测模型的流程示意图。

如图3所示，训练三分类预测模型，可以包括以下步骤：

S31：获取图片样本。

本实施例中，为了训练三分类预测模型，需要获取大量的图片样本作为训练样本。

S32：分别对图片样本以第一处理方式、第二处理方式和第三处理方式进行预处理，以获得图片样本的第一处理结果、第二处理结果和第三处理结果。

本实施例中，在获取大量的图片样本之后，分别对图片样本中的每张图片进行形态学特征和纹理特征提取，并分别对图片样本以第一处理方式、第二处理方式和第三处理方式进行预处理，获得图片样本的第一处理结果、第二处理结果和第三处理结果。

其中，形态学特征包括纵横轴比、面税凹凸比、周长凹凸比、球状性、偏心率、图片旋转角度等特征中的一种或多种；纹理特征包括梯度优势、灰度分布、梯度分布、灰度平均、梯度平均、灰度均方差、梯度均方差等特征中的一种或多种。

S33：分别对第一处理结果、第二处理结果和第三处理结果进行OCR分析，以获得第一结果、第二结果和第三结果。

本实施例中，在对图片样本进行预处理分别获得第一处理结果、第二处理结果和第三处理结果后，进一步对第一处理结果、第二处理结果和第三处理结果进行OCR分析，获得第一结果、第二结果和第三结果。

S34：根据第一结果、第二结果和第三结果标注图片样本采用的预处理方式。

本实施例中，在经OCR分析分别获得第一结果、第二结果和第三结果之后，即可根据第一结果、第二结果和第三结果标注图片样本采用的预处理方式。

具体地，对图片样本中的每张图片在不进行预处理的情况下进行OCR分析，并将获得的分析结果同第一结果、第二结果和第三结果比较，当第一结果最优时，则标注图片样本采用第一处理方式；当第二结果最优时，则标注图片样本采用第二处理方式；当第三结果最优时，则标注图片样本采用第三处理方式。

S35：将标注后的图片样本输入至三分类预测模型，以对三分类预测模型进行训练。

本实施例中，在对图片样本进行预处理方式标注之后，将标注后的图片样本输入至三分类预测模型，以对三分类预测模型进行训练。

具体地，可以采用机器学习的方式，基于逻辑回归或随机森林对三分类预测模型进行训练。

本实施例中，将标注后的图片样本作为训练样本输入至三分类预测模型中进行模型训练，即可获得本发明实施例提出的图片处理方法中使用的三分类预测模型，进而通过训练所得的三分类预测模型选择最优的图片预处理方式。

进一步地，为了使训练出的模型更准确，可以对训练出的三分类预测模型进行验证和优化，以提高三分类预测模型对图片预处理方式预测的准确度。

作为一种示例，参见图4，图4是三分类预测模型的训练过程示例图。

如图4所示，将标注后的图片样本按一定比例分为训练图片样本和验证图片样本两部分，比如，以4:1的比例将图片样本分为训练图片样本和验证图片样本。将训练图片样本和训练图片样本对应的特征作为输入，基于逻辑回归或随机森林算法进行模型训练，获得三分类预测模型。进一步地，利用验证图片样本和验证图片样本对应的特征对获得的三分类预测模型进行预测效果验证。若验证结果证明训练生成的三分类预测模型效果不好，则重新基于逻辑回归或随机森林算法训练三分类预测模型；若验证结果证明训练生成的三分类预测模型效果好，则输出三分类预测模型，并利用该模型对待识别图片进行预处理方式预测，选择出最优的预处理方式。通过使用验证图片样本验证训练生成的三分类预测模型，能够对模型进行优化，使训练出的模型更准确。

需要说明的是，对三分类预测模型的训练可以在利用三分类预测模型确定预处理方式之前的任一时刻进行。另外，本发明实施例并不仅限于训练和使用三分类预测模型，可以根据需求训练生成其他分类预测模型，比如四分类预测模型、双分类预测模型等，本发明对此不作限制。

本发明实施例提出的图片处理方法，通过获取图片样本，对图片样本以第一处理方式、第二处理方式和第三处理方式进行预处理，并进行OCR分析后对图片样本的预处理方式进行标注，以用于训练生成三分类预测模型，能够针对不同特征的图片，通过训练获得的三分类预测模型快速选择出最优的预处理方式，进而提高OCR识别准确率。

为了实现上述实施例，本发明还提出了一种图片处理装置，图5是本发明一实施例提出的图片处理装置的结构示意图。

如图5所示，本实施例的图片处理装置包括：获取模块510、提取模块520、确定模块530、预处理模块540，以及识别模块550。其中，

获取模块510，用于获取输入的图片。

提取模块520，用于提取图片的特征。

需要说明的是，本实施例中提取的形态学特征和纹理特征并不限于上述罗列的几种特征，还可以包括其他特征，比如模糊度，此处不再一一列举。

确定模块530，用于将特征输入至三分类预测模型中，并根据三分类预测模型确定预处理方式。

预处理模块540，用于根据预处理方式对图片进行预处理。

识别模块550，用于对预处理后的图片进行OCR识别。

需要说明的是，前述实施例中对图片处理方法实施例的解释说明也适用于本实施例的图片处理装置，其实现原理类似，此处不再赘述。

本发明实施例的图片处理装置，通过提取输入图片的特征，将特征输入至三分类预测模型中，并根据三分类预测模型确定预处理方式，进而根据预处理方式对图片进行预处理，并对预处理后的图片进行OCR识别。由此，能够针对不同的图片所包含的特征不同，选择不同的预处理方式，实现对图片预处理方式的最优选择，提高OCR识别结果的准确率。

图6是本发明另一实施例提出的图片处理装置的结构示意图。

如图6所示，该图片处理装置还可以包括：

训练模块560，用于在将特征输入至三分类预测模型中之前，训练三分类预测模型。

具体地，如图7所示，训练模块560可以包括：

获取单元561，用于获取图片样本。

预处理单元562，用于分别对图片样本以第一处理方式、第二处理方式和第三处理方式进行预处理，以获得图片样本的第一处理结果、第二处理结果和第三处理结果。

分析单元563，用于分别对第一处理结果、第二处理结果和第三处理结果进行OCR分析，以获得第一结果、第二结果和第三结果。

标注单元564，用于根据第一结果、第二结果和第三结果标注图片样本采用的预处理方式。

具体地，标注单元564用于：当第一结果最优时，则标注图片样本采用第一处理方式；当第二结果最优时，则标注图片样本采用第二处理方式；当第三结果最优时，则标注图片样本采用第三处理方式。

训练单元565，用于将标注后的图片样本输入至三分类预测模型，以对三分类预测模型进行训练。

具体地，训练单元565用于：采用机器学习的方式，基于逻辑回归或随机森林对三分类预测模型进行训练。

需要说明的是，前述实施例中对图片处理方法实施例的解释说明也适用于本实施例的图片处理装置，其实现原理类似，此处不再赘述。

本发明实施例提出的图片处理装置，通过获取图片样本，对图片样本以第一处理方式、第二处理方式和第三处理方式进行预处理，并进行OCR分析后对图片样本的预处理方式进行标注，以用于训练生成三分类预测模型，能够针对不同特征的图片，通过训练获得的三分类预测模型快速选择出最优的预处理方式，进而提高OCR识别准确率。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周列淳;岳智磊;刘泓;江岩
技术所有人：天方创新（北京）信息技术有限公司
我是此专利的发明人

上一篇：一种用于人证票核验系统的安检仪的制作方法与工艺
上一篇：产品分配系统及其控制方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。