一种图像处理方法、装置、电子设备及存储介质与流程

文档序号：30336455发布日期：2022-06-08 06:57阅读：64来源：国知局

1.本公开涉及人工智能技术领域，进一步涉及计算机视觉和深度学习技术领域,尤其涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术：

2.对快递单进行文字识别一般包括文字检测、文字识别两部分。但是在实际运输、筛捡的过程中，快递包裹随意放置，拍摄角度不固定，拍出的图片可能正向、倒置、倾斜、扭曲等。直接进行文字检测识别难度较高，人工摆正后识别会大大增加人工和时间成本。因此，采用现有技术对快递单进行检测设别的准确度较低。

技术实现要素：

3.本公开提供了一种图像处理方法、装置、电子设备及存储介质，以至少解决相关技术中对快递对象进行检测的准确度较低的技术问题。
4.根据本公开的一方面，提供了一种图像处理方法，包括：获取目标图像，其中，目标图像包括待识别对象；对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系；基于目标像素数据对目标图像进行校正，得到校正结果。
5.根据本公开的又一方面，提供了一种图像处理装置，包括：获取模块，用于获取目标图像，其中，目标图像包括待识别对象；检测模块，用于对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系；校正模块，用于基于目标像素数据对目标图像进行校正，得到校正结果。
6.根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提出的图像处理方法。
7.根据本公开的又一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提出的图像处理方法。
8.根据本公开的又一方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行本公开提出的图像处理方法。
9.在本公开中，首先获取目标场景种的目标图像，其中，目标图像包括待识别对象；然后对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系；最后基于目标像素数据对目标图像进行校正，得到校正结果。实现了提高对目标图像的识别效率。容易注意到的是，可以使用目标像素数据来表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系，然后基于目标像素数据对目标图像进行校正，可以进一步的提高识别的准确度，降低误检的情况，进而解决了相关技术中对快递对象进行检测的准确度较低的技术问题。
10.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
11.附图用于更好地理解本方案，不构成对本公开的限定。其中：
12.图1是本公开实施例的一种快递单的局部图；
13.图2是根据本公开实施例的一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图；
14.图3是根据本公开第一实施例的一种数据处理方法流程图；
15.图4a是本公开实施例的一种不规则摆放的快递单图；
16.图4b是本公开实施例的一种不规则摆放的快递单图；
17.图5a是本公开实施例的一种快递单外框检测图；
18.图5b是本公开实施例的一种快递单外框矫正图；
19.图5c是根据本公开第二实施例的另一种数据处理方法流程图；
20.图6a是本公开实施例的一种样本图像；
21.图6b是本公开实施例的一种样本图像的中心高斯分布区域图；
22.图6c是根据本公开第三实施例的另一种数据处理方法流程图；
23.图7是根据本公开实施例的一种数据处理装置的结构框图。
具体实施方式
24.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
25.需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.随着电商和交通运输的发展，快递行业蓬勃发展。2021年我国快递数量突破100亿，在促消费和加快经济循环中凸显了非常重要的作用。市面上常见的快递公司有几十家，每家公司又有多种样式的快递单，信息繁杂。每天快递站点分发快递、派送快递的过程中每个人接触的快递有上百件，如果通过人工操作录入单号、收件人信息，更新物流公司内部的信息管理系统的物流状态，或者根据电话、地址等信息划分区域派单，就需要耗费大量的人力和时间成本。在要求快递配送速度的环境下，人工操作出错的几率较高，可能会招致投诉。
27.目前，提高目标检测识别的方法主要有以下几种：
28.方法1、四方向分类法，四方向分类模型可以输出图片的上下左右4个朝向，然后根据方向旋转90
°
，180
°
，270
°
矫正快递单图片。
29.方法2、回归方法，利用回归模型直接检测快递单主体的4个顶点。
30.方法3、分割方法，基于分割算法，输出主体区域位置和文字正向1/2、文字正向左上角1/4区域位置。结合主体区域位置和1/4区域位置确定主体4顶点坐标以及起点顶点。
31.相关技术中都存在一些问题，分别如下：方法1、四方向分类法，对于摄像头倾斜拍摄出的带仿射变换角度的图片或者旋转45度左右的图片分类困难。分类正确的情况下，旋转后的文字依然有一定角度的倾斜，影响后续文字检测、识别精度；方法2、回归方法，快递单版式多、样式复杂时，会出现顶点位置不准的情况；方法3、分割方法，图1是快递单的局部小图，在快递单小图和局部图如图1所示的场景下，特征分布分散，分割精度易受条形码等大面积图像特征的影响，1/4区域map易错，进而导致顶点起点判断有误差。
32.根据本公开实施例，提供了一种图像处理方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。
33.本公开实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的电子设备中执行。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。图2示出了一种用于实现图像处理方法的计算机终端(或移动设备)的硬件结构框图。
34.如图2所示，计算机终端200包括计算单元201，其可以根据存储在只读存储器(rom)202中的计算机程序或者从存储单元208加载到随机访问存储器(ram)203中的计算机程序，来执行各种适当的动作和处理。在ram 203中，还可存储计算机终端200操作所需的各种程序和数据。计算单元201、rom 202以及ram 203通过总线204彼此相连。输入/输出(i/o)接口205也连接至总线204。
35.计算机终端200中的多个部件连接至i/o接口205，包括：输入单元206，例如键盘、鼠标等；输出单元207，例如各种类型的显示器、扬声器等；存储单元208，例如磁盘、光盘等；以及通信单元209，例如网卡、调制解调器、无线通信收发机等。通信单元209允许计算机终端200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
36.计算单元201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元201的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元201执行本文所描述的图像处理方法。例如，在一些实施例中，图像处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元208。在一些实施例中，计算机程序的部分或者全部可以经由rom 202和/或通信单元209而被载入和/或安装到计算机终端200上。当计算机程序加载到ram 203并由计算单元201执行时，可以执行本文描述的图像处理方法的一个或多个步骤。备选地，在其他实施例中，计算单元201可以通过其他任何适当的方式(例如，借助于固件)而被配置
为执行图像处理方法。
37.本文中描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
38.此处需要说明的是，在一些可选实施例中，上述图2所示的电子设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图2仅为特定具体实例的一个实例，并且旨在示出可存在于上述电子设备中的部件的类型。
39.在上述运行环境下，本公开提供了如图3所示的图像处理方法，该方法可以由图2所示的计算机终端或者类似的电子设备执行。图3是根据本公开第一实施例提供的一种图像处理方法流程图。如图3所示，该方法可以包括如下步骤：
40.步骤s301，获取目标图像，其中，目标图像包括待识别对象。
41.上述的目标图像可以是包含有待识别对象的快递包裹图像，其中，待识别对象可以为快递包裹上的快递单据。
42.上述的待识别对象可以为快递包裹上的快递单据。其中，该快递单据可以包含以下信息：快递单号、收件人信息等。
43.上述的待识别对象还可以为图像中的发票、电子卡片、海报、文档等。
44.在一种可选地实施例中，可以通过拍摄设备获取目标图像，其中，拍摄设备可以为手机、照相机等。
45.在另一种可选地实施例中，在实际运输、筛捡的过程中，由于快递包裹角度随意放置，相机拍摄角度不固定，从而会导致拍出的快递包裹图像中的快递包裹出现正向、倒置、倾斜，甚至扭曲等，图4a和图4b是本公开中一种不规则摆放的快递包裹单图像，快递单快递包裹图像在如图4a和图4b所示的分布场景下，直接进行文字检测识别难度较高，人工摆正后识别会大大增加人工成本和时间成本。在本公开中，可以在获取到快递包裹图像之后，对快递包裹图像中的快递单据进行校正，以便得到正向的快递单据，从而提高对快递单据的检测准确度。
46.步骤s302，对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系。
47.上述的目标像素数据可以是待识别对象中所有像素与待识别对象的顶点坐标之间的位置关系。目标像素数据也可以是待识别对象中其中一个像素与待识别对象的顶点坐标之间的位置关系；目标像素数据还可以是待识别对象中的多个像素与待识别对象的顶点坐标之间的位置关系。可选地，目标像素数据可以为在快递单据主体框内的像素和主体框4个顶点的横、纵坐标的差值。
48.在一种可选地实施例中，上述的至少一个像素可以为快递单据中心区域的像素，
由于中心区域的像素中文字信息较多，因此，利用中心区域的像素能够更精确的表示出像素与顶点坐标之间的位置关系。
49.在另一种可选地实施例中，可以利用检测模型对目标图像进行检测，得到目标像素数据。可选地，检测模型可以采用多通道分割的方式，输出主体框内的像素和4个顶点的横纵坐标差值，从而来计算主体4个顶点坐标并判断4个顶点的起点坐标。起点坐标可以根据像素中文字的朝向确定，可选的，4顶点中的起点坐标可以为文字正向前提下的左上角。
50.上述的检测模型可以为卷积神经网络(convolutional neural networks，也称为cnn)，其中，卷积神经网络可以是一类包含卷积计算且具有深度结构的前馈神经网络。
51.上述的起点可以通过文字方向确定，在一种可选地实施例中，可以将文字正向时左上角顶点，视为起点。
52.上述的顶点坐标为快递单据四个角上的点的坐标。
53.在另一种可选地实施例中，可以基于像素信息从不同角度对目标对象进行全方位检测，以便得到目标图像对应的目标像素数据。进一步的，由于目标像素数据是待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系，因此，可以通过目标像素数据确定出4个顶点坐标和4个顶点坐标的起点，进一步的，可以根据4个顶点坐标和4个顶点坐标的起点对目标图像中的待识别对象进行校正，使得待识别对象处于正向。
54.步骤s303，基于目标像素数据对目标图像进行校正，得到校正结果。
55.在一种可选地实施例中，可以根据目标像素数据进行逻辑计算得到目标图像中待识别对象的4个顶点和起点。
56.在另一种可选地实施例中，可以根据4个顶点和起点对目标图像中的待识别对象进行校正，使得待识别对象可以正向显示，由于正向显示的待识别对象中的文字信息为正向，因此在对待识别对象中的文字信息进行检测时，可以提高对文字信息检测的准确度。
57.在另一种可选的实施例中，可以通过仿射变换将目标图像中的待识别对象进行校正，得到校正结果，其中，仿射变换，是指在几何中一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。通过上述步骤能够大大降低正向文字的文字检测、识别的难度，可显著提升文字识别的精度，且不需要人工摆正。
58.在另一种可选地实施例中，在得到校正后的目标图像之后，可以通过把快递单识别软件开发工具包(software development kit也称为sdk)集成到手机、把枪、高拍仪等硬件上，该软件开发工具包可以自动实时提取快递单上的货单号、收件人信息等，既能保证较高的识别精度，又能够大大减少人工核算工作量。
59.图5a是本公开中的一种快递单外框检测图，图5b是本公开中的一种快递单外框矫正图。如图5a和图5b所示，本公开中通过检测模型对目标图像进行检测，得到目标像素数据，能够快速检测出各个方向如，正向、倒置、倾斜、扭曲的快递单区域的4个顶点，并能按照文字方向确定顶点起点以及顺序，其中，顶点起点可以是文字正向前提下的左上角。以便将快递单区域至文字矫正至正向，提高后续文字检测识别的精度。
60.根据本公开上述步骤s301至步骤s303，首先获取目标场景种的目标图像，其中，目标图像包括待识别对象；然后对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系；最后基于目标像素数据对目标图像进行校正，得到校正结果。实现了提高对目标图像的识别效
率。容易注意到的是，可以使用目标像素数据来表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系，然后基于目标像素数据对目标图像进行校正，可以进一步的提高识别的准确度，降低误检的情况，进而解决了相关技术中对快递对象进行检测的准确度较低的技术问题。
61.图5c是根据本公开第二实施例的一种图像处理方法的流程图，如图5c所示，该方法包括如下步骤：
62.步骤s501，获取目标图像，其中，目标图像包括待识别对象。
63.步骤s502，对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系。
64.步骤s503，基于目标像素数据对目标图像进行校正，得到校正结果。
65.步骤s504，基于校正结果对目标图像进行识别，得到识别结果，其中，识别结果用于表示目标图像中的待识别对象的文本信息。
66.可选地，基于校正结果对目标图像进行识别，得到识别结果，其中，识别结果用于表示目标图像中的待识别对象的文本信息。
67.在一种可选地实施例中，可以根据校正结果确定出目标图像中待识别对象的正向图像，通过对待识别对象的正向图像进行识别，可以得到待识别对象中记载的文本信息，例如，收件人信息、快递单号等，从而可以实现对目标图像进行精确识别，进而可以得到精确度较高的待识别对象的文本信息。
68.在对目标图像进行矫正时，可根据检测主体4个顶点的坐标及起点坐标信息进行检测，通过仿射变换可将各个方向的快递单图片的主体区域矫正至文字正向图片。如此操作之后能够大大降低正向文字的文字检测、识别的难度，可显著提升文字识别的精度，且不需要人工摆正。得到校正结束之后，可以基于校正结果进行目标图像识别，得到的识别结果可以用来表示待识别对象的文本信息。在一种可选地实施例中，还可以根据精确度较高的对象图像进行识别，从而提高识别对象中信息的准确度。
69.可选地，基于目标像素数据对目标图像进行校正，得到校正结果，包括：基于目标像素数据确定待识别对象的顶点坐标和顶点坐标的排序顺序；基于顶点坐标和顶点坐标的排序顺序对目标图像进行校正，得到校正结果。
70.上述的排序顺序可以为顺时针或者逆时针。
71.在一种可选地实施例中，可以通过逻辑计算得到快递单图片主体区域的4顶点坐标x1、y1、x2、y2、x3、y3、x4、y4,其中，该坐标可按照顺时针或逆时针排序。其中，x1,y1为文字正向时左上角顶点，可以视为起点。
72.在另一种可选的实施例中，可以根据获取到的顶点信息以及相应的起点信息，通过仿射变换可将各个方向的快递单图片的主体区域矫正至文字正向，即得到校正后的结果。其中，仿射变换又称为仿射映射，是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为另一个向量空间。正向文字能够大大降低文字检测、识别的难度，可显著提升文字识别的精度且不需要人工摆正。
73.可选地，基于顶点坐标和顶点坐标的排序顺序对目标图像进行校正，得到校正结果，还包括：根据顶点坐标的排序顺序确定顶点坐标中的目标坐标，其中，目标坐标为顶点坐标中的起点坐标；基于目标坐标和顶点坐标对待识别对象进行校正，得到校正结果。
74.上述的顶点中的目标坐标可以为起点坐标。其中，起点为文字正向前提下的左上角。
75.将已经得到的4个顶点坐标x1、y1、x2、y2、x3、y3、x4、y4，和起点x1,y1通过仿射变换，即可将各个方向的快递单图片的主体区域矫正至文字正向图片，进一步的提高对快递对象的识别准确度。
76.可选地，对目标图像进行检测，得到目标像素数据，包括：利用检测模型对目标图像进行检测，得到目标像素数据。
77.在一种可选的实施例中，可以利用检测模型对目标图像中待识别对象的像素进行检测，得到目标像素数据。
78.在一种可选地实施例中，可以通过检测模型同时对多个目标图像进行检测，可以极大地提升检测效率。
79.在另一种可选地是实例中，还可以通过检测模型同时对一个目标图像中的多个包裹进行检测，进一步的提升对目标图像的检测效率。
80.可选地，获取原始样本，其中，原始样本包括：样本图像，与样本图像对应的样本坐标，样本坐标为样本图像中待识别对象的顶点坐标；基于样本图像和样本坐标，确定样本像素数据，其中，样本像素数据用于表示样本图像中的像素与待识别对象之间的位置关系；基于样本像素数据和样本图像，确定训练数据；基于训练数据对初始模型进行训练，得到检测模型。
81.上述的样本图像可以为包含待识别对象的快递包裹，其中，待识别对象在样本图像中可以是正向、倒置、倾斜，甚至扭曲的。
82.上述的样本坐标可以为样本图像中待识别对象的顶点坐标。
83.上述的样本像素数据可以为待识别对象中至少一个像素与待识别对象的顶点坐标之间的位置关系。
84.上述训练数据为对初始模型进行训练的数据。
85.在一种可选地实施例中，可以获取原始样本，其中，原始样本中可以包含有多个样本图像以及多个样本图像对应的样本坐标，需要说明的是，多个样本图像对应的样本坐标可以是通过人工进行标注的样本坐标，可选的，在获取到多个样本图像之后，人工可以对样本图像进行坐标标注，得到每个样本图像对应的样本坐标，并根据样本图像和样本图像对应的样本坐标生成原始样本。
86.进一步地，可以将样本图像中至少一个像素和样本坐标进行逻辑计算，确定出样本像素数据，为了减少计算量，可以将样本图像中目标区域的像素和样本坐标进行逻辑计算，确定出样本像素数据。可以根据多个样本图像和多个样本图像对应的样本像素数据确定出训练数据。可选的，可以将样本像素数据和样本图像构建成一个样本对，可以获取多个样本对，根据多个样本对生成训练数据，可以根据训练数据对初始模型进行训练，得到检测模型。
87.进一步地，可利用该检测模型对目标图像进行检测，得到目标图像中的待识别对象的目标像素数据，由于目标像素数据中包含有像素与坐标之间的位置关系，因此，可以对目标图像中的待识别对象的像素进行识别，并根据目标像素数据对像素进行逻辑计算，得到与待识别对象中像素对应的顶点坐标的排序顺序和顶点坐标中的起点坐标，根据顶点坐
标的排序顺序和顶点坐标的起点坐标可以对待识别对象进行校正，使得待识别对象能够正向显示，以便于对待识别对象的识别，从而能够极大提升对目标图像的检测效率。
88.可选地，基于样本图像和样本坐标，确定样本像素数据，包括：获取样本图像中待识别对象的目标区域；获取目标区域中的像素和样本坐标之间的差值，确定样本像素数据。
89.在一种可选地实施例中，上述的目标区域可以是待识别对象的中心区域，可以获取样本图像中待识别对象的中心区域，获取中心区域的像素和样本坐标之间的差值，可选的，可以确定像素所处的坐标和样本坐标之间的差值，根据该差值可以确定出像素与样本坐标之间的位置关系，进而可以确定出样本像素数据。
90.其中，目标区域可以为待识别对象中文字较大的区域；目标区域也可以为待识别对象中文字较清晰区域、目标区域也可以是待识别对象的中心区域、信息很多的地方。在一种可选地实施例中，可以将上述的目标区域视为中心高斯分布区域，其中，高斯分布即为正态分布。
91.在图6a是本公开中的一种样本图像，图6b是该样本图像中的中心高斯分布区域图，在本公开中，通过仅提取样本图像中待识别对象的高斯分布区域的像素，去计算样本图像中待识别对象的高斯分布区域的像素和样本坐标中4个顶点的横纵坐标差值，去确定样本数据，极大减少了输出的候选正样本个数，从而降低计算量，提升检测性能。
92.本公开中通过获取目标图像，其中，目标图像包括待识别对象；对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系；基于目标像素数据对目标图像进行校正，得到校正结果。在对目标图像中的待识别对象进行检测时，可以引入像素级的方向监督，通过检测模型对目标图像进行检测，能够得到待识别对象中的像素与待识别对象中顶点坐标之间的位置关系，通过目标像素数据中的位置信息对目标图像进行处理，可以得到更加精确的对象图像，从而提高获取得到的对象图像的准确度。
93.图6c是根据本公开第三实施例的一种图像处理方法的流程图，如图6c所示，该方法包括如下步骤：
94.步骤s601，获取原始样本，其中，原始样本包括：样本图像，与样本图像对应的样本坐标，样本坐标为样本图像中待识别对象的顶点坐标。
95.步骤s602，基于样本图像和样本坐标，确定样本像素数据，其中，样本像素数据用于表示样本图像中的像素与待识别对象之间的位置关系。
96.步骤s603，基于样本像素数据和样本图像，确定训练数据。
97.步骤s604，基于训练数据对初始模型进行训练，得到检测模型。
98.步骤s605，获取目标图像，其中，目标图像包括待识别对象。
99.步骤s606，对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系。
100.步骤s607，基于目标像素数据对目标图像进行校正，得到校正结果。
101.步骤s608，基于校正结果对目标图像进行识别，得到识别结果，其中，识别结果用于表示目标图像中的待识别对象的文本信息。
102.本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
103.通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本公开各个实施例的方法。
104.在本公开中还提供了一种图像处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。
105.图7是根据本公开其中一实施例的一种图像处理装置的结构框图，如图7所示，一种数据处理装置700包括：获取模块701，检测模块702，校正模块703。
106.获取模块701，用于获取目标图像，其中，目标图像包括待识别对象；
107.检测模块702，用于对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系；
108.校正模块703，用于基于目标像素数据对目标图像进行校正，得到校正结果。
109.可选的，校正模块703，包括：第一确定单元，用于基于目标像素数据确定待识别对象的顶点坐标和顶点坐标的排序顺序；校正单元，用于基于顶点坐标和顶点坐标的排序顺序对目标图像进行校正，得到校正结果。
110.可选的，校正单元，包括：确定子单元，用于根据顶点坐标的排序顺序确定顶点坐标中的目标坐标，其中，目标坐标为顶点坐标中的起点坐标；校正子单元，用于基于目标坐标和顶点坐标对待识别对象进行校正，得到校正结果。
111.可选的，检测模块，包括：检测单元，用于利用检测模型对目标图像进行检测，得到目标像素数据。
112.可选的，检测模块，包括：获取单元，用于获取原始样本，其中，原始样本包括：样本图像，与样本图像对应的样本坐标，样本坐标为样本图像中待识别对象的顶点坐标；第二确定单元，用于基于样本图像和样本坐标，确定样本像素数据，其中，样本像素数据用于表示样本图像中的像素与待识别对象之间的位置关系；第二确定单元还用于基于样本像素数据和样本图像，确定训练数据；第二确定单元还用于基于训练数据对初始模型进行训练，得到检测模型。
113.可选的，第二确定单元，包括：获取子单元，用于获取样本图像中待识别对象的目标区域；获取子单元还用于获取目标区域中的像素和样本坐标之间的差值，确定样本像素数据。
114.可选的，该装置还包括：识别模块，用于基于校正结果对目标图像进行识别，得到识别结果，其中，识别结果用于表示目标图像中的待识别对象的文本信息。
115.需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。
116.根据本公开的实施例，本公开还提供了一种电子设备，包括存储器和至少一个处
理器，该存储器中存储有计算机指令，该处理器被设置为运行计算机指令以执行上述任一项方法实施例中的步骤。
117.可选地，上述电子设备还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。
118.可选地，在本公开中，上述处理器可以被设置为通过计算机程序执行以下步骤：
119.s1，获取目标图像，其中，目标图像包括待识别对象；
120.s2，对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系；
121.s3，基于目标像素数据对目标图像进行校正，得到校正结果。
122.可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。
123.根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该非瞬时计算机可读存储介质中存储有计算机指令，其中，该计算机指令被设置为运行时执行上述任一项方法实施例中的步骤。
124.可选地，在本实施例中，上述非易失性存储介质可以被设置为存储用于执行以下步骤的计算机程序：
125.s1，获取目标图像，其中，目标图像包括待识别对象；
126.s2，对目标图像进行检测，得到目标像素数据，其中，目标像素数据用于表示待识别对象中的至少一个像素与待识别对象的顶点坐标之间的位置关系；
127.s3，基于目标像素数据对目标图像进行校正，得到校正结果。
128.可选地，在本实施例中，上述非瞬时计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
129.根据本公开的实施例，本公开还提供了一种计算机程序产品。用于实施本公开的音频处理方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
130.在本公开的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。
131.在本公开所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连
接，可以是电性或其它的形式。
132.所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
133.另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
134.所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom)、随机存取存储器(ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
135.以上所述仅是本公开的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本公开原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本公开的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王晓燕吕鹏原范森章成全姚锟
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。