文本版面分析方法、装置、计算机设备和存储介质与流程

文档序号：21272892发布日期：2020-06-26 23:03阅读：197来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及计算机视觉技术领域，具体地涉及一种文本版面分析方法、装置、计算机设备和存储介质。

背景技术：

随着互联网图片内容的不断增加，以及办公扫描打印文件的日益增加，常需要将扫描打印的图片转化为文字信息，因而如何实现高效的文字识别和检测，以快速完成扫描打印的图片中文字转化成为一个亟需解决的问题。

目前常见的识别方案一般包含文字定位和识别两部分，文字行定位的准确性与识别的准确率成线性正比关系。但是从文档中得到文本内容很容易，但是这些文本内容位置是随机的，尤其是对印刷歪的图片进行识别时，其识别内容的准确性较低。

技术实现要素：

本发明解决的技术问题是如何提供一种能够准确识别图片中的文字内容的文本版面分析方法。

为解决上述技术问题，本发明实施例提供一种文本版面分析方法，所述方法包括：获取目标图片；对所述目标图片进行版面区域分割，得到若干个分割区域；根据所述目标图片的纹理特征识别所述目标图片的文字区域；将所述目标图片中的文字区域与所述若干个分割区域进行匹配，以得到各个分割区域包含的文字区域；对每一分割区域包含的文字区域进行内容识别，得到该分割区域的文字内容；输出各个分割区域的文字内容。

可选的，对每一分割区域包含的文字区域进行内容识别时，属于同一分割区域的文字区域被一并传输至文本识别模型进行识别。

可选的，所述对每一分割区域包含的文字区域进行内容识别，包括：对每一分割区域中包含的各个文字区域分别进行内容识别，得到该文字区域的文字内容；将各个文字区域的文字内容进行拼接，得到该分割区域的文字内容。

可选的，所述根据所述目标图片的纹理特征识别所述目标图片的文字区域，包括：将所述目标图片通过多个卷积核进行卷积运算，以从所述目标图片提取文字对应的若干个纹理特征层；为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域；对所述分配的锚点区域进行回归，得到所述目标图片的文字区域。

可选的，所述根据所述目标图片的纹理特征识别所述目标图片的文字区域，包括：通过将所述目标图片输入纹理提取模型中，得到所述目标图片不同特征维度的若干个纹理特征层，所述纹理提取模型是根据历史图片中的纹理特征进行分析得到的、用以提取输入的图片中的纹理特征层的模型；从所述若干个纹理特征层中筛选出基础纹理特征层；将所述基础纹理特征层进行特征叠加，得到所述目标图片的文字特征层；根据所述文字特征层获取所述目标图片的文字区域。

可选的，所述文字区域为目标图片中包含的每行文字对应的区域。

可选的，输出的各个分割区域的文字内容为字符串。

本发明实施例还提供一种文本版面分析装置，所述装置包括：图片获取模块，用于获取目标图片；版面分割模块，用于对所述目标图片进行版面区域分割，得到若干个分割区域；区域识别模块，用于根据所述目标图片的纹理特征识别所述目标图片的文字区域；版面分析模块，用于将所述目标图片中的文字区域与所述若干个分割区域进行匹配，以得到各个分割区域包含的文字区域；内容识别模块，用于对每一分割区域包含的文字区域进行内容识别，得到该分割区域的文字内容；输出模块，用于输出各个分割区域的文字内容。

本发明实施例还提供一种计算机设备，包括存储器和处理器，所述存储器上存储有能够在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行上述文本版面分析方法的步骤。

本发明实施例还提供一种存储介质，其上存储有计算机指令，所述计算机指令运行时执行上述文本版面分析方法的步骤。

与现有技术相比，本发明实施例的技术方案具有以下有益效果：

本发明实施例提供了一种文本版面分析方法，所述方法包括：获取目标图片；对所述目标图片进行版面区域分割，得到若干个分割区域；根据所述目标图片的纹理特征识别所述目标图片的文字区域；将所述目标图片中的文字区域与所述若干个分割区域进行匹配，以得到各个分割区域包含的文字区域；对每一分割区域包含的文字区域进行内容识别，得到该分割区域的文字内容；输出各个分割区域的文字内容。较之现有技术，上述方法对目标图片按照版面进行分割、并定位目标图片中文字的位置以得到文字区域，从而获取目标图片的多个版面中的文字区域，对各个版面的文字区域进行内容识别，从而能够准确地定位到图片中文字的位置，并结合版面的背景及字体格式等对各个版面中的文字进行针对性识别，从而能够有效提高对图片中文字识别的准确性。

进一步地，将每一分割区域中包含的文字区域传输至文本识别模型中，对文字区域中的文字内容进行识别，得到每一该分割区域中包含的文字内容，从而得到该分割区域中包含的文字内容。采用大数据训练或神经网络等文本识别模型对各个分割区域中的文字区域进行准确地内容识别。

进一步地，通过多个不同卷积核对目标图片进行卷积运输，以得到该目标图片不同特征维度的纹理特征层，根据设定的分配方案为每一纹理特征层分配不同感受野的锚点区域，以适应对此纹理特征层中的特征分布情况，提高对目标图片中文字区域识别结果的准确性。

进一步地，可采用纹理提取模型，根据特征维度不同的，输出目标图片的若干个纹理特征层，降低了模型训练时训练样本的数量，减少数据处理的压力；且根据对纹理特征层的筛选、特征叠加，最终得到能够待识别文字的纹理特征层，实现对目标图片中文字的准确定位。

附图说明

图1是本发明实施例的一种文本版面分析方法的流程示意图；

图2是一实施例中图1步骤s103的流程示意图；

图3是另一实施例中图1步骤s103的流程示意图；

图4是本发明实施例的一种文本版面分析方法的应用示意图；

图5是本发明实施例的一种文本版面分析装置的结构示意图。

具体实施方式

如背景技术所言，现有技术中对图片中的文本内容识别时，识别效果较差。

目前常见的识别方案一般包含文字定位和识别两部分，现有的文本定位方法分两大类，基于锚(anchors)的定位和基于分割的定位，基于锚的缺点是感受野会限制检测内容的长短，基于分割的一般需要耗时的后处理。现有的文本识别方法分两大主流，基于时序分类(connectionisttemporalclassification，简称ctc)的和基于注意力(attention)的。对于没有任何版面要求的文本，这些检测和识别方法都可以得到期望的识别效果。但是对于固定版面格式的文本，例如身份证，营业执照、增值税发票等，这些需要在做一个版面分析和版面还原，不然识别出来的都是一堆无序的无效文字。目前常见的版面分析是基于关键字的匹配，这种方法对于检测模型和识别模型的准确率要求很高。还有一种版面分析是基于传统图片处理，比如腐蚀膨胀，连通域的分析，此种方法对背景变化有很低的鲁棒性。

为解决上述问题，本发明实施例提供了一种文本版面分析方法、装置、计算机设备和存储介质。文本版面分析方法包括：获取目标图片；对所述目标图片进行版面区域分割，得到若干个分割区域；根据所述目标图片的纹理特征识别所述目标图片的文字区域；将所述目标图片中的文字区域与所述若干个分割区域进行匹配，以得到各个分割区域包含的文字区域；对每一分割区域包含的文字区域进行内容识别，得到该分割区域的文字内容；输出各个分割区域的文字内容。

通过该方法，能够有效提高对图片中文字识别的准确性，尤其是对文本内容位置随机或者印刷歪的图图片。

请参见图1，图1提供了本发明一实施例中文本版面分析方法的流程示意图；该文本版面分析方法具体可以包括下述步骤s101至s105。

步骤s101，获取目标图片。

目标图片为包含待识别文字的图片，可以为文字的扫描图片或基于打印得到的文字的图片等等，目标图片可以为真彩图片(也即，rgb图片)。待识别文字为目标图片中的文字部分。本发明实施例用于对图片中的文本进行版面分析，终端先获取待分析的目标图片，继续执行下述步骤。

步骤s102，对所述目标图片进行版面区域分割，得到若干个分割区域。

按照目标图片中的排版和/或文字格式和/或图片的背景颜色等特征对目标图片进行版面区域的分割，将目标图片分割为若干个区域，即分割区域。版面区域分割得到的分割区域的数量至少为1个。

可选的，若目标图片中存在印刷字体为斜体印刷歪等原因造成的字体方向差异，可在版面区域分割时将这些字体识别为一个单独的版面区域，以提高识别的准确性。

可选的，对目标图片进行版面区域分割时，可利用大数据建立版面区域分割的模型，该模型以大量的图片作为训练样本，具有能够自动识别输入的图片中包含的分割区域，并对该图片进行区域分割的功能。通过大数据训练的版面区域分割的模型，能够根据丰富的训练样本，准确地识别各输入图片中包含的分割区域，提高对图片进行版面区域分割的准确性。

步骤s103，根据所述目标图片的纹理特征识别所述目标图片的文字区域。

目标图片的纹理特征与目标图片中包含的文字相对应，用于识别出目标图片中的文字所在的区域，即文字区域。可对目标图片进行卷积运算，以识别目标图片中的纹理特征，从而获取该目标图片的文字区域，对于包含文字内容的目标图片，识别得到的文字区域的数量为一个或多个。另外，当无法从目标图片中识别出文字区域时，可判定该目标图片不包含文字内容，生成识别出错的信息，以使得技术人员对该目标图片进行二次识别或对应的错误排查。

可选的，对目标图片文字区域的识别结果为目标图片中包含的若干行文字所在的矩形区域。

步骤s104，将所述目标图片中的文字区域与所述若干个分割区域进行匹配，以得到各个分割区域包含的文字区域。

将步骤s102中得到的若干个分割区域和步骤s103中得到的文字区域进行匹配，从而得到每一不同版面对应的分割区域中包含的文字所在的文字区域。当目标图片文字区域的识别结果为目标图片中包含的若干行文字所在的矩形区域时，则每一不同版面对应的分割区域包含多行文字对应的矩形区域。每一分割区域中可包含一个或多个文字区域。

步骤s105，对每一分割区域包含的文字区域进行内容识别，得到该分割区域的文字内容。

根据ocr识别等识别方式，对目标图片分割得到的每一分割区域中的文字进行识别，得到每一分割区域中文字区域所包含的文字内容。

步骤s106，输出各个分割区域的文字内容。

分别将各个分割区域中识别出的文字内容输出，作为该分割区域对应版面的文字识别结果。通过图1所述的文本版面分析方法，对目标图片按照版面进行分割、并定位目标图片中文字的位置以得到文字区域，从而获取目标图片的多个版面中的文字区域，对各个版面的文字区域进行内容识别，从而能够准确地定位到图片中文字的位置，并结合版面的背景及字体格式等对各个版面中的文字进行针对性识别，从而能够有效提高对图片中文字识别的准确性。

本实施例中，基于图片的文字识别的版面分析还原问题，对于表格、营业执照、身份证、尤其对于印刷倾斜的文本版面还原效果更有效。

在一个实施例中，对每一分割区域包含的文字区域进行内容识别时，属于同一分割区域的文字区域被一并传输至文本识别模型进行识别。

文本识别模型为用于识别图片中包含的文字的模型，可以为通过大数据训练得到的模型，如神经网络模型；文本识别模型可采用自然语言处理(naturallanguageprocessing，检测nlp)技术中各种适当的模型。

将每一分割区域中包含的文字区域传输至文本识别模型中，对文字区域中的文字内容进行识别，得到每一该分割区域中包含的文字内容，从而得到该分割区域中包含的文字内容。采用大数据训练或神经网络等文本识别模型对各个分割区域中的文字区域进行准确地内容识别。

在对每一分割区域中包含的多个文字区域分别进行内容识别之后，还可将各个文字区域识别得到的文字内容进行拼接，得到每一分割区域对应的版面的全部文字内容。

可选的，根据各个文字区域在分割区域中的相对位置，对该文字区域识别得到的文字内容进行拼接。

可选的，图1中步骤s102中对所述目标图片进行版面区域分割，可包括：根据语义分割技术对所述目标图片进行版面区域分割。

其中，图片的语义分割(semanticsegmentation)，即对图片中的像素点进行分类以从图片中得到聚类的像素区域。可根据语义分割技术、对大量图片样本训练得到语义分割模型执行步骤s102。作为一个非限制性的例子，语义分割模型可通过实例分割模型maskr-cnn模型框架训练得到。

在一个实施例中，请参见图2，图1中的步骤s103所述根据所述目标图片的纹理特征识别所述目标图片的文字区域，可以包括以下步骤：

步骤s201，将所述目标图片通过多个卷积核进行卷积运算，以从所述目标图片提取文字对应的若干个纹理特征层。

纹理特征与目标图片中包含的文字分布相对应，对目标图片中的像素通过多个不同卷积核进行卷积运算，可得到目标图片对应的若干个纹理特征层。

步骤s202，为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域。

为步骤s202中得到的若干个纹理特征层分配不同感受野的锚点区域，使感受野能够与检测内容相匹配。

可选的，可对得到的所有的纹理特征层分别分配锚点区域；也可从其中挑选识别效果较好的几层作为识别对象，以减少设备的计算量，提高识别效率。

步骤s203，对所述分配的锚点区域进行回归，得到所述目标图片的文字区域。

根据步骤s203中分配的锚点区域进行文本区域检测，可对这些锚点区域对应的检测结果进行回归运算，以得到待识别文字在目标图片中的位置所述在区域，也即文字区域。其中，可通过非极大值抑制(non-maximumsuppression，nms)算法来对锚点区域的检测结果进行回归计算。

本实施例中，通过多个不同卷积核对目标图片进行卷积运输，以得到该目标图片不同特征维度的纹理特征层，根据设定的分配方案为每一纹理特征层分配不同感受野的锚点区域，以适应对此纹理特征层中的特征分布情况，提高对目标图片中文字区域识别结果的准确性。

在一个实施例中，请参见图3，图1中的步骤s103所述根据所述目标图片的纹理特征识别所述目标图片的文字区域，还可以包括以下步骤：

步骤s301，通过将所述目标图片输入纹理提取模型中，得到所述目标图片不同特征维度的若干个纹理特征层，所述纹理提取模型是根据历史图片中的纹理特征进行分析得到的、用以提取输入的图片中的纹理特征层的模型。

其中，纹理特征与图片中的文字分布相对应，特征维度为对图片中文字所在区域进行识别的维度。

纹理提取模型是以历史图片中为训练样本、根据样本中文字部分和非文字部分，训练出用于获取输入的图片基于不同特征维度的纹理特征层的模型。其中，当特征维度与图片的像素值对应时，纹理提取模型可以采用现有的卷积神经网络模型(如mobilenetv2、squeezenet、shufflenet等)，对目标图片的像素通过多个不同卷积核进行卷积处理，以得到目标图片对应的若干个纹理特征层。识别终端获取目标图片后，将目标图片通过一个纹理提取模型，以获取此目标图片的若干个纹理特征层。例如若纹理提取模型为mobilenetv2时，可获取19层纹理特征层。

步骤s302，从所述若干个纹理特征层中筛选出基础纹理特征层。

基础纹理特征层为若干个纹理特征层中对于文字定位效果最好的一层或者数层。在获取若干个纹理特征层后，并非对所有的纹理特征层都执行下一步的操作，而是先根据识别需求来对其进行筛选，仅保留对于文字定位效果最好的基础纹理特征层。可选的，可对若干的历史图片识别后得到的每一历史图片的多个纹理特征层进行筛选，以从其中获取文字定位效果较好的几层作为基础纹理特征层。

例如，当纹理提取模型为mobilenetv2时，可从mobilenetv2识别得到的19个纹理特征层中筛选出第3层、第7层、第14层和第19层作为基础纹理特征层。

步骤s303，将所述基础纹理特征层进行特征叠加，得到所述目标图片的文字特征层。

在得到上述的基础纹理特征层之后，若基础纹理特征层不止一个，需要对基础纹理特征层中的特征进行叠加，得到表征待识别文字在目标图片中的位置的纹理特征层。当基础纹理特征层对应目标图片经过几个不同卷积核得到的卷积层，可对基础纹理特征层进行像素插值，获取几个基础纹理特征层的高维度像素图片，实现对基础纹理特征层的优化。

另外，当基础纹理特征层为一个时，则直接将获取的基础纹理特征层作为所目标图片的文字特征层。

步骤s304，根据所述文字特征层获取所述目标图片的文字区域。

在得到待识别文字的纹理特征层，即可根据该层中的特征分布情况，如像素中的待识别文字对应的特征像素分布，获取待识别文字在目标图片中的位置。

本实施例中采用纹理提取模型，根据特征维度不同的，输出目标图片的若干个纹理特征层，降低了模型训练时训练样本的数量，减少数据处理的压力；且根据对纹理特征层的筛选、特征叠加，最终得到能够待识别文字的纹理特征层，实现对目标图片中文字的准确定位。

可选的，所述文字区域为目标图片中包含的每行文字对应的区域。

纹理提取模型输出的目标图片中包含的文字区域为每行文字在该图片中的位置，可为每行文字所在的矩形区域。

可选的，输出的各个分割区域的文字内容为字符串。

即以字符串的格式输出目标图片中各个版面的文字识别结果。

在一个实施例中，请参见图4，图4为一种文本版面分析方法的应用示意图；该应用实例中，终端对文本版面的分析具体可包括下述步骤：

步骤1，输入rgb图片；

步骤2，把步骤1中的图片输入语义分割模型401进行版面区域分割；

步骤3，把步骤1中的图片输入纹理提取模型402进行文本行定位；

步骤4，把步骤2和步骤3的结果进行区域对比，并对步骤3中的结果进行聚类，得到每一版面区域包含的文字区域；

步骤5，把步骤4中聚类好的文本行放入文本识别模型403进行识别；

步骤6，把识别结果拼接成一个字符串返回。

请参见图5，图5提供了本发明实施例的一种文本版面分析装置，所述装置包括：

图片获取模块501，用于获取目标图片。

版面分割模块502，用于对所述目标图片进行版面区域分割，得到若干个分割区域。

区域识别模块503，用于根据所述目标图片的纹理特征识别所述目标图片的文字区域。

版面分析模块504，用于将所述目标图片中的文字区域与所述若干个分割区域进行匹配，以得到各个分割区域包含的文字区域。

内容识别模块505，用于对每一分割区域包含的文字区域进行内容识别，得到该分割区域的文字内容。

输出模块506，用于输出各个分割区域的文字内容。

在一个实施例中，上述内容识别模块505对每一分割区域包含的文字区域进行内容识别时，属于同一分割区域的文字区域被一并传输至文本识别模型进行识别。

在一个实施例中，所述内容识别模块505包括：

区域内容识别单元，用于对每一分割区域中包含的各个文字区域分别进行内容识别，得到该文字区域的文字内容。

拼接单元，用于将各个文字区域的文字内容进行拼接，得到该分割区域的文字内容。

在一个实施例中，所述区域识别模块103可包括：

纹理特征层提取单元，用于将所述目标图片通过多个卷积核进行卷积运算，以从所述目标图片提取文字对应的若干个纹理特征层。

锚点区域分配单元，用于为所述若干个纹理特征层中部分或全部的纹理特征层分别分配多个不同感受野的锚点区域。

第一文字区域获取单元，用于对所述分配的锚点区域进行回归，得到所述目标图片的文字区域。

在一个实施例中，所述区域识别模块103可包括：

模型分析单元，用于通过将所述目标图片输入纹理提取模型中，得到所述目标图片不同特征维度的若干个纹理特征层，所述纹理提取模型是根据历史图片中的纹理特征进行分析得到的、用以提取输入的图片中的纹理特征层的模型。

基础纹理特征层筛选单元，用于从所述若干个纹理特征层中筛选出基础纹理特征层。

特征叠加单元，用于将所述基础纹理特征层进行特征叠加，得到所述目标图片的文字特征层。

第二文字区域获取单元，用于根据所述文字特征层获取所述目标图片的文字区域。

可选的，上述第一文字区域获取单元和第二文字区域获取单元中得到的文字区域为目标图片中包含的每行文字对应的区域。

可选的，上述输出模块506中输出的各个分割区域的文字内容为字符串。

关于上述文本版面分析装置的工作原理、工作方式的更多内容，可以参照上述图1至图4中文本版面分析方法的相关描述，这里不再赘述。

进一步地，本发明实施例还公开一种计算机设备，包括存储器和处理器，存储器上存储有能够在处理器上运行的计算机指令，处理器运行计算机指令时执行上述图1至图4所示实施例中的文本版面分析方法技术方案。

进一步地，本发明实施例还公开一种存储介质，其上存储有计算机指令，计算机指令运行时执行上述图1至图4所示实施例中的文本版面分析方法技术方案。优选地，存储介质可以包括诸如非挥发性(non-volatile)存储器或者非瞬态(non-transitory)存储器等计算机可读存储介质。存储介质可以包括rom、ram、磁盘或光盘等。

虽然本发明披露如上，但本发明并非限定于此。任何本领域技术人员，在不脱离本发明的精神和范围内，均可作各种更动与修改，因此本发明的保护范围应当以权利要求所限定的范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王晓珂
技术所有人：上海智臻智能网络科技股份有限公司
我是此专利的发明人

上一篇：通用型软胶手机壳的制作方法
上一篇：口腔内光疗法装置以及使用它们的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。