用于识别文字牛皮癣图片的方法及装置与流程

文档序号：12365625阅读：311来源：国知局

本申请涉及图像识别
技术领域：
：，尤其涉及一种用于识别文字牛皮癣图片的方法及装置。
背景技术：
：：在拍摄的图片上嵌入文字，一般将该嵌入文字后的图片称为文字牛皮癣图片，其中，在图片上嵌入文字的方法不限，例如包括：水印嵌入，或PS(Photoshop，由AdobeSystems开发和发行的图像处理软件)嵌入等等。文字牛皮癣图片影响图片的美观，而且也有可能存在图片侵权问题。在一些情况下，需要识别出文字牛皮癣图片，并禁止牛皮癣图片的展示。目前，识别文字牛皮癣图片的方法是使用自然场景OCR(OpticalCharacterRecognition，光学字符识别)方法。该方法至少存在如下缺陷：通过OCR识别出图片中的文字区域后，难以判定文字牛皮癣图片的严重程度，例如，无法知道文字牛皮癣图片的严重程度是否达到需区别处理的各个严重程度阈值，因此，无法对不同严重程度的文字牛皮癣图片做出区别处理。技术实现要素：本申请解决的技术问题之一是提供一种用于识别文字牛皮癣图片的方法及装置，能够准确识别出文字牛皮癣图片及其严重程度。根据本申请一方面的一个实施例，提供了一种用于识别文字牛皮癣图片的方法，包括：获取待检测图片的文本区域；基于所述文本区域，提取所述待检测图片的指定特征参数，所述指定特征参数包括以下至少一项：文本区域个数、文本区域像素总占比、牛皮癣覆盖率、正常图片可展示区域面积、文本区域背景变换特征；基于所述指定特征参数利用识别模型识别出所述待检测图片是否为文字牛皮癣图片以及文字牛皮癣图片的严重程度，所述识别模型是基于所述指定特征参数训练得到。根据本申请另一方面的一个实施例，提供了一种用于识别文字牛皮癣图片的装置，包括：获取单元，用于获取待检测图片的文本区域；参数提取单元，用于基于所述文本区域，提取所述待检测图片的指定特征参数，所述指定特征参数包括以下至少一项：文本区域个数、文本区域像素总占比、牛皮癣覆盖率、正常图片可展示区域面积、文本区域背景变换特征；识别单元，用于基于所述指定特征参数利用识别模型识别出所述待检测图片是否为文字牛皮癣图片以及文字牛皮癣图片的严重程度，所述识别模型是基于所述指定特征参数训练得到。本申请实施例由于提取待检测图片的包含文本区域个数、文本区域像素总占比、牛皮癣覆盖率、正常图片可展示区域面积、文本区域背景变换特征中至少一个特征参数，并利用基于所述指定特征参数训练得到的识别模型来识别文字牛皮癣图片，因此，不但可以准确检测出文字牛皮癣图片，而且可以判定文字牛皮癣图片的严重程度。本领域普通技术人员将了解，虽然下面的详细说明将参考图示实施例、附图进行，但本申请并不仅限于这些实施例。而是，本申请的范围是广泛的，且意在仅通过后附的权利要求限定本申请的范围。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：图1是根据本申请一个实施例的用于识别文字牛皮癣图片的方法的流程图。图2是根据本申请一个实施例的获取待检测图片的文本区域的方法的流程图。图3是根据本申请一个实施例的每个显著性颜色通道的文字区域各自合并的方法的流程图。图4是根据本申请一个实施例的获取的待检测图片文本区域示意图。图5是根据本申请一个实施例的用于识别文字牛皮癣图片的装置的结构示意图。图6是根据本申请一个实施例的获取单元结构示意图。图7是根据本申请一个实施例的第一合并子单元结构示意图。图8是根据本申请另一个实施例的获取单元结构示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。所述计算机设备包括用户设备与网络设备。其中，所述用户设备包括但不限于电脑、智能手机、PDA等；所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(CloudComputing)的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中，所述计算机设备可单独运行来实现本申请，也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中，所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。需要说明的是，所述用户设备、网络设备和网络等仅为举例，其他现有的或今后可能出现的计算机设备或网络如可适用于本申请，也应包含在本申请保护范围以内，并以引用方式包含于此。后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时，用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。这里所公开的具体结构和功能细节仅仅是代表性的，并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现，并且不应当被解释成仅仅受限于这里所阐述的实施例。应当理解的是，虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元，但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说，在不背离示例性实施例的范围的情况下，第一单元可以被称为第二单元，并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。应当理解的是，当一个单元被称为“连接”或“耦合”到另一单元时，其可以直接连接或耦合到所述另一单元，或者可以存在中间单元。与此相对，当一个单元被称为“直接连接”或“直接耦合”到另一单元时，则不存在中间单元。应当按照类似的方式来解释被用于描述单元之间的关系的其他词语(例如“处于...之间”相比于“直接处于...之间”，“与...邻近”相比于“与...直接邻近”等等)。这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指，否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是，这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在，而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。还应当提到的是，在一些替换实现方式中，所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说，取决于所涉及的功能/动作，相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。下面结合附图对本申请的技术方案作进一步详细描述。图1是根据本申请一个实施例的用于识别文字牛皮癣图片的方法的流程图，该方法主要包括如下步骤：S10、获取待检测图片的文本区域；S11、基于所述文本区域，提取所述待检测图片的指定特征参数，所述指定特征参数包括以下至少一项：文本区域个数、文本区域像素总占比、牛皮癣覆盖率、正常图片可展示区域面积、文本区域背景变换特征；S12、基于所述指定特征参数利用识别模型识别出所述待检测图片是否为文字牛皮癣图片以及文字牛皮癣图片的严重程度。下面对上述各步骤做进一步详细介绍。步骤S10所述的获取待检测图片的文本区域的方法的一种实施流程如图2中所示，主要包括如下子步骤：子步骤20、提取待检测图片的至少两个显著性颜色通道的文字区域；已有的显著性颜色通道是指图片显著性区域检测技术中的颜色通道(以下简称已知的显著性颜色通道)。本实施例中所述的显著性颜色通道是在上述已知的显著性颜色通道的基础上去除相近色干扰后的显著性颜色通道。例如，已知的一种显著性颜色通道如红色通道，其相近色为绿色，本实施例中的红色通道是去除绿色干扰后的红色通道(以下用字母RG表示该红色通道)，同理，绿色通道为去除红色干扰后的绿色通道(以下用字母GR表示该绿色通道)；又如，蓝色通道，其相近色为黄色，则本实施例的蓝色通道是去除黄色干扰后的蓝色通道(以下用字母BY表示该蓝色通道)，同理，黄色通道为去除蓝色干扰后的黄色通道(以下用字母YB表示该黄色通道)。本实施例可提取至少两个显著性颜色通道的文字区域。以提取上述四个显著性颜色通道RG、GR、BY和YB的文字区域为例，各颜色通道的像素可通过如下公式计算获得：上述公式中(x,y)表示像素位置，RG(x,y)表示像素位置为(x,y)的去除干扰后的红色通道的像素值，R(x,y)表示像素位置为(x,y)的红色通道的像素值。同理，相应的GR表示像素位置为(x,y)的去除干扰后的绿色通道的像素值，G(x,y)表示像素位置为(x,y)的绿色通道的像素值，以此类推可知其他符号的含义。通过上述公式可直接获得本实施例所述的各显著性颜色通道的像素值，即，在不使用阈值的情况下即可获得各显著性颜色通道的像素值，且避免了相近色对各显著性颜色通道的干扰。本实施例提取待检测图片的至少两个显著性颜色通道的文字区域可采用已有的MSER(MaximallyStableExtremalRegions，区域特征提取)方法来提取。例如，针对四个显著性颜色通道RG、GR、BY和YB，采用有序像素集合Scolor＝{0,7,15,...,255}中的像素对各个显著性颜色通道内的图像进行分割，得到对应的各显著性颜色通道的连通区域信息如下：RG(Rl)＝(Rl,Rl+1,...,Rl+n)GR(Rl)＝(Rl,Rl+1,...,Rl+n)BY(Rl)＝(Rl,Rl+1,...,Rl+n)YB(Rl)＝(Rl,Rl+1,...,Rl+n)其中，Rl表示对应的区域，RG(Rl)、GR(Rl)、BY(Rl)、YB(Rl)分别表示红色通道的区域信息、绿色通道的区域信息、蓝色通道的区域信息及黄色通道的区域信息。区域变化程度可采用下式描述：v(Rl)=|Rl-Rl+n||Rl|]]>其中|·|代表计算区域内的像素个数，Rl如果满足以下条件则为需要提取的文字区域：v(Rl)<v(Rl-1)&v(Rl)<v(Rl+1)也就是满足上述条件的区域为变化较大的区域，可认为是包含文字的区域。通过上述操作可提取出各显著性颜色通道的文字区域。其中，采用MSER方法所提取的各个显著性颜色通道的文字区域相互独立，且所提取的文字区域为包含单个文字的区域。通过上述方法提取的各显著性颜色通道的文字区域中会存在一些非字符区域。其中，字符是指计算机中使用的字母、数字、字和符号。字符区域即为包含字符的区域，则非字符区域即为不包含字符的区域。由于文字牛皮癣图片所嵌入的文字一定是字符，因此，本申请实施例在提取各显著性颜色通道的文字区域后，可对非字符区域进行滤除，也就是过滤掉每个显著性颜色通道的所述文字区域中的非字符区域。具体的过滤方法本申请实施例不做限制，例如，可利用字符分类器来实现，将字符分类器输出结果高于设定阈值的区域确定为字符区域，否则为非字符区域，则滤除掉该非字符区域。通过该滤除非字符区域的操作可减少后续操作的计算量以提升牛皮癣图片的识别速度，以及识别准确度。另外，由于作为背景的图片中会存在一些文字信息，例如，一些物品的标签、商标等信息，它们与牛皮癣图片的牛皮癣文字可能发生混淆。一般情况下，该背景图片中的类似物品标签、商标等的文字信息较小，本申请实施例可在执行子步骤20的提取待检测图片的至少两个显著性颜色通道的文字区域前，对最长边大于预设阈值的待检测图片进行缩小处理。通过缩小处理使得背景图片中本来就较小的部分文字信息被后续操作中滤除，可起到抑制该背景图片中部分文字被识别出来，达到背景图片中的文字信息与文字牛皮癣中的文字信息进行区别的目的，减少了这些背景文字信息对牛皮癣文字识别准确度的干扰，同时可以进一步减少后续的计算量，提升识别效率。其中，所述缩小处理可采用依据颜色比例的差值方法来实现，该方法可保证原有图片中的文字的颜色比例信息不丢失，以保证牛皮癣图片识别的准确性。其中，对最长边大于512像素的待检测图片按照等比例缩小，满足最长边等于512像素；对最长边小于等于512像素的图像不做处理。当然，也可以采用最近邻差值方法、双线性差值方法或三次差值方法等来实现该缩小处理。获取图片的灰度通道可采用已有技术实现，本实施例获取依据颜色比例的差值方法缩小后的图片的灰度通道可通过下式实现：PI(u,v)＝OI([x+0.5],[y+0.5])，其中，上式中，P表示缩小后的图片，O表示缩小前的图片(即待检测图片的原图片)，下标I表示图片的灰度通道，x和y表示缩小前的坐标，u和v表示缩小后的坐标，且u＝λx,v＝μy。r、g、b分别表示红、绿、蓝三个显著性颜色通道(已知的显著性颜色通道)。通过上式可计算缩小后图片的灰度通道的最近邻差值。进一步计算缩小后图片的显著性颜色通道(已知的显著性颜色通道)的像素值时，可采用如下公式实现：Pr(u,v)=r[3×3]r[3×3]+g[3×3]+b[3×3]PI(u,v)]]>Pg(u,v)=g[3×3]r[3×3]+g[3×3]+b[3×3]PI(u,v)]]>Pb(u,v)=b[3×3]r[3×3]+g[3×3]+b[3×3]PI(u,v)]]>其中，r[3×3]=Σi=-1,0,1;j=-1,0,1Or([x+0.5]+i,[y+0.5]+j)]]>g[3×3]=Σi=-1,0,1;j=-1,0,1Og([x+0.5]+i,[y+0.5]+j)]]>b[3×3]=Σi=-1,0,1;j=-1,0,1Ob([x+0.5]+i,[y+0.5]+j)]]>通过上述公式，可实现获取缩小后图片的显著性颜色通道像素值。子步骤21、将每个显著性颜色通道的文字区域各自合并，得到每个显著性颜色通道的文字合并区域。每个文字区域的范围(或面积)可用包围该文字的最小矩形框表示，将文字区域合并，即，将包围所提取的文字的矩形框进行合并。将每个显著性颜色通道的文字区域各自合并，例如，针对红色通道RG，将所有提取的RG通道的文字区域合并，同理，将所有提取的GR通道的文字区域合并、将所有提取的BY通道的文字区域合并，以及将所有提取的YB通道文字区域合并。也就是每个显著性颜色通道相互独立执行合并操作，其合并方法的一种实施例流程如图3中所示，包括如下子步骤：子步骤30、提取每个显著性颜色通道的文字区域中文字的相似度计算参数。所述的文字的相似度计算参数包括但不限于：颜色、位置、笔画宽度等。对于提取该文字的相似度计算参数的方法本申请实施例不做具体限制，可采用已有技术实现。子步骤31、基于所述相似度计算参数确定每个显著性颜色通道的各文字区域的相似度。以计算a、b两个文字区域的相似度为例，可通过提取的所述文字的相似度计算参数，利用如下几个公式获得相似度计算的中间参数。F1=|xa-xb+0.5×ha-0.5×hb|max(wa,wb)]]>F2=|wa-wb|max(wa,wb)]]>F3=|ha-hb|max(ha,hb)]]>F4=arctan(|ya-yb||xa+0.5ha-xb-0.5wb|)]]>F5=arctan(|ya+ha-yb-hb||xa+0.5ha-xb-0.5wb|)]]>F6=|sa-sb|max(sa,sb)]]>上式中，x、y表示文字区域左上角的横纵坐标，h、w表示文字区域的高度和宽度，s表示文字区域中文字的笔画宽度。将上述计算获得的中间参数F1、F2…F6输入到相似度计算模型中，从而测定两个文字区域的相似度。所述的相似度预计算型可以为通过SVM(SupportVectorMachine，支持向量机)、BP(BackPropagation，反向传播)神经网络或CNN(ConvolutionalNeuralNetwork，卷积神经网络)等训练得到的模型。子步骤32、将每个显著性颜色通道中相似度达到预设阈值的文字区域合并。相似度高表示两个文字区域有可能为相邻的区域，则将相似度高的文字区域合并。具体的，将相似度达到预设阈值的文字区域合并。其合并方法可基于两个文字区域的位置信息进行合并。本实施例将合并后的文字区域称为文字合并区域。各显著性颜色通道的文字区域合并后得到的文字合并区域应为文本区域。所述文本即多个文字组成的句子，包含文本的区域即为文本区域，不包含文本的区域为非文本区域。如果合并后的区域不是文本区域，则可将该合并后的非文本区域滤除，也就是，过滤掉每个显著性颜色通道的文字合并区域中的非文本区域。其中，可通过文本分类器来识别出文本区域与非文本区域，将识别出的非文本区域滤除。通过该过滤非文本区域的操作，可进一步提升文字牛皮癣的识别准确性。通过上述过滤非文本区域的操作最终得到的每个显著性颜色通道的文字合并区域实际为每个显著性颜色通道的文本区域。另外，本申请实施例还可过滤掉每个显著性颜色通道的文字合并区域中尺寸不在预设范围内的文字合并区域。因为尺寸过大的区域有可能是整张图片，尺寸过小的区域有可能是噪声，通过该过滤掉尺寸不在预设范围内的文字合并区域可对该两种区域进行区分，以提升牛皮癣文字识别的准确性。子步骤22、将所述至少两个显著性颜色通道的文字合并区域互相合并，得到待检测图片的文本区域。将所述至少两个显著性颜色通道的文字合并区域互相合并，例如，将RG通道的文字合并区域与GR通道的文字合并区域、BY通道的文字合并区域以及YB通道的文字合并区域进行互相合并。在执行所有显著性颜色通道的文字合并区域的互相合并操作时，可基于各文字合并区域的位置信息进行合并，本实施例将合并后的文字合并区域称为文本区域。若存在区域重叠，可参照上述显著性颜色通道的文字区域各自合并时的操作方法，计算两个区域的相似度，将相似度高于设定阈值的两个文字合并区域合并。在计算相似度时，其提取的相似度计算参数与上述有所差异，该合并过程提取的相似度计算参数可包括如下至少一个：文字笔画宽度、文字颜色、文字间距、文字大小、文本行高度、文本行宽度、文本行基线等。将获取的上述相似度计算参数输入到相似度预测模型中，从而测定两个文字合并区域的相似度。所述的相似度预测模型同样可以为通过SVM、BP神经网络或CNN等训练得到的模型。此处所述的相似度预测模型是区别于上述文字区域各自合并时使用的相似度计算模型，两个模型虽然都用于预测相似度，且可使用相同的模型来训练，但输入参数不同，以及针对的对象不同，前者是针对合并前的文字区域，后者是针对合并后的文字合并区域。合并过程中，若存在区域包含现象，也就是一个文字合并区域包含于另一文字合并区域范围内，则可依据文本分类器(过滤非文本区域时使用的分类器)输出的置信度值进行合并，例如，可保留置信度值较高的文字合并区域作为合并后的区域。通过步骤S10获取显著性颜色通道的文字区域的操作，可获得如图4中所示的一种文本检测结果，在该文本检测结果中包含三个文本区域。由于自然场景的文字区域的背景区域较为一致，例如，门牌号、车牌等，其背景区域较为一致，门牌号的背景区域一般均为蓝色，车牌号的背景区域一般都为蓝色或黑色。目前的提取文字区域的方法是通过该特性(背景区域一致)识别出文字区域；而文字牛皮癣图片的背景区域可以为任意图片的背景，同一行或者同一列文字区域的背景可以相同、渐变、越变等等，因此，依照目前方法难以识别出文字牛皮癣图片的文字区域。本实施例由于采用MSER方法来提取显著性颜色通道的文字区域，并进行后续的过滤、合并等操作，可以准确提取出牛皮癣图片中的文本区域。步骤S11中所述的指定特征参数包括但不限于：文本区域个数、文本区域像素总占比、牛皮癣覆盖率、正常图片可展示区域面积、文本区域背景变换特征。其中，文本区域个数：是指在待检测图片中所获取的文本区域的个数，如图4中所示，其文本区域个数为3。文本区域像素总占比：文本区域最小外接矩形之和所占待检测图片的像素的比例，如图4中所示即为三个文本区域所占的整个图片的像素比。牛皮癣覆盖率：所有文本区域的最小外接矩形与最大内接矩形的面积差值与待检测图片总面积的比值。如图4中，粗实线边框包围的区域为文本区域的最小外接矩形，左斜线阴影区域为文本区域的最大内接矩形，则牛皮癣覆盖率定义为：(粗实线边框包围的矩形区域面积-左斜线阴影区域面积)/(待检测图片总面积)。正常图片可展示区域面积：以待检测图片中心为基准点，以矩形框向四个方向延伸，直到矩形框边界与文本区域相切或与待检测图片的边界重合，最后延伸得到的矩形框面积即为正常图片可展示区域面积；如图4中，正常图片可展示区域面积定义为图4中的(左斜线阴影区域面积+右斜线阴影区域面积)。文本区域背景变化特征：文本区域背景定义为：(文本区域-文本区域中文字实际占用区域)；其中文本区域为如图4中所示的三个文本区域，该文本区域的面积可通过组成该文本区域的文字区域的面积相加获得，例如，可在提取各显著性颜色通道的文字区域时获取文字区域的面积，并在各合并过程中获取合并后的区域的面积，则可获取最终合并后得到文本区域的面积；文字实际占用区域可由文本区域中组成文字的黑色像素的个数来确定。该文本区域背景变化特征可通过计算各显著性颜色通道(已知的显著性颜色通道)的信息熵特征来确定(本实施例对计算信息熵的方法不做具体限定)。信息熵越大，则表示文本区域背景像素密集度大，分布均匀，即文本区域背景变化越小；反之，信息熵越小，则文本区域背景变化越大。其中，计算r(红)、g(绿)、b(蓝)颜色通道信息熵的方法如下：首先，遍历待检测图片，按照如下公式计算各通道的h值：hr[r(x,y)16]+1]]>hg[g(x,y)16]+1]]>hb[b(x,y)16]+1]]>再依据如下公式计算信息熵值：Hr=Σi-f(hr[i])×log2(f(hr[i]))]]>Hg=Σi-f(hg[i])×log2(f(hg[i]))]]>Hb=Σi-f(hb[i])×log2(f(hb[i]))]]>f(x)=xHeight×Width]]>上述公式中(x,y)表示坐标，Height、Width为图片的高度和宽度，为常量，H为信息熵。可见，步骤S11中所提取的所述指定特征参数为基于步骤S10中所获取的显著性颜色通道的文本区域来提取的。步骤S12是基于所述指定特征参数利用训练得到的识别模型识别出所述待检测图片是否为文字牛皮癣图片以及文字牛皮癣图片的严重程度。其中所述识别模型是基于所述指定特征参数训练得到，具体训练过程本实施例在此不做详细论述，其训练过程输入的参数同实际识别过程输入的参数类似，区别仅在于它输入的参数(如文本区域个数、文本区域像素总占比等)来自样本图片，不是待检测图片，而样本图片是否为文字牛皮癣图片以及其严重程度是已知的，这样就可以通过由专家根据已知的样本图片是否为文字牛皮癣图片以及其严重程度的结果对识别模型识别的结果进行校正的方式不断训练该识别模型，使其识别结果精确化。该识别模型不但可以识别出是否为文字牛皮癣图片，还可以识别出文字牛皮癣图片的严重程度。其中，可将文字牛皮癣图片的严重程度划分为预设的几个级别，不同级别对应不同的阈值。例如，定义“非常严重”等级对应的阈值为大于等于0.8；“一般严重”等级对应的阈值范围为大于等于0.5小于0.8；“轻微”等级对应的阈值范围为小于0.5。在识别模型依据输入的指定特征参数识别文字牛皮癣图片时，可为文字牛皮癣图片确定一分值，通过所述分值确定文字牛皮癣图片的严重程度，例如，若确定的分值为0.4，则可确定该文字牛皮癣图片的严重程度属于“轻微”等级；若确定的分值为1.0，则可确定该文字牛皮癣图片的严重程度属于“非常严重”等级；若确定的分值为0.6，则可确定该文字牛皮癣图片的严重程度属于“一般严重”等级。可以理解的是，可以不划分等级，而直接根据为文字牛皮廯图片确定的分值确定文字牛皮癣图片的严重程度，可见，分值越高则对应的文字牛皮癣图片的严重程度越严重。后续，可对不同严重等级的文字牛皮癣图片进行区别处理，例如，对于“非常严重”等级的文字牛皮癣图片禁止展示；对于“轻微”等级的文字牛皮廯图片视为正常图片，忽略嵌入的文字等等。本申请实施例对此后续区别处理方式不做具体限制。其中，可利用BP神经网络训练该识别模型，当然，本实施例并不局限于此。由上面的描述可以看出，本申请实施例所述的用于识别文字牛皮癣图片的方法由于提取待检测图片的包含文本区域个数、文本区域像素总占比、牛皮癣覆盖率、正常图片可展示区域面积、文本区域背景变换特征中至少一个特征参数，因此，不但可以准确检测出文字牛皮癣图片，而且可以判定文字牛皮癣图片的严重程度。本申请实施例还提供一种与上述用于识别文字牛皮癣图片的方法对应的用于识别文字牛皮癣图片的装置，如图5中所示为所述装置一种实施例结构示意图，该装置主要包括：获取单元50，用于获取待检测图片的文本区域。参数提取单元51，用于基于所述文本区域，提取所述待检测图片的指定特征参数，所述指定特征参数包括以下至少一项：文本区域个数、文本区域像素总占比、牛皮癣覆盖率、正常图片可展示区域面积、文本区域背景变换特征；对于各指定特征参数的定义同上面方法实施例中所述，此处不再赘述。识别单元52，用于基于所述指定特征参数利用识别模型识别出所述待检测图片是否为文字牛皮癣图片以及文字牛皮癣图片的严重程度，文字牛皮癣图片的严重程度包括文字牛皮癣图片的严重程度级别。所述识别模型是基于所述指定特征参数训练得到。如图6中所示，所述获取单元50被配置为包括：文字区域提取子单元501，用于提取待检测图片的至少两个显著性颜色通道的文字区域；所述显著性颜色通道为去除相近色干扰后的显著性颜色通道。例如，已知的一种显著性颜色通道如红色通道，其相近色为绿色，本实施例中的红色通道是去除绿色干扰后的红色通道(以下用字母RG表示该红色通道)，同理，绿色通道为去除红色干扰后的绿色通道(以下用字母GR表示该绿色通道)；又如，蓝色通道，其相近色为黄色，则本实施例的蓝色通道是去除黄色干扰后的蓝色通道(以下用字母BY表示该蓝色通道)，同理，黄色通道为去除蓝色干扰后的黄色通道(以下用字母YB表示该黄色通道)。第一合并子单元502，用于将每个显著性颜色通道的文字区域各自合并，得到每个显著性颜色通道的文字合并区域。每个文字区域的范围(或面积)可用包围该文字的最小矩形框表示，将文字区域合并，即，将包围所提取的文字的矩形框进行合并。将每个显著性颜色通道的文字区域各自合并，例如，针对红色通道RG，将所有提取的RG通道的文字区域合并，同理，将所有提取的GR通道的文字区域合并、将所有提取的BY通道的文字区域合并，以及将所有提取的YB通道文字区域合并。如图7中所示，该第一合并子单元502可被配置为包括：提取子单元5021，用于提取每个显著性颜色通道的文字区域中文字的相似度计算参数。相似度确定子单元5022，用于基于所述相似度计算参数确定每个显著性颜色通道的各文字区域的相似度。合并子单元5023，用于将每个显著性颜色通道中相似度达到预设阈值的文字区域合并。第二合并子单元503，将所述至少两个显著性颜色通道的文字合并区域互相合并，得到待检测图片的文本区域。将所述至少两个显著性颜色通道的文字合并区域互相合并，例如，将RG通道的文字合并区域与GR通道的文字合并区域、BY通道的文字合并区域以及YB通道的文字合并区域进行互相合并。在执行所有显著性颜色通道的文字合并区域的互相合并操作时，可基于各文字合并区域的位置信息进行合并，本实施例将合并后的文字合并区域称为文本区域。若存在区域重叠，可参照上述显著性颜色通道的文字区域各自合并时的操作方法，计算两个区域的相似度，将相似度高于设定阈值的两个文字合并区域合并。在计算相似度时，其提取的相似度计算参数与上述有所差异，该合并过程提取的相似度计算参数可包括如下至少一个：文字笔画宽度、文字颜色、文字间距、文字大小、文本行高度、文本行宽度、文本行基线等。将获取的上述相似度计算参数输入到相似度预测模型中，从而测定两个文字合并区域的相似度。所述的相似度预测模型同样可以为通过SVM、BP神经网络或CNN等训练得到的模型。此处所述的相似度预测模型是区别于上述文字区域各自合并时使用的相似度计算模型，两个模型虽然都用于预测相似度，且可使用相同的模型来训练，但输入参数不同，以及针对的对象不同，前者是针对合并前的文字区域，后者是针对合并后的文字合并区域。合并过程中，若存在区域包含现象，也就是一个文字合并区域包含于另一文字合并区域范围内，则可依据文本分类器(过滤非文本区域时使用的分类器)输出的置信度值进行合并，例如，可保留置信度值较高的文字合并区域作为合并后的区域。如图8中所示，所述获取单元50还可以包括以下任一个或多个：预处理子单元504，用于在提取子单元提取待检测图片的至少两个显著性颜色通道的文字区域前，依据颜色比例的差值方法对最长边大于预设阈值的待检测图片进行等比例缩小处理。由于作为背景的图片中会存在一些文字信息，例如，一些物品的标签、商标等信息，它们与牛皮癣图片的牛皮癣文字可能发生混淆。一般情况下，该背景图片中的类似物品标签、商标等的文字信息较小，本申请实施例可在执行子步骤20的提取待检测图片的至少两个显著性颜色通道的文字区域前，对最长边大于预设阈值的待检测图片进行缩小处理。通过缩小处理使得背景图片中本来就较小的部分文字信息被后续操作中滤除，可起到抑制该背景图片中部分文字被识别出来，达到背景图片中的文字信息与文字牛皮癣中的文字信息进行区别的目的，减少了这些背景文字信息对牛皮癣文字识别准确度的干扰，同时可以进一步减少后续的计算量，提升识别效率。其中，所述缩小处理可采用依据颜色比例的差值方法来实现，该方法可保证原有图片中的文字的颜色比例信息不丢失，以保证牛皮癣图片识别的准确性。其中，对最长边大于512像素的待检测图片按照等比例缩小，满足最长边等于512像素；对最长边小于等于512像素的图像不做处理。当然，也可以采用最近邻差值方法、双线性差值方法或三次差值方法等来实现该缩小处理。非字符区域过滤子单元505，用于在将每个显著性颜色通道的文字区域各自合并前，过滤掉每个显著性颜色通道的文字区域中的非字符区域。由于文字区域提取子单元501提取的各显著性颜色通道的文字区域中会存在一些非字符区域。其中，字符是指计算机中使用的字母、数字、字和符号。字符区域即为包含字符的区域，则非字符区域即为不包含字符的区域。由于文字牛皮癣图片所嵌入的文字一定是字符，因此，本申请实施例在提取各显著性颜色通道的文字区域后，可对非字符区域进行滤除，也就是过滤掉每个显著性颜色通道的所述文字区域中的非字符区域。具体的过滤方法本申请实施例不做限制，例如，可利用字符分类器来实现，将字符分类器输出结果高于设定阈值的区域确定为字符区域，否则为非字符区域，则滤除掉该非字符区域。通过该滤除非字符区域的操作可减少后续操作的计算量以提升牛皮癣图片的识别速度，以及识别准确度。过滤子单元506，用于在将每个显著性颜色通道的文字区域各自合并后，过滤掉每个显著性颜色通道的文字合并区域中的非文本区域和/或尺寸不在预设范围内的区域。识别单元52不但可以识别出是否为文字牛皮癣图片，还可以识别出文字牛皮癣图片的严重程度。其中，可将文字牛皮癣图片的严重程度划分为预设的几个级别，不同级别对应不同的阈值。例如，定义“非常严重”等级对应的阈值为大于等于0.8；“一般严重”等级对应的阈值范围为大于等于0.5小于0.8；“轻微”等级对应的阈值范围为小于0.5。在识别单元52依据输入的指定特征参数识别文字牛皮癣图片时，可为文字牛皮癣图片确定一分值，通过所述分值确定文字牛皮癣图片的严重程度，例如，若确定的分值为0.4，则可确定该文字牛皮癣图片的严重程度属于“轻微”等级；若确定的分值为1.0，则可确定该文字牛皮癣图片的严重程度属于“非常严重”等级；若确定的分值为0.6，则可确定该文字牛皮癣图片的严重程度属于“一般严重”等级。需要注意的是，本申请可在软件和/或软件与硬件的组合体中被实施，例如，可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中，本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地，本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中，例如，RAM存储器，磁或光驱动器或软磁盘及类似设备。另外，本申请的一些步骤或功能可采用硬件来实现，例如，作为与处理器配合从而执行各个步骤或功能的电路。另外，本申请的一部分可被应用为计算机程序产品，例如计算机程序指令，当其被计算机执行时，通过该计算机的操作，可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令，可能被存储在固定的或可移动的记录介质中，和/或通过广播或其他信号承载媒体中的数据流而被传输，和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此，根据本申请的一个实施例包括一个装置，该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器，其中，当该计算机程序指令被该处理器执行时，触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。当前第1页1 2 3 当前第1页1 2 3

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金炫;
技术所有人：阿里巴巴集团控股有限公司;
我是此专利的发明人

上一篇：一种使视频中出现的文字易于交互的方法与流程
上一篇：一种保温瓶一体化生产装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。