文字合成图像的识别方法及装置、图像识别方法与流程

文档序号：15518758发布日期：2018-09-25 18:55阅读：147来源：国知局

本申请涉及图像识别领域，具体而言，涉及一种文字合成图像的识别方法及装置、图像识别方法。
背景技术：
：：目前为止，各个购物平台商家展示的图像多为人为修改图像，即在拍摄图像上打印文字进行宣传，也称之为文字合成图像。此类图像严重影响平台的美观与洁净，同时也有可能带来一些图像的侵权问题。在一些交互平台等评论区域时，图像中的各种引流信息以及广告影响着平台的正常运营。目前，针对文字合成图像识别有两种方案，一种是基于文本检测的文字合成图像识别方法：提取图像中文本区域，然后判断图像中的文本对于图像中物体的影响程度，然后给出文字合成图像的评估模型；一种是基于图像分类的文字合成图像识别方法：直接对于图像进行二分类标注，标注为文字合成图像以及非文字合成图像，利用深度学习模型进行训练，得到分类模型对图像进行打分。但是，使用基于文本检测的文字合成图像识别方法主要难以解决非合成文字的图像的排除，基于文本检测的方法很难区分图像中的文字为合成文本还是自然场景文本，因此对于自然场景中含有大量文字的图像容易尝试误检；而基于分类的方法较为依赖样本，不同场景往往很难用单一模型覆盖，扩展成本较高，另一方面模型分数并不能表示合成文字的影响程度，只能够反应与样本的相似性。针对上述的问题，目前尚未提出有效的解决方案。技术实现要素：本申请实施例提供了一种文字合成图像的识别方法及装置、图像识别方法，以至少解决相关技术中无法在对非合成文字的图像进行排除的同时，识别结果表示文字合成图像中合成文字的影响程度的技术问题。根据本申请实施例的一个方面，提供了一种文字合成图像的识别方法，包括：获取待识别合成图像中的合成文字区域，其中，待识别合成图像为将文字合成至原始图像所得到的图像；获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度；基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。根据本申请实施例的另一方面，还提供了一种文字合成图像的识别装置，包括：第一获取单元，用于获取待识别合成图像中的合成文字区域，其中，待识别合成图像为将文字合成至原始图像所得到的图像；第二获取单元，用于获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；第三获取单元，用于获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度；确定单元，用于基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。根据本申请实施例的另一方面，还提供了一种文字合成图像的识别系统，包括：客户端设备，用于向第一服务器发起图像识别请求；第一服务器，具有与第二服务器进行通信的接口，用于基于图像识别请求，调用第二服务器获取待识别合成图像的识别结果；第二服务器，用于通过以下方式获取待识别合成图像的识别结果：获取待识别合成图像中的合成文字区域，其中，待识别合成图像为将文字合成至原始图像所得到的图像；获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度；基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。根据本申请实施例的另一方面，还提供了一种文字合成图像的识别方法，包括：接收来自客户端的上传指令；在上传指令的触发下，获取需要上传至网络侧的待识别合成图像；按照以下方式对待识别合成图像进行识别：获取待识别合成图像中的合成文字区域，其中，待识别合成图像为将文字合成至原始图像所得到的图像；获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度；基于第一特征值和第二特征值共同确定待识别合成图像的识别结果；输出并显示对待识别合成图像的识别结果。根据本申请实施例的另一方面，还提供了一种计算机终端，包括：处理器，用于获取待识别合成图像中的合成文字区域，获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度，获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度，待识别合成图像为将文字合成至原始图像所得到的图像；输出装置，与处理器连接，用于输出基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。根据本申请实施例的另一方面，还提供了一种图像识别方法，包括：获取待识别图像中的合成文字区域，其中，合成文字区域为将文字合成至原始图像所得到的区域；获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别图像的影响程度；获取待识别图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字对待识别图像的影响程度；基于第一特征值和第二特征值共同确定识别结果。在本申请实施例中，采用基于待识别合成图像中的合成文字区域的第一特征值和该待识别合成图像的预设类型对应的第二特征值共同确定该待识别合成图像的识别结果的方式，由于待识别合成图像的识别结果结合了合成文字对待识别合成图像的影响程度，以及合成文字和/或非合成文字对该待识别合成图像的影响程度，因此，可以对非合成文字的图像进行排除，同时，识别结果表示出合成文字的严重程度，进而解决了相关技术中无法在对非合成文字的图像进行排除的同时，识别结果表示文字合成图像中合成文字的影响程度的技术问题，达到了提高识别精度的技术效果。附图说明此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：图1是根据本申请实施例1的文字合成图像的识别方法的流程图；图2是根据本申请实施例的一种可选的文字合成图像的识别方法的流程图；图3是根据本申请实施例的一种可选的cnn网络结构体示意图；图4是根据本申请实施例的一种用于实现文字合成图像的识别方法的计算机终端的硬件结构框图；图5是根据本申请实施例2的文字合成图像的识别方法的流程图；图6是根据本申请实施例3的文字合成图像的识别装置的结构框图；图7是根据本申请实施例4的文字合成图像的识别系统的示意图；图8是根据本申请实施例5的文字合成图像的识别方法的流程图；图9是根据本申请实施例的一种计算机终端的结构示意图；以及图10是根据本申请实施例7的图像识别方法的流程图。具体实施方式为了使本
技术领域：
：的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：非合成文字：图片所展示的自然场景中已存在的文字。合成文字：添加至图片中的文字；与图片所展示的自然场景中已存在的文字不同，例如，可以是在衣服照片上添加的qq号码。最大稳定极值mser算法：maximallystableextremalregions的简写，可以用于图像的斑点区域检测，基本原理是对一幅灰度图像取阈值进行二值化处理，阈值从0到255依次递增。在得到的所有的二值图像中，图像中的某些连通区域变化很小，甚至没有变化，则该区域就被称为最大稳定极值区域。笔画宽度变换swt算法：strokewidthtransformation的简写，主要利用了自然场景中文字笔画倾向于固定宽度的特点，对图片中的文字进行检测，得到文字候选区域。ocr：光学字符识别，opticalcharacterrecognition的简写，可以将图像中的文字转换成文本格式。cnn：卷积神经网络，convolutionalneuralnetwork的简写，是一种前馈神经网络，人工神经元可以响应周围单元，包括卷基层和池层。fcn：全卷积网络，fullyconvolutionalnetwork的简写，可以对图像进行像素级的分类。rfcn：基于区域的全卷积网络，region-basedfullyconvolutionalnetwork的简写，可以对图像中的感兴趣区域进行分类。fasterrcnn：快速区域卷积神经网络，fasterregionwithconvolutionalneuralnetwork的简写。svm：支持向量机，supportvectormachine的简写，是一个有监督的学习模型，通过用来进行模式识别、分类以及回归分析。rf：随机森林，randomforest的简写，利用多棵树对样本进行训练并预测的一种分类器。caffe：全称是convolutionalarchitectureforfastfeatureembedding，是一个计算卷积神经网络相关算法的框架。mxnet：是一个轻量化分布式可移植深度学习计算平台。tensorflow：是将复杂的数据结构传输至人工智能神经网中进行分析和处理过程的系统。vgg16：16层网络结构的vgg网络。resnet：残差网络，residualnetwork的简写。实施例1在相关技术中的购物平台中，商家展示的图片多为文字合成图像，严重影响平台的美观与洁净，并且可能会带来图片的侵权问题。在相关技术中的交互平台等评论区域中，文字合成图像中的各种引流信息及广告影响平台的正常运营。为了解决上述问题，相关技术中提供了两种文字合成图像的识别方法，一种是基于文本检测的ocr方法，但是，该方法难以解决非合成文字的图像的排除；另一种方法是基于图片分类的文字合成图像识别方法，但是，该方法得到的模型分数只能够反应与样本的相似性，不能表示合成文字的严重程度，从而如何在排除非合成文字的图像的同时，表示出文字合成图像中合成文字的影响程度是一个亟需解决的问题。针对上述问题，本申请实施例提供了一种新的文字合成图像的识别方案，可以结合ocr文本检测以及cnn图片分类的方法对文字合成图像进行检测，提高文字合成图像的识别精度。为了实现上述目的，本实施例采用的技术方案如下：如图1所示，本实施例的文字合成图像的识别方法包括如下处理步骤：步骤s101，输入图片。可选地，可以输入待识别合成图像，然后分别采用文本检测和图像分类的方法，对待识别合成图像进行识别，即分别进入步骤s102和步骤s105。步骤s102，文字区域预测。可选地，在获取到输入的待识别合成图像之后，可以对待识别合成图像进行文字区域检测，得到待识别合成图像的文字区域，文字区域包括合成文字区域和非合成文字区域。步骤s103，区域特征提取。可选地，可以对待识别合成图像的文字区域进行区域特征提取，提取出每个文字区域的区域特征。步骤s104，非合成文字区域过滤。可选地，在提取到每个文字区域的区域特征之后，可以将每个文字区域的特征区域输入至预先训练好的模型中，利用预先训练好的模型对非合成文字进行过滤，仅保留合成文字区域。在对非合成文字区域进行过滤之后，可以基于合成文字区域生成打分模型，得到每个文字区域的打分结果，即得到待识别合成图像的第一特征值。步骤s105，图片分类。可选地，在获取到待识别合成图像之后，可以利用预先构建的cnn网络模型，对待识别合成图像进行分类，得到待识别合成图像的预设类型，以及对应的输出结果，即得到待识别合成图像的第二特征值，其中，预设类型可以为如下一种：合成文字图像，非合成文字图像，无文字图像和特殊场景图像。步骤s106，建立打分模型。可选地，可以基于步骤s104中得到的待识别合成图像的第一特征值，以及步骤s105中得到的待识别合成图像的第二特征值，生成基于感知器的打分模型。步骤s107，感知器训练。可选地，可以根据步骤s105中得到的待识别合成图像的第二特征值，对感知器进行训练，得到训练好的感知器参数。步骤s108，输出分数。可选地，可以将训练好的感知器参数输入打分模型中，从而得到待识别合成图像的分数，并根据输出分数确定待识别合成图像是否为合成文字图像，从而得到待识别合成图像的识别结果。在一种可选的实施方案中，可以通过如图2所述的流程对上述方案进行详细描述：步骤s202，文字区域检测，在本实施例中以基于fcn的文字区域检测为例进行详细说明，可以达到较优的识别精度，该步骤具体可以包括如下步骤：步骤1.1，图像中文本数据标注，可以对待识别合成图像中的文本行进行标注，标注文本行左上、右上、左下以及右下四个坐标位置，然后生成任意四边形，四边形的边框贴合文字；步骤1.2，构建fcn网络结构，fcn网络结构可以包括5层卷积层，每一层跟着一个反卷积层输出，最终输入1*1的卷积层和sigmoid层进行像素级别的预测；步骤1.3，设定阈值t，对于步骤1.2输出的概率图进行过滤，小于阈值t的概率设置为0(可以被认为背景数据background)，大于阈值t的概率设置为1(可以被认为文本数据text)。需要说明的是，也可以采用rfcn以及fasterrcnn的方法进行文字区域检测。步骤s204，区域特征提取，本实施例中以基于mser的区域特征提取为例进行详细说明，可以达到较优的识别精度，在特征提取过程中，特征的增加或减少对最终效果存在效果影响，但是特征不限于本实施例中提及的特征。该步骤具体可以包括如下步骤：步骤2.1，宽调谐通道提取，提取图片，具体如下：1)提取红色宽调谐通道r：其中，r、g、b为待识别合成图像的三个颜色通道。2)提取绿色宽调谐通道g：其中，r、g、b为待识别合成图像的三个颜色通道。3)提取蓝色宽调谐通道b：其中，r、g、b为待识别合成图像的三个颜色通道。4)提取黄色宽调谐通道y：其中，r、g、b为待识别合成图像的三个颜色通道。5)提取红绿宽调谐通道rg：其中，r为红色宽调谐通道，g为绿色宽调谐通道，x、y分别为像素点的坐标位置。6)提取绿红宽调谐通道gr：其中，r为红色宽调谐通道，g为绿色宽调谐通道，x、y分别为像素点的坐标位置。7)提取黄蓝宽调谐通道yb：其中，y为黄色宽调谐通道，b为蓝色宽调谐通道，x、y分别为像素点的坐标位置。8)提取蓝黄宽调谐通道by：其中，y为黄色宽调谐通道，b为蓝色宽调谐通道。步骤2.2，mser区域提取，可以在图像提取灰度通道以及步骤2.1得到的4个宽调谐通道(即红绿宽调谐通道rg，绿红宽调谐通道gr，黄蓝宽调谐通道yb和蓝黄宽调谐通道by)上提取mser区域；步骤2.3，mser区域特征提取，可以提取每个区域的一下特征：区域宽高比、区域边缘点数与区域面积之比、笔画宽度、笔画方差、笔画平滑度、区域颜色直方图等特征。需要说明的是，也可以采用swt方法进行区域特征提取。步骤s206，非合成文字区域过滤，本实施例中以svm作为分类器完成模型的训练为例进行详细说明，可以达到较优的识别精度，该步骤具体可以包括如下步骤：步骤3.1，数据标注，可以将合成文字标为1，非合成文字标为0；步骤3.2，对标注数据按照步骤s102和步骤s104提取相应的特征，生成带有标签的向量；步骤3.3，利用libsvm工具包对带有标签的向量进行训练，生成训练模型；步骤3.4，每一个mser区域经过模型后有一个0-1的分值输出，分值越大表示其为合成文字的可能性越大；设定滤除阈值，如果一个文本行中的平均mser区域的得分小于设定的阈值则滤除相应区域；反之则保留区域。需要说明的是，也可以采用rf或者cnn方法进行非合成文字区域过滤。步骤s208，基于文本检测区域映射函数的合成文字区域打分模型，该步骤具体可以包括如下步骤：步骤4.1，标注数据，可以选取一批文字合成图像进行标注，标注分成4类：合成文字情况严重、合成文字情况一般、合成文字情况轻微和无合成文字情况；步骤4.2，提取图片的文字区域占比，以及对应的步骤4.1的标签，计算每个标签对应的文字区域占比的平均值m以及标准差v；步骤4.3，计算标签与图像占比的映射函数：以合成情况严重的标签为例，标签对应的分值为0.75-1，以合成文字情况一般为例，标签对应的分值为0.5-0.75，以合成文字情况轻微为例，标签对应的分值为0.25-0.5，以无合成文字情况为例，标签对应的分值为0-0.25，线性映射函数为：其中，以合成情况严重的标签为例，公式中t[0]＝0.75，以合成文字情况一般为例，公式中t[1]＝0.5，以合成文字情况轻微为例，公式中t[2]＝0.25，以无合成文字情况为例，公式中t[3]＝0，k表示对应的标签；步骤4.4，基于规则的部分文字区域打分调整：s(x)＝f(x)+offset，其中，f(x)为步骤4.3得到的结果，s(x)为本步骤得到的区域打分，offset的计算公式如下，offset的计算来自两个判定条件：提取文字区域的最长边与图片的长宽比n(即提取横排文字行与图片的长度之比或者提取竖排文字行与图片宽度之比)，以及提取文字区域的位置，覆盖了图片中心四分之一区域的比例r：其中，m为图片中的文本行个数。步骤s210，图片分类，可以利用cnn神经网络，训练图片分类器，对几种类别的图片进行分类，本实施例中以convnet为例进行详细说明，可以达到较优的识别精度，该步骤具体可以包括如下步骤：步骤5.1，样本数据，数据可以分为4个类别：1.违禁文字图片，即上述的合成文字图像：历史图片库中，被广告处罚的图片；2.正常文字图片，即上述的非合成文字图像：自然场景的图片，其中文字比如门牌、路标、商品包装盒、通告栏等；3.无文字图片，即上述的无文字图像：任意场景图片，不包含任何文字；4.特殊场景图片，即上述的特殊场景图像：电商评论场景图片，订单截图、聊天截图、物流截图等；步骤5.2，构建cnn网络结构，cnn网络结构可以包括3层卷积层、2层全连接层、最后一层分类softmax层，具体网络结构如图3所示，图3中的cnn网络结构convnet可以包括如下结构：3个conv层，3个pooling层，2个norm层，2个全连接层和1个softmax层，将样本数据转换为batch形式之后输入第一conv层，接入第一pooling层，接入第一norm层，然后接入第二conv层，接入第二pooling层，接入第二norm层，再接入第三conv层，接入第三pooling层，再接入2个fc层，最后接入softmax层，其中，conv层用于提取图片的特征映射；pooling层用于对特征映射进行降维，减少计算量，增强特征泛化性；norm层为正则层，用于对特征进行归一化；fc层为全连接层，用于生成特征向量；softmax层为分类器，用于对特征向量进行分类；步骤5.3，图片分类模型输出结果(label,score)，label为输入图片进过分类模型计算后得到的判定类别，score为对应类别的分数。需要说明的是，cnn框架可以采用caffe、mxnet、tensorflow等替代，深度学习网络可以采用vgg16、或者resnet替代。步骤s212，基于感知器的多模型分数融合，该步骤具体可以包括如下步骤：f(x|w)＝wfsf+w4s4+w3s3+w2s2+w1s1+w0，其中，wi为感知器参数，sf为对应步骤s108输出的打分结果，si为步骤s110中各个类别的分数输出结果。感知器训练过程如下：wi＝wi+αtsi，其中，α为学习率，t为标注结果，si为步骤s110中各个类别的分数输出结果。通过上述方案，既能够解决基于文本检测方法中自然场景的文本别识别成合成文字问题，又能够解决图片分类带来的无法表示合成文字影响程度的问题，提高了识别精度，其他部分和上面所提及的方案相同，此处不再赘述。实施例2根据本申请实施例，还提供了一种文字合成图像的识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本申请实施例2所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图4示出了一种用于实现文字合成图像的识别方法的计算机终端的硬件结构框图。如图4所示，计算机终端40可以包括一个或多个(图中采用402a、402b，……，402n来示出)处理器402(处理器402可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器404、以及用于通信功能的传输模块406。除此以外，还可以包括：显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、电源和/或相机。本领域普通技术人员可以理解，图4所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端40还可包括比图4中所示更多或者更少的组件，或者具有与图4所示不同的配置。应当注意到的是上述一个或多个处理器402和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端40中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。存储器404可用于存储应用软件的软件程序以及模块，如本申请实施例中的文字合成图像的识别方法对应的程序指令/数据存储装置，处理器402通过运行存储在存储器404内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文字合成图像的识别方法。存储器404可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器404可进一步包括相对于处理器402远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端40。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。传输模块406用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端40的通信供应商提供的无线网络。在一个实例中，传输模块406包括一个网络适配器(networkinterfacecontroller，nic)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输模块406可以为射频(radiofrequency，rf)模块，其用于通过无线方式与互联网进行通讯。显示器可以例如触摸屏式的液晶显示器(lcd)，该液晶显示器可使得用户能够与计算机终端40的用户界面进行交互。此处需要说明的是，在一些可选实施例中，上述图4所示的计算机设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图4仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。在上述运行环境下，本申请提供了如图5所示的文字合成图像的识别方法。图5是根据本申请实施例2的文字合成图像的识别方法的流程图。如图5所示，该方法包括以下处理步骤：步骤s502，获取待识别合成图像中的合成文字区域，其中，待识别合成图像为将文字合成至原始图像所得到的图像；可选地，该步骤可以通过以下方式实现，但不限于此：获取合成图像中的文字区域，其中，文字区域包括合成文字区域和非合成文字区域；提取文字区域中的区域特征，其中，该区域特征用于反映文字区域中的文字是否为合成文字；依据区域特征对文字区域中的非合成文字区域进行过滤，得到合成文字区域。在一个可选的实施例中，可以通过以下方式获取待识别合成图像中的文字区域：对待识别合成图像中的文本数据进行标注；从标注的文本数据中按照预设规则选择用于组成文字区域的坐标；依据选择的坐标确定文字区域。在另一个可选的实施例中，可以通过以下方式依据区域特征对文字区域中的非合成文字区域进行过滤：获取待识别合成图像中文字区域的第三特征值；比较第三特征值与预设阈值；在第三特征值小于预设阈值时，则滤除文字区域；在第三特征值大于预设阈值时，则保留文字区域，并将保留的文字区域作为合成文字区域。进一步地，上述文字区域可以包括：基于最大稳定极值mser或笔画宽度变换swt算法得到的文字区域。步骤s504，获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；可选地，该步骤可以通过以下方式实现，但不限于此：获取合成文字区域在待识别合成图像中的占比；获取与占比对应的特征值，并基于获取的与占比对应的特征值确定第一特征值。在一个可选的实施例中，可以通过以下方式基于获取的与占比对应的特征值确定第一特征值：获取同一文本行中合成文字区域在待识别合成图像中的占比的平均值，以及标准差；基于平均值和标准差确定与合成文字区域对应的第一特征值。步骤s506，获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度；可选地，可以通过以下方式实现获取待识别合成图像的预设类型，但不限于此：将待识别合成图像与样本图像进行比较；依据比较结果确定待识别合成图像的类型。步骤s508，基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。实施例3根据本申请实施例，还提供了一种用于实施上述文字合成图像的识别方法的装置，如图6所示，该装置包括：第一获取单元60，用于获取待识别合成图像中的合成文字区域，其中，待识别合成图像为将文字合成至原始图像所得到的图像；可选地，上述的第一获取单元60可以包括如下模块，但不仅限于此：第一获取模块，用于获取待识别合成图像中的文字区域，其中，文字区域包括合成文字区域和非合成文字区域；提取模块，连接于第一获取模块，用于提取文字区域中的区域特征，其中，该区域特征用于反映文字区域中的文字是否为合成文字；过滤模块，连接于提取模块，用于依据区域特征对文字区域中的非合成文字区域进行过滤，得到合成文字区域。在一个可选的实施例中，第一获取模块可以包括如下子模块：标注子模块，用于对待识别合成图像中的文本数据进行标注；选择子模块，连接于标注子模块，用于从标注的文本数据中按照预设规则选择用于组成文字区域的坐标；第一确定子模块，连接于选择子模块，用于依据选择的坐标确定文字区域。在另一个可选的实施例中，过滤模块可以包括如下子模块：第一获取子模块，用于获取待识别合成图像中文字区域的第三特征值；比较子模块，连接于第一获取子模块，用于比较第三特征值与预设阈值；滤除子模块，连接于比较子模块，用于在第三特征值小于预设阈值时，则滤除文字区域；保留子模块，连接于比较子模块，用于在第三特征值大于预设阈值时，则保留文字区域，并将保留的文字区域作为合成文字区域。进一步地，上述文字区域可以包括：基于最大稳定极值mser或笔画宽度变换swt算法得到的文字区域。第二获取单元62，连接至第一获取单元60，用于获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；可选地，上述的第二获取单元62可以包括如下模块，但不仅限于此：第二获取模块，用于获取合成文字区域在待识别合成图像中的占比；第三获取模块，连接于第二获取模块，用于获取与占比对应的特征值，并基于获取的与占比对应的特征值确定第一特征值。在一个可选的实施例中，第三获取模块可以包括如下子模块：第二获取子模块，用于获取同一文本行中合成文字区域在待识别合成图像中的占比的平均值，以及标准差；第二确定子模块，连接于第二获取子模块，用于基于平均值和标准差确定与合成文字区域对应的第一特征值。第三获取单元64，用于获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度；可选地，上述的第三获取单元64可以包括如下模块，但不仅限于此：比较模块，用于将待识别合成图像与样本图像进行比较；确定模块，用于依据比较结果确定待识别合成图像的类型。确定单元66，连接至第二获取单元62和第三获取单元64，用于基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。需要说明的是，上述各个模块是可以通过软件或硬件的形式实现的，对于后者，可以表现为以下实现形式，但不限于此：上述各个模块位于同一处理器中；或者，上述各个模块位于不同的处理器中。需要说明的是，本实施例中的优选实施方式可以参见实施例1和2中的相关描述，此处不再赘述。实施例4本实施例提供一种文字合成图像的识别系统，如图7所示，包括：客户端设备71，用于向第一服务器73发起图像识别请求；第一服务器73，具有与第二服务器75进行通信的接口，用于基于图像识别请求，调用第二服务器获取待识别合成图像的识别结果；第二服务器75，用于通过以下方式获取待识别合成图像的识别结果：获取待识别合成图像中的合成文字区域，其中，待识别合成图像为将文字合成至原始图像所得到的图像；获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字待识别合成图像的影响程度；基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。具体地，上述的客户端设备可以是智能手机(包括：android手机和ios手机)、平板电脑、ipad、掌上电脑等移动设备，也可以是pc、笔记本电脑等计算机终端，也可以是安装在移动设备或者计算机终端上的浏览器，本申请对此不做具体限定。上述的第一服务器可以是为客户端设备提供服务的服务器，例如，可以是网易易盾运行的服务器，或者是腾讯优图运行的服务器，本申请对此不做具体限定。上述的第二服务器可以是实现文字合成图像的识别功能的服务器。上述的识别结果可以是待识别合成图像是合成图像的概率。上述的第一服务器73和第二服务器75也可以是同一个服务器，本申请对此不做具体限定。在一种可选的方案中，当用户需要对待识别合成图像进行识别时，可以通过客户端设备71发起图像识别请求发给第一服务器73，该图像识别请求中可以携带待识别合成图像，第一服务器73在接收到图像识别请求之后，可以调用第二服务器75对待识别合成图像进行图像识别，第二服务器75可以对待识别合成图像进行文字区域检测，得到待识别合成图像中的合成文字区域，然后对合成文字区域进行区域特征提取，并对非合成文字区域进行过滤，得到合成文字区域的第一特征值，同时可以对待识别合成图像的进行图片分类，得到对应的第二特征值，最后对第一特征值和第二特征值进行融合，得到待识别合成图像是文字合成图像的概率，即得到待识别合成图像的识别结果，第二服务器75将得到的识别结果返回给第一服务器73，并经由第一服务器73返回给客户端设备71，并由客户端设备71进行显示，从而可以对非合成文字图像进行排除，并表示出合成文字的影响程度，达到提高识别精度的效果。例如，以网易易盾为例，对本发明上述实施例进行详细说明。用户可以通过浏览器登录网易易盾网页，从本地选择图像或者输入图像的url(统一资源定位符，是uniformresourcelocator的简写)地址，并点击网页上的上传控件，在用户点击上传控件之后，浏览器将图像打包成图像识别请求发送给网易易盾服务器。网易易盾服务器在接收到图像识别请求之后，对请求进行解包，并调用图像识别服务器对接收到的图像进行图像识别，得到图像是文字合成图像的概率，网易易盾服务器将图像识别服务器返回的图像和对应的概率返回给浏览器，由浏览器显示给用户查看。需要说明的是，本实施例中的优选实施方式可以参见实施例1和2中的相关描述，此处不再赘述。实施例5根据本申请实施例，还提供了一种文字合成图像的识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。图8是根据本申请实施例5的文字合成图像的识别方法的流程图。如图8所示，该方法包括以下处理步骤：步骤s802，接收来自客户端的上传指令；步骤s804，在上传指令的触发下，获取需要上传至网络侧的待识别合成图像；步骤s806，按照以下方式对待识别合成图像进行识别：获取待识别合成图像中的合成文字区域，其中，待识别合成图像为将文字合成至原始图像所得到的图像；获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度；基于第一特征值和第二特征值共同确定待识别合成图像的识别结果；步骤s808，输出并显示对待识别合成图像的识别结果。具体地，上述的客户端可以是智能手机(包括：android手机和ios手机)、平板电脑、ipad、掌上电脑等移动设备，也可以是pc、笔记本电脑等计算机终端，也可以是安装在移动设备或者计算机终端上的浏览器，本发明对此不做具体限定。上述的上传指令可以是客户端发送的图像识别指令。上述的识别结果可以是待识别合成图像是合成图像的概率。在一种可选的方案中，当用户需要对待识别合成图像进行识别时，可以通过客户端发起上传请求，服务器在接收到上传请求之后，可以获取用户上传的待识别合成图像，对待识别合成图像进行文字区域检测，得到待识别合成图像中的合成文字区域，然后对合成文字区域进行区域特征提取，并对非合成文字区域进行过滤，得到合成文字区域的第一特征值，同时可以对待识别合成图像的进行图片分类，得到对应的第二特征值，最后对第一特征值和第二特征值进行融合，得到待识别合成图像是文字合成图像的概率，即得到待识别合成图像的识别结果，将得到的识别结果返回给客户端，并由客户端进行显示，从而可以对非合成文字图像进行排除，并表示出合成文字的影响程度，达到提高识别精度的效果。例如，以网易易盾为例，对本发明上述实施例进行详细说明。用户可以通过浏览器登录网易易盾网页，从本地选择图像或者输入图像的url(统一资源定位符，是uniformresourcelocator的简写)地址，并点击网页上的上传控件，在用户点击上传控件之后，浏览器生成上传指令发送给网易易盾服务器。网易易盾服务器在接收到上传指令之后，可以对获取浏览器上传的图像，并对接收到的图像进行图像识别，得到图像是文字合成图像的概率，网易易盾服务器将图像识别服务器返回的图像和对应的概率返回给浏览器，由浏览器显示给用户查看。需要说明的是，本实施例中的优选实施方式可以参见实施例1和2中的相关描述，此处不再赘述。实施例6本实施例提供一种计算机终端90，如图9所示，包括：处理器92，用于获取待识别合成图像中的合成文字区域，获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度，获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度，待识别合成图像为将文字合成至原始图像所得到的图像；输出装置94，与处理器92连接，用于输出基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。该输出装置可以包括但不限于显示器、打印机等设备。需要说明的是，本实施例中的优选实施方式可以参见实施例1和2中的相关描述，此处不再赘述。实施例7根据本申请实施例，还提供了一种图像识别方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。图10是根据本申请实施例7的图像识别方法的流程图。如图10所示，该方法包括以下处理步骤：步骤s1002，获取待识别图像中的合成文字区域，其中，合成文字区域为将文字合成至原始图像所得到的区域；可选地，该步骤可以通过以下方式实现，但不限于此：获取待识别图像中的文字区域，其中，文字区域包括合成文字区域和非合成文字区域；提取文字区域中的区域特征，其中，该区域特征用于反映文字区域中的文字是否为合成文字；依据区域特征对文字区域中的非合成文字区域进行过滤，得到合成文字区域。在一个可选的实施例中，可以通过以下方式获取待识别图像中的文字区域：对待识别图像中的文本数据进行标注；从标注的文本数据中按照预设规则选择用于组成文字区域的坐标；依据选择的坐标确定文字区域。步骤s1004，获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别图像的影响程度；步骤s1006，获取待识别图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字对待识别图像的影响程度；步骤s1008，基于第一特征值和第二特征值共同确定识别结果。需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。实施例8本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。在本实施例中，上述计算机终端可以执行中以下步骤的程序代码：获取待识别合成图像中的合成文字区域，其中，待识别合成图像为将文字合成至原始图像所得到的图像；获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度；基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。可选地，本实施例提供的一种计算机终端的具体结构，可以参见图4所示计算机终端的结构，但并不限于此，该计算机终端包括的结构特征可以多于或少于图4所示计算机终端的结构。其中，存储器可用于存储软件程序以及模块，如本申请实施例中的方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文字合成图像的识别方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待识别合成图像中的合成文字区域，其中，待识别合成图像为将文字合成至原始图像所得到的图像；获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度；基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。可选的，上述处理器还可以执行如下步骤的程序代码：获取待识别合成图像中的文字区域，其中，文字区域包括合成文字区域和非合成文字区域；提取文字区域中的区域特征，其中，该区域特征用于反映文字区域中的文字是否为合成文字；依据区域特征对文字区域中的非合成文字区域进行过滤，得到合成文字区域。可选的，上述处理器还可以执行如下步骤的程序代码：对待识别合成图像中的文本数据进行标注；从标注的文本数据中按照预设规则选择用于组成文字区域的坐标；以及依据选择的坐标确定文字区域。可选的，上述处理器还可以执行如下步骤的程序代码：获取待识别合成图像中文字区域的第三特征值；比较第三特征值与预设阈值；在第三特征值小于预设阈值时，则滤除文字区域；在第三特征值大于预设阈值时，则保留文字区域，并将保留的文字区域作为合成文字区域。可选的，上述处理器还可以执行如下步骤的程序代码：获取合成文字区域在待识别合成图像中的占比；获取与占比对应的特征值，并基于获取的与占比对应的特征值确定第一特征值。可选的，上述处理器还可以执行如下步骤的程序代码：获取同一文本行中合成文字区域在待识别合成图像中的占比的平均值，以及标准差；基于平均值和标准差确定与合成文字区域对应的第一特征值。可选的，上述处理器还可以执行如下步骤的程序代码：将待识别合成图像与样本图像进行比较；依据比较结果确定待识别合成图像的类型。采用本申请实施例，提供了一种文字合成图像的识别方案。解决了相关技术中无法在对非合成文字的图像进行排除的同时，识别结果表示文字合成图像中合成文字的影响程度的技术问题。本领域普通技术人员可以理解，本实施例中提供的计算机终端也可以是智能手机(如android手机、ios手机等)、平板电脑、掌声电脑以及移动互联网设备(mobileinternetdevices，mid)、pad等终端设备。本实施例提供的计算机终端的结构可以参见图4所示计算机终端，但不限于此。例如，本实施例提供的计算机终端还可包括比图4中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图4所示不同的配置。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(read-onlymemory，rom)、随机存取器(randomaccessmemory，ram)、磁盘或光盘等。实施例9本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例2所提供的文字合成图像的识别方法所执行的程序代码。可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待识别合成图像中的合成文字区域，其中，所述待识别合成图像为将文字合成至原始图像所得到的图像；获取合成文字区域的第一特征值，该第一特征值用于反映合成文字对待识别合成图像的影响程度；获取待识别合成图像的预设类型，以及与预设类型对应的第二特征值，其中，第二特征值用于反映合成文字和/或非合成文字对待识别合成图像的影响程度；基于第一特征值和第二特征值共同确定待识别合成图像的识别结果。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。以上所述仅是本申请的优选实施方式，应当指出，对于本
技术领域：
：的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。当前第1页12当前第1页12

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金炫
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

上一篇：一种防电源正端误接入点火器的制作方法
上一篇：一种汽车起动机智能保护装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。