一种文字图像生成方法、装置及终端与流程

文档序号：12721397阅读：143来源：国知局

本发明涉及图像处理领域，尤其涉及一种文字图像生成方法、装置及终端。

背景技术：

深度学习引擎可以应用于图片文字识别领域。现有的深度学习引擎大多基于神经网络，通过训练神经网络使得深度学习引擎具有准确识别出图片中的文字的能力。

为训练神经网络需要大量的训练样本，但是现有的通过文本与预设图像合成的训练样本一般只是将在二值化的文字图像与预设的颜色进行简单的混合，请参考图1，图1(a)和图1(b)均是混合后的文字图像，这种混合导致训练样本的颜色单一和多样性差，从而无法满足深度学习引擎对训练数据多样性的要求。

进一步地，在自然环境中拍摄到的文字图像通常具有一些特定的效果，比如文字的边缘颜色出现变化或者文字存在畸变，比如文字为倾斜的或者旋转的，而这些效果只通过简单的混合难以进行模拟，从而使得训练样本中的图像不自然，进而显著影响深度学习引擎的泛化能力。

技术实现要素：

为了解决上述技术问题，本发明提出了一种文字图像生成方法、装置及终端。

本发明具体是以如下技术方案实现的：

第一方面，一种文字图像生成方法，所述方法包括：

基于矢量字体和目标文字获取所述目标文字的二值化图像；

从预设的彩色图片集中获取聚类图片集，根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色；

根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像；

对所述彩色图像按照第一预设规则进行仿射变换；

对经过仿射变换后的彩色图像按照第二预设规则进行透视变换；

为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。

第二方面，一种文字图像生成装置，包括：

二值化图像获取模块，用于基于矢量字体和目标文字获取所述目标文字的二值化图像；

聚类颜色得到模块，用于从预设的彩色图片集中获取聚类图片集，根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色；

彩色图像获取模块，用于根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像；

仿射模块，用于对所述彩色图像按照第一预设规则进行仿射变换；

透视模块，用于对经过仿射变换后的彩色图像按照第二预设规则进行透视变换；

目标图像得到模块，用于为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。

第三方面，一种文字图像生成终端，所述终端包括上述的文字图像生成装置。

本发明的一种文字图像生成方法、装置及终端，具有如下有益效果：

本发明基于颜色聚类得到三个目标颜色，并根据三个目标颜色对二值化的文字图像进行着色，从而使得着色后的文字图像涵盖更多的彩色图片集中的颜色信息，从而丰富文字图像的颜色和多样性；

本发明通过对着色后的文字图像进行仿射变换、透视变换和噪声处理，从而为着色后的彩色图像加入了倾斜旋转、边缘阴影以及模拟噪声等畸变效果，进而使得得到的目标图像与摄像头拍摄出的自然场景中的文字图像的相似度更高，更加逼真。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1(a)现有技术生成的文字图像示意图；

图1(b)现有技术生成的另一种文字图像示意图；

图2是本发明实施例提供的一种文字图像生成方法流程图；

图3是本发明实施例提供的二值化图像的获取方法的流程图；

图4是本发明实施例提供的白底黑字的二值化图像；

图5是本发明实施例提供的着色方法的流程图；

图6是本发明实施例提供的仿射变换方法的流程图；

图7是本发明实施例提供的仿射变换后的图像示意图；

图8是本发明实施例提供的透视变换方法的流程图；

图9是本发明实施例提供的透视变换后的图像示意图；

图10是本发明实施例提供的高斯变换的方法流程图；

图11是本发明实施例提供的基于输入图像的目标图像得到方法的；

图12(a)是本发明实施例提供的多个目标图像的其中一个示意图；

图12(b)是本发明实施例提供的多个目标图像的另一个示意图；

图12(c)是本发明实施例提供的多个目标图像的另一个示意图；

图12(d)是本发明实施例提供的多个目标图像的另一个示意图；

图13是本发明实施例提供的获取目标颜色的方法的流程图；

图14是本发明实施例提供的一种颜色聚类方法的流程图；

图15是本发明实施例提供的一种文字图像生成装置框图；

图16是本发明实施例提供的聚类颜色得到模块的框图；

图17是本发明实施例提供的聚类结果得到单元的框图；

图18是本发明实施例提供的仿射模块的框图；

图19是本发明实施例提供的目标图像得到模块的框图；

图20是本发明实施例提供的一种终端的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在以下的描述中，将描述本发明的多个不同的方面，然而，对于本领域内的普通技术人员而言，可以仅仅利用本发明的一些或者全部结构或者流程来实施本发明。为了解释的明确性而言，阐述了特定的数目、配置和顺序，但是很明显，在没有这些特定细节的情况下也可以实施本发明。在其他情况下，为了不混淆本发明，对于一些众所周知的特征将不再进行详细阐述。

请参考图2，其示出了本发明实施例提供的一种文字图像生成方法流程图，所述方法包括：

S101.基于矢量字体和目标文字获取所述目标文字的二值化图像。

具体地，所述矢量字体和所述目标文字可以根据预设的算法进行设置，也可以由用户进行自行选择。

所述矢量字体(Vector font)中每一个字形是通过数学曲线来描述的，它包含了字形边界上的关键点，连线的导数信息等，字体的渲染引擎通过读取这些数学矢量，然后进行一定的数学运算来进行渲染。矢量字体的优点是字体实际尺寸可以任意缩放而不变形或者变色。矢量字体包括但不限于Type1、TrueType和OpenType等几类，其中，Type1、TrueType和OpenType这三种格式都是与平台无关的。

所述目标文字可以是承载语言的图像和/或符号，所述目标文字包括但不限于形意文字、意音文字和/或拼音文字。具体地，所述目标文字可以为常用的中文、英文、法文、西班牙文和/或俄文。

请参考图3，其示出了二值化图像的获取方法的流程图，所述二值化图像的获取方法包括：

S1011.基于矢量字体和目标文字获取包括所述目标文字的图像。

S1012.以黑色为背景色，以白色为前景色渲染所述图像以得到所述目标文字的二值化图像。

请参考图4，其示出了以中文字“活”为例，渲染出的白底黑字的二值化图像。

S102.从预设的彩色图片集中获取聚类图片集，根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色。

S103.根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像。

请参考图5，其示出了着色方法的流程图，所述着色方法包括：

S1031.根据所述第一目标颜色设置所述二值化图像中的文字颜色；

S1032.根据所述第二目标颜色设置所述二值化图像中的背景色；

S1033.根据所述第三目标颜色设置所述二值化图像中的文字边缘颜色。

S104.对所述彩色图像按照第一预设规则进行仿射变换。

本实施例中的仿射变换在几何上定义为两个向量空间之间的一个仿射变换或者仿射映射，其由一个非奇异的线性变换接上一个平移变换组成。

本实施例所述的第一预设规则包括对于仿射变换参数和仿射变换矩阵进行设定，以及基于仿射变换矩阵进行仿射变换的方法。所述第一预设规则可以预先由用户进行设定，也可以根据采用的特定算法进行设定。

请参考图6，其示出了仿射变换方法的流程图，所述仿射变换方法包括：

S1041.设置旋转角度的变换范围和倾斜角度的变换范围。

具体地，本实施例中仿射变换参数包括旋转角度和倾斜角度。

具体地，本实施例中设置旋转角度的变换范围为[0,8]度，和倾斜角度的变换范围为[0,1]度。

S1042.按照预设选取规则选取符合所述旋转角度的变换范围的旋转角度和符合所述倾斜角度的变换范围的倾斜角度。

具体地，所述选取规则可以为按照预设的分布算法选取，也可以由用户自行设定。

具体地，在本实施例中，可以按照标准正态分布随机产生符合所述旋转角度的变换范围的旋转角度和符合所述倾斜角度的变换范围的倾斜角度，在其它实施例中也可以按照其它分布随机产生，比如，二项分布、泊松分布或其它分布。

S1043.根据所述旋转角度和所述倾斜角度获取仿射变换矩阵。

具体地，所述仿射变换矩阵为一个2*3的矩阵，前面的2*2反映的是旋转变换，第三列反映的是倾斜变换。

S1044.根据所述仿射变换矩阵对所述彩色图像进行仿射变换。

以所述仿射变换矩阵为为例，对所述彩色图像的每个像素的坐标矩阵进行仿射变换的公式为：

其中为经过仿射变换后的所述像素的坐标。

具体地，本实施例中以对图4进行着色后的彩色图像进行仿射变换为例，若仿射变换矩阵为则生成的图像如图7所示。

本实施例中通过确定具体的仿射变换算法对于着色后的彩色图像进行仿射变换，从而能够在目标文字所在的图像中加入旋转、平移和倾斜等畸变效果，使得目标文字所在的图像更加接近于自然场景中拍摄到的图像，从而增加所述图像的真实性。

S105.对经过仿射变换后的彩色图像按照第二预设规则进行透视变换。

本实施例所述的第二预设规则包括对于透视变换参数和透视变换矩阵进行设定，以及基于透视变换矩阵进行透射变换的方法。所述第二预设规则可以预先由用户进行设定，也可以根据采用的特定算法进行设定。

请参考图8，其示出了透视变换方法的流程图，所述透视变换方法包括：

S1051.设置透视变换参数。

具体地，本实施例提供一种透视变换参数的设置方式，具体地，本实施例中设置9个透视变换参数，分别为a，b，c，d，e，f，x，y，z；具体地，所述9个参数的设置规则如下：

a＝0+0.005η₀；

b＝0+0.005η₁；

c＝0+0.005η₂；

d＝1+0.01η₃；

e＝0+0.0005η₄；

f＝0+0.0005η₅；

x＝b/2；

y＝h/2；

z＝-e*x-f*y+1；

其中，η_i均服从标准正态分布，即服从一个数学期望为0、方差为1的正态分布。具体地，η_i可以分别随机获取，也可以一次性随机获取多个η_i。b和h分别为经过仿射变换后的彩色图像的宽度和高度。

S1052.根据所述透视变换参数获取透视变换矩阵。

根据上述透视变换参数即可得到透视变换矩阵具体地，本实施例中透视变换矩阵B的具体设置方式可以为：

b₀₀＝a+e*x；

b₀₁＝b+f*x；

b₀₂＝-a*x-b*y-e*x*x-f*x*y+x；

b₁₀＝c+e*y；

b₁₁＝d+f*y；

b₁₂＝-c*x-d*y-e*x*y-f*y*y+y；

b₂₀＝e；

b₂₁＝f；

b₂₂＝z。

S1053.根据所述透视变换矩阵对经过仿射变换后的彩色图像进行透视变换。

所述透视变换矩阵为为例，对所述经过仿射变换后的彩色图像的每个像素的坐标矩阵进行透视变换的公式为：

其中为经过透视变换后的所述像素的坐标。

具体地，本实施例中以对图7进行仿射变换后的图像为例为例，若变换矩阵为则生成的图像如图9所示。

本实施例中通过确定具体的透视变换算法对于经过仿射变换后的彩色图像进行透视变换，从而能够对目标文字所在的图像加入透视的畸变效果，从而模拟摄像头的拍摄效果，使得目标文字所在的图像更加接近于自然场景中拍摄到的图像，进而增加所述图像的真实性。

S106.为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。

具体地，为生成随机性更高的图像，本发明实施例在加入噪声之前为经过透视变换后的彩色图像进行了基于卷积核的高斯变换。具体地，所述高斯变换的变换矩阵的维度以及矩阵中的元素的具体数值均可以根据随机性要求或者用户的实际需要进行设定。

具体地，本发明实施例中使用的高斯变换矩阵为n*n的矩阵，对所述经过透视变换后的彩色图像的每个像素的坐标矩阵进行高斯变换的方法如图10所示，包括：

S1061.获取以待变换像素为中心，周围n*n的区域内共n²个像素的坐标。

S1062.由所述n²个像素的横坐标构成横坐标矩阵。

S1063.由所述n²个像素的纵坐标构成纵坐标矩阵。

S1064.所述横坐标矩阵中的n²个元素分别与所述高斯变换矩阵中对应位置的元素相乘得到n²个乘积值，将所述n²乘积值相加得到高斯变换后的横坐标。

S1065.所述纵坐标矩阵中的n²个元素分别与所述高斯变换矩阵中对应位置的元素相乘得到n²个乘积值，将所述n²乘积值相加得到高斯变换后的纵坐标。

具体地，本发明实施例中使用的高斯变换矩阵为5*5的矩阵，在其它实施例中也可以使用4*4，3*3或者其它维度的矩阵。

在对经过透视变换后的彩色图像进行基于卷积核的高斯变换之后，可以按照第三预设规则加入噪声。所述第三预设规则可以预先由用户进行设定，也可以根据采用的特定算法进行设定。具体地，本实施例中加入的噪声为随机高斯噪声。

噪声可以理解为“妨碍人们感觉器官对所接收的信源信息理解的因素”，而图像中各种妨碍人们对其信息接受的因素即可称为图像的噪声。噪声在理论上可以定义为“不可预测，只能用概率统计方法来认识的随机误差”。因此将噪声看成是多维随机过程是合适的，因而描述噪声的方法完全可以借用随机过程的描述，即用其概率分布函数和概率密度分布函数。本实施例中即对所述彩色图像加入随机的高斯噪声，所述高斯噪声符合标准正态分布。在其它实施方式中也可以加入其它噪声。

在对经过透视变换后的彩色图像进行高斯变换并加入高斯噪声之后即可得到用于得到目标图像的输入图像。请参考图11，其示出了基于输入图像的目标图像得到方法的流程图，所述方法包括：

S1.根据所述输入图像与加入高斯噪声前的图像相减得到差值图像。

S2.根据所述输入图像和所述差值图像得到目标图像。

具体地，据所述输入图像和所述差值图像得到目标图像的方法可以由用户自行定义或者根据特定的算法进行设定，本实施例中S2具体通过由所述差值图像乘以预设系数并与所述输入图像相加的方法得到目标图像，所述预设系数可以由经验值确定。预设系数的大小影响目标图像中的阴影效果，预设系数越大，阴影效果越明显。

本实施例中通过对于经过透视变换后的彩色图像进行高斯变换，增加变换后图像的随机性，通过加入噪声更加逼真地模拟从自然场景中摄取图像信息的这一过程，在目标图像的得到过程中为图像加入阴影效果，从而使得生成的图像能够很好地模拟摄像头的拍摄效果，增加所述图像的真实性。

对图4中的图像，经过S102-S106中的各种图像处理步骤，其中，每一个步骤均可以通过变换参数得到多个处理结果，从而在经过S102-S106中的各种图像处理步骤可以得到很多处理结果，如图12(a)(b)(c)(d)所示。可见本发明实施例不仅可以生成逼真度高的文字图像，也可以基于原始的文字图像生成数量庞大的处理后的文字图像，从而生成数量大、质量好的训练样本，为深度学习引擎的训练提供素材。目前深度学习引擎因其强大的自学习提取特征能力从而被广泛应用于文字识别领域，但深度学习引擎的训练需要大量的样本数据作为输入，而现实中很难采集到海量的真实数据，因此本发明的提出有效地缓解了这一矛盾，为开发出高性能的文字识别引擎奠定了坚实的基础。

进一步地，为获取更有代表性的第一目标颜色、第二目标颜色和第三目标颜色，本发明实施例提供了更为详细的目标颜色获取方法，请参考图13，其示出了步骤S102中获取目标颜色的方法的流程图，包括：

S1021.从预设的彩色图片集中获取聚类图片集。

具体地，所述彩色图片集可以由用户自行收集，也可以使用现有的图片资源。所述彩色图片集可以由用户根据自身的需求任意选择，比如所述彩色图片集中的图片可以包括但不限于自然风光、人文城市、花鸟鱼虫或者飞禽走兽。

在获取彩色图片集的基础上，用户可以根据实际需要或者特定的算法选择聚类图片集，所述聚类图片集用于作为S1022中获取聚类结果的素材，所述聚类图片集包括一张或多张用于进行聚类的图片，若所述聚类图片集包含多张图片，则所述多张图片可以属于同一类图片，比如都属于自然风光类的图片；也可以属于不同的类的图片，比如有的图片属于自然风光类的图片，有的图片属于人文城市类的图片。

S1022.根据预设的聚类方法对所述聚类图片集中的图片进行聚类以得到聚类结果。

S1023.在所述聚类结果中选取第一目标颜色、第二目标颜色和第三目标颜色。

若所述聚类图片集中只有一张图片，则对所述图片进行颜色聚类以得到聚类图片集的聚类结果，并从所述聚类图片集的聚类结果中选取三个颜色分别作为第一目标颜色、第二目标颜色和第三目标颜色。

若所述聚类图片集中有多张照片，则可以对每张照片均进行聚类以得到每张图片的聚类结果，从而得到聚类图片集的聚类结果；也可以选择几张照片进行聚类作为聚类图片集的聚类结果；然后从所述聚类图片集的聚类结果中选取三个颜色分别作为第一目标颜色、第二目标颜色和第三目标颜色。

进一步地，对于步骤S1022，对于图片进行聚类的方法可以有多种，比如k-means算法、GMM算法、Mean shift算法以及Quick shift算法，下面对这几种常用的聚类算法进行描述：

(1)k-means算法

k-means是比较简单又常用的聚类算法，k表示的是聚类中心的个数，每个类是由相应的聚类中心来表示。k-means算法包括四个步骤：

随机选择初始的聚类中心。

把每个目标分配给最近的中心(最近的度量指的是目标到中心的欧几里得距离)。

根据上一步聚好的类，重新计算聚类中心。

迭代计算聚类中心直到聚类中心不再发生变化。

k-means的优点是简单快速并且能够很容易的实现，其缺点是k值需要人工设定，另外对于离群点太过敏感。

(2)GMM算法

GMM算法用于聚类是基于这样的假设，即数据空间的数据是由多个高斯模型生成的。GMM算法解决的问题是根据数据空间的数据来估计多个高斯模型的参数，然后根据这些参数确定高斯模型。一旦高斯模型确定了，数据的聚类中心也就确定了。

GMM算法用于聚类的优点是最后得到的结果是数据属于某个类的概率，其缺点是要先确定聚类中心的个数。

(3)Mean shift算法

Mean shift算法的目标是根据给定的数据寻找概率密度的局部最大值。Mean-shift主要包括四个步骤：

随机选择若干个感兴趣区域；计算感兴趣区域数据的中心；移动区域到新的中心；不断计算直到收敛。

Mean shift算法的思想是将数据点分配给隐含概率密度函数的某个模型。它的优点是聚类的类别数不需要预先知道并且聚类的结果可以是任意的，它的缺点是计算复杂度高。

(4)Quick shift算法

Quick shift是由Mean shift改进而来的。Quick shift改进了计算复杂度太高这一缺点，它不需要使用梯度来寻找概率密度的模式，而仅仅是将每个点移动到使概率密度增加的最近的点来获得。

Quick shift继承了Mean shift的优点，不需要指定聚类中心，但同时改进了其速度慢的缺点。

具体地，请参考图14，其示出了本发明实施例提供的一种颜色聚类方法的流程图，所述颜色聚类方法可以应用于步骤S1022，包括：

S10221.在所述聚类图片集中选取用于聚类的图片。

具体地，可以选择聚类图片集中的一张或者多张图片参与聚类。步骤S10222-S10225对于被选择的某一张图片进行聚类。

S10222.在所述用于进行聚类的图片中确定目标聚类个数k。

具体地，k的数值可以由用户自行设定，所述k的数值可以与参与聚类的图片的数量有关。

S10223.在所述用于进行聚类的图片中选取k个颜色作为初始聚类中心z₁(0)，z₂(0)......z_k(0)。

S10224.将所述用于进行聚类的图片中的每个像素分配至最近的初始聚类中心，形成k个簇：获取所述像素的颜色与初始聚类中心的欧几里得距离d₁(0)，d₂(0)......d_k(0)；获取所述欧几里得距离的最小值d_imin(0)；将所述像素划分至所述最小值d_imin(0)对应的初始聚类中心z_i(0)。

S10225.计算k个簇中每个簇的聚类中心z₁(j+1)，z₂(j+1)......z_k(j+1)直至所述k个簇中任意一个簇中的所有像素的颜色到该任意一个簇的聚类中心的距离平方和达到最小值。

选择适当的初始聚类中心z₁(0)，z₂(0)......z_k(0)是本发明实施例提供的颜色聚类方法的关键步骤。初始聚类中心z₁(0)，z₂(0)......z_k(0)可以随机选取，但是这样生成的k个簇的质量常常较差，从而导致聚类速度较慢。为此，本发明实施例还提供初始聚类中心的选择方法，即利用所述图片中的像素的颜色形成k个集群的层次聚类；将层次聚类的k个集群的质心作为初始聚类中心。

本发明实施例通过提供获取目标颜色的方法从而使得获取到的目标颜色能够携带更多的彩色图片集中的颜色信息，从而使得生成的目标图像中的文字更接近彩色图片集中图片作为背景时拍摄到的文字，进而提升目标图像的逼真度。进一步地，本发明实施例还通过提供具体初始聚类中心获取方法提升了聚类算法的效率。

进一步地，本发明实施例基于同样地发明构思，还提供了一种文字图像生成装置，本实施例能够用于实现上述实施例中提供的文字图像生成方法。

请参考图15，其示出了本发明实施例提供的一种文字图像生成装置框图，所述装置包括：

二值化图像获取模块201，用于基于矢量字体和目标文字获取所述目标文字的二值化图像。可用于实施方法实施例中的步骤S101。

聚类颜色得到模块202，用于从预设的彩色图片集中获取聚类图片集，根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色。可用于实施方法实施例中的步骤S102。

彩色图像获取模块203，用于根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像。可用于实施方法实施例中的步骤S103。

仿射模块204，用于对所述彩色图像按照第一预设规则进行仿射变换。可用于实施方法实施例中的步骤S104。

透视模块205，用于对经过仿射变换后的彩色图像按照第二预设规则进行透视变换。可用于实施方法实施例中的步骤S105。

目标图像得到模块206，用于为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。可用于实施方法实施例中的步骤S106。

具体地，所述二值化图像获取模块201还包括：

图像获取单元2011，用于基于矢量字体和目标文字获取包括所述目标文字的图像。可用于实施方法实施例中的步骤S1011。

渲染单元2012，用于以黑色为背景色，以白色为前景色渲染所述图像以得到所述目标文字的二值化图像。可用于实施方法实施例中的步骤S1012。

请参考图16，其示出了聚类颜色得到模块的框图，所述聚类颜色得到模块202包括：

聚类图片集获取单元2021，用于从预设的彩色图片集中获取聚类图片集。可用于实施方法实施例中的步骤S1021。

聚类结果得到单元2022，用于根据预设的聚类方法对所述聚类图片集中的图片进行聚类以得到聚类结果。可用于实施方法实施例中的步骤S1022。

选取单元2023，用于在所述聚类结果中选取第一目标颜色、第二目标颜色和第三目标颜色。可用于实施方法实施例中的步骤S1023。

请参考图17，其示出了聚类结果得到单元的框图，所述聚类结果得到单元2022包括：

选择模块20221，用于在所述聚类图片集中选取用于聚类的图片。可用于实施方法实施例中的步骤S10221。

目标聚类个数确定模块20222，用于在所述图片中确定目标聚类个数k。可用于实施方法实施例中的步骤S10222。

初始聚类中心选取模块20223，用于在所述图片中选取k个颜色作为初始聚类中心。可用于实施方法实施例中的步骤S10223。

簇构建模块20224，用于将所述图片中的每个像素分配至最近的初始聚类中心，形成k个簇：获取所述像素的颜色与初始聚类中心的欧几里得距离；获取所述欧几里得距离的最小值；将所述像素划分至所述最小值对应的初始聚类中心。可用于实施方法实施例中的步骤S10224。

聚类中心得到模块20225，用于计算k个簇中每个簇的聚类中心直至所述k个簇中任意一个簇中的所有像素的颜色到该任意一个簇的聚类中心的距离平方和达到最小值。可用于实施方法实施例中的步骤S10225。

请参考图18，其示出了仿射模块的框图，所述仿射模块204包括：

旋转角度设置单元2041，用于设置旋转角度的变换范围。可用于实施方法实施例中的步骤S1041。

倾斜角度设置单元2042，用于设置倾斜角度的变换范围为。可用于实施方法实施例中的步骤S1041。

参数确定单元2043，用于按照预设选取规则选取符合所述旋转角度的变换范围的旋转角度和符合所述倾斜角度的变换范围的倾斜角度。可用于实施方法实施例中的步骤S1042。

仿射变换矩阵生成单元2044，用于根据所述旋转角度和所述倾斜角度获取仿射变换矩阵。可用于实施方法实施例中的步骤S1043。

仿射变换单元2045，用于根据所述仿射变换矩阵对所述彩色图像进行仿射变换。可用于实施方法实施例中的步骤S1044。

请参考图19，其示出了目标图像得到模块的框图，所述目标图像得到模块206包括：

噪声设置单元2061，用于对经过透视变换后的彩色图像按照第三预设规则加入噪声。可用于实施方法实施例中的步骤S106。

差值图像获取单元2062，用于根据加入噪声后的图像与加入噪声前的图像相减得到差值图像。可用于实施方法实施例中的步骤S1。

目标图像得到单元2063，用于根据所述加入噪声后的图像和所述差值图像得到目标图像。可用于实施方法实施例中的步骤S2。

本发明实施例提供的文字图像生成装置可以通过采用颜色聚类算法随机产生多个背景色和文字颜色，从而弥补了现有技术中只是将二值化的文字图像与预设的颜色进行简单的混合造成的颜色单一和多样性差的不足。通过对图像的进行仿射变换、透射变换以及高斯变换等处理，为图像添加了自然环境中拍摄到的文字图像所特有的效果，使得处理后的图像更为逼真。本发明能够产生大数据量且逼真度高的文字图像，从而缓解深度学习引擎训练样本不足的现状，使得训练出来的深度学习引擎有更好的泛化能力。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例中提供的文字图像生成方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

第一步，基于矢量字体和目标文字获取所述目标文字的二值化图像；

第二步，从预设的彩色图片集中获取聚类图片集，根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色；

第三步，根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像；

第四步，对所述彩色图像按照第一预设规则进行仿射变换；

第五步，对经过仿射变换后的彩色图像按照第二预设规则进行透视变换；

第六步，为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

基于矢量字体和目标文字获取包括所述目标文字的图像；

以黑色为背景色，以白色为前景色渲染所述图像以得到所述目标文字的二值化图像。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

所述根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色包括：

第一步，根据预设的聚类方法对所述聚类图片集中的图片进行聚类以得到聚类结果；

第二步，在所述聚类结果中选取第一目标颜色、第二目标颜色和第三目标颜色。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

所述根据预设的聚类方法对所述用于进行聚类的图片进行聚类以得到聚类结果包括：

第一步，在所述聚类图片集中选取用于聚类的图片；

第二步，在所述图片中确定目标聚类个数k；

第三步，在所述图片中选取k个颜色作为初始聚类中心；

第四步，将所述图片中的每个像素分配至最近的初始聚类中心，形成k个簇：获取所述像素的颜色与初始聚类中心的欧几里得距离；获取所述欧几里得距离的最小值；将所述像素划分至所述最小值对应的初始聚类中心；

第五步，计算k个簇中每个簇的聚类中心直至所述k个簇中任意一个簇中的所有像素的颜色到该任意一个簇的聚类中心的距离平方和达到最小值。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

所述在所述用于进行聚类的图片中选取k个颜色作为初始聚类中心包括：

第一步，利用所述用于进行聚类的图片中的像素的颜色形成k个集群的层次聚类；

第二步，将层次聚类的k个集群的质心作为初始聚类中心。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像包括：

第一步，根据所述第一目标颜色设置所述二值化图像中的文字颜色；

第二步，根据所述第二目标颜色设置所述二值化图像中的背景色；

第三步，根据所述第三目标颜色设置所述二值化图像中的文字边缘颜色。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

所述对所述彩色图像按照第一预设规则进行仿射变换包括：

第一步，设置旋转角度的变换范围和倾斜角度的变换范围；

第二步，按照预设选取规则选取符合所述旋转角度的变换范围的旋转角度和符合所述倾斜角度的变换范围的倾斜角度；

第三步，根据所述旋转角度和所述倾斜角度获取仿射变换矩阵；

第四步，根据所述仿射变换矩阵对所述彩色图像进行仿射变换。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

所述为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像包括：

第一步，对经过透视变换后的彩色图像按照第三预设规则加入噪声；

第二步，根据加入噪声后的图像与加入噪声前的图像相减得到差值图像；

第三步，根据所述加入噪声后的图像和所述差值图像得到目标图像。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

参见图20，本发明实施例提供了一种终端的示意图，该终端可以包含上述实施例中的文字图像生成装置，并且用于实施上述实施例中提供的文字图像生成方法。具体来讲：

所述终端可以包括RF(Radio Frequency，射频)电路110、包括有一个或一个以上计算机可读存储介质的存储器120、输入单元130、显示单元140、传感器150、音频电路160、WiFi(wireless fidelity，无线保真)模块170、包括有一个或者一个以上处理核心的处理器180、以及电源190等部件。本领域技术人员可以理解，图20中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路110可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器180处理；另外，将涉及上行的数据发送给基站。通常，RF电路110包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路110还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System ofMobile communication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器120可用于存储软件程序以及模块，处理器180通过运行存储在存储器120的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述终端的使用所创建的数据等。此外，存储器120可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器120还可以包括存储器控制器，以提供处理器180和输入单元130对存储器120的访问。

输入单元130可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元130可包括触敏表面131以及其他输入设备132。触敏表面131，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面131上或在触敏表面131附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面131可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器180，并能接收处理器180发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面131。除了触敏表面131，输入单元130还可以包括其他输入设备132。具体地，其他输入设备132可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元140可用于显示由用户输入的信息或提供给用户的信息以及所述终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元140可包括显示面板141，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板141。进一步的，触敏表面131可覆盖显示面板141，当触敏表面131检测到在其上或附近的触摸操作后，传送给处理器180以确定触摸事件的类型，随后处理器180根据触摸事件的类型在显示面板141上提供相应的视觉输出。虽然在图20中，触敏表面131与显示面板141是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面131与显示面板141集成而实现输入和输出功能。

所述终端还可包括至少一种传感器150，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板141的亮度，接近传感器可在所述终端移动到耳边时，关闭显示面板141和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于所述终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路160、扬声器161，传声器162可提供用户与所述终端之间的音频接口。音频电路160可将接收到的音频数据转换后的电信号，传输到扬声器161，由扬声器161转换为声音信号输出；另一方面，传声器162将收集的声音信号转换为电信号，由音频电路160接收后转换为音频数据，再将音频数据输出处理器180处理后，经RF电路110以发送给比如另一终端，或者将音频数据输出至存储器120以便进一步处理。音频电路160还可能包括耳塞插孔，以提供外设耳机与所述终端的通信。

WiFi属于短距离无线传输技术，所述终端通过WiFi模块170可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图20示出了WiFi模块170，但是可以理解的是，其并不属于所述终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器180是所述终端的控制中心，利用各种接口和线路连接整个终端的各个部分，通过运行或执行存储在存储器120内的软件程序和/或模块，以及调用存储在存储器120内的数据，执行所述终端的各种功能和处理数据，从而对终端进行整体监控。可选的，处理器180可包括一个或多个处理核心；优选的，处理器180可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器180中。

所述终端还包括给各个部件供电的电源190(比如电池)，优选的，电源可以通过电源管理系统与处理器180逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源190还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，所述终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端的显示单元是触摸屏显示器，终端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行述一个或者一个以上程序包含用于进行以下操作的指令：

第一步，基于矢量字体和目标文字获取所述目标文字的二值化图像；

第二步，从预设的彩色图片集中获取聚类图片集，根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色；

第三步，根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像；

第四步，对所述彩色图像按照第一预设规则进行仿射变换；

第五步，对经过仿射变换后的彩色图像按照第二预设规则进行透视变换；

第六步，为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像。

进一步地，终端的存储器中，还包含用于执行以下操作的指令：

基于矢量字体和目标文字获取包括所述目标文字的图像；

以黑色为背景色，以白色为前景色渲染所述图像以得到所述目标文字的二值化图像。

进一步地，终端的存储器中，还包含用于执行以下操作的指令：

所述根据所述聚类图片集聚类得到第一目标颜色、第二目标颜色和第三目标颜色包括：

第一步，根据预设的聚类方法对所述聚类图片集中的图片进行聚类以得到聚类结果；

第二步，在所述聚类结果中选取第一目标颜色、第二目标颜色和第三目标颜色。

进一步地，终端的存储器中，还包含用于执行以下操作的指令：

所述根据预设的聚类方法对所述用于进行聚类的图片进行聚类以得到聚类结果包括：

第一步，在所述聚类图片集中选取用于聚类的图片；

第二步，在所述图片中确定目标聚类个数k；

第三步，在所述图片中选取k个颜色作为初始聚类中心；

第五步，计算k个簇中每个簇的聚类中心直至所述k个簇中任意一个簇中的所有像素的颜色到该任意一个簇的聚类中心的距离平方和达到最小值。

进一步地，终端的存储器中，还包含用于执行以下操作的指令：

所述在所述用于进行聚类的图片中选取k个颜色作为初始聚类中心包括：

第一步，利用所述用于进行聚类的图片中的像素的颜色形成k个集群的层次聚类；

第二步，将层次聚类的k个集群的质心作为初始聚类中心。

进一步地，终端的存储器中，还包含用于执行以下操作的指令：

根据所述第一目标颜色、第二目标颜色和第三目标颜色对所述二值化图像进行着色以获取彩色图像包括：

第一步，根据所述第一目标颜色设置所述二值化图像中的文字颜色；

第二步，根据所述第二目标颜色设置所述二值化图像中的背景色；

第三步，根据所述第三目标颜色设置所述二值化图像中的文字边缘颜色。

进一步地，终端的存储器中，还包含用于执行以下操作的指令：

所述对所述彩色图像按照第一预设规则进行仿射变换包括：

第一步，设置旋转角度的变换范围和倾斜角度的变换范围；

第二步，按照预设选取规则选取符合所述旋转角度的变换范围的旋转角度和符合所述倾斜角度的变换范围的倾斜角度；

第三步，根据所述旋转角度和所述倾斜角度获取仿射变换矩阵；

第四步，根据所述仿射变换矩阵对所述彩色图像进行仿射变换。

进一步地，终端的存储器中，还包含用于执行以下操作的指令：

所述为经过透视变换后的彩色图像加入噪声以得到所述目标文字的目标图像包括：

第一步，对经过透视变换后的彩色图像按照第三预设规则加入噪声；

第二步，根据加入噪声后的图像与加入噪声前的图像相减得到差值图像；

第三步，根据所述加入噪声后的图像和所述差值图像得到目标图像。

本发明实施例提供的终端，本发明可以通过采用颜色聚类算法随机产生多个背景色和文字颜色，从而弥补了现有技术中只是将二值化的文字图像与预设的颜色进行简单的混合造成的颜色单一和多样性差的不足。通过对图像进行的仿射变换、透射变换以及高斯变换等处理，为图像添加了自然环境中拍摄到的文字图像所特有的效果，使得处理后的图像更为逼真。本发明能够产生大数据量且逼真度高的文字图像，从而缓解深度学习引擎训练样本不足的现状，使得训练出来的深度学习引擎有更好的泛化能力。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李辉
技术所有人：腾讯科技（上海）有限公司
我是此专利的发明人

上一篇：一种液压动力源机构的制作方法与工艺
上一篇：一种纺织机械缓冲减震底座的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。