一种基于深度学习的手写、印刷文本的分类方法与流程

文档序号:11200219阅读:570来源:国知局
一种基于深度学习的手写、印刷文本的分类方法与流程

本发明属于模式识别与人工智能技术领域,特别涉及一种手写及印刷文本的分类方法。



背景技术:

随着计算机技术的飞速发展,文档分析技术也越来越广泛的应用到纸质文档的存储和检索等日常生活中。数字文档已经由最初的纯文本文档过渡到文本图片混排、手写印刷体混排、多语言的文档混排等等。

在现实生活中,大量的应用到的手写和印刷体混排文档。文档中的手写和印刷体文本都各自发挥着应有的作用,对这些不同类型文本的检测、区分和处理是非常有意义的。特别的,文档中的手写数据往往蕴含着额外的重要信息,因此将手写文本区分出来,也有助于后续更加针对性的数据处理和算法研究。

卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点。它的权值共享网络结构使之更类似于生物神经网络,降低了网络模型的复杂度,减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。卷积神经网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者其他形式的变形具有不变性。

最近十多年来,人工神经网络特别是卷积神经网络的研究工作不断深入,已经取得了很大的进展,其在语音分析、图像识别等领域已成功地解决了许多现代计算机难以解决的实际问题,表现出了良好的智能特性。



技术实现要素:

本发明为了克服现有技术所存在的技术问题,提供一种基于深度学习的手写、印刷文本的分类方法,该分类方法能够有效地学习到区分手写和印刷文本的特征,从而获得更好的分类性能,具体效率高、识别率高的特点。

本发明采用如下技术方案来实现:一种基于深度学习的手写、印刷文本的分类方法,包括以下步骤:(1)数据获取:采集手写、印刷文本图像,以形成训 练集;(2)对训练集图像进行二值化、高度归一化处理;(3)泛化样本:对训练集图像进行切割、加噪处理;(4)构造深度卷积神经网络,利用训练集图像对所构造的深度卷积神经网络进行训练;(5)切割拟分类的文本图片,输入步骤(4)所构造的深度卷积神经网络,根据得到的概率分布,对概率分布求均值,输出分类结果。

优选地,所述步骤(2)包括以下步骤:(2-1)将训练集图像转化为灰度图;(2-2)将灰度图高度归一化为h个像素;(2-3)对高度归一化后的图片进行二值化。

优选地,所述二值化方法为全局均值二值化:以图片像素均值作为阈值,对高度归一化后的图片进行二值化,将大于阈值的像素点赋值为255,将小于阈值的像素点赋值为0。

优选地,所述步骤(3)包括以下步骤:(3-1)按步长s,将二值化图片切割为宽度为w的图片;若图片宽度小于w,则将图片宽度放大到w;(3-2)经过步骤(3-1)处理后,一张二值化图片产生n张大小为w×h的图片,一张切割后的图片进行加噪处理得到m张加噪图片,共n×m张加噪图片,以扩大样本空间,h为灰度图高度归一化后的像素个数。

优选地,所述步骤(4)包含以下步骤:

(4-1)构造深度卷积神经网络:

input(96x32)->50c(7x3)s1->relu->mp2->80c(6x6)s1->relu->mp2->500n->relu->dropout(0.5)->2n->softmax/output(2x1)

其中,input(96x32)表示输入层接受的图片大小为96x32像素;50c(7x3)s1表示对输入图像进行特征提取的卷积层,核大小为7x3,步长为1,输出50个特征图;relu表示对卷积得到的特征进行修正的线性纠正激活层;mp2表示对修正后的特征进行极大值提取的最大池化层,核大小为2x2,步长为2;500n表示对前一层得到的特征按照不同的权重进行学习的全连接层,输出为500维度特征;dropout(0.5)是防止网络对训练样本过度学习导致分类能力下降的随机抑制层,抑制比例为50%;softmax/output(2x1)表示输出层是softmax层,输出的是输 入图片被分类成为手写文本或者印刷文本的概率分布;

(4-2)利用训练集图像训练深度卷积神经网络:

(4-2-1)设定每一次批量训练的图片数目为bs张,将步骤(3-1)和步骤(3-2)中切割后产生的一张图片与经过加噪处理后产生的m张加噪图片,共m+1张图片视为一组预处理样本imgm+1;每次对步骤(4-1)所述深度卷积神经网络进行训练时,从bs组预处理样本中各随机抽取一张,组成一批训练样本imgbs进行批量训练;

(4-2-2)采用随机梯度下降方法对步骤(4-1)所述深度卷积神经网络进行训练,设定初始学习速率为lr0,初始学习速率为神经网络在训练样本空间中寻找最优解的迭代速率;学习参数惩罚系数为λ,学习参数惩罚系数为防止神经网络对训练集样本的过度学习的参数;最大训练迭代次数为itersmax,最大训练迭代次数为神经网络分类精度达到要求阈值时所需进行的学习迭代次数;学习速率更新方式如下:

其中,lr0取值为0.01、0.003或0.005;λ取值为0.01、0.005、0.001;itersmax范围为10000~15000;iter为当前迭代次数;lriter为当前学习速率;γ范围为0.0003到0.0001;stepsize范围为2000到3000。

优选地,所述步骤(5)包含以下步骤:

(5-1)对任意一张拟分类的图片imgtest,采用滑动窗口方式切割,截取出共ntest张w×h大小的图片imgsplit,滑动窗口大小为w×h;

(5-2)将ntest张图像输入步骤(4)中构造的深度卷积神经网路,得到ntest组被分类为手写文本或印刷文本的概率分布;将这ntest组概率分布求均值,以概率均值最大的类别作为最终判定类别输出。

与现有技术相比,本发明具有以下优点和有益效果:

(1)由于采用深度网络结构的文本特征学习算法,所以能够很好的从数据中学习到有效的文本特征表达,提高本发明分类方法的准确率。

(2)与传统文本几何特征相比,能够提取到更多的表观特征,得到更好的文本特征描述,从而获得比传统文本几何特征更好的识别效果。

(3)本发明分类方法识别率高、鲁棒性强、效率高、速度快,能够有效地学习到区分手写和印刷文本的特征,从而获得更好的分类性能。

附图说明

图1为本发明分类方法的流程图;

图2为本发明的预处理流程图;

图3为本发明预处理过程的示例;

图4为本发明的深度卷积神经网络结构图;

图5为本发明的分类识别流程图;

图6为本发明分类识别过程的示例;

具体实施方式

下面结合实施例和附图对本发明做进一步的说明,但本发明的实施方式不限于此。

实施例

本发明手写、印刷文本的分类方法,流程框图如附图1所示,包括下列步骤:

(1)数据获取:采集手写、印刷文本图像,以形成文本图像训练集;

可通过文档拍照、字库生成文本图片(例如:使用timesnewroman字体生成英文印刷文本图片)等方式来获取数据,以形成文本图像训练集,训练集中的印刷文本图片和手写文本图片各占一半。

(2)数据预处理:图像二值化,图像高度归一化;

步骤(2)包含以下步骤:

(2-1)将训练集中的印刷文本图片和手写文本图片均转化为灰度图;

(2-2)将灰度图片高度归一化为32个像素;

(2-3)对高度归一化后的图片进行二值化。优选全局均值二值化:以图片像素均值作为阈值,对图像进行二值化:将大于阈值的像素点赋值为255(即白 色),将小于阈值的像素点赋值为0(即黑色)。

(3)泛化样本:对训练集图像进行切割、加噪处理;

步骤(2)及(3)形成本发明的预处理流程,如图2所示。步骤(3)具体包含以下步骤:

(3-1)按步长24像素,将二值化图片切割为宽度为96像素的图片;若图片宽度小于96像素,则将图片宽度放大到96像素;

(3-2)经过步骤(3-1)处理后,一张二值化图片产生3张大小为96x32的图片;对一张切割后的图片进行加噪处理(旋转处理、线条干扰、噪点干扰、高斯模糊等)得到3张加噪图片,共3x3张加噪图片,如图3所示。

(4)训练网络:构造深度卷积神经网络,进行训练;

步骤(4)包括以下步骤:

(4-1)构造如下深度卷积神经网络(如附图4所示):

input(96x32)->50c(7x3)s1->relu->mp2->80c(6x6)s1->relu->mp2->500n->relu->dropout(0.5)->2n->softmax/output(2x1)

其中,input(96x32)表示输入层接受的图片大小为96x32像素;50c(7x3)s1表示对输入图像进行特征提取的卷积层,核大小为7x3,步长为1,输出50个特征图;relu表示对卷积得到的特征进行修正的线性纠正激活层;mp2表示对修正后的特征进行极大值提取的最大池化层,核大小为2x2,步长为2;500n表示对前一层得到的特征按照不同的权重进行学习的全连接层,输出为500维度特征;dropout(0.5)是防止网络对训练样本过度学习导致分类能力下降的随机抑制层,抑制比例为50%;softmax/output(2x1)表示输出层是softmax层,输出的是输入图片被分类成为手写文本或者印刷文本的概率分布;

(4-2)深度卷积神经网络训练,步骤如下:

(4-2-1)设定每一次批量训练的图片数目为100张,将步骤(3-1)和步骤(3-2)中切割后产生的一张图片与经过加噪处理后产生的m张加噪图片共m+1张图片视为一组预处理样本imgm+1;步骤(4-1)所设计的神经网络每次进行训练时从100组预处理样本中各随机抽取一张,组成一批训练样本imgbs进行批量训练;

(4-2-2)采用随机梯度下降方法对步骤(4-1)所述深度卷积神经网络进行训练,设定初始学习速率为lr0,初始学习速率为神经网络在训练样本空间中寻找最优解的迭代速率;学习参数惩罚系数为λ,学习参数惩罚系数为防止神经网络对训练集样本的过度学习的参数;最大训练迭代次数为itersmax,最大训练迭代次数为神经网络分类精度达到要求阈值时所需进行的学习迭代次数;学习速率更新方式如下:

其中,lr0取值为0.01;λ取值为0.005;itersmax取值为10000;iter为当前迭代次数;lriter为当前学习速率;γ取值为0.0001;stepsize取值为2500。

(5)切割拟分类的文本图片,输入步骤(4)所设计的深度卷积神经网络,根据得到的概率分布,对概率分布求均值,输出分类结果。

步骤(5)包括以下步骤(如图5、6所示):

(5-1)对一张拟分类图片,采用滑动窗口方式进行切割,截取出共4张96x32大小的图片(窗口大小为96x32,步长为24);

(5-2)将4张图像输入步骤(4-1)设计的深度卷积神经网路,得到4组被分类为手写文本或印刷文本的概率分布;对这4组概率分布求均值,以概率均值最大的类别作为最终判定类别输出。

在图6所示的例子中,拟分类的文本图片为一张手写文本图片,采用滑动窗口方式切割后,得到4张图片;将4张切割后的图片输入本发明所设计的深度卷积神经网络,对4张图片的卷积结果分别计算印刷文本概率和手写文本概率,求取概率分布的均值,手写文本概率的均值最大,输出分类结果为手写文本图片。

本发明的实施方式并不受上述实施例的限制,其他任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1