一种基于改进B-CNN的银行票据图像分类方法与流程

文档序号:18827144发布日期:2019-10-09 02:03阅读:298来源:国知局
一种基于改进B-CNN的银行票据图像分类方法与流程

本发明属于图像处理技术领域,具体涉及一种基于改进b-cnn的银行票据图像分类方法。



背景技术:

随着信息化社会的大发展,票据处理领域的数字化程度越来越高,纸质形式票据已经转换为图像形式进行存储和处理。票据图像分类是票据处理过程中的重要环节,传统的分类方式采用人工处理,需消耗大量的人力资源且效率低下。同时因人工的介入导致分类过程容易出现差错,从而带来巨大的经济损失。面对上述票据分类的一系列问题,使用计算机完成票据图像的自动分类是有效的解决方式。

目前票据图像的自动分类主要通过提取人工设计的票据特征完成分类,其中包括票据特殊信息特征,框线特征,版面结构特征等。票据特殊信息特征主要包括颜色,文字和图案等信息。对于颜色信息首先确定采用的颜色空间,然后将票据图像转换到对应的颜色空间中,再定义不同类型的颜色,最后对待分类票据图像的颜色进行快速查找完成分类。对于文字信息首先精确定位出重要内容信息所在区域,然后完成字符分割,再通过ocr(opticalcharacterrecognition,光学字符识别)识别标题的文字或票据类别对应的数字编号完成分类。对于图案信息首先定位出票据标题的图像区域,之后采用图像匹配算法计算标题图像与模板图像的匹配度,根据匹配度完成分类。票据框线特征包括框线的位置,长度以及类别信息,首先建立关于票据框线的标准模板库,然后使用框线检测算法对待分类票据图像中的框线进行准确提取,之后与模板库中的模板框线进行匹配,最后通过定义相似度匹配模型计算票据框线与匹配相似度完成票据分类。票据版面结构特征主要利用不同票据种类的不同几何和拓扑结构,其中主要使用票据版面的表格结构。将表格线段的交点作为特征,采用图形或树形结构等全局逻辑结构表示图像的版面结构,最后与预定义的模板库进行逻辑结构的比对完成分类。

由殷绪成、江世盛、韩智等人提出的一种层次型金融票据图像分类方法,使用二叉树决策实现票据分类。首先将票据种类在模板库中定义,记录各种票据的版面结构,标题字符和颜色信息;再对图像进行层次型二值化处理,二值化均采用全局二值化方法,当一种二值化图像未能分类成功则采用另一种二值化方法的图像重新进行分类,直至分类成功且达到较高的分类分数。分类处理也为层次型,由三个层次的分类判断器组成:首先进行基于票据版面属性的松弛匹配,通过度量待分类图像和目标信息库中的水平线和垂直线之间的相似度得到分类数值;再进行基于票据标题的ocr识别判断,先定位一个或多个标题字符区域,对每一个标题与所提供的多个模板进行对比计算,综合所有区域的匹配识别结果得到分类分数;最后利用票据颜色信息进行颜色判定,将色彩空间转换到hsi空间,定义五种类型的颜色,将待分类图像分类为颜色一致的模板;最后线性加权版面结构分类和标题ocr识别结果的分类数值,完成最终的票据分类。该方法能够完成大部分票据种类的分类,但对于版面相似度较高的票据分类准确率不高,而且标题字符区域的定位需由用户完成,增加了分类的成本和风险;另外且对于不同的字体,在分类过程中需进行多次模板匹配,分类效率较低;最后的颜色判定容易受到扫描硬件和扫描方式的影响,造成较大的色彩差异从而导致误识。

中国专利公开号cn106096667公开了一种基于svm(supportvectormachine,支持向量机)的票据图像分类方法,该方法首先使用样本训练性能优化的svm分类器,并制作公章模板库。通过直线检测判断输入图像是否需要进行识别,再提取公章轮廓与目标进行匹配;匹配成功后提取公章轮廓的hog(histogramoforientedgradient,方向梯度直方图)特征输入svm分类器中得到分类结果。该方法主要利用票据图像中的公章信息进行分类,而在实际应用中,同种票据的样例部分存在公章、部分不存在公章,该方法对于这种情况无法进行分类,适用的对象具有局限性。

中国专利公开号cn108764302公开了一种基于颜色特征和词袋特征的票据图像分类方法。该方法先对所有的训练样本提取sift(scale-invariantfeaturetransform,尺度不变特征变换)特征点并生成128维特征描述符,并进行k均值聚类得到若干个视觉单词组成视觉词典。再对每一种票据统计视觉单词直方图并使用出现次数最多的若干个视觉单词作为该类的特征。最后融入颜色特征作为最终的特征表示输入svm分类器中训练,得到票据分类模型。该方法对整张图像提取特征点,对图像质量要求较高,容易受到噪声和票据图像中填充信息(如用户名、金额等)的干扰。由于在最后融入颜色特征,图像扫描过程中颜色的差异对分类结果也有较大影响。

综上所述,现有票据图像的自动分类方法存以下问题:票据版面相似度极高导致分类准确率不高;票据图像容易受扫描硬件、扫描方式、图像质量、字体、填充信息等无效信息的干扰,导致分类效率和分类准确率均较低;现有票据图像分类方法适用的对象具有局限性。



技术实现要素:

为了解决现有技术中存在的上述问题,本发明提供了一种基于改进b-cnn的银行票据图像分类方法。本发明要解决的技术问题通过以下技术方案实现:

本发明实施例提供了一种基于改进b-cnn的银行票据图像分类方法,包括步骤:

提取票据图像中所有信息区域的位置信息;

根据所述位置信息对所述票据图像进行截取得到若干目标图像块;

将若干所述目标图像块依次输入改进b-cnn模型进行特征提取、特征交叉融合和特征外积运算以实现对所述票据图像的分类。

在本发明的一个实施例中,提取票据图像中所有信息区域的位置信息,包括:

对所述票据图像进行灰度转换、二值化、去噪、倾斜校正和框线去除后得到目标图像;

对所述目标图像进行粗划分和细划分得到所述票据图像中所有信息区域的位置信息。

在本发明的一个实施例中,对所述票据图像进行灰度转换、二值化、去噪、倾斜校正和框线去除后得到目标图像,包括:

计算所述票据图像中每个像素点的r分量、g分量、b分量的加权平均值,将所述加权平均值作为所述像素点的灰度值得到灰度图像;

在所述灰度图像中选取前景像素和背景像素,根据所述前景像素和所述背景像素的类间方差的值对所述灰度图像进行二值化处理得到黑白图像;

在所述黑白图像中选取若干去噪模板,利用中值滤波法获取每个所述去噪模板的中心像素点的灰度值得到去噪图像;

在所述去噪图像中随机选取像素点进行hough变换,并根据所述变换结果获取目标直线与所述目标直线对应的图像坐标轴之间的图像倾斜角,根据所述图像倾斜角对所述去噪图像进行旋转得到校正图像;

使用形态学法对所述校正图像中的水平线和垂直线进行检测,并根据检测结果去除所述水平线和垂直线得到所述目标图像。

在本发明的一个实施例中,对所述目标图像进行粗划分和细划分得到所述票据图像中所有信息区域的位置信息,包括:

对每个所述目标图像进行投影分析得到自适应阈值,根据所述自适应阈值对所述目标图像进行粗划分得到若干粗划分信息区域;

对每个所述粗划分信息区域进行连通域分析得到若干细划分信息区域,其中,所述细划分信息区域包含所述位置信息。

在本发明的一个实施例中,将所述票据图像转换为灰度图像之前,包括:

对若干所述票据图像进行数据增强得到若干增强票据图像。

在本发明的一个实施例中,将所述票据图像转换为灰度图像之前,还包括:

将若干所述票据图像按预设比例划分为训练集和测试集。

在本发明的一个实施例中,根据所述位置信息对所述票据图像进行截取得到若干目标图像块,包括:

根据所述位置信息对所述票据图像进行截取得到若干中间图像块;

对若干所述中间图像块进行归一化处理得到若干尺寸统一的所述目标图像块。

在本发明的一个实施例中,将若干所述目标图像块依次输入改进b-cnn模型进行特征提取、特征交叉融合和特征外积运算以实现对所述票据图像的分类,包括:

将若干所述目标图像块依次输入改进b-cnn模型进行特征提取、特征交叉融合和特征外积运算后得到每个所述目标图像块对应的第一双线性特征矩阵;

对所述第一双线性特征矩阵进行均值池化得到第二双线性特征矩阵;

根据所述第二双线性特征矩阵实现对若干所述票据图像的分类。

在本发明的一个实施例中,将若干所述目标图像块依次输入改进b-cnn模型进行特征提取、特征交叉融合和特征外积运算后得到每个所述目标图像块对应的第一双线性特征矩阵,包括:

将若干所述目标图像块依次输入所述改进b-cnn模型的共用部分以提取每个所述目标图像块的中间卷积特征;

将所述中间卷积特征分为两部分,一部分进入第一分支以提取第一三维卷积特征矩阵,另一部分进入第二分支以提取第二三维卷积特征矩阵,其中,在提取过程中将所述第一分支的中间输出特征融合到第二分支中,将所述第二分支的中间输出特征融合到所述第一分支中;

对所述第一三维卷积特征矩阵进行降维得到第一一维特征向量,对所述第二三维卷积特征矩阵进行降维得到第二一维特征向量;

对所述第一一维特征向量和所述第二一维特征向量进行pca降维、转置和外积运算后得到第一双线性特征矩阵。

在本发明的一个实施例中,对所述第一双线性特征矩阵进行均值池化得到第二双线性特征矩阵,包括:

根据所述第一双线性特征矩阵计算每个所述目标图像块的特征响应值,根据所述特征响应值保留若干所述目标图像块对应的所述第一双线性特征矩阵,并对保留的所述第一双线性特征矩阵进行均值池化得到第二双线性特征矩阵。

与现有技术相比,本发明的有益效果:

1、本发明的票据图像分类方法将票据图像仅使用票据图像的信息区域,过滤掉大量的背景区域,降低了无效信息的干扰,提高了分类的准确率;并且减少了改进b-cnn模型的输入量,提高了分类的效率。

2、本发明的票据图像分类方法采用改进b-cnn模型可以实现细粒度图像的分类,能够提取更具判别力的卷积特征,能够实现对高相似度的不同种类的票据图像进行分类并且保证较高的分类准确率。

3、本发明票据图像分类方法中将第一分支与第二分支的中间输出特征进行交叉融合,实现两个分支的信息交互,提高输出特征的表达力,加快模型的训练,提高分类效率。

4、本发明票据图像分类方法中采用外积运算的形式将第一分支与第二分支的特征进行融合,对于判别力强的位置区域能够放大特征的作用,同时减弱无关位置区域特征的影响,能够更好地捕捉票据类别差异的关键特征,实现高相似度不同种类票据图像的分类并且达到较高的分类准确率。

5、本发明的票据图像分类方法适用的银行票据范围广,适用对象局限性较小。

以下将结合附图及实施例对本发明做进一步详细说明。

附图说明

图1为本发明实施例提供的一种基于改进b-cnn的银行票据图像分类方法的流程示意图;

图2为本发明实施例提供的一种票据信息提取的实现方法的流程示意图;

图3为本发明实施例提供的一种基于改进b-cnn模型分类方法的流程示意图;

图4为本发明实施例提供的一种第一分支与第二分支进行特征融合的流程示意图。

具体实施方式

下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。

实施例一

请参见图1,图1为本发明实施例提供的一种基于改进b-cnn的银行票据图像分类方法的流程示意图。该银行票据图像分类方法包括:

s1、提取票据图像中所有信息区域的位置信息;

首先,从每张银行票据获取若干张票据图像。对每张票据图像,获取得到的信息区域包括票据图像的文字、图案或版面结构等信息区域,信息区域对应的位置信息可以为信息区域在票据图像上的坐标等,保存这些信息区域的位置信息。以文字信息为例,经过提取得到多个文字信息区域及其对应的坐标,保存这些文字信息区域对应的坐标。

需要说明的是,本发明实施例中的信息区域不包含票据图像的颜色特征、框线特征、字体等背景信息。本发明实施例仅使用票据图像的信息区域,过滤掉大量的背景区域,降低了无效信息的干扰,提高了分类的准确率;并且减少了改进b-cnn模型的输入量,提高了分类的效率。

s2、根据所有信息区域对应的位置信息对票据图像进行截取得到若干目标图像块。

以文字信息为例,当获得文字信息区域的坐标后,根据坐标将原票据图像进行截取,得到若干目标图像块,每个目标图像块代表目标票据图像的一个文字信息区域。

s3、将若干目标图像块依次输入改进b-cnn(bilinearcnn,双线性卷积神经网络)模型进行特征提取、特征交叉融合和特征外积运算以实现对票据图像的分类。

承上述实施例,对每个目标图像块,改进b-cnn模型提取该目标图像块中文字信息的特征,在提取过程中,双线性的改进b-cnn模型将其两条分支的特征进行交叉融合、外积运算后再进行均值池化,然后根据均值池化的特征实现对票据图像分类。

本发明实施例采用改进b-cnn模型可以实现细粒度图像的分类,能够提取更具判别力的卷积特征,能够实现对高相似度的不同种类的票据图像进行分类并且保证较高的分类准确率。同时该票据图像分类方法对票据图像的票据特征要求较低,仅使用票据的信息区域,排出票据的背景区域,适用的银行票据范围广,适用对象局限性较小。

实施例二

请参见图2,图2为本发明实施例提供的一种票据信息提取的实现方法的流程示意图。在实施例一的基础上,图2中的实现方法包括步骤:

s1、从若干票据图像中提取所有信息区域的位置信息。

s11、对若干票据图像进行数据增强得到若干增强票据图像;

根据票据图像数据集的大小判断是否进行数据增强,若票据图像数据集中的图像少于一千张则进行数据增强,若票据图像中集中的数据量足够则不需进行数据增强。

对于每张票据图像数据,随机选取一种数据增强操作进行数据增强,将增强得到的票据图像与原票据图像进行组合一组增强票据图像,若干组增强票据图像组合成一个新样本,新样本中的增强票据数据总量增加为原票据图像数据的两倍。

数据增强的基本操作包括:

图像翻转:对票据图像进行左右翻转、上下翻转、沿对角线翻转。

图像色彩调整:对票据图像的亮度、对比度、饱和度和色相进行随机调整。

图像颜色抖动:随机改变图像中每个像素的rgb分量值。

s12、将若干增强票据图像按预设比例划分为训练集和测试集。

对若干增强票据图像进行划分,针对同一类的票据图像按照预设比例划分为训练集和测试集,并将训练集和测试集按照各自类别进行存放。

s13、对票据图像进行灰度转换、二值化、去噪处理、倾斜校正和框线去除处理后得到目标图像。

s131、将增强票据图像进行灰度化,转换为灰度图像。

将增强票据图像灰度化是指将彩色的票据图像转换为灰度图像。转换的方法为:提取每张增强票据图像中每个像素点的r分量、g分量、b分量的值,对r分量赋予0.3的权重、g分量赋予0.59的权重、b分量赋予0.11的权重,计算中r分量、g分量、b分量的加权平均值,将得到的加权平均值作为该像素点的灰度值。对所有像素点均进行此操作,完成灰度化,得到灰度图像。

s132、对灰度图像进行二值化,将灰度图像转换为黑白图像。

将灰度图像转换为黑白图像的思路为:统计灰度图像的灰度分布直方图,记录灰度值的最大值和最小值。遍历灰度值的最小值和最大值之间的每个灰度值,将所取的灰度值作为阈值将图像的像素点划分为前景像素和背景像素。再计算前景像素和背景像素的类间方差,完成所有灰度值的类间方差计算后,取类间方差的最大值对应的灰度值为二值化阈值。最后根据阈值将像素点的灰度值划分为0或255,得到黑白图像。

具体包括以下步骤:

(1)统计灰度图像的灰度直方图,同时记录灰度值的最大值tmax和最小值tmin;

(2)归一化直方图,将每个灰度级中像素点数量除以总像素点数量;

(3)取tmin到tmax之间的灰度级为阈值t,记最大类间方差为dmax,二值化阈值为t;

(4)通过归一化的直方图,统计tmin到t灰度级的像素所占图像像素的比例ω0及灰度均值μ0,统计t到tmax灰度级的像素所占图像像素的比例ω1及灰度均值μ1;

(5)计算类间方差d=(μ0-μ1)2ω0ω1;

(6)判断d是否大于dmax,若是则将dmax的值设为d,t设为t;

(7)将阈值t加一,判断t是否大于tmax,若是则进入下一步骤,否则进入步骤(4);

(8)将t作为阈值,若像素点灰度值大于或等于t,则将该像素点灰度值用255表示,若像素点灰度值小于t,则将该像素点灰度值用0表示,从而完成图像二值化,得到黑白图像。

s133、对黑白图像进行去噪,得到去噪图像。

去噪的目的是去除黑白图像中的椒盐噪声点。去噪的方法为:遍历黑白图像中除边缘像素以外的所有像素点,以像素点为中心选取预设大小的去噪模板,获取去噪模板中其他几个位置像素点的灰度值,取所有灰度值的中值作为该像素点的灰度值完成去噪。本实施例中,去噪模板的预设大小为3×3,将3×3去噪模板中其他8个像素点的灰度值的中值作为该像素点的灰度值,此时边缘像素是指黑白图像中最外围的一圈像素点。进一步地,去噪模板的大小也可以为4×4、5×5等,本发明实施例不限于此。

s134、对去噪图像进行倾斜校正,得到校正图像。

倾斜校正的思路为:遍历去噪图像中的所有像素点,每个像素点进行随机概率选择,选中的像素点进行hough变换。hough变换后统计投票数,在统投票数时将统计的角度范围限制在[-10°,10°]之间。在统计结果中选择投票数最大的四组值,这四组值对应于四条目标直线,并根据每组值中的角度计算与目标直线相应坐标轴之间的相对角度,再计算四个相对角度的均值作为图像倾斜角。根据检测得到的图像倾斜角的正负对去噪图像进行顺时针或逆时针旋转,得到校正图像。

具体包括以下步骤:

(1)在参数空间中建立一个二维数组a(ρ,θ),其中ρ为二维数组的极径,θ为二维数组的角度,ρ和θ均为整数;

(2)对坐标空间中的黑色像素点采用随机算法进行选择,选中的像素点进行hough变换;

(3)将θ的范围设为[-10°,10°],统计变换结果每个θ值对应的ρ,在二维数组上进行累加,统计投票数,其中,投票数是指每个θ值对应ρ的个数;

(4)取统计值最大的四组(ρ,θ),四组(ρ,θ)对应于四条目标直线,根据θ的值计算与目标直线相应的图像坐标轴之间的相对角度,计算四个相对角度的均值作为去噪图像的图像倾斜角;

(5)根据图像倾斜角计算去噪图像四个角点的旋转坐标,根据四个角点的原坐标和旋转坐标对去噪图像进行扩大;

(6)以去噪图像中心为原点,将去噪图像的所有像素点旋转θ角度;

(7)根据四个角点的旋转坐标对去噪图像进行裁剪,获得校正图像。

s135、检测并去除校正图像中的框线,得到目标图像。

框线是指校正图像中的水平线和垂直线,去除框线的方法为:使用形态学法对校正图像中的水平线和垂直线进行检测,然后根据检测结果去除水平线和垂直线,从而得到目标图像。

具体操作为:首先设定水平线结构元素se={1,1,...,1}和垂直线结构元素set,在校正图像中按照相同的提取方法分别提取水平线像素和垂直线像素。然后对校正图像进行腐蚀运算消除结构边缘点,保留结构主体;再对校正图像进行膨胀运算,填充结构空白。接着,使用水平线结构元素se={1,1,...,1}和垂直线结构元素set对进行腐蚀运算和膨胀运算后的图像进行探测,保留包含结构元素的像素区域。之后再次进行图像膨胀运算,连接断裂的直线像素,并标记在进行膨胀运算过程中保留的所有像素点。最后去除所有标记的像素点,将校正图像的框线去除,得到目标图像。

s14、对目标图像进行版面分析得到所有信息区域的位置信息。

版面分析是指对目标图像进行粗划分和细划分。

s141、对每个目标图像进行投影分析得到自适应阈值,根据自适应阈值对目标图像进行粗划分得到若干粗划分信息区域。

粗划分的操作具体为:(1)对目标图像进行水平方向和垂直方向的投影,得到投影分布信息;(2)统计投影方向即水平和垂直方向上的黑色像素点分布,计算连续无像素点分布的间隙值均值,使用该间隙值均值的0.75倍作为自适应阈值对目标图像进行粗划分,得到粗划分信息区域。

s142、对每个粗划分信息区域进行连通域分析得到若干细划分信息区域,其中,细划分信息区域包含该区域的位置信息。

连通域分析的方法为:从像素级开始进行连通域搜索,再根据合并规则对相邻的连通域进行合并,直到所有连通域均无法再进行合并,从而完成票据版面的细划分,得到若干细划分信息区域。

具体的,对于每个粗划分信息区域进行连通域分析的操作步骤为:

(1)搜索粗划分信息区域,将起始连通域标记为s,创建一个扩展表open,把s放于该扩展表中;

(2)创建一个已扩展表closed,初始为空;

(3)判断open表是否为空,是则转向步骤(7);

(4)在open表中选取第一个连通域,将该连通域从open表中移出,放入表closed中,并将该连通域记为n;

(5)搜索连通域n的邻域连通域。若没有搜索到,则转向步骤(3);

(6)将连通域n的全部邻域连通域置于表open的末端,接着转至步骤(4);

(7)合并表closed中的连通域,设ri=(x11,y11,x12,y12),rj=(x21,y21,x22,y22),当区域ri与rj满足如下四条规则中任意一条时,将区域ri与rj进行合并;

规则一:x11<x21<x12<x22或y11<y21<y12<y22或x21<x11<x22<x12或y21<y11<y22<y12,即连通域ri与rj有重叠部分;

规则二:x11<x21<x22<x12且y11<y21<y22<y12,即连通域rj包含于ri中;

规则三:x11<x21<x22<x12且y11<y21<y22<y12,即连通域ri包含于rj中;

规则四:即连通域ri与rj位置相近。

(8)经上面的步骤进行每个粗划分信息区域的细切分,完成图像的版面分析,得到若干细划分信息区域,每个细划分信息区域均包含其位置信息。

(9)保留所有细划分信息区域的位置信息和大小信息等,完成票据信息提取。

s15、根据位置信息对票据图像进行截取得到若干目标图像块。

s151、根据细划分信息区域的位置信息对每个相应的票据图像进行截取得到若干目标图像块。

s152、根据细划分信息区域的位置信息对若干票据图像进行相应图像块截取,得到若干中间图像块组成一个集合。

需要说明的是,若对原始票据图像进行数据增强,则进行截取的票据图像是指增强票据图像;若原始票据图像未进行数据增强,则进行截取的票据图像是指原始票据图像。

s182、对得到的若干中间图像块进行归一化处理若干尺寸统一的目标图像块。

具体地,将若干中间图像块调整为统一的尺寸,并按图像块与整幅票据图像的比例筛选掉过小的中间图像块,得到若干目标图像块,若干目标图像块的尺寸相同。

本实施例中对票据图像进行灰度转化、二值化、去噪处理、倾斜校正和框线去除后,将原票据图像中的颜色、椒盐点、框线、线段倾斜度去除掉,过滤掉大量的背景区域,降低了无效信息的干扰,提高了分类的准确率;仅使用信息区域,降低了票据图像分类的数据量,减少了模型输入量,提高了分类效率。

实施例三

请参见图3,图3为本发明实施例提供的一种基于改进b-cnn模型分类的流程示意图。该改进b-cnn模型包括相互连接的共用部分c(vgg-d+vgg-e)、第一分支vgg-d、第二分支vgg-e、第一全局平均池化层、第二全局平均池化层、第一pca(principalcomponentanalysis,主成分分析)降维层、第二pca降维层、双线性层、双线性池化层、全连接层和softmax层,对目标图像块的处理分类在这些层中进行。

在实施例二的基础上,结合图3中的改进b-cnn模型的分类方法对其流程进行进一步阐述。

s2、将若干目标图像块依次输入改进b-cnn模型进行特征提取、特征交叉融合和特征外积运算以实现对票据图像的分类。

若干目标图像块包括两部分:一部分为训练集中的目标图像块,另一部分为测试集中的目标图像块。

在使用改进b-cnn模型对票据图像进行分类之前,首先需要利用训练集中的若干目标图像块对改进b-cnn模型进行训练,然后利用测试集中的若干目标图像块测试改进b-cnn模型的分类精度,当分类精度达标后,获得分类用的改进b-cnn模型。

本实施例中,对改进b-cnn模型进行训练、测试和利用分类用改进b-cnn模型对票据图像进行分类的方法是相同的。

以利用训练集中的若干目标图像块对改进b-cnn模型进行训练为例,说明使用改进b-cnn模型实现票据图像分类的具体实施步骤。

s21、将若干目标图像块依次输入改进b-cnn模型的共用部分c以提取每个目标图像块的多个中间卷积特征。

s22、将提取得到的中间卷积特征分为两部分向前传播,一部分进入第一分支vgg-d,另一部分进入第二分支vgg-e。

在向前传播过程中,将第一分支vgg-d与第二分支vgg-e的中间输出特征与另一个分支进行特征交叉融合。也就是说,将第一分支vgg-d的中间输出特征融合到第二分支vgg-e中,将第二分支vgg-e中的中间输出特征融合到第一分支vgg-d中。

其中,两个分支的中间输出特征可以为两个分支的前两个最大池化层的输出特征,请参见图4,图4为本发明实施例提供的一种第一分支与第二分支进行特征融合的流程示意图,其中,conv3-64代表第三层卷积后深度变为64,以此类推。图4中,若干目标块经过共用部分c后输出多个深度为256的中间卷积特征,然后多个中间卷积特征分为两部分进入第一分支vgg-d和第二分支vgg-e。然后,第一最大池化层输出的深度为256的特征融合到第二最大池化层的输出特征中,第二最大池化层输出的深度为256的特征融合到第一最大池化层的输出特征中,第三最大池化层输出的深度为512的特征融合到第四最大池化层输出的特征中,第四最大池化层输出的深度为512的特征融合到第三最大池化层的输出特征中。

第一分支vgg-d提取并输出第一三维卷积特征矩阵fa,第二分支vgg-e提取并输出第二三维卷积特征矩阵fb。

s23、对所述第一三维卷积特征矩阵进行降维得到第一一维特征向量,对所述第二三维卷积特征矩阵进行降维得到第二一维特征向量。

第一三维卷积特征矩阵进入第一全局平均池化层进行特征尺寸的降维,得到第一一维特征向量。第二三维卷积特征矩阵进入第二全哭平均池化层进行特征尺寸的降维,得到第二一维特征向量。

具体地,第一三维卷积特征矩阵和第二三维卷积特征矩阵的深度均为512,在进行特征尺寸降维后,第一一维特征向量和第二一维特征向量的长度均为512。

s24、对第一一维特征向量和第二一维特征向量进行降维、转置和外积运算后得到第一双线性特征矩阵。

s241、从第一一维特征向量和第二一维特征向量中任选一个在pca降维层中进行pca降维,得到pca降维后的一维特征向量。

例如:选取第二分支vgg-e的第二一维特征向量进行8倍的pca降维,得到长度为64的一维特征向量。

s242、对第一一维特征向量和第二一维特征向量中未进行pca降维的一维特征向量或者pca降维后的一维特征向量中的任一个进行转置,得到转置的一维特征向量。

也就是说,转置的一维特征向量包括以下情形:若对第一一维特征向量进行pca降维,则转置的一维特征向量为第二一维特征向量的转置向量或者pca降维后的一维特征向量的转置向量;若对第二一维特征向量进行pca降维,则转置的一维特征向量为第一一维特征向量的转置向量或者pca降维后的一维特征向量的转置向量。

承接上述实施例,对第二一维特征向量进行降维后得到长度为64的一维特征向量后,再对长度为512第一一维特征向量或者长度为64的一维特征向量进行转置,得到转置的一维特征向量。

s243、将转置的一维特征向量与未进行转置的一维特征向量在双线性层中进行外积运算,得到第一双线性特征矩阵。

承接上述实施例,若将长度为512第一一维特征向量进行转置,则将转置的一维特征向量与长度为64的一维特征向量进行外积运算,得到64×512维的第一双线性特征矩阵;若将长度为64的一维特征向量进行转置,则将转置的一维特征向量与长度为512的一维特征向量进行外积运算,得到64×512维的第一双线性特征矩阵。

需要说明的是,从共用部分c到双线性层中的传播过程均是针对每个目标图像块进行的,因此,每个图像块经过上述步骤后得到一个第一双线性特征矩阵。

s25、根据第一双线性特征矩阵计算每个目标图像块的特征响应值,根据特征响应值保留若干目标图像块的第一双线性特征矩阵,并对保留的第一双线性特征矩阵进行均值池化得到第二双线性特征矩阵。

具体地,第一双线性特征矩阵进入双线性池化层后,双线性池化层首先将每个双线性特征矩阵中所有的特征值的均值作为对应目标图像的特征响应值;然后保留特征响应值最高的5个目标图像块对应的双线性特征矩阵;再对保留的5个第一双线性特征矩阵进行均值池化进行特征融合,得到一个第二双线性特征矩阵。第一双线性特征矩阵与第二双线性特征矩阵均为64×512维。

s26、根据第二双线性特征矩阵实现对若干所述票据图像的分类。

第二双线性特征矩阵进入全连接层,全连接层根据第二双线性特征矩阵中的特征值实现对若干票据图像的分类。

softmax层根据全连接层的分类结果计算分类损失熵,根据分类损失熵判断模型是否训练好。

当改进b-cnn模型训练好以后,将测试集中的若干目标图像依次输入b-cnn模型进行测试,测试过程请参见步骤s21~s26,在测试得到分类结果后,softmax层则计算每种分类结果的预测概率,并选取预测概率最大的类别作为分类结果。根据预测结果和类别标签计算分类精度,当分类精度达标后,则得到可用来分类的改进b-cnn模型。

对于需要分类的票据图像,在对票据图像经过实施例二的处理得到若干目标图像块之后,将若干目标图像块依次输入已经训练好的、分类用的改进b-cnn模型中即可得到分类结果。

本实施例中将改进b-cnn模型中的第一分支和第二分支的中间输出特征进行交叉融合,实现两个分支的信息交互,能够提取更具判别力的卷积特征,提高了输出特征的表达力,加快了模型的训练,提高了分类效率。同时本实施例中采用外积运算的形式将第一分支与第二分支的特征进行融合,对于判别力强的位置区域能够放大特征的作用,同时减弱无关位置区域特征的影响,能够更好地捕捉票据类别差异的关键特征,实现高相似度不同种类票据图像的分类并且达到较高的分类准确率。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1