本发明涉及图像识别,特别是涉及一种烟草样品瓶标签的光学字符识别方法。
背景技术:
1、信息技术的迅猛发展为传统生产企业提供了新的发展机遇,烟草的检测流程与工业互联网相结合,融入自动化数据采集。目前对烟草的检测流程的数据存取还依赖人工输入输出,各个设备在汇总信息制表时需要手动输入样品编号等标签标注的信息和检测数据。人工对检测数据的输入输出效率较低,人工参与的环节越多,整体检测时间越长,并且通过人工的采集信息的成本也高。
2、目前的烟草样品瓶标签的光学字符识别方法多基于深度学习模型构建多层视觉感知机,采用resnet、densenet、inception以及基于此改进的神经网络结构取得了不错的效果。同时也存在一些问题:图片识别、鉴定的准确度不高,例如,未能准确识别年幼宝宝相册、视频中的不合规的内容;另一方面,由于晒的图片涉及的场景很复杂,现有的ocr(optical character recognition,光学字符识别)算法所构建的文字识别的模型对于社区图片上所呈现的文字识别效果较弱。
技术实现思路
1、本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种烟草样品瓶标签的光学字符识别方法。
2、为了实现本发明的上述目的,本发明提供了一种烟草样品瓶标签的光学字符识别方法,包括以下步骤:
3、s1,采用ctpn网络对采集的图像进行识别得到多个文本建议框,以及确定各文本建议框的连接情况;然后由文本连接算法对文本建议框合并,构成目标区域;
4、s2,将目标区域输入crnn模型进行解码,得到的文本序列即是最终的识别出的文本信息。
5、进一步地,在步骤s1中对得到的文本建议框进行角度补偿,包括以下步骤:
6、s1-1,通过最小二乘法对相邻文本建议框的中心点进行拟合操作,得到与各文本建议框中心点欧几里得距离之和最小的直线为中心线,然后通过公式(2)(3)求得中心线的截距和斜率;
7、
8、
9、其中k表示截距;
10、m为需合并文本建议框的个数;
11、yi表示第i个文本建议框的y坐标;
12、xi表示第i个文本建议框的x坐标;
13、表示文本建议框x坐标的均值;
14、b表示斜率;
15、s1-2,对文本建议框进行角度补偿:
16、首先要使用文本建议框合并后生成的文本框的左上和右下的x坐标,使用这两个x坐标在带入上下两条斜线,求得四个交点,获得的四个点构成一个平行四边形;
17、根据中心线的截距bc结合相邻文本建议框平均高度h来求出上下两条直线的截距b1,b2,其中b1为bc加平均高度的一半,b2为减掉平均高度的一半;
18、随后使用中心线的斜率kc即上下两条线的斜率,即可得到上下边界的两条直线,将x1,x2代入上下边界直线即可得出y1,y2,y3,y4;
19、
20、
21、
22、其中hi表示第i个文本建议框的高度。
23、由于ctpn建议框组合时以竖直方向上的重合度为门限值,只有达到门限值才会视为同一连接,这导致倾斜文本容易被识别为不同连接,造成错误识别或重复识别。由于实际拍摄中存在的文本倾斜问题,对倾斜文本的识别需要对文本建议框进行角度补偿,通过添加倾斜矫正,将计算竖直方向重合度的门限值适当调低,可使其能够适应具有一定倾角的文本,能将竖直方向差距很大的文本建议框进行连接。
24、本文中的锚框为初始生成框,锚框经过回归操作得到文本建议框,文本建议框合并后简称为文本框。锚框约等于文本建议框,文本建议框合并得到文本框。
25、进一步地,还包括:
26、s1-3,将平行四边形补全为矩形:以三角形竖直的边为dy为底,高为dx,补全后右上点的坐标为(x4+dx,y2+dy);补全后左下点的坐标为(x1-dx,y3-dy)。补全三角形以dx为界划分为上下三角形,根据相似三角形定理可求出补全三角形直角处坐标。
27、进一步地,所述ctpn网络的损失函数为:
28、
29、其中,ns表示分类任务的样本数量;
30、i表示分类任务第i个锚框;
31、表示分类损失;
32、si为前后景分类预测结果;
33、为前后景分类真实结果;
34、λ1、λ2为超参数,平衡各任务的损失;
35、nv表示回归任务的样本数量;
36、j表示坐标回归任务中第j个有效锚框;
37、表示建议框坐标回归损失;
38、vj为建议框坐标偏移;
39、为真实建议框坐标;
40、no表示边界回归任务的样本数量;
41、k表示边界回归任务中第k个锚框;
42、表示边界回归损失;
43、ok为边界校准结果;
44、为真实边界。
45、进一步地,在步骤s2之前,对ctpn输出的目标区域图像高度进行调整,令目标区域图像高度与crnn的输入图片高度相一致。
46、进一步地,所述crnn模型包括:卷积层、循环层和转录层,
47、所述卷积层为8层卷积结构,并以每两个卷积层为一组,每组卷积层之间接一个池化层;且卷积层后面均添加有批标准化层和激活函数。
48、在特征提取层每一次卷积操作之后,添加批标准化层使数据归一化,有助于加速模型收敛。并且,由于字符通常不会过长,因此由字符的每部分提取出的特征向量中,其感受野的特征的表达不会出现较大偏差,使归一化操作不会严重影响预测能力,使得深层双向lstm的抽象能力得以很好表达。
49、此外,将卷积操作、归一化操作和激活操作组合,通过堆叠组合来达到很好的提取特征向量的目的。
50、进一步地,所述crnn模型还包括:通过构筑残差块,来保证经过了多层的卷积操作后,每一层的数据信息能够比上一层的更加丰富,使序列信息特征保存更加完整:
51、y=h(x)+f(x,w) (8)
52、其中h(x)是直接映射,通过卷积对特征信息进行提取,并输出的特征信息大小和残差块的保持一致;
53、f(x,w)是残差部分,是经过残差块的直接输出。
54、最后将直接映射和残差部分的加和经过激活操作后,输出到下一层网络中。
55、综上所述,由于采用了上述技术方案,本发明能够对样本信息进行提取并自动录入,减少人工的操作量,提高检测效率。
56、本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
1.一种烟草样品瓶标签的光学字符识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种烟草样品瓶标签的光学字符识别方法,其特征在于,在步骤s1中对得到的文本建议框进行角度补偿,包括以下步骤:
3.根据权利要求2所述的一种烟草样品瓶标签的光学字符识别方法,其特征在于,还包括:
4.根据权利要求1所述的一种烟草样品瓶标签的光学字符识别方法,其特征在于,所述ctpn网络的损失函数为:
5.根据权利要求1所述的一种烟草样品瓶标签的光学字符识别方法,其特征在于,还包括:在步骤s2之前,对ctpn输出的目标区域图像高度进行调整,令目标区域图像高度与crnn的输入图片高度相一致。
6.根据权利要求1所述的一种烟草样品瓶标签的光学字符识别方法,其特征在于,所述crnn模型包括:卷积层、循环层和转录层,
7.根据权利要求1所述的一种烟草样品瓶标签的光学字符识别方法,其特征在于,所述crnn模型还包括:通过构筑残差块,来保证经过了多层的卷积操作后,每一层的数据信息能够比上一层的更加丰富,使序列信息特征保存更加完整: