本发明涉及智能视频处理,特别涉及一种减少ocr模型参数的网络模型结构及方法。
背景技术:
1、在中英文ocr识别中,需要识别的字符大约有6000个。使用神经网络对这些字符分类除了需要使用卷积层提取字符特征外,还需要一个由全连接层组成的分类头。这个分类头的输出是一个等同于字符个数的向量,这就导致输出头的参数量很大。
2、现有识别模型使用的全连接分类头的参数量十分庞大,对移动端的部署不友好。而且对维度较小的特征向量使用大量的参数去拟合,很可能会出现过拟合,降低了模型的泛化性能。
3、另外,现有技术中的常用术语如下:
4、ocr(optical character recognition,光学字符识别)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。目前常用的字符是使用神经网络对字符分类。
5、卷积神经网络(convolutional neural networks,cnn)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力。
6、全连接神经网络。全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的,需要消耗很大的内存空间。
技术实现思路
1、本申请设计了一种针对ocr识别的网络结构,极大地降低了模型参数。
2、具体地,本发明提供一种减少ocr模型参数的网络模型结构,所述ocr模型的网络结构架构包括:特征提取骨干卷积层cnns,所述卷积层cnns的输出是一个t维的特征向量t,还包括一个分类头,分类头输出向量c;即整个ocr模型包括两部分,特征提取骨干+分类头。c是分类头的输出,t是特征提取骨干的输出。所述分类头的结构包括:所述分类头是由向量r1、向量r2、向量x、向量y组成;
3、设r1和r2是两个大小均为r维的向量,建议设置r=2t;即r1和r2的大小是人为设置的,大小都是等分的,x和y也是等分的,由c的大小计算出;
4、设t和r1,t和r2,r1和x,r2和y之间由全连接组成;本申请改变了分类头的拓扑形式,由一层较大的全连接改成若干小的全连接层;
5、其中,x、y的维度由网络输出向量c的维度c即字符的个数确定,维度大小设为m,把x看作m行1列的矩阵,y看作1列m行矩阵,对xy做矩阵乘法,得到矩阵m,最后将m一维展开得到输出向量c。
6、所述m的计算公式如下:
7、
8、其中ceil()函数表示向上取整。
9、所述x、y、m分别表示为:
10、x=[a11;a21;aij;am1]
11、y=[b11,b12,bij,b1m]
12、m=xy;
13、m的大小为m*m,第i行第j列的值计算如下:
14、mij=ai1b1j+ai2b2j+...+aimb1m(i≤m,j≤m),
15、其中,向量x、y看作只有一行或一列的矩阵,a,b表示向量中的值。
16、本申请还涉及一种减少ocr模型参数的方法,所述方法包括:
17、s1,设ocr模型网络架构中特征提取骨干卷积层cnns的输出是一个t维的特征向量t,之后t作为分类头的输入;
18、s2,设所述分类头由向量r1、向量r2、向量x、向量y组成;
19、设r1和r2是两个大小均为r维的向量,建议设置r=2t;
20、设t和r1,t和r2,r1和x,r2和y之间由全连接组成;
21、其中,x、y的维度由网络输出向量c的维度c即字符的个数确定,x和y是两个维度大小均为m维的向量,对xy做矩阵乘法,得到矩阵m;s3,最后将m一维展开得到输出向量c。
22、所述步骤s2中,所述m的计算公式如下:
23、
24、其中ceil()函数表示向上取整。
25、所述步骤s2中,把x看作m行1列的矩阵,y看作1列m行矩阵,对xy做矩阵乘法,得到矩阵m:
26、x=[a11;a21;aij;am1]
27、y=[b11,b12,bij,b1m]
28、m=xy
29、m的大小为m*m,第i行第j列的值计算如下:
30、mij=ai1b1j+ai2b2j+...+aimb1m(i≤m,j≤m),
31、其中,向量x、y看作只有一行或一列的矩阵,a,b表示向量中的值。
32、所述步骤s3中,所述分类头最大分类个数为m2。
33、所述方法中,由于x与y的计算过程中没有引入新的参数,所以所述分类头的总参数n2由t与r1、t与r2、r1与x、r2与y之间的全连接权重参数量决定,表示如下:
34、n2=t*2t+t*2t+2t*m+2t*m=4t*(t+m)。
35、由此,本申请的优势在于:本申请对ocr识别模型做了改进,在不明显降低精度的前提下,减小了模型分类头的参数量和计算量。实际上在传统分类网络下,分类头只有一层组成,本申请改变了分类头的拓扑形式,由一层较大的全连接改成若干小的全连接层,从而减少了ocr模型参数。
1.一种减少ocr模型参数的网络模型结构,所述ocr模型的网络结构架构包括:特征提取骨干卷积层cnns,所述卷积层cnns的输出是一个t维的特征向量t,还包括一个分类头,分类头的输出向量c,其特征在于,所述分类头的结构包括:
2.根据权利要求1所述的一种减少ocr模型参数的网络结构,其特征在于,所述m的计算公式如下:
3.根据权利要求1所述的一种减少ocr模型参数的网络结构,其特征在于,所述x、y、m分别表示为:
4.一种减少ocr模型参数的方法,其特征在于,所述方法包括:
5.根据权利要求4所述的一种减少ocr模型参数的方法,其特征在于,所述步骤s2中,
6.根据权利要求4所述的一种减少ocr模型参数的方法,其特征在于,所述步骤s2中,把x看作m行1列的矩阵,y看作1列m行矩阵,对xy做矩阵乘法,得到矩阵m:
7.根据权利要求4所述的一种减少ocr模型参数的方法,其特征在于,所述步骤s3中,所述分类头最大分类个数为m2。
8.根据权利要求4所述的一种减少ocr模型参数的方法,其特征在于,所述方法中,由于x与y的计算过程中没有引入新的参数,所以所述分类头的总参数n2由t与r1、t与r2、r1与x、r2与y之间的全连接权重参数量决定,表示如下: