一种减少OCR模型参数的网络模型结构及方法与流程

文档序号:34319234发布日期:2023-06-01 00:54阅读:61来源:国知局
一种减少OCR模型参数的网络模型结构及方法与流程

本发明涉及智能视频处理,特别涉及一种减少ocr模型参数的网络模型结构及方法。


背景技术:

1、在中英文ocr识别中,需要识别的字符大约有6000个。使用神经网络对这些字符分类除了需要使用卷积层提取字符特征外,还需要一个由全连接层组成的分类头。这个分类头的输出是一个等同于字符个数的向量,这就导致输出头的参数量很大。

2、现有识别模型使用的全连接分类头的参数量十分庞大,对移动端的部署不友好。而且对维度较小的特征向量使用大量的参数去拟合,很可能会出现过拟合,降低了模型的泛化性能。

3、另外,现有技术中的常用术语如下:

4、ocr(optical character recognition,光学字符识别)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程。目前常用的字符是使用神经网络对字符分类。

5、卷积神经网络(convolutional neural networks,cnn)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力。

6、全连接神经网络。全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。由于其全相连的特性,一般全连接层的参数也是最多的,需要消耗很大的内存空间。


技术实现思路

1、本申请设计了一种针对ocr识别的网络结构,极大地降低了模型参数。

2、具体地,本发明提供一种减少ocr模型参数的网络模型结构,所述ocr模型的网络结构架构包括:特征提取骨干卷积层cnns,所述卷积层cnns的输出是一个t维的特征向量t,还包括一个分类头,分类头输出向量c;即整个ocr模型包括两部分,特征提取骨干+分类头。c是分类头的输出,t是特征提取骨干的输出。所述分类头的结构包括:所述分类头是由向量r1、向量r2、向量x、向量y组成;

3、设r1和r2是两个大小均为r维的向量,建议设置r=2t;即r1和r2的大小是人为设置的,大小都是等分的,x和y也是等分的,由c的大小计算出;

4、设t和r1,t和r2,r1和x,r2和y之间由全连接组成;本申请改变了分类头的拓扑形式,由一层较大的全连接改成若干小的全连接层;

5、其中,x、y的维度由网络输出向量c的维度c即字符的个数确定,维度大小设为m,把x看作m行1列的矩阵,y看作1列m行矩阵,对xy做矩阵乘法,得到矩阵m,最后将m一维展开得到输出向量c。

6、所述m的计算公式如下:

7、

8、其中ceil()函数表示向上取整。

9、所述x、y、m分别表示为:

10、x=[a11;a21;aij;am1]

11、y=[b11,b12,bij,b1m]

12、m=xy;

13、m的大小为m*m,第i行第j列的值计算如下:

14、mij=ai1b1j+ai2b2j+...+aimb1m(i≤m,j≤m),

15、其中,向量x、y看作只有一行或一列的矩阵,a,b表示向量中的值。

16、本申请还涉及一种减少ocr模型参数的方法,所述方法包括:

17、s1,设ocr模型网络架构中特征提取骨干卷积层cnns的输出是一个t维的特征向量t,之后t作为分类头的输入;

18、s2,设所述分类头由向量r1、向量r2、向量x、向量y组成;

19、设r1和r2是两个大小均为r维的向量,建议设置r=2t;

20、设t和r1,t和r2,r1和x,r2和y之间由全连接组成;

21、其中,x、y的维度由网络输出向量c的维度c即字符的个数确定,x和y是两个维度大小均为m维的向量,对xy做矩阵乘法,得到矩阵m;s3,最后将m一维展开得到输出向量c。

22、所述步骤s2中,所述m的计算公式如下:

23、

24、其中ceil()函数表示向上取整。

25、所述步骤s2中,把x看作m行1列的矩阵,y看作1列m行矩阵,对xy做矩阵乘法,得到矩阵m:

26、x=[a11;a21;aij;am1]

27、y=[b11,b12,bij,b1m]

28、m=xy

29、m的大小为m*m,第i行第j列的值计算如下:

30、mij=ai1b1j+ai2b2j+...+aimb1m(i≤m,j≤m),

31、其中,向量x、y看作只有一行或一列的矩阵,a,b表示向量中的值。

32、所述步骤s3中,所述分类头最大分类个数为m2。

33、所述方法中,由于x与y的计算过程中没有引入新的参数,所以所述分类头的总参数n2由t与r1、t与r2、r1与x、r2与y之间的全连接权重参数量决定,表示如下:

34、n2=t*2t+t*2t+2t*m+2t*m=4t*(t+m)。

35、由此,本申请的优势在于:本申请对ocr识别模型做了改进,在不明显降低精度的前提下,减小了模型分类头的参数量和计算量。实际上在传统分类网络下,分类头只有一层组成,本申请改变了分类头的拓扑形式,由一层较大的全连接改成若干小的全连接层,从而减少了ocr模型参数。



技术特征:

1.一种减少ocr模型参数的网络模型结构,所述ocr模型的网络结构架构包括:特征提取骨干卷积层cnns,所述卷积层cnns的输出是一个t维的特征向量t,还包括一个分类头,分类头的输出向量c,其特征在于,所述分类头的结构包括:

2.根据权利要求1所述的一种减少ocr模型参数的网络结构,其特征在于,所述m的计算公式如下:

3.根据权利要求1所述的一种减少ocr模型参数的网络结构,其特征在于,所述x、y、m分别表示为:

4.一种减少ocr模型参数的方法,其特征在于,所述方法包括:

5.根据权利要求4所述的一种减少ocr模型参数的方法,其特征在于,所述步骤s2中,

6.根据权利要求4所述的一种减少ocr模型参数的方法,其特征在于,所述步骤s2中,把x看作m行1列的矩阵,y看作1列m行矩阵,对xy做矩阵乘法,得到矩阵m:

7.根据权利要求4所述的一种减少ocr模型参数的方法,其特征在于,所述步骤s3中,所述分类头最大分类个数为m2。

8.根据权利要求4所述的一种减少ocr模型参数的方法,其特征在于,所述方法中,由于x与y的计算过程中没有引入新的参数,所以所述分类头的总参数n2由t与r1、t与r2、r1与x、r2与y之间的全连接权重参数量决定,表示如下:


技术总结
本发明提供一种减少OCR模型参数的网络模型结构及方法,极大地降低了模型参数。所述OCR模型的网络结构架构包括:特征提取骨干卷积层CNNs,所述卷积层CNNs的输出是一个t维的特征向量T,还包括一个分类头,分类头的输出向量C;所述分类头的结构包括:设R1和R2是两个大小均为r维的向量,建议设置r=2t;设T和R1,T和R2,R1和X,R2和Y之间由全连接组成;其中,X、Y的维度由网络输出向量C的维度c即字符的个数确定,维度大小设为m,把X看作m行1列的矩阵,Y看作1列m行矩阵,对XY做矩阵乘法,得到矩阵M,最后将M一维展开得到输出向量C。

技术研发人员:朱贺辉
受保护的技术使用者:北京君正集成电路股份有限公司
技术研发日:
技术公布日:2024/1/12
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1