一种减少OCR模型参数的网络模型结构及方法与流程

文档序号：34319234发布日期：2023-06-01 00:54阅读：61来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及智能视频处理，特别涉及一种减少ocr模型参数的网络模型结构及方法。

背景技术：

1、在中英文ocr识别中，需要识别的字符大约有6000个。使用神经网络对这些字符分类除了需要使用卷积层提取字符特征外，还需要一个由全连接层组成的分类头。这个分类头的输出是一个等同于字符个数的向量，这就导致输出头的参数量很大。

2、现有识别模型使用的全连接分类头的参数量十分庞大，对移动端的部署不友好。而且对维度较小的特征向量使用大量的参数去拟合，很可能会出现过拟合，降低了模型的泛化性能。

3、另外，现有技术中的常用术语如下：

4、ocr(optical character recognition，光学字符识别)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程。目前常用的字符是使用神经网络对字符分类。

5、卷积神经网络(convolutional neural networks,cnn)是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力。

6、全连接神经网络。全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由于其全相连的特性，一般全连接层的参数也是最多的，需要消耗很大的内存空间。

技术实现思路

1、本申请设计了一种针对ocr识别的网络结构，极大地降低了模型参数。

2、具体地，本发明提供一种减少ocr模型参数的网络模型结构，所述ocr模型的网络结构架构包括：特征提取骨干卷积层cnns，所述卷积层cnns的输出是一个t维的特征向量t，还包括一个分类头，分类头输出向量c；即整个ocr模型包括两部分，特征提取骨干+分类头。c是分类头的输出，t是特征提取骨干的输出。所述分类头的结构包括：所述分类头是由向量r1、向量r2、向量x、向量y组成；

3、设r1和r2是两个大小均为r维的向量，建议设置r＝2t；即r1和r2的大小是人为设置的，大小都是等分的，x和y也是等分的，由c的大小计算出；

4、设t和r1,t和r2，r1和x,r2和y之间由全连接组成；本申请改变了分类头的拓扑形式，由一层较大的全连接改成若干小的全连接层；

5、其中，x、y的维度由网络输出向量c的维度c即字符的个数确定，维度大小设为m，把x看作m行1列的矩阵，y看作1列m行矩阵，对xy做矩阵乘法，得到矩阵m，最后将m一维展开得到输出向量c。

6、所述m的计算公式如下：

7、

8、其中ceil()函数表示向上取整。

9、所述x、y、m分别表示为：

10、x＝[a11；a21；aij；am1]

11、y＝[b11,b12,bij,b1m]

12、m＝xy；

13、m的大小为m*m，第i行第j列的值计算如下：

14、mij＝ai1b1j+ai2b2j+...+aimb1m(i≤m,j≤m)，

15、其中，向量x、y看作只有一行或一列的矩阵，a，b表示向量中的值。

16、本申请还涉及一种减少ocr模型参数的方法，所述方法包括：

17、s1，设ocr模型网络架构中特征提取骨干卷积层cnns的输出是一个t维的特征向量t，之后t作为分类头的输入；

18、s2，设所述分类头由向量r1、向量r2、向量x、向量y组成；

19、设r1和r2是两个大小均为r维的向量，建议设置r＝2t；

20、设t和r1,t和r2，r1和x,r2和y之间由全连接组成；

21、其中，x、y的维度由网络输出向量c的维度c即字符的个数确定，x和y是两个维度大小均为m维的向量，对xy做矩阵乘法，得到矩阵m；s3，最后将m一维展开得到输出向量c。

22、所述步骤s2中，所述m的计算公式如下：

23、

24、其中ceil()函数表示向上取整。

25、所述步骤s2中，把x看作m行1列的矩阵，y看作1列m行矩阵，对xy做矩阵乘法，得到矩阵m：

26、x＝[a11；a21；aij；am1]

27、y＝[b11,b12,bij,b1m]

28、m＝xy

29、m的大小为m*m，第i行第j列的值计算如下：

30、mij＝ai1b1j+ai2b2j+...+aimb1m(i≤m,j≤m)，

31、其中，向量x、y看作只有一行或一列的矩阵，a，b表示向量中的值。

32、所述步骤s3中，所述分类头最大分类个数为m2。

33、所述方法中，由于x与y的计算过程中没有引入新的参数，所以所述分类头的总参数n2由t与r1、t与r2、r1与x、r2与y之间的全连接权重参数量决定，表示如下：

34、n2＝t*2t+t*2t+2t*m+2t*m＝4t*(t+m)。

35、由此，本申请的优势在于：本申请对ocr识别模型做了改进，在不明显降低精度的前提下，减小了模型分类头的参数量和计算量。实际上在传统分类网络下，分类头只有一层组成，本申请改变了分类头的拓扑形式，由一层较大的全连接改成若干小的全连接层，从而减少了ocr模型参数。

技术特征：

1.一种减少ocr模型参数的网络模型结构，所述ocr模型的网络结构架构包括：特征提取骨干卷积层cnns，所述卷积层cnns的输出是一个t维的特征向量t，还包括一个分类头，分类头的输出向量c，其特征在于，所述分类头的结构包括：

2.根据权利要求1所述的一种减少ocr模型参数的网络结构，其特征在于，所述m的计算公式如下：

3.根据权利要求1所述的一种减少ocr模型参数的网络结构，其特征在于，所述x、y、m分别表示为：

4.一种减少ocr模型参数的方法，其特征在于，所述方法包括：

5.根据权利要求4所述的一种减少ocr模型参数的方法，其特征在于，所述步骤s2中，

6.根据权利要求4所述的一种减少ocr模型参数的方法，其特征在于，所述步骤s2中，把x看作m行1列的矩阵，y看作1列m行矩阵，对xy做矩阵乘法，得到矩阵m：

7.根据权利要求4所述的一种减少ocr模型参数的方法，其特征在于，所述步骤s3中，所述分类头最大分类个数为m2。

8.根据权利要求4所述的一种减少ocr模型参数的方法，其特征在于，所述方法中，由于x与y的计算过程中没有引入新的参数，所以所述分类头的总参数n2由t与r1、t与r2、r1与x、r2与y之间的全连接权重参数量决定，表示如下：

技术总结
本发明提供一种减少OCR模型参数的网络模型结构及方法，极大地降低了模型参数。所述OCR模型的网络结构架构包括：特征提取骨干卷积层CNNs，所述卷积层CNNs的输出是一个t维的特征向量T，还包括一个分类头，分类头的输出向量C；所述分类头的结构包括：设R1和R2是两个大小均为r维的向量，建议设置r＝2t；设T和R1,T和R2，R1和X,R2和Y之间由全连接组成；其中，X、Y的维度由网络输出向量C的维度c即字符的个数确定，维度大小设为m，把X看作m行1列的矩阵，Y看作1列m行矩阵，对XY做矩阵乘法，得到矩阵M，最后将M一维展开得到输出向量C。

技术研发人员：朱贺辉
受保护的技术使用者：北京君正集成电路股份有限公司
技术研发日：
技术公布日：2024/1/12

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：朱贺辉
技术所有人：北京君正集成电路股份有限公司
我是此专利的发明人

上一篇：一种水利水电用闸门提升装置的制作方法
上一篇：一种鼓式单腹板制动器的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。