光学字符识别模型训练方法、装置、设备及介质与流程

文档序号:29822153发布日期:2022-04-27 11:10阅读:96来源:国知局
光学字符识别模型训练方法、装置、设备及介质与流程

1.本发明涉及人工智能领域,尤其涉及一种光学字符识别模型训练方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.随着人工智能技术的研究和发展,对光学字符识别模型(比如ocr深度学习识别模型)的识别准确率提出了越来越高的要求,由于一个成熟的ocr深度学习识别模型需要经过几十次甚至上百次的迭代,所以一些科技企业为了获取成熟的ocr深度学习识别模型投入了大量人力物力,实现ocr深度学习识别模型的快速开发和迭代,以满足业务增长的需求。
3.但是,传统的光学字符识别模型在训练中存在开发环境训练数据与生产环境数据分布有差异,导致在开发环境中识别效果较佳的光学字符识别模型未必可以在生产环境达到一样好的识别效果,导致光学字符识别模型准确率低下;当识别效果不佳时,仍不断重复构建测试数据进行测试,导致光学字符识别模型训练效率低下且准确率依旧无法得到提高。


技术实现要素:

4.本发明提供一种光学字符识别模型训练方法、装置、电子设备及计算机可读存储介质,其主要目的是为了提高光学字符识别模型训练的效率和准确率。
5.为实现上述目的,本发明提供的一种光学字符识别模型训练方法,包括:
6.获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,将所述原始图片集和所述原始数据集存入预设的消息队列通道中;
7.当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集;
8.获取所述正样本数据集对应的真实字符标注集及所述负样本数据集对应的错误字符标注集,其中,所述错误字符标注集实时动态更新;
9.将所述正样本数据集、所述负样本数据集及所述原始图片集作为训练数据集输入至预设的光学字符识别模型,利用所述光学字符识别模型识别所述训练数据集的预测字符集;
10.通过计算获取所述预测字符集与所述真实字符标注集及所述错误字符标注集的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
11.可选地,所述对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集,包括:
12.利用预设的搜索引擎获取所述原始数据集中原始数据的序列长度,并利用预设的搜索引擎中的预设筛选语句设置序列长度索引;
13.将所述序列长度与所述序列长度索引作长度对比,将与所述序列长度索引的长度不一致的序列长度对应的原始数据组成负样本数据集,并将与所述序列长度索引的长度一致的序列长度对应的原始数据组成正样本数据集。
14.可选地,所述确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集之后,所述方法还包括:
15.获取所述正样本数据集和所述负样本数据集的数据字段,识别所述数据字段中的敏感字段;
16.利用预设的脱敏函数对所述敏感字段进行脱敏操作。
17.可选地,所述利用预设的光学字符识别模型识别所述训练数据集的预测字符集,包括:
18.利用预设的光学字符识别模型中的卷积层提取所述训练数据集的特征序列,得到字符向量集;
19.利用所述光学字符识别模型中的循环层预测所述字符向量集的字符标签集;
20.利用所述光学字符识别模型中的转录层整合所述字符标签集,得到预测字符集。
21.可选地,所述利用所述光学字符识别模型中的循环层预测所述字符向量集的字符标签集,包括:
22.利用所述循环层中的输入门计算所述字符向量集的状态值;
23.利用所述循环层中的遗忘门计算所述字符向量集的激活值;
24.根据所述状态至和激活值计算所述字符向量集的状态更新值;
25.利用所述循环层中的输出门计算所述状态更新值的字符标签集,得到所述字符向量集的字符标签集。
26.可选地,所述利用所述光学字符识别模型中的转录层整合所述字符标签集,得到预测字符集,包括:
27.利用所述转录层获取所述字符标签集的所有路径概率,从多个所述路径概率中查找每个字符标签对应的最大路径概率;
28.合并每个所述最大路径概率,得到所述字符标签集的预测字符集。
29.可选地,所述将所述原始图片集和所述原始数据集存入预设的消息队列通道中之前,所述方法还包括:
30.建立所述原始数据集和所述原始图片集同所述消息中间件的链接,通过所述链接形成消息队列通道;
31.通过所述消息队列通道存储所述原始图片集和原始数据集。
32.为了解决上述问题,本发明还提供一种光学字符识别模型训练装置,所述装置包括:
33.数据集获取模块,用于获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,将所述原始图片集和所述原始数据集存入预设的消息队列通道中;
34.数据集筛选模块,用于当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集;
35.数据集标注模块,用于获取所述正样本数据集对应的真实字符标注集及所述负样本数据集对应的错误字符标注集,其中,所述错误字符标注集实时动态更新;
36.训练数据集识别模块,用于将所述正样本数据集、所述负样本数据集及所述原始图片集作为训练数据集输入至预设的光学字符识别模型,利用所述光学字符识别模型识别所述训练数据集的预测字符集;
37.模型训练模块,用于通过计算获取所述预测字符集与所述真实字符标注集及所述错误字符标注集的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
38.为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
39.存储器,存储至少一个计算机程序;及
40.处理器,执行所述存储器中存储的计算机程序以实现上述所述的光学字符识别模型训练方法。
41.为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的光学字符识别模型训练方法。
42.本发明实施例中,首先获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,可以避免开发环境和生产环境中的数据分布差异,提高后续模型训练的准确性;其次,当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并利用所述搜索引擎对所述原始数据集进行错误数据识别,可以直接通过搜索引擎筛选错误数据,替代人工进行错误数据的筛选,节省人力和时间,缩短后续模型训练的迭代周期,已提高后续模型的训练效率;进而,通过标注所述正样本数据对应的真实字符及标注所述负样本数据对应的错误字符,便于后续模型进行训练;最后,利用所述光学字符识别模型识别出所述训练数据的预测字符,并分别计算所述预测字符同所述真实字符及所述错误字符的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,进一步提高模型的准确率,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。因此本发明实施例提出的光学字符识别模型训练方法、装置、电子设备及可存储介质可以提高光学字符识别模型训练的效率和准确率。
附图说明
43.图1为本发明一实施例提供的光学字符识别模型训练方法的流程示意图;
44.图2为本发明一实施例提供的光学字符识别模型训练装置的模块示意图;
45.图3为本发明一实施例提供的实现光学字符识别模型训练方法的电子设备的内部结构示意图;
46.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
47.应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
48.本发明实施例提供一种光学字符识别模型训练方法。所述光学字符识别模型训练方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方
法的电子设备中的至少一种。换言之,所述光学字符识别模型训练方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
49.参照图1所示的本发明一实施例提供的光学字符识别模型训练方法的流程示意图,在本发明实施例中,所述光学字符识别模型训练方法包括:
50.详细地,所述光学字符识别模型训练方法,包括:
51.s1、获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,将所述原始图片集和所述原始数据集存入预设的消息队列通道中。
52.本发明实施例中,所述原始图片集为利用预设的光学字符识别接口从实际生产环境过程中获取的非结构化数据,所述原始数据集为利用该光学字符识别接口从所述原始图片集中提取的字符信息,且该字符信息为结构化数据。
53.其中,所述结构化数据是指行数据,可以存储在数据库中,用二维逻辑表达实现的数据;所述非结构化数据是指不能用二维逻辑表达实现的数据,例如,文本、图片、xml、html、音频及视频等。
54.具体地,本实施例中利用预设的光学字符识别接口将识别到的结构化数据与非结构化数据发送到消息队列通道,再根据用户需求对数据进行处理。
55.详细地,所述将所述原始图片集和所述原始数据集存入预设的消息队列通道中之前,所述方法还包括:
56.建立所述原始数据集和所述原始图片集同所述消息中间件的链接,通过所述链接形成消息队列通道;
57.通过所述消息队列通道存储所述原始图片集和原始数据集。
58.本发明实施例中,所述消息队列通道是通过原始数据和消息中间件的链接形成的可以接收信息、存储信息及发出信息的通道。
59.较佳地,所述链接可以为tcp链接。
60.较佳地,所述消息中间件可以为kafka。
61.本发明另一实施例中,还可以利用预设的光学字符识别接口将识别到的结构化数据发送到消息队列通道,将非结构化数据存储至nas盘,再根据用户需求对数据进行处理。
62.s2、当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集。
63.本发明实施例中,可以通过预设的消息队列通道进行原始图片集和原始数据集的异步存储,当原始图片集和原始数据集传输至消息队列通道时,消息队列通道可以先不处理原始图片集和原始数据集,根据用户需求决定何时处理原始图片集和原始数据集;将在消息队列通道中处理后的原始数据集传输至预设的搜索引擎中,通过获取所述实际生产中的原始图片集对应的原始数据集的使用授权,可以利用所述搜索引擎的预设的筛选数据筛选消息队列通道中的原始图片集对应的原始数据集中的错误数据,所述错误数据为原始图片集对应的原始数据集中的错误字符信息,并将错误数据组成负样本数据集,以及其余所述错误数据以外的非错误数据组成作为正样本数据集。
64.较佳地,所述预设的搜索引擎可以为elasticsearch。
65.详细地,所述对所述原始数据集进行错误数据筛选,确定识筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集,包括:
66.利用预设的搜索引擎获取所述原始数据集中原始数据的序列长度,并利用预设的搜索引擎中的预设筛选语句设置序列长度索引;
67.将所述序列长度与所述序列长度索引作长度对比,将与所述序列长度索引的长度不一致的序列长度对应的原始数据组成负样本数据集,并将与所述序列长度索引的长度一致的序列长度对应的原始数据组成正样本数据集。
68.本发明实施例中,所述序列长度可以为原始数据对应的字符长度,利用预设筛选语句设置的序列长度索引是针对原始数据中的字符固定长度设置的索引。
69.例如,某一原始图片为小车车牌图片,该原始图片对应的原始数据包含的序列长度为七位数(即原始图片中包含的字符的长度为七位数),则筛选语句设置序列长度索引为长度7,若识别原始数据中的序列长度为7,则确定该原始数据为正样本数据;若识别原始数据中的序列长度不为7,则确定该原始数据为负样本数据。
70.进一步地,所述确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集之后,所述方法还包括:
71.获取所述正样本数据集和所述负样本数据集的数据字段,识别所述数据字段中的敏感字段;
72.利用预设的脱敏函数对所述敏感字段进行脱敏操作。
73.本发明实施例中,涉及人名、身份证信息及手机号等个人隐私信息的字段都为敏感字段,识别到敏感字段后,可以对敏感字段进行数据替换或掩码屏蔽处理,以实现脱敏,比如,将手机号中间四位数进行数据替换得到13800001248,或者进行中间四位数掩码屏蔽,得到138****1248。
74.例如,对机构和企业收集的个人身份信息、手机号码、银行卡信息等都进行脱敏处理。
75.本发明实施例中,通过脱敏函数对敏感字段的脱敏处理,能够屏蔽或隐藏所述正样本数据和所述负样本数据中的隐私性信息,进而保护真实生产环境中用户的隐私数据的安全。
76.例如,由于本发明实施例中使用了实际生产过程中的数据进行模型训练,可能会涉及企业的机密数据,可以预设的数据使用权限,在该数据使用权限中进行使用限定,保证开发人员无法查看或下载数据。
77.本发明一实施例中,通过预设的数据使用权限还可以保证开发人员在进行模型迭代和训练时只能使用数据,但无法查看或下载数据,避免了数据泄漏风险。
78.s3、获取所述正样本数据集对应的真实字符标注集及所述负样本数据集对应的错误字符标注集,其中,所述错误字符标注集实时动态更新。
79.本发明实施例中,可以将所述正样本数据集和所述负样本数据集传输至预设的标注平台中,并利用预设的标注平台标注正样本数据集的真实字符标注,以及标注所述正样本数据集在原始图片中对应的位置信息(即真实字符在原始图片中的位置信息),将正样本数据集的真实字符标注及真实字符在原始图片的位置信息组合为真实字符标注集;类似地,利用预设的标注平台标注负样本数据集的字符标注,以及标注所述负样本数据集在原
始图片中对应的位置信息(即错误字符在原始图片中的位置信息),将负样本数据集的字符标注及该字符在原始图片的位置信息组合为错误字符标注集。
80.例如,车牌号xa
·
xxxxx七位数,可以通过调用标注平台接口使标注平台标注正样本数据xa
·
xxxxx的真实字符标注,以及标注的真实字符分别对应车牌号的第几位数,将正样本数据xa
·
xxxxx的真实字符标注及标注的真实字符分别对应车牌号的第几位数组合为真实字符标注集;负样本数据的车牌号为xb
·
xxx,也可以通过调用标注平台接口使标注平台标注负样本数据xb
·
xxx的字符标注,以及标注的字符分别对应车牌号的第几位数,将负样本数据xb
·
xxx的字符标注及标注的字符分别对应车牌号的第几位数组成错误字符标注集。
81.本发明实施例中,所述错误字符标注集实时动态更新是指标注平台发现错误字符标注集之后,可以将该错误字符标注对应的负样本数据集进行实时进行数据更新,并将该负样本数据集作为更新后的训练数据集输入至后续模型中,以提高后续模型训练的准确率。
82.s4、将所述正样本数据集、所述负样本数据集及所述原始图片集作为训练数据集输入至预设的光学字符识别模型,利用所述光学字符识别模型识别所述训练数据集的预测字符集。
83.本发明实施例中,所述预设的光学字符识别模型可以为crnn结构的深度学习模型,所述crnn结构包括:cnn+lstm+ctc,且所述光学字符识别模型包括:卷积层(cnn)、循环层(lstm)、转录层(ctc)及损失函数。
84.详细地,所述利用预设的光学字符识别模型识别所述训练数据集的预测字符,包括:
85.利用预设的光学字符识别模型中的卷积层提取所述训练数据集的特征序列,得到字符向量集;
86.利用所述光学字符识别模型中的循环层预测所述字符向量集的字符标签集;
87.利用所述光学字符识别模型中的转录层整合所述字符标签集,得到预测字符集。
88.本发明一实施例中,所述卷积层包括卷积子层和池化层,可以通过卷积子层对训练数据集进行特征提取,得到特征图;再利用池化层对提取所述特征图中的特征序列向量,得到字符向量集。
89.本发明另一实施例中,所述循环层主要由rnn的变体ltsm构成,因为rnn存在梯度消失的问题,不能获取更多上下文信息,所以lstm替代rnn,可以更好的提取上下文信息,其中,所述循环层包括输入门、遗忘门及输出门。
90.详细地,所述利用所述光学字符识别模型中的循环层预测所述字符向量集的字符标签集,包括:
91.利用所述循环层中的输入门计算所述字符向量集的状态值;
92.利用所述循环层中的遗忘门计算所述字符向量集的激活值;
93.根据所述状态至和激活值计算所述字符向量集的状态更新值;
94.利用所述循环层中的输出门计算所述状态更新值的字符标签集,得到所述字符向量集的字符标签集。
95.本发明实施例中,所述输入门可以控制字符向量集进出的数量及控制字符向量集
经过该门的数量;所述遗忘门用于控制前一时刻的字符向量集流动到当前时刻的字符向量集数量;所述状态更新值是指将经过遗忘门的字符向量集若是没有被遗忘门选择遗忘则该字符向量集作为状态更新值;所述输出门可以输出字符向量集的字符标签集。
96.本发明实施例中,所述转录层主要由ctc(connectionist temporal classifification)构成,主要作用是将lstm中的预测的字符标签集转换为带有标记的预测字符集。
97.进一步地,所述利用所述光学字符识别模型中的转录层整合所述字符标签集,得到预测字符集,包括:
98.利用所述转录层获取所述字符标签集的所有路径概率,从多个所述路径概率中查找每个字符标签对应的最大路径概率;
99.合并每个所述最大路径概率,得到所述字符标签集的预测字符。
100.本发明实施例中,可以通过下列公式得到预测字符:
[0101][0102]
本发明实施例中,p(π|x)为所有字符标签的路径概率,b(π)为所有字符标签的路径集合,π为每个字符标签对应的最大路径概率,y为所述字符标签对应的预测字符。
[0103]
s5、通过计算获取所述预测字符集与所述真实字符标注集及所述错误字符标注集的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
[0104]
本发明一实施例中,通过计算所述预测字符集同所述真实字符标注集的第一损失值,及计算所述预测字符集同所述错误字符标注集的第二损失值,融合所述第一损失值和第二损失值得到损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
[0105]
例如,所述预设条件可以为预设阈值0.1,当损失值小于0.1时,调整模型参数,直到损失值大于等于0.1,得到训练完成的光学字符识别模型。
[0106]
本发明实施例中,首先获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,可以避免开发环境和生产环境中的数据分布差异,提高后续模型训练的准确性;其次,当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并利用所述搜索引擎对所述原始数据集进行错误数据识别,可以直接通过搜索引擎筛选错误数据,替代人工进行错误数据的筛选,节省人力和时间,缩短后续模型训练的迭代周期,已提高后续模型的训练效率;进而,通过标注所述正样本数据对应的真实字符及标注所述负样本数据对应的错误字符,便于后续模型进行训练;最后,利用所述光学字符识别模型识别出所述训练数据的预测字符,并分别计算所述预测字符同所述真实字符及所述错误字符的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,进一步提高模型的准确率,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。因此本发明实施例提出的光学字符识别模型训练方法可以提高光学字符识别模型训练的效率和准确率。
[0107]
如图2所示,是本发明光学字符识别模型训练装置的功能模块图。
[0108]
本发明所述光学字符识别模型训练装置100可以安装于电子设备中。根据实现的
功能,所述光学字符识别模型训练装置可以包括数据集获取模块101、数据集筛选模块102、数据集标注模块103、训练数据集识别模块104、模型训练模块105,本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0109]
在本实施例中,关于各模块/单元的功能如下:
[0110]
所述数据集获取模块101,用于获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,将所述原始图片集和所述原始数据集存入预设的消息队列通道中。
[0111]
本发明实施例中,所述原始图片集为利用预设的光学字符识别接口从实际生产环境过程中获取的非结构化数据,所述原始数据集为利用该光学字符识别接口从所述原始图片集中提取的字符信息,且该字符信息为结构化数据。
[0112]
其中,所述结构化数据是指行数据,可以存储在数据库中,用二维逻辑表达实现的数据;所述非结构化数据是指不能用二维逻辑表达实现的数据,例如,文本、图片、xml、html、音频及视频等。
[0113]
具体地,本实施例中利用预设的光学字符识别接口将识别到的结构化数据与非结构化数据发送到消息队列通道,再根据用户需求对数据进行处理。
[0114]
所述数据集获取模块可以用于:
[0115]
建立所述原始数据集和所述原始图片集同所述消息中间件的链接,通过所述链接形成消息队列通道;
[0116]
通过所述消息队列通道存储所述原始图片集和原始数据集。
[0117]
本发明实施例中,所述消息队列通道是通过原始数据和消息中间件的链接形成的可以接收信息、存储信息及发出信息的通道。
[0118]
较佳地,所述链接可以为tcp链接。
[0119]
较佳地,所述消息中间件可以为kafka。
[0120]
本发明另一实施例中,还可以利用预设的光学字符识别接口将识别到的结构化数据发送到消息队列通道,将非结构化数据存储至nas盘,再根据用户需求对数据进行处理。
[0121]
所述数据集筛选模块102,用于当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集。
[0122]
本发明实施例中,可以通过预设的消息队列通道进行原始图片集和原始数据集的异步存储,当原始图片集和原始数据集传输至消息队列通道时,消息队列通道可以先不处理原始图片集和原始数据集,根据用户需求决定何时处理原始图片集和原始数据集;将在消息队列通道中处理后的原始数据集传输至预设的搜索引擎中,通过获取所述实际生产中的原始图片集对应的原始数据集的使用授权,可以利用所述搜索引擎的预设的筛选数据筛选消息队列通道中的原始图片集对应的原始数据集中的错误数据,所述错误数据为原始图片集对应的原始数据集中的错误字符信息,并将错误数据组成负样本数据集,以及其余所述错误数据以外的非错误数据组成作为正样本数据集。
[0123]
较佳地,所述预设的搜索引擎可以为elasticsearch。
[0124]
详细地,所述数据集筛选模块102通过执行下述操作对所述原始数据集进行错误
数据筛选,确定识筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集,包括:
[0125]
利用预设的搜索引擎获取所述原始数据集中原始数据的序列长度,并利用预设的搜索引擎中的预设筛选语句设置序列长度索引;
[0126]
将所述序列长度与所述序列长度索引作长度对比,将与所述序列长度索引的长度不一致的序列长度对应的原始数据组成负样本数据集,并将与所述序列长度索引的长度一致的序列长度对应的原始数据组成正样本数据集。
[0127]
本发明实施例中,所述序列长度可以为原始数据对应的字符长度,利用预设筛选语句设置的序列长度索引是针对原始数据中的字符固定长度设置的索引。
[0128]
例如,某一原始图片为小车车牌图片,该原始图片对应的原始数据包含的序列长度为七位数(即原始图片中包含的字符的长度为七位数),则筛选语句设置序列长度索引为长度7,若识别原始数据中的序列长度为7,则确定该原始数据为正样本数据;若识别原始数据中的序列长度不为7,则确定该原始数据为负样本数据。
[0129]
所述数据集筛选模块还可用于:
[0130]
获取所述正样本数据集和所述负样本数据集的数据字段,识别所述数据字段中的敏感字段;
[0131]
利用预设的脱敏函数对所述敏感字段进行脱敏操作。
[0132]
本发明实施例中,涉及人名、身份证信息及手机号等个人隐私信息的字段都为敏感字段,识别到敏感字段后,可以对敏感字段进行数据替换或掩码屏蔽处理,以实现脱敏,比如,将手机号中间四位数进行数据替换得到13800001248,或者进行中间四位数掩码屏蔽,得到138****1248。
[0133]
例如,对机构和企业收集的个人身份信息、手机号码、银行卡信息等都进行脱敏处理。
[0134]
本发明实施例中,通过脱敏函数对敏感字段的脱敏处理,能够屏蔽或隐藏所述正样本数据和所述负样本数据中的隐私性信息,进而保护真实生产环境中用户的隐私数据的安全。
[0135]
例如,由于本发明实施例中使用了实际生产过程中的数据进行模型训练,可能会涉及企业的机密数据,可以预设的数据使用权限,在该数据使用权限中进行使用限定,保证开发人员无法查看或下载数据。
[0136]
本发明一实施例中,通过预设的数据使用权限还可以保证开发人员在进行模型迭代和训练时只能使用数据,但无法查看或下载数据,避免了数据泄漏风险。
[0137]
所述数据集标注模块103,用于获取所述正样本数据集对应的真实字符标注集及所述负样本数据集对应的错误字符标注集,其中,所述错误字符标注集实时动态更新。
[0138]
本发明实施例中,可以将所述正样本数据集和所述负样本数据集传输至预设的标注平台中,并利用预设的标注平台标注正样本数据集的真实字符标注,以及标注所述正样本数据集在原始图片中对应的位置信息(即真实字符在原始图片中的位置信息),将正样本数据集的真实字符标注及真实字符在原始图片的位置信息组合为真实字符标注集;类似地,利用预设的标注平台标注负样本数据集的字符标注,以及标注所述负样本数据集在原始图片中对应的位置信息(即错误字符在原始图片中的位置信息),将负样本数据集的字符
标注及该字符在原始图片的位置信息组合为错误字符标注集。
[0139]
例如,车牌号xa
·
xxxxx七位数,可以通过调用标注平台接口使标注平台标注正样本数据xa
·
xxxxx的真实字符标注,以及标注的真实字符分别对应车牌号的第几位数,将正样本数据xa
·
xxxxx的真实字符标注及标注的真实字符分别对应车牌号的第几位数组合为真实字符标注集;负样本数据的车牌号为xb
·
xxx,也可以通过调用标注平台接口使标注平台标注负样本数据xb
·
xxx的字符标注,以及标注的字符分别对应车牌号的第几位数,将负样本数据xb
·
xxx的字符标注及标注的字符分别对应车牌号的第几位数组成错误字符标注集。
[0140]
本发明实施例中,所述错误字符标注集实时动态更新是指标注平台发现错误字符标注集之后,可以将该错误字符标注对应的负样本数据集进行实时进行数据更新,并将该负样本数据集作为更新后的训练数据集输入至后续模型中,以提高后续模型训练的准确率。
[0141]
所述训练数据集识别模块104,用于将所述正样本数据集、所述负样本数据集及所述原始图片集作为训练数据集输入至预设的光学字符识别模型,利用所述光学字符识别模型识别所述训练数据集的预测字符集。
[0142]
本发明实施例中,所述预设的光学字符识别模型可以为crnn结构的深度学习模型,所述crnn结构包括:cnn+lstm+ctc,且所述光学字符识别模型包括:卷积层(cnn)、循环层(lstm)、转录层(ctc)及损失函数。
[0143]
详细地,所述训练数据集识别模块104通过执行下述操作利用预设的光学字符识别模型识别所述训练数据集的预测字符,包括:
[0144]
利用预设的光学字符识别模型中的卷积层提取所述训练数据集的特征序列,得到字符向量集;
[0145]
利用所述光学字符识别模型中的循环层预测所述字符向量集的字符标签集;
[0146]
利用所述光学字符识别模型中的转录层整合所述字符标签集,得到预测字符集。
[0147]
本发明一实施例中,所述卷积层包括卷积子层和池化层,可以通过卷积子层对训练数据集进行特征提取,得到特征图;再利用池化层对提取所述特征图中的特征序列向量,得到字符向量集。
[0148]
本发明另一实施例中,所述循环层主要由rnn的变体ltsm构成,因为rnn存在梯度消失的问题,不能获取更多上下文信息,所以lstm替代rnn,可以更好的提取上下文信息,其中,所述循环层包括输入门、遗忘门及输出门。
[0149]
详细地,所述利用所述光学字符识别模型中的循环层预测所述字符向量集的字符标签集,包括:
[0150]
利用所述循环层中的输入门计算所述字符向量集的状态值;
[0151]
利用所述循环层中的遗忘门计算所述字符向量集的激活值;
[0152]
根据所述状态至和激活值计算所述字符向量集的状态更新值;
[0153]
利用所述循环层中的输出门计算所述状态更新值的字符标签集,得到所述字符向量集的字符标签集。
[0154]
本发明实施例中,所述输入门可以控制字符向量集进出的数量及控制字符向量集经过该门的数量;所述遗忘门用于控制前一时刻的字符向量集流动到当前时刻的字符向量
集数量;所述状态更新值是指将经过遗忘门的字符向量集若是没有被遗忘门选择遗忘则该字符向量集作为状态更新值;所述输出门可以输出字符向量集的字符标签集。
[0155]
本发明实施例中,所述转录层主要由ctc(connectionist temporal classifification)构成,主要作用是将lstm中的预测的字符标签集转换为带有标记的预测字符集。
[0156]
进一步地,所述利用所述光学字符识别模型中的转录层整合所述字符标签集,得到预测字符集,包括:
[0157]
利用所述转录层获取所述字符标签集的所有路径概率,从多个所述路径概率中查找每个字符标签对应的最大路径概率;
[0158]
合并每个所述最大路径概率,得到所述字符标签集的预测字符。
[0159]
本发明实施例中,可以通过下列公式得到预测字符:
[0160][0161]
本发明实施例中,p(π|x)为所有字符标签的路径概率,b(π)为所有字符标签的路径集合,π为每个字符标签对应的最大路径概率,y为所述字符标签对应的预测字符。
[0162]
所述模型训练模块105,用于通过计算获取所述预测字符集与所述真实字符标注集及所述错误字符标注集的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
[0163]
本发明一实施例中,通过计算所述预测字符集同所述真实字符标注集的第一损失值,及计算所述预测字符集同所述错误字符标注集的第二损失值,融合所述第一损失值和第二损失值得到损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
[0164]
例如,所述预设条件可以为预设阈值0.1,当损失值小于0.1时,调整模型参数,直到损失值大于等于0.1,得到训练完成的光学字符识别模型。
[0165]
本发明实施例中,首先获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,可以避免开发环境和生产环境中的数据分布差异,提高后续模型训练的准确性;其次,当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并利用所述搜索引擎对所述原始数据集进行错误数据识别,可以直接通过搜索引擎筛选错误数据,替代人工进行错误数据的筛选,节省人力和时间,缩短后续模型训练的迭代周期,已提高后续模型的训练效率;进而,通过标注所述正样本数据对应的真实字符及标注所述负样本数据对应的错误字符,便于后续模型进行训练;最后,利用所述光学字符识别模型识别出所述训练数据的预测字符,并分别计算所述预测字符同所述真实字符及所述错误字符的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,进一步提高模型的准确率,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。因此本发明实施例提出的光学字符识别模型训练装置可以提高光学字符识别模型训练的效率和准确率。
[0166]
如图3所示,是本发明实现光学字符识别模型训练方法的电子设备的结构示意图。
[0167]
所述电子设备可以包括处理器10、存储器11、通信总线12和通信接口13,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如光学字符识别模型
训练程序。
[0168]
其中,所述存储器11至少包括一种类型的介质,所述介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、本地磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备的内部存储单元,例如该电子设备的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备的外部存储设备,例如电子设备上配备的插接式移动硬盘、智能存储卡(smart media card,smc)、安全数字(secure digital,sd)卡、闪存卡(flash card)等。进一步地,所述存储器11还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备的应用软件及各类数据,例如光学字符识别模型训练程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0169]
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如光学字符识别模型训练程序等),以及调用存储在所述存储器11内的数据,以执行电子设备的各种功能和处理数据。
[0170]
所述通信总线12可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述通信总线12总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0171]
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0172]
例如,尽管未示出,所述电子设备还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备还可以包括多种传感器、蓝牙模块、wi-fi模块等,在此不再赘述。
[0173]
可选地,所述通信接口13可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等),通常用于在该电子设备与其他电子设备之间建立通信连接。
[0174]
可选地,所述通信接口13还可以包括用户接口,用户接口可以是显示器(display)、输入单元(比如键盘(keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。
[0175]
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
[0176]
所述电子设备中的所述存储器11存储的光学字符识别模型训练程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
[0177]
获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,将所述原始图片集和所述原始数据集存入预设的消息队列通道中;
[0178]
当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集;
[0179]
获取所述正样本数据集对应的真实字符标注集及所述负样本数据集对应的错误字符标注集,其中,所述错误字符标注集实时动态更新;
[0180]
将所述正样本数据集、所述负样本数据集及所述原始图片集作为训练数据集输入至预设的光学字符识别模型,利用所述光学字符识别模型识别所述训练数据集的预测字符集;
[0181]
通过计算获取所述预测字符集与所述真实字符标注集及所述错误字符标注集的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
[0182]
具体地,所述处理器10对上述计算机程序的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
[0183]
进一步地,所述电子设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取介质中。所述计算机可读介质可以是非易失性的,也可以是易失性的。所述计算机可读介质可以包括:能够携待所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0184]
本发明实施例还可以提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序在被电子设备的处理器所执行时,可以实现:
[0185]
获取实际生产中的原始图片集及所述原始图片集对应的原始数据集,将所述原始图片集和所述原始数据集存入预设的消息队列通道中;
[0186]
当预设的搜索引擎空闲时,利用所述搜索引擎从所述消息队列通道中获取所述原始图片集对应的原始数据集,并对所述原始数据集进行错误数据筛选,确定筛选出的错误数据组成负样本数据集,以及所述错误数据以外的非错误数据组成正样本数据集;
[0187]
获取所述正样本数据集对应的真实字符标注集及所述负样本数据集对应的错误字符标注集,其中,所述错误字符标注集实时动态更新;
[0188]
将所述正样本数据集、所述负样本数据集及所述原始图片集作为训练数据集输入至预设的光学字符识别模型,利用所述光学字符识别模型识别所述训练数据集的预测字符集;
[0189]
通过计算获取所述预测字符集与所述真实字符标注集及所述错误字符标注集的损失值,若所述损失值不满足预设条件,调整所述光学字符识别模型的参数,直到所述损失值满足所述预设条件,得到训练完成的光学字符识别模型。
[0190]
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,
存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
[0191]
在本发明所提供的几个实施例中,应该理解到,所揭露的介质、设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
[0192]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0193]
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
[0194]
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
[0195]
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0196]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0197]
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
[0198]
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1