票据处理方法、装置、设备及存储介质与流程

文档序号：24412078发布日期：2021-03-26 19:45阅读：140来源：国知局

1.本申请涉及图像处理技术领域，具体而言，涉及一种票据处理方法、装置、设备及存储介质。

背景技术：

2.随着互联网技术的发展，互联网保险业务发展也越来越快。目前，许多保险公司提供了在线理赔的业务，用户可以使用智能终端对单据进行拍摄，然后上传照片。保险公司业务人员收到照片后可以人工识别图片中的信息，然后填写到相应的理赔业务单的表项中，完成后续在线理赔业务的处理。但是，人工处理发票单据的方式效率低下，人均日处理量很有限，并且容易出错。
3.在现有技术中，为了提高票据处理效率，一般会通过ocr(optical character recognition，光学字符识别)技术对票据进行文字识别，但是，传统的ocr技术主要面向高清扫描的图像，要求被识别的图像拥有干净的背景，使用规范的印刷体并具有较高的分辨率。由于票据本身打印精度的限制和实际拍摄条件的影响，ocr技术对大多数票据的识别效果并不理想。

技术实现要素：

4.本申请实施例的目的在于提供一种票据处理方法、装置、设备及存储介质，用以实现提高票据处理效率及准确率。
5.本申请实施例第一方面提供了一种票据处理方法，包括：获取待处理的票据图像；利用矫正网络对所述票据图像中的不规则文本区域进行矫正处理，得到矫正图像；将所述矫正图像输入文字识别网络，得到文字识别结果；利用抽取算法提取所述文字识别结果中的关键信息；将所述关键信息存入预设数据库。
6.于一实施例中，所述利用矫正网络对所述票据图像中的不规则文本区域进行矫正处理，得到矫正图像，包括：确定所述不规则文本区域的第一基准点；计算所述第一基准点与预设基准点的转换参数；基于所述转换参数，在所述不规则文本区域生成像素采样网格；基于所述像素采样网格，进行双线性插值计算，得到所述矫正图像。
7.于一实施例中，还包括：获取样本图像集，所述样本图像集包括多张具有基准点信息和文字信息的样本图像；利用所述样本图像集训练所述矫正网络和所述文字识别网络，直到满足预设终止条件。
8.于一实施例中，所述利用抽取算法提取所述文字识别结果中的关键信息，包括：提取所述文字识别结果的多个特征并进行融合；将融合后的特征输入预先训练的bilstm
‑
crf模型，得到字符预测概率；基于所述字符预测概率，确定所述关键信息。
9.于一实施例中，所述提取所述文字识别结果的多个特征并进行融合，包括：基于所述文字识别结果，确定锚点坐标和文本框的位置信息；计算所述文本框相对于所述锚点坐标的位置特征；提取所述文本框的图像特征和文本特征；对所述文本特征进行编码得到文
本编码；对所述图像特征进行编码得到图像编码；将所述位置特征、所述文本编码和所述图像编码进行特征融合，得到第一融合特征。
10.于一实施例中，所述提取所述文字识别结果的多个特征并进行融合，还包括：计算所述文本框的邻接矩阵；利用多层感知网络提取每个所述文本框的第一特征；对所述第一特征进行图卷积运算，得到第二融合特征。
11.本申请实施例第二方面提供了一种票据处理装置，包括：获取模块，用于获取待处理的票据图像；矫正模块，用于利用矫正网络对所述票据图像中的不规则文本区域进行矫正处理，得到矫正图像；识别模块，用于将所述矫正图像输入文字识别网络，得到文字识别结果；提取模块，用于利用抽取算法提取所述文字识别结果中的关键信息；存储模块，用于将所述关键信息存入预设数据库。
12.于一实施例中，还包括：训练模块，用于获取样本图像集，所述样本图像集包括多张具有基准点信息和文字信息的样本图像，利用所述样本图像集训练所述矫正网络和所述文字识别网络，直到满足预设终止条件。
13.于一实施例中，所述矫正模块用于：确定所述不规则文本区域的第一基准点；计算所述第一基准点与预设基准点的转换参数；基于所述转换参数，在所述不规则文本区域生成像素采样网格；基于所述像素采样网格，进行双线性插值计算，得到所述矫正图像。
14.于一实施例中，所述提取模块用于：提取所述文字识别结果的多个特征并进行融合；将融合后的特征输入预先训练的bilstm
‑
crf模型，得到字符预测概率；基于所述字符预测概率，确定所述关键信息。
15.于一实施例中，所述提取模块具体用于：基于所述文字识别结果，确定锚点坐标和文本框的位置信息；计算所述文本框相对于所述锚点坐标的位置特征；提取所述文本框的图像特征和文本特征；对所述文本特征进行编码得到文本编码；对所述图像特征进行编码得到图像编码；将所述位置特征、所述文本编码和所述图像编码进行特征融合，得到第一融合特征。
16.于一实施例中，所述提取模块具体还用于：计算所述文本框的邻接矩阵；利用多层感知网络提取每个所述文本框的第一特征；对所述第一特征进行图卷积运算，得到第二融合特征。
17.本申请实施例第三方面提供了一种电子设备，包括：存储器，用以存储计算机程序；处理器，用以执行本申请实施例第一方面及其任一实施例的方法。
18.本申请实施例第四方面提供了一种非暂态电子设备可读存储介质，包括：程序，当其藉由电子设备运行时，使得所述电子设备执行本申请实施例第一方面及其任一实施例的方法。
附图说明
19.为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
20.图1为本申请一实施例的电子设备的结构示意图；
erasable programmable read
‑
only memory，eeprom)等。
35.图1所示的电子设备100的结构仅为示意，电子设备100还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
36.如图2所示，其为本申请一实施例的票据处理方法的流程示意图，该方法可由图1所示的电子设备100来执行，以实现对票据进行自动文字识别，提高票据处理效率及准确率。该方法包括如下步骤：
37.步骤210：获取待处理的票据图像。
38.在上述步骤中，待处理的票据图像可以但不限于是发票、快递单、汇款单等单据，可以通过照相机、摄像头、扫描仪等图像采集设备获取票据图像。
39.步骤220：利用矫正网络对票据图像中的不规则文本区域进行矫正处理，得到矫正图像。
40.在上述步骤中，票据图像中的不规则文本区域是指存在弯曲、倾斜、透视等情况的文本所覆盖的区域，矫正网络可以是基于tps(thin plate spines，薄板样条插值)的stn(spatial transformer network，空间变换网络)。stn包括：局部网络(localization network)、采样网格生成器(grid generator)以及采样器(sampler)。
41.步骤230：将矫正图像输入文字识别网络，得到文字识别结果。
42.在上述步骤中，文字识别网络可以基于ctc算法(connectionist temporal classification，时序分类算法)构建。
43.在ctc算法中，对于给定输入特征x，f表示路径映射为结果的函数，l表示中间结果对应的路径，y表示最终输出字符，则y对x的后验概率可以表示为：
[0044][0045]
l对x的后验概率可以表示为：
[0046][0047]
l
t
表示路径l在t时间步时对应的输出字符，而表示在t时间步时选取的字符为l
t
的概率。因此，综合上述两式可得：
[0048][0049]
运用动态规划算法，求得前向和后向概率为：
[0050][0051]
α1(
‑
)＝z1[0052][0053]
α1(y1)＝0，t＞1
[0054]
[0055][0056][0057][0058]
β
t
(y
|y|
‑
t
)＝0，t＞0
[0059][0060]
其中，α
t
(y
′
k
)表示时间步为t时经过字符y
′
k
的所有路径在1
‑
t时刻的概率和，β
t
(y
′
k
)表示时间步为t时经过字符y
′
k
的所有路径在t
‑
t时刻的概率和。
[0061]
后验概率可以简化为：
[0062][0063][0064]
取对数等于路径极大似然，得到损失函数：
[0065]
loss＝l1_ln(p(y|x))
[0066]
最后通过反向传播求导即可训练网络，识别的时候直接取概率最大的路径字符1
t
，得到路径l，通过解码函数f得到真实字符串y，f(l)＝y。
[0067]
f(l1)＝f(
‑‑
taas
‑
t
‑‑
e
‑
)＝taste
[0068]
步骤240：利用抽取算法提取文字识别结果中的关键信息。
[0069]
步骤250：将关键信息存入预设数据库。
[0070]
在上述步骤中，将关键信息按照预设格式存入预设数据库。
[0071]
如图3所示，其为本申请一实施例的票据处理方法的流程示意图，该方法可由图1所示的电子设备100来执行，以实现对票据进行自动文字识别，提高票据处理效率及准确率。该方法包括如下步骤：
[0072]
步骤310：获取待处理的票据图像。详细内容参见上述实施例中对步骤210的描述。
[0073]
步骤320：确定不规则文本区域的第一基准点。
[0074]
在上述步骤中，通过一个有卷积层、池化层和全连接层构成的卷积网络，回归预测出不规则文本区域的第一基准点，每个第一基准点由x和y两个数据组成，因此若人为预设的第一基准点数量若为k个，则该卷积网络有2k个输出，第一基准点可以表示为c＝[c1,c2,...,c
k
]∈r2×
k
。
[0075]
步骤330：计算第一基准点与预设基准点的转换参数。
[0076]
在上述步骤中，预设基准点沿矫正后的水平文本区域的上下边缘均匀分布，表示为c'＝[c'1,c'2,...,c'
k
]∈r2×
k
。则第一基准点与预设基准点进行tps变换的转换参数可以用矩阵表示：
[0077]
[0078][0079]
其中，t表示转换参数，1
k
×1是一个k
×
1的值全是1的行向量，11×
k
同理。r是一个由r
i,j
组成的k
×
k的矩阵，表示c'
i
和c'
j
之间的欧氏距离。
[0080]
步骤340：基于转换参数，在不规则文本区域生成像素采样网格。
[0081]
在上述步骤中，根据转换参数，可以找到矫正后的文本区域的每个像素，在不规则文本区域的对应位置，生成像素采样网格，像素采样网格p＝{p
i
}(i＝1,2,3,...,n)可以采用以下公式计算：
[0082][0083][0084][0085]
其中，d
i,k
表示p'
i
和c'
k
之间的欧氏距离，n为矫正后的文本区域的像素总个数，p
i
表示不规则文本区域的像素点坐标，p'
i
表示矫正后的文本区域的像素点坐标。
[0086]
步骤350：基于像素采样网格，进行双线性插值计算，得到矫正图像。
[0087]
在上述步骤中，采样器会将不规则文本区域在p
i
附近的像素进行双线性插值，插值后的结果就是矫正后的文本区域的像素值。采样器对所有的像素双线性插值计算，最终得到矫正图像。
[0088]
步骤360：将矫正图像输入文字识别网络，得到文字识别结果。详细内容参见上述实施例中对步骤230的描述。
[0089]
步骤370：利用抽取算法提取文字识别结果中的关键信息。详细内容参见上述实施例中对步骤240的描述。
[0090]
步骤380：将关键信息存入预设数据库。详细内容参见上述实施例中对步骤250的描述。
[0091]
于一实施例中的票据处理方法，还包括：获取样本图像集，样本图像集包括多张具有基准点信息和文字信息的样本图像；利用样本图像集训练矫正网络和文字识别网络，直到满足预设终止条件。
[0092]
在上述步骤中，样本图像上预先标注有基准点和文字内容，将样本图像依次输入矫正网络和文字识别网络，计算矫正网络确定的基准点和预先标注的基准点之间的第一误差，以及文字识别网络识别的文字内容和预先标注的文字内容之间的第二误差，根据第一误差和第二误差，对矫正网络和文字识别网络进行迭代训练，知道满足预设终止条件。预设终止条件可以是，迭代次数达到预设次数，也可以是第一误差和第二误差均小于各自的预设阈值，第一误差的预设阈值和第二误差的预设阈值可以相同，也可以不同。
[0093]
如图4所示，其为本申请一实施例的票据处理方法的流程示意图，该方法可由图1所示的电子设备100来执行，以实现对票据进行自动文字识别，提高票据处理效率及准确率。该方法包括如下步骤：
[0094]
步骤410：获取待处理的票据图像。详细内容参见上述实施例中对步骤210的描述。
[0095]
步骤420：利用矫正网络对票据图像中的不规则文本区域进行矫正处理，得到矫正
图像。详细内容参见上述实施例中对步骤220的描述。
[0096]
步骤430：将矫正图像输入文字识别网络，得到文字识别结果。详细内容参见上述实施例中对步骤230的描述。
[0097]
步骤440：提取文字识别结果的多个特征并进行融合。
[0098]
于一实施例中，步骤440：提取文字识别结果的多个特征并进行融合可以包括：基于文字识别结果，确定锚点坐标和文本框的位置信息；计算文本框相对于锚点坐标的位置特征；提取文本框的图像特征和文本特征；对文本特征进行编码得到文本编码；对图像特征进行编码得到图像编码；将位置特征、文本编码和图像编码进行特征融合，得到第一融合特征。
[0099]
在上述步骤中，锚点是指票据图像上的固定字段，即在票据图像上只出现一次且识别结果与预设模板完全匹配的字段，例如医疗发票上有“超封顶金额”“自付二”“自费”等固定字段，可以作为锚点，锚点可以是一个或多个，锚点坐标为该固定字段所覆盖区域的中心坐标。
[0100]
根据锚点坐标和文本框的位置信息，计算文本框相对于锚点坐标的位置特征，文本框的位置信息为文本框的中心坐标，位置特征包括相对位置特征、距离特征和夹角特征，相对位置特征是指文本框的中心坐标和锚点坐标在x轴和y轴的坐标值之差，距离特征是指文本框的中心坐标和锚点坐标的直线距离，夹角特征是指文本框的中心坐标和锚点坐标的连线与预设基准线的夹角，预设基准线可以是x坐标轴或y坐标轴。假设锚点坐标为(1，0)，文本框的位置信息为(2，0),预设基准线为y坐标轴，则位置特征可以表示为
[0101]
可以采用cnn(convolutional neural networks,卷积神经网络)提取图像特征，采用transformer提取文本特征，并分别对图像特征和文本特征进行编码融合。
[0102]
于一实施例中，步骤440：提取文字识别结果的多个特征并进行融合可以包括：计算文本框的邻接矩阵；利用多层感知网络提取每个文本框的第一特征；对第一特征进行图卷积运算，得到第二融合特征。
[0103]
步骤450：将融合后的特征输入预先训练的bilstm
‑
crf模型，得到字符预测概率。
[0104]
在上述步骤中，将第一融合特征和利用图学习网络学习到的第二融合特征输入bilstm(bi
‑
directional long short
‑
term memory，双向长短时记忆循环神经网络)，bilstm的输出可以作为crf(conditional random field，条件随机场)的输入。
[0105]
步骤460：基于字符预测概率，确定关键信息。
[0106]
在上述步骤中，根据字符预测概率，将最大值对应的结果输出，得到关键信息。
[0107]
步骤470：将关键信息存入预设数据库。详细内容参见上述实施例中对步骤250的描述。
[0108]
如图5所示，其为本申请一实施例的票据处理装置500的结构示意图，该装置可应用于图1所示的电子设备100，包括：获取模块510、矫正模块520、识别模块530、提取模块540和存储模块550。各个模块的原理关系如下：
[0109]
获取模块510，用于获取待处理的票据图像；
[0110]
矫正模块520，用于利用矫正网络对票据图像中的不规则文本区域进行矫正处理，得到矫正图像；
[0111]
识别模块530，用于将矫正图像输入文字识别网络，得到文字识别结果；
[0112]
提取模块540，用于利用抽取算法提取文字识别结果中的关键信息；
[0113]
存储模块550，用于将关键信息存入预设数据库。
[0114]
于一实施例中，票据处理装置500还包括：训练模块560，用于获取样本图像集，样本图像集包括多张具有基准点信息和文字信息的样本图像，利用样本图像集训练矫正网络和文字识别网络，直到满足预设终止条件。
[0115]
于一实施例中，矫正模块520用于：确定不规则文本区域的第一基准点；计算第一基准点与预设基准点的转换参数；基于转换参数，在不规则文本区域生成像素采样网格；基于像素采样网格，进行双线性插值计算，得到矫正图像。
[0116]
于一实施例中，提取模块540用于：提取文字识别结果的多个特征并进行融合；将融合后的特征输入预先训练的bilstm
‑
crf模型，得到字符预测概率；基于字符预测概率，确定关键信息。
[0117]
于一实施例中，提取模块540具体用于：基于文字识别结果，确定锚点坐标和文本框的位置信息；计算文本框相对于锚点坐标的位置特征；提取文本框的图像特征和文本特征；对文本特征进行编码得到文本编码；对图像特征进行编码得到图像编码；将位置特征、文本编码和图像编码进行特征融合，得到第一融合特征。
[0118]
于一实施例中，提取模块540具体还用于：计算文本框的邻接矩阵；利用多层感知网络提取每个文本框的第一特征；对第一特征进行图卷积运算，得到第二融合特征。
[0119]
上述票据处理装置500的详细描述，请参见上述实施例中相关方法步骤的描述。
[0120]
本发明实施例还提供了一种电子设备可读存储介质，包括：程序，当其在电子设备上运行时，使得电子设备可执行上述实施例中方法的全部或部分流程。其中，存储介质可为磁盘、光盘、只读存储记忆体(read
‑
only memory，rom)、随机存储记忆体(random access memory，ram)、快闪存储器(flash memory)、硬盘(hard disk drive，缩写：hdd)或固态硬盘(solid
‑
state drive，ssd)等。存储介质还可以包括上述种类的存储器的组合。
[0121]
在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。
[0122]
在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0123]
另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。
[0124]
本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。以上仅为本申请的优选实施例而已，仅用于说明本申请的技术方案，并不用于限制本申请。对于本技术领域
的普通技术人员而言，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈小鹏
技术所有人：上海亿保健康管理有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。