文本识别方法、装置、电子设备及存储介质与流程

文档序号:30842385发布日期:2022-07-23 00:57阅读:109来源:国知局
文本识别方法、装置、电子设备及存储介质与流程

1.本公开涉及人工智能技术领域,具体涉及深度学习、图像处理、计算机视觉技术领域,可应用于ocr(光学字符识别)等场景。


背景技术:

2.目前对图片进行文本识别的方法有两种,一种是利用人工对图片中的文字进行识别,需要大量的人力成本,且当数据量较大时,错误率也会提高且效率较低,另一种是利用文本识别模型对图片中的文字进行识别,但是识别的准确率较低。


技术实现要素:

3.本公开提供了一种文本识别方法、装置、电子设备及存储介质。
4.根据本公开的一方面,提供了一种文本识别方法,包括:
5.对获取的待识别图片进行包含第一对象的第一区域识别,得到多个第一区域和所述第一区域对应的第一对象置信度,并从所述第一区域中提取特征,得到所述第一区域对应的第一特征数据;
6.从样本库中获取第一文本对应的第二特征数据,所述第二特征数据为对所述第一文本在所属图片中对应的第一区域进行特征提取得到的,所述样本库中包括多个第一文本;
7.根据所述第一特征数据和第二特征数据,分别计算所述第一区域与多个所述第一文本之间的相似度;
8.基于所述相似度从所述多个第一区域中确定目标第一区域;
9.基于所述目标第一区域和所述相似度确定所述待识别图片的目标文本。
10.根据本公开的另一方面,提供了一种文本识别装置,包括:
11.识别模块,用于对获取的待识别图片进行包含第一对象的第一区域识别,得到多个第一区域和所述第一区域对应的第一对象置信度,并从所述第一区域中提取特征,得到所述第一区域对应的第一特征数据;
12.处理模块,用于从样本库中获取第一文本对应的第二特征数据,所述第二特征数据为对所述第一文本在所属图片中对应的第一区域进行特征提取得到的,所述样本库中包括多个第一文本;
13.计算模块,用于根据所述第一特征数据和第二特征数据,分别计算所述第一区域与多个所述第一文本之间的相似度;
14.所述处理模块,还用于基于所述相似度从所述多个第一区域中确定目标第一区域;
15.所述处理模块,还用于基于所述目标第一区域和所述相似度确定所述待识别图片的目标文本。
16.根据本公开的另一方面,提供了一种电子设备,包括:
17.至少一个处理器;以及
18.与所述至少一个处理器通信连接的存储器;其中,
19.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的方法。
20.根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述任一项所述的方法。
21.根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述任一项所述的方法。
22.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
23.附图用于更好地理解本方案,不构成对本公开的限定。其中:
24.图1是根据本公开实施例提供的文本识别方法的流程示意图;
25.图2是根据本公开实施例提供的对原始图片进行角度矫正的流程示意图;
26.图3是根据本公开实施例提供的另一种文本识别方法的流程示意图;
27.图4是根据本公开实施例提供的确定目标文本的流程示意图;
28.图5是根据本公开实施例提供的另一种文本识别方法的流程示意图;
29.图6是根据本公开实施例提供的另一种文本识别方法的流程示意图;
30.图7是根据本公开实施例提供的对文本进行纠错的流程示意图;
31.图8是根据本公开实施例提供的对第二文本的文本置信度进行更新的流程示意图;
32.图9是根据本公开实施例提供的另一种文本识别方法的流程示意图;
33.图10是根据本公开实施例提供的另一种文本识别方法的流程示意图;
34.图11是根据本公开实施例提供的第二区域与文本区域匹配示意图;
35.图12是根据本公开实施例提供的文本识别装置的结构示意图;
36.图13是用来实现本公开实施例的文本识别方法的电子设备的框图。
具体实施方式
37.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
38.目前对图片中的文本进行识别需要消耗大量的人力成本,同时存在识别准确度和识别效率不足等问题,为了提高识别文本的准确度和效率,减少人力成本,如图1所示,本公开一实施例提供了一种文本识别方法,该方法包括:
39.步骤101,对获取的待识别图片进行包含第一对象的第一区域识别,得到多个第一区域和所述第一区域对应的第一对象置信度,并从所述第一区域中提取特征,得到所述第一区域对应的第一特征数据。
40.利用预先训练好的yolov3(you only look once version 3,你只看一次第三版)检测模型(一种目标检测模型)对获取的待识别图片进行包含第一对象的第一区域识别,输出多个第一区域和每个第一区域对应的第一对象置信度,第一区域为长方形,通过第一区域的4个顶点中对角的2个顶点坐标来表示,第一对象为标识或者logo(logotype,商标)等;
41.例如,某个第一区域的4个顶点坐标为(x1,y1)、(x2,y2)、(x3,y3)和(x4,y4),则该第一区域可以用左上角顶点坐标(x1,y1)和右下角顶点坐标(x3,y3)来表示,因为第一区域为长方形,所以在预设的坐标系中找到该2个坐标即可得到该第一区域;
42.第一对象置信度表征对应的第一区域为目标文本所在区域的可能性,对应的第一对象置信度越高,则该第一区域为目标文本所在区域的可能性越高;
43.例如,某个第一区域对应的第一对象置信度为0.8,另一个第一区域对应的第一对象置信度为0.6,则第一对象置信度为0.8的第一区域为目标文本所在区域的可能性要比第一对象置信度为0.6的第一区域为目标文本所在区域的可能性要高;
44.然后利用预先训练好的resnet101_nas_int8(residual network 101_nas_int8,101层残差网络_神经结构搜索_参数8位有符号整型量化)模型(一种残差网络模型)从每个第一区域中提取特征,每个第一区域都能提取出对应的一个第一特征数据,第一特征数据为512维的特征数据。
45.步骤102,从样本库中获取第一文本对应的第二特征数据,所述第二特征数据为对所述第一文本在所属图片中对应的第一区域进行特征提取得到的,所述样本库中包括多个第一文本。
46.在本实施例中,预先从市面上收集多个图片,对每个图片进行第一区域识别,得到该图片对应的多个第一区域,确定出该图片对应的多个第一区域中包含目标文本的第一区域作为该图片一一对应的目标第一区域,通过训练好的resnet101_nas_int8模型从该图片中一一对应的目标第一区域中提取出一个第二特征数据,并识别出该图片正确的目标文本作为该图片的第一文本,将该图片和该图片对应的第二特征数据、第一文本保存在样本库中;
47.获取样本库中的所有第一文本和每个第一文本对应的第二特征数据。
48.步骤103,根据所述第一特征数据和第二特征数据,分别计算所述第一区域与多个所述第一文本之间的相似度。
49.将每个第一特征数据分别与样本库中所有的第二特征数据进行乘积,以计算每个第一区域与每个第一文本之间的相似度;
50.例如,在步骤101中得到了3个第一特征数据,样本库中有100个第二特征数据,则每个第一特征数据都与样本库中的100个第二特征数据进行乘积,每个第一特征数据都计算出与样本库中100个第二特征数据对应的相似度,即每个第一区域都有100个相似度。
51.步骤104,基于所述相似度从所述多个第一区域中确定目标第一区域。
52.步骤105,基于所述目标第一区域和所述相似度确定所述待识别图片的目标文本。
53.通过对待识别图片进行包含第一对象的第一区域识别,能够准确地得到待识别图片中的多个第一区域和每个第一区域对应的第一对象置信度,再从第一区域中提取第一特征数据,将第一特征数据与样本库中的每个第二特征数据计算相似度,从而计算该第一特征数据对应的第一区域与每个第二特征数据对应的第一文本之间的相似度,得到每个第一
区域对应的多个相似度,基于相似度从所述多个第一区域中确定目标第一区域,再基于目标第一区域和相似度确定待识别图片的目标文本,基于相似度确定出的目标第一区域为目标文本所在区域的可能性非常高,而基于目标第一区域和该目标第一区域的相似度确定出目标文本能够提高识别文本的准确度,且本方法无需人工参与,提高了对文本识别的效率,减少了人力成本。
54.如图2所示,本公开一实施例还提供了对原始图片进行角度矫正的方法,该方法包括:
55.步骤201,采集原始图片。
56.步骤202,对所述原始图片进行旋转角度识别,得到旋转角度。
57.利用预先训练好的resnet18(18层残差网络)模型(一种残差网络模型)对原始图片进行旋转角度识别,得到旋转角度;
58.例如某个原始图片往顺时针方向倾斜了90度,则模型对该原始图片进行旋转角度识别后输出“+90”。
59.步骤203,根据所述旋转角度对所述原始图片进行倾斜矫正,得到待识别图片。
60.根据旋转角度对原始图片进行倾斜矫正,得到待识别图片;
61.例如,模型对某个原始图片进行旋转角度识别后输出“+90”,则说明该原始图片往顺时针方向倾斜了90度,则需要将该原始图片往逆时针方向旋转90度,才能使得该原始图片转正;
62.拍摄的原始图片通常并不是正向的,对此类图片直接进行第一区域识别或者文字识别,得到的结果往往不够准确,所以在对原始图片进行第一区域识别或者文字识别之前,利用模型识别原始图片的旋转角度,并根据旋转角度对该原始图片进行倾斜矫正,能够提高后续对该原始图片进行第一区域识别或者文字识别的准确度,进一步提高文本识别的准确度。
63.如图3所示,本公开一实施例还提供了另一种文本识别方法,该方法包括:
64.步骤301,从所述第一区域对应的多个相似度中选取最大相似度。
65.对于每个第一区域,从该第一区域对应的多个相似度中选取最大的那个相似度作为该第一区域的最大相似度;
66.例如,某个第一区域对应有3个相似度,分别为0.6、0.5和0.8,那么该第一区域的最大相似度为0.8。
67.步骤302,确定所述多个第一区域中存在至少一个第一区域的所述最大相似度大于等于第一预设值,将所述至少一个第一区域中第一对象置信度最高的第一区域确定为目标第一区域。
68.选取所有最大相似度大于等于第一预设值的第一区域,从这些第一区域中选取出第一对象置信度最高的第一区域作为目标第一区域;
69.例如,有3个第一区域,样本库中有3个第一文本,3个第一区域与3个第一文本的相似度分别为{0.8,0.6,0.4}、{0.9,0.7,0.65}、{0.5,0.7,0.4},则而个第一区域的最大相似度分别为0.8、0.9和0.7,而在本实施例中第一预设值设置为0.8,则最大相似度为0.8和0.9的第一区域符合要求,而最大相似度为0.8的第一区域对应的第一对象置信度为0.8,最大相似度为0.9的第一区域对应的第一对象置信度为0.6,则最大相似度为0.8的第一区域为
该2个最大相似度大于等于第一预设值的第一区域中第一对象置信度最高的第一区域;
70.选取出所有最大相似度大于等于第一预设值的第一区域,再从这些第一区域中选取第一对象置信度最高的第一区域作为目标第一区域,第一对象置信度越高说明该第一区域越有可能为目标文本所在的区域,将这些第一区域中选取第一对象置信度最高的第一区域作为目标第一区域能够进一步提高识别文本的准确度。
71.如图4所示,本公开一实施例还提供了确定目标文本的方法,该方法包括:
72.步骤401,从所述目标第一区域对应的多个相似度中选取最大相似度。
73.从目标第一区域对应的多个相似度中选取最大相似度;
74.例如,目标第一区域对应有3个相似度,分别为0.6、0.5和0.8,其中最大的相似度为0.8,则将该相似度0.8即为目标第一区域的最大相似度。
75.步骤402,将所述最大相似度对应的第一文本确定为所述待识别图片的目标文本。
76.相似度能够表征第一区域和第一文本之间的关联度,相似度越大,则第一区域为目标文本所在区域的可能性越高,所以将目标第一区域的最大相似度对应的第一文本确定为待识别图片的目标文本能够进一步提高识别文本的准确度。
77.如图5所示,本公开一实施例还提供了另一种文本识别方法,该方法包括:
78.步骤501,对于所述第一区域的所述多个相似度,按照从高到低排序,选取所述第一区域对应预设数量的相似度。
79.如果确定不存在任意一个第一区域的最大相似度大于等于第一预设值,则将每个第一区域的多个相似度按照从高到低排序,并选取该第一区域对应的预设数量的相似度;
80.例如,在本实施例中,预设数量为2,有2个第一区域和3个第一文本,第一个第一区域对应的第一特征数据与3个第一文本对应的第二特征数据的相似度分别为{0.75,0.76,0.4},第二个第一区域对应的第一特征数据与3个第一文本对应的第二特征数据的相似度分别为{0.65,0.7,0.6},则按照相似度从高到低排序,则第一个第一区域对应的第一特征数据与3个第二特征数据的多个相似度按照相似度从高到低进行排序,并选取2个,分别为0.76和0.75,第二个第一区域对应的第一特征数据与3个第一文本对应的第二特征数据的多个相似度按照相似度从高到低进行排序,并选取2个,分别为0.7和0.65。
81.步骤502,确定满足第一设定条件的第一区域,所述第一设定条件包括:第一区域对应的预设数量的相似度所对应的多个第一文本相同,且所述预设数量的相似度均大于等于第二预设值,所述第二预设值小于第一预设值。
82.将每个第一区域的多个相似度中按照从高到低进行排序并选取的预设数量的相似度对应的第一文本进行对比,判断它们是否相同,并且判断该预设数量的相似度是否均大于等于第二预设值,确定出满足第一设定条件的至少一个第一区域;
83.例如,在本实施例中预设数量为2,有3个第一区域,样本库中有3个第一文本,3个第一区域对应的第一特征数据与3个第一文本对应的第二特征数据的相似度分别为{0.76,0.75,0.4}、{0.65,0.7,0.6}、{0.5,0.7,0.6},而第二预设值设置为0.75,3个第一文本分别为“超实惠超市”、“超实惠超市”和“超实惠小卖部”,对应的相似度为{0.76,0.75,0.4}的第一区域中按照从高到低进行排序并选取的预设数量的相似度为0.76和0.75,对应的第一文本均为“超实惠超市”,所以该第一特征数据满足第一设定条件,对应的相似度为{0.65,0.7,0.6}的第一区域中按照从高到低进行排序并选取的预设数量的相似度为0.7和0.65,
对应的第一文本均为“超实惠超市”,所以该第一特征数据也满足第一设定条件,而对应的相似度为{0.5,0.7,0.6}的第一区域中按照从高到低进行排序并选取的预设数量的相似度为0.7和0.6,对应的第一文本分别为“超实惠超市”和“超实惠小卖部”,所以该第一特征数据不满足第一设定条件。
84.步骤503,将所述满足第一设定条件的第一区域中第一对象置信度最高的第一区域确定为目标第一区域。
85.将满足第一设定条件的第一区域中第一对象置信度最高的第一区域确定为目标第一区域;
86.例如,存在2个满足第一设定条件的第一区域,第一个第一区域的第一对象置信度为0.8,第二个第一区域的第一对象置信度为0.6,则将第一对象置信度为0.8的第一区域确定为目标第一区域;
87.当不存在任意一个第一区域的最大相似度大于等于第一预设值时,判断是否存在至少一个第一区域的多个相似度中按照按照从高到低进行排序并选取的预设数量的相似度对应的第一文本是相同的,且该第一区域的多个相似度中按照按照从高到低进行排序并选取的预设数量的相似度均大于等于第二预设值,那么说明该第一文本是目标文本的可能性非常高,如果符合这两个条件,说明第一区域满足第一设定条件,将该至少一个第一区域中第一对象置信度最高的那个第一区域确定为目标第一区域,能够进一步提高文本识别的准确度。
88.如图6所示,本公开一实施例还提供了另一种文本识别方法,该方法包括:
89.步骤601,对所述待识别图片进行包含第二对象的第二区域识别,得到多个第二区域以及每个第二区域对应的第二对象置信度。
90.获取待识别图片之后,除了对待识别图片进行包含第一对象的第一区域识别之外,还需要并行对待识别图片进行包含第二对象的第二区域识别和文本识别等操作,第二对象为店面门脸或者店面招牌等;
91.利用预先训练的east四方向检测模型对待识别图片进行第二区域识别,得到多个第二区域和每个第二区域对应的第二对象置信度,第二区域为四边形,通过第二区域的4个顶点来表示,第二区域的顶点坐标所在的坐标系与第一区域的顶点坐标所在的坐标系相同;
92.例如,某个第二区域的4个顶点坐标为(x5,y5)、(x6,y6)、(x7,y7)和(x8,y8),则该第二区域可以用(x5,y5)、(x6,y6)、(x7,y7)、(x8,y8)来表示,因为第二区域为四边形,所以需要用4个顶点来表示,在预设的坐标系中找到该4个坐标,用直线进行连接,即可得到该第二区域;
93.第二对象置信度表征对应的第二区域为目标文本所在区域的可能性,对应的第二对象置信度越高,则该第二区域为目标文本所在区域的可能性越高;
94.例如,某个第二区域对应的第二对象置信度为0.8,另一个第二区域对应的第二对象置信度为0.6,则第二对象置信度为0.8的第二区域为目标文本所在区域的可能性要比第二对象置信度为0.6的第二区域为目标文本所在区域的可能性要高。
95.步骤602,对所述待识别图片进行文本识别,得到多个文本区域和每个文本区域对应的第二文本。
96.利用预先训练好的文本检测识别模型对待识别图片进行文本识别,得到多个文本区域和每个文本区域对应的第二文本,文本区域为长方形,通过文本区域的4个顶点中对角的2个顶点坐标来表示,文本区域的顶点坐标所在的坐标系与第一区域的顶点坐标所在的坐标系相同;
97.例如,某个文本区域的4个顶点坐标为(x9,y9)、(x
10
,y
10
)、(x
11
,y
11
)和(x
12
,y
12
),则该文本区域可以用左上角顶点坐标(x9,y9)和右下角顶点坐标(x
11
,y
11
)来表示,因为文本区域为长方形,所以在预设的坐标系中找到该2个坐标即可得到该文本区域;
98.每个文本区域都有对应的识别出的第二文本;
99.例如,某个文本区域对应的识别出的第二文本为“超实惠超市”。
100.步骤603,对所述第二文本进行语义识别,得到所述第二文本对应的文本信息标签和文本置信度。
101.利用ernie(enhanced representation through knowledge integration,通过知识集成增强表达能力)语义理解模型(一种语义理解模型)对每个第二文本进行语义识别,得到每个第二文本对应的文本信息标签和文本置信度,文本信息标签能够表征该第二文本是否为某些功能性文本;
102.例如,某个第二文本为“13442133443”,则该第二文本被识别后的文本信息标签为“电话”,根据文本信息标签可以确定该第二文本为功能性文本;
103.文本置信度能够表征该第二文本为目标文本的可能性,对应的文本置信度越高,则该第二文本为目标文本的可能性越高;
104.例如,某个第二文本为“超实惠超市”,对应的文本置信度为0.8,而另一个第二文本为“13442133443”,对应的文本置信度为0.3,则内容为“超实惠超市”的第二文本是目标文本的可能性要比内容为“13442133443”的第二文本是目标文本的可能性要高。
105.步骤604,从所述待识别图片对应的所有第二文本中删除满足第二设定条件的第二文本,所述第二设定条件包括:第二文本的文本信息标签指示该第二文本为第一特定文本;或,第二文本的文本置信度小于第三预设值;或,第二文本对应的文本区域的面积小于第四预设值。
106.如果通过第一区域识别和后续计算得到的第一特征数据中没有符合要求的,那么需要对文本区域识别中得到的结果进行处理从而获取目标文本;
107.从待识别图片对应的所有第二文本中删除满足第二设定条件的第二文本,第二设定条件为:第二文本的文本信息标签指示该第二文本为第一特定文本、第二文本的文本置信度小于第三预设值或者第二文本对应的文本区域的面积小于第四预设值;
108.第二文本的文本信息标签指示该第二文本为第一特定文本是指将所有第二文本中根据对应的文本信息标签被确定为第一特定文本的第二文本去除,第一特定文本是指第二文本为功能性文本,比如电话、地址、冠名商之类的;
109.例如,某个第二文本为“13442133443”,该第二文本被识别后的文本信息标签为“电话”,则说明该第二文本为第一特定文本,需要去除;
110.再例如,某个第二文本为“翻斗大街翻斗花园二号楼1001室”,该第二文本被识别后的文本信息标签为“地址”,则说明该第二文本为第一特定文本,需要去除;
111.第二文本的文本置信度小于第三预设值是指将所有第二文本中文本置信度小于
第三预设值的第二文本去除;
112.文本置信度过低说明该第二文本为目标文本的可能性非常低,需要去除;
113.例如,第三预设值设置为0.5,某个第二文本的文本置信度为0.4,小于第三预设值,需要去除;
114.第二文本对应的文本区域的面积小于第四预设值是指将所有第二文本中对应的文本区域的面积小于第四预设值的第二文本去除;
115.一般情况下,用户都会把目标文本设置为非常大的一块区域,所以文本区域的面积过小说明该文本为目标文本的可能性非常低,需要去除;
116.例如,第四预设值设置为50%,某个第二文本对应的文本区域的面积小于待识别图片面积的50%,需要去除。
117.步骤605,对剩余的第二文本去重,并将去重后的第二文本确定为第三文本。
118.对于剩余的第二文本进行去重,将去重后剩余的第二文本确定为第三文本;
119.例如,剩余有三个第二文本,分别为“超实惠超市”、“超实惠超市”和“超市”,第一个和第二个第二文本均为“超实惠超市”,则删除掉该两个第二文本中的任意一个,将剩余的第二文本“超实惠超市”和“超市”确定为第三文本;
120.优选的,剩余有三个第二文本,分别为“超实惠超市”、“超实惠超市”和“超市”,第一个和第二个第二文本均为“超实惠超市”,则对该两个第二文本对应的文本置信度进行对比,可以选择文本置信度较低的第二文本进行删除,也可以选择文本置信度较高的第二文本进行删除,也可将重复的第二文本的文本置信度计算平均值,将平均值作为保留的第二文本的文本置信度,可根据具体情况进行选择。
121.步骤606,根据第三文本的文本内容确定存在至少一个第三文本为第二特定文本,从所述至少一个第三文本中选取文本置信度最高的第三文本作为所述待识别图片的目标文本。
122.判断所有第三文本中是否存在至少一个为第二特定文本的第三文本,第二特定文本是指第三文本中是否存在类似“超市”、“商店”、“便利店”等特定文本;
123.例如,某个第三文本为“超实惠超市”,则说明该第三文本为第二特定文本;
124.如果存在至少一个为第二特定文本的第三文本,则选择这些第三文本中文本置信度最高的第三文本作为目标文本;
125.通过多种方法去除第二文本中是目标文本的可能性非常低的第二文本后,将剩下的第二文本确定为第三文本,目标文本一般都是“某某超市”、“某某商店”、“某某便利店”等文本的字样,所以将第三文本中被确定为第二特定文本的第三文本中文本置信度最高的第三文本作为目标文本能够显著提高文本识别的准确度。
126.如图7所示,本公开一实施例还提供了对文本进行纠错的方法,该方法包括:
127.步骤701,对所述第二文本进行文本纠错,得到所述第二文本的纠错置信度和与所述第二文本对应的多个第四文本以及每个第四文本的纠错置信度。
128.在得到了多个文本区域和每个文本区域对应的第二文本之后,还可以利用预先根据现有的目标文本进行训练后的nlp语言模型对每个第二文本进行文本纠错,得到每个第二文本的纠错置信度和与每个第二文本对应的多个第四文本以及每个第四文本的纠错置信度;
129.例如,某个第二文本为“李奶奶蔬莱超市”,利用模型对该第二文本进行纠错后,得到两个第四文本分为为“李奶奶蔬菜超市”和“李妈妈蔬菜超市”,得到该第二文本的纠错置信度为0.8,得到内容为“李奶奶蔬菜超市”的第四文本的纠错置信度为0.9,得到内容为“李妈妈蔬菜超市”的第四文本的纠错置信度为0.75。
130.步骤702,确定纠错置信度最高的所述第四文本的纠错置信度大于所述第二文本的纠错置信度,将该第二文本更新为该第四文本。
131.判断每个第二文本对应的纠错置信度最高的第四文本的纠错置信度是否大于该第二文本本身的纠错置信度;
132.例如,某个第二文本为“李奶奶蔬莱超市”,利用模型对该第二文本进行纠错后,得到两个第四文本分为为“李奶奶蔬菜超市”和“李妈妈蔬菜超市”,得到该第二文本的纠错置信度为0.8,得到内容为“李奶奶蔬菜超市”的第四文本的纠错置信度为0.9,得到内容为“李妈妈蔬菜超市”的第四文本的纠错置信度为0.75,该第二文本对应的纠错置信度最高的第四文本为“李奶奶蔬菜超市”,并且该第四文本的纠错置信度为0.9,比该第二文本要高,说明该第四文本的内容比第二文本的内容可信度更高,则将该第四文本替换掉该第二文本;
133.通过对每个第二文本进行纠错,将得到的第四文本中纠错置信度比对应的第二文本的纠错置信度要高的第四文本替换掉该第二文本,进一步提高了文本识别的准确度。
134.如图8所示,本公开一实施例还提供了对第二文本的文本置信度进行更新的方法,该方法包括:
135.步骤801,将所述第二文本的文本区域与所述多个第二区域进行匹配,确定存在至少一个第二区域与该文本区域的重叠面积大于第一预设百分比,将该文本区域的文本置信度更新为第五预设值。
136.将每个第二文本的文本区域与多个第二区域进行匹配,将文本区域与第二区域重叠面积大于第一预设百分比的第二文本的文本置信度设置为第三预设值;
137.例如,有3个第二区域和3个第二文本,将第一个第二文本的文本区域与3个第二区域都进行匹配,然后将第二个第二文本的文本区域与3个第二区域都进行匹配,最后将第三个第二文本的文本区域与3个第二区域都进行匹配;
138.每次匹配时,如图11所示,图11中的四边形区域为第二区域,长方形区域为文本区域,图11中该次匹配的第二区域与文本区域的重叠面积为阴影部分,为0.6,而第一预设百分比设置为0.5,重叠面积大于第一预设百分比,则该次匹配成功,将该文本区域对应的第二文本的文本置信度设置为第三预设值;
139.通过将第二区域和文本区域根据重叠面积进行匹配,将匹配成功的文本区域对应的第二文本的文本置信度设置为第三预设值,能够将原来只能表征对应的第二文本为目标文本的可能性改为既能表征对应的第二文本为目标文本的可能性,又能表征对应的第二文本匹配的第二区域为目标文本所在区域的可能性,提高了文本置信度的可信度,进一步提高了对文本识别的准确度。
140.如图9所示,本公开一实施例还提供了另一种文本识别方法,该方法包括:
141.步骤901,确定满足如下条件的第三文本:所述多个第二区域中存在至少一个第二区域与第三文本对应的文本区域重叠面积大于第一预设百分比。
142.如果第三文本中不存在任意一个为第二特定文本的第三文本,那么将每个第三文
本的文本区域与多个第二区域进行匹配,选取出文本区域与第二区域重叠面积大于第一预设百分比的第三文本,第三文本可能有多个重叠面积与该第三文本的文本区域大于第一预设百分比的第二区域。
143.步骤902,从满足条件的所述第三文本对应的所述至少一个第二区域中选取第二区域宽度最大的第二区域作为所述第三文本的匹配第二区域。
144.从满足条件的第三文本也就是文本区域与第二区域重叠面积大于第一预设百分比的第三文本中选取与该第三文本的文本区域重叠面积大于第一预设百分比的至少一个第二区域中选取第二区域宽度最大的第二区域作为该第三文本的匹配第二区域。
145.步骤903,将第二区域宽度最大的匹配第二区域对应的第三文本作为所述待识别图片的目标文本。
146.将第二区域宽度最大的匹配第二区域对应的第三文本作为待识别图片的目标文本;
147.一般情况下,用户都会将目标文本所在的区域设置为最宽的部分,使得目标文本比较显眼,所以将每个第三文本的文本区域分别与所有第二区域进行匹配,选取出每个第三文本对应的与该第三文本的文本区域重叠面积大于第一预设百分比的至少一个第二区域,然后选取出每个第三文本对应的与该第三文本的文本区域重叠面积大于第一预设百分比的至少一个第二区域中第二区域宽度最大的第二区域作为该第三文本的匹配第二区域,而将对应的匹配第二区域的第二区域宽度最大的第三文本确定为目标文本可以在第三文本中不存在为第二特定文本的情况下确定可能性较高的第三文本作为待识别图片的目标文本,不仅提高了文本识别的准确度,还提高了整体的稳定性。
148.如图10所示,本公开一实施例提供了另一种文本识别方法,该方法包括:
149.步骤1001,采集原始图片。
150.步骤1002,对所述原始图片进行旋转角度识别,得到旋转角度。
151.步骤1003,根据所述旋转角度对所述原始图片进行倾斜矫正,得到待识别图片。
152.在步骤1003之后并行执行步骤1004到步骤1006和步骤1007到步骤1012两个对待识别图片进行识别的方法。
153.步骤1004,对获取的待识别图片进行包含第一对象的第一区域识别,得到多个第一区域和所述第一区域对应的第一对象置信度,并从所述第一区域中提取特征,得到所述第一区域对应的第一特征数据。
154.步骤1005,从样本库中获取第一文本对应的第二特征数据,所述第二特征数据为对所述第一文本在所属图片中对应的第一区域进行特征提取得到的,所述样本库中包括多个第一文本。
155.步骤1006,根据所述第一特征数据和第二特征数据,分别计算所述第一区域与多个所述第一文本之间的相似度。
156.步骤1007,对所述待识别图片进行包含第二对象的第二区域识别,得到多个第二区域以及每个第二区域对应的第二对象置信度。
157.步骤1008,对所述待识别图片进行文本识别,得到多个文本区域和每个文本区域对应的第二文本。
158.步骤1009,对所述第二文本进行文本纠错,得到所述第二文本的纠错置信度和与
所述第二文本对应的多个第四文本以及每个第四文本的纠错置信度。
159.步骤1010,确定纠错置信度最高的所述第四文本的纠错置信度大于所述第二文本的纠错置信度,将该第二文本更新为该第四文本。
160.步骤1011,对所述第二文本进行语义识别,得到所述第二文本对应的文本信息标签和文本置信度。
161.步骤1012,将所述第二文本的文本区域与所述多个第二区域进行匹配,确定存在至少一个第二区域与该文本区域的重叠面积大于第一预设百分比,将该文本区域的文本置信度更新为第五预设值。
162.在执行完步骤1006和步骤1012后继续执行步骤1013。
163.步骤1013,从所述第一区域对应的多个相似度中选取最大相似度。
164.步骤1014,判断所述多个第一区域中是否存在至少一个第一区域的所述最大相似度大于等于第一预设值
165.在步骤1014中执行的判断,若存在,则执行步骤1015到步骤1016。
166.步骤1015,将所述至少一个第一区域中第一对象置信度最高的第一区域确定为目标第一区域。
167.步骤1016,将所述目标第一区域的最大相似度对应的第一文本确定为所述待识别图片的目标文本。
168.若不存在,则执行步骤1017。
169.步骤1017,对于所述第一区域的所述多个相似度,按照从高到低排序,选取所述第一区域对应预设数量的相似度。
170.执行步骤1017之后继续执行步骤1018。
171.步骤1018,判断是否存在至少一个满足第一设定条件的第一区域;
172.第一设定条件包括:第一区域对应的预设数量的相似度所对应的多个第一文本相同,且所述预设数量的相似度均大于等于第二预设值,所述第二预设值小于第一预设值。
173.在步骤1018中执行的判断,若存在,则执行步骤1019到步骤1020。
174.步骤1019,将所述满足第一设定条件的第一区域中第一对象置信度最高的第一区域确定为目标第一区域。
175.步骤1020,将所述目标第一区域的最大相似度对应的第一文本确定为所述待识别图片的目标文本。
176.若不存在,则执行步骤1021到步骤1023。
177.步骤1021,从所述待识别图片对应的所有第二文本中删除满足第二设定条件的第二文本;
178.第二设定条件包括:第二文本的文本信息标签指示该第二文本为第一特定文本;或,第二文本的文本置信度小于第三预设值;或,第二文本对应的文本区域的面积小于第四预设值。
179.步骤1022,对剩余的第二文本去重,并将去重后的第二文本确定为第三文本。
180.步骤1023,判断是否存在至少一个为第二特定文本的第三文本。
181.在步骤1023执行的判断中,若存在,则执行步骤1024。
182.步骤1024,从所述至少一个第三文本中选取文本置信度最高的第三文本作为所述
待识别图片的目标文本。
183.若不存在,则执行步骤1025到步骤1027。
184.步骤1025,确定满足如下条件的第三文本:所述多个第二区域中存在至少一个第二区域与第三文本对应的文本区域重叠面积大于第一预设百分比。
185.步骤1026,从满足条件的所述第三文本对应的所述至少一个第二区域中选取第二区域宽度最大的第二区域作为所述第三文本的匹配第二区域。
186.步骤1027,将第二区域宽度最大的匹配第二区域对应的第三文本作为所述待识别图片的目标文本。
187.本公开一实施例提供了一种文本识别装置,如图12所示,该装置包括:
188.识别模块10,用于对获取的待识别图片进行包含第一对象的第一区域识别,得到多个第一区域和所述第一区域对应的第一对象置信度,并从所述第一区域中提取特征,得到所述第一区域对应的第一特征数据;
189.处理模块20,用于从样本库中获取第一文本对应的第二特征数据,所述第二特征数据为对所述第一文本在所属图片中对应的第一区域进行特征提取得到的,所述样本库中包括多个第一文本;
190.计算模块30,用于根据所述第一特征数据和第二特征数据,分别计算所述第一区域与多个所述第一文本之间的相似度;
191.所述处理模块20,还用于基于所述相似度从所述多个第一区域中确定目标第一区域;
192.所述处理模块20,还用于基于所述目标第一区域和所述相似度确定所述待识别图片的目标文本。
193.其中,还包括:
194.采集模块40,用于采集原始图片;
195.所述识别模块10,还用于对所述原始图片进行旋转角度识别,得到旋转角度;
196.所述处理模块20,还用于根据所述旋转角度对所述原始图片进行倾斜矫正,得到待识别图片。
197.其中,所述处理模块20,还用于从所述第一区域对应的多个相似度中选取最大相似度;
198.所述处理模块20,还用于确定所述多个第一区域中存在至少一个第一区域的所述最大相似度大于等于第一预设值,将所述至少一个第一区域中第一对象置信度最高的第一区域确定为目标第一区域。
199.其中,所述处理模块20,还用于从所述目标第一区域对应的多个相似度中选取最大相似度;
200.所述处理模块20,还用于将所述最大相似度对应的第一文本确定为所述待识别图片的目标文本。
201.其中,所述处理模块20,还用于对于所述第一区域的所述多个相似度,按照从高到低排序,选取所述第一区域对应预设数量的相似度;
202.所述处理模块20,还用于确定满足第一设定条件的第一区域,所述第一设定条件包括:第一区域对应的预设数量的相似度所对应的多个第一文本相同,且所述预设数量的
相似度均大于等于第二预设值,所述第二预设值小于第一预设值;
203.所述处理模块20,还用于将所述满足第一设定条件的第一区域中第一对象置信度最高的第一区域确定为目标第一区域。
204.其中,所述识别模块10,还用于对所述待识别图片进行包含第二对象的第二区域识别,得到多个第二区域以及每个第二区域对应的第二对象置信度;
205.所述识别模块10,还用于对所述待识别图片进行文本识别,得到多个文本区域和每个文本区域对应的第二文本;
206.所述识别模块10,还用于对所述第二文本进行语义识别,得到所述第二文本对应的文本信息标签和文本置信度;
207.所述处理模块20,还用于从所述待识别图片对应的所有第二文本中删除满足第二设定条件的第二文本,所述第二设定条件包括:第二文本的文本信息标签指示该第二文本为第一特定文本;或,第二文本的文本置信度小于第三预设值;或,第二文本对应的文本区域的面积小于第四预设值;
208.所述处理模块20,还用于对剩余的第二文本去重,并将去重后的第二文本确定为第三文本;
209.所述处理模块20,还用于根据第三文本的文本内容确定存在至少一个第三文本为第二特定文本,从所述至少一个第三文本中选取文本置信度最高的第三文本作为所述待识别图片的目标文本。
210.其中,所述处理模块20,还用于对所述第二文本进行文本纠错,得到所述第二文本的纠错置信度和与所述第二文本对应的多个第四文本以及每个第四文本的纠错置信度;
211.所述处理模块20,还用于确定纠错置信度最高的所述第四文本的纠错置信度大于所述第二文本的纠错置信度,将该第二文本更新为该第四文本。
212.其中,所述处理模块20,还用于将所述第二文本的文本区域与所述多个第二区域进行匹配,确定存在至少一个第二区域与该文本区域的重叠面积大于第一预设百分比,将该文本区域的文本置信度更新为第五预设值。
213.其中,所述处理模块20,还用于确定满足如下条件的第三文本:所述多个第二区域中存在至少一个第二区域与第三文本对应的文本区域重叠面积大于第一预设百分比;
214.所述处理模块20,还用于从满足条件的所述第三文本对应的所述至少一个第二区域中选取第二区域宽度最大的第二区域作为所述第三文本的匹配第二区域;
215.所述处理模块20,还用于将第二区域宽度最大的匹配第二区域对应的第三文本作为所述待识别图片的目标文本。
216.本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
217.根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
218.图13示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计
算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
219.如图13所示,设备1100包括计算单元1101,其可以根据存储在只读存储器(rom)1102中的计算机程序或者从存储单元1108加载到随机访问存储器(ram)1103中的计算机程序,来执行各种适当的动作和处理。在ram 1103中,还可存储设备1100操作所需的各种程序和数据。计算单元1101、rom 1102以及ram 1103通过总线1104彼此相连。输入/输出(i/o)接口1105也连接至总线1104。
220.设备1100中的多个部件连接至i/o接口1105,包括:输入单元1106,例如键盘、鼠标等;输出单元1107,例如各种类型的显示器、扬声器等;存储单元1108,例如磁盘、光盘等;以及通信单元1109,例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
221.计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理,例如文本识别方法。例如,在一些实施例中,文本识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1108。在一些实施例中,计算机程序的部分或者全部可以经由rom 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到ram 1103并由计算单元1101执行时,可以执行上文描述的文本识别方法的一个或多个步骤。备选地,在其他实施例中,计算单元1101可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本识别方法。
222.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
223.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
224.在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计
算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
225.为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
226.可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。
227.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
228.应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
229.上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1