文本识别方法、系统、装置、设备及存储介质与流程

文档序号:32663573发布日期:2022-12-24 00:18阅读:26来源:国知局
文本识别方法、系统、装置、设备及存储介质与流程

1.本发明涉及图像识别技术领域,尤其涉及一种文本识别方法、系统、装置、设备及存储介质。


背景技术:

2.随着工程机械行业的不断发展,企业越来越重视设备的作业安全和高效管理,读取设备的工况数据显得尤其重要。目前,主要的数据读取方式为采用光学字符识别技术实现文本自动识别。具体的,采集工业屏幕的图像,然后对图像进行识别,获得文本信息。但是,图像采集设备采集图像时,容易受到光照变化、设备抖动等因素的干扰,导致采集到的图像模糊或者不完整,进而无法得到完整准确的文本识别结果,降低文本识别结果的准确性。


技术实现要素:

3.本发明提供一种文本识别方法、系统、装置、设备及存储介质,用以解决现有技术中文本识别结果准确性较低的缺陷。
4.本发明提供一种文本识别方法,包括:获取目标识别区域的至少两张待识别图像,其中,每两张所述待识别图像的图像采集时刻相同,且每两张所述待识别图像的图像采集方位不同;分别对每一张所述待识别图像进行文本识别,获得每一张所述待识别图像分别对应的子识别结果;融合每一个所述子识别结果,获得所述目标识别区域对应的文本识别结果。
5.根据本发明提供的一种文本识别方法,所述分别对每一张所述待识别图像进行文本识别,获得每一张所述待识别图像分别对应的子识别结果,包括:对每一张所述待识别图像进行如下处理:检测所述待识别图像中的至少一个文本框,其中,所述文本框为文本所在的框图区域;分别对每一个所述文本框进行文字识别,获得每一个所述文本框分别对应的单元识别结果;基于所述单元识别结果,获取所述待识别图像对应的所述子识别结果。
6.根据本发明提供的一种文本识别方法,所述检测所述待识别图像中的至少一个文本框之后,还包括:获取每一个所述文本框基于所述目标识别区域的位置信息;所述融合每一个所述子识别结果,获得所述目标识别区域对应的文本识别结果,包括:对每两张所述待识别图像进行如下处理:根据所述位置信息,确定第一张所述待识别图像中每一个所述文本框,与第二张所述待识别图像中每一个所述文本框的重叠度;基于所述重叠度,确定第一张所述待识别图像和第二张所述待识别图像不重叠的所述单元识别结果,以及确定第一张所述待识别图像和第二张所述待识别图像重叠的所述单元识别结果;基于每两张所述待识别图像中不重叠的所述单元识别结果和重叠的所述单元识别结果,获得所述目标识别区域对应的所述文本识别结果。
7.根据本发明提供的一种文本识别方法,所述基于所述重叠度,确定第一张所述待识别图像和第二张所述待识别图像不重叠的所述单元识别结果,包括:确定第一张所述待
识别图像中,所述重叠度小于或等于重叠阈值的第一文本框;确定第二张所述待识别图像中,所述重叠度小于或等于所述重叠阈值的第二文本框;确定所述第一文本框对应的所述单元识别结果,和所述第二文本框对应的所述单元识别结果,为不重叠的所述单元识别结果。
8.根据本发明提供的一种文本识别方法,所述确定第一张所述待识别图像和第二张所述待识别图像重叠的所述单元识别结果,包括:确定所述重叠度大于重叠阈值的至少一个文本框对,其中,所述文本框对包括一个第一张所述待识别图像中的所述文本框,和一个第二张所述待识别图像中的所述文本框;融合所述文本框对对应的所述单元识别结果,获得重叠的所述单元识别结果。
9.根据本发明提供的一种文本识别方法,所述分别对每一个所述文本框进行文字识别之后,还包括:获得每一个所述单元识别结果分别对应的识别准确度,其中,所述识别准确度与所述文本框一一对应;所述融合所述文本框对对应的所述单元识别结果,获得重叠的所述单元识别结果,包括:在所述第一张所述待识别图像中所述文本框的单元识别结果,与第二张所述待识别图像中所述文本框的单元识别结果相同的情况下,确定所述第一张所述待识别图像中所述文本框的单元识别结果为重叠的所述单元识别结果;在所述第一张所述待识别图像中所述文本框的单元识别结果,与第二张所述待识别图像中所述文本框的单元识别结果不同的情况下:基于所述文本框对,比较第一识别准确度和第二识别准确度,其中,所述第一识别准确度为第一张所述待识别图像中所述文本框对应的识别准确度,所述第二识别准确度为第二张所述待识别图像中所述文本框对应的识别准确度;当所述第一识别准确度大于或等于所述第二识别准确度时,确定所述第一张所述待识别图像中所述文本框的单元识别结果为重叠的所述单元识别结果;当所述第一识别准确度小于所述第二识别准确度时,确定所述第二张所述待识别图像中所述文本框的单元识别结果为重叠的所述单元识别结果。
10.本发明还提供一种文本识别系统,包括处理器和至少两个图像采集设备,其中,至少两个所述图像采集设备安装于目标识别区域的不同方位;所述图像采集设备,用于采集所述目标识别区域的待识别图像,并将所述待识别图像传输给所述处理器;所述处理器,用于获取目标识别区域的至少两张待识别图像,其中,每两张所述待识别图像的图像采集时刻相同,且每两张所述待识别图像的图像采集方位不同;分别对每一张所述待识别图像进行文本识别,获得每一张所述待识别图像分别对应的子识别结果;融合每一个所述子识别结果,获得所述目标识别区域对应的文本识别结果。
11.本发明还提供一种文本识别装置,包括:获取模块,用于获取目标识别区域的至少两张待识别图像,其中,每两张所述待识别图像的图像采集时刻相同,且每两张所述待识别图像的图像采集方位不同;识别模块,用于分别对每一张所述待识别图像进行文本识别,获得每一张所述待识别图像分别对应的子识别结果;融合模块,用于融合每一个所述子识别结果,获得所述目标识别区域对应的文本识别结果。
12.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述文本识别方法。
13.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算
机程序被处理器执行时实现如上述任一种所述文本识别方法。
14.本发明提供的文本识别方法、系统、装置、设备及存储介质,获取目标识别区域的至少两张待识别图像,然后分别对每一张待识别图像进行文本识别,获得每一张待识别图像分别对应的子识别结果;融合每一个子识别结果,获得目标识别区域对应的文本识别结果。此过程中,至少两张待识别图像的图像采集时刻相同,但图像采集方位不同,通过对不同方位采集的待识别图像进行处理,并将各个待识别图像分别对应的子识别结果进行融合,可以避免由于采用一个图像采集装置采集图像时,光线变化、图像采集设备抖动等因素导致的文本识别结果不完整或不准确的情况,提升文本识别结果的准确性。
附图说明
15.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
16.图1是本发明提供的文本识别方法的流程示意图;
17.图2是本发明提供的摄像头布置方位示例图;
18.图3是本发明提供的摄像头拍摄的有效区域示例图;
19.图4是本发明提供的单元识别结果融合原理示例图;
20.图5是本发明提供的文本识别装置的结构示意图;
21.图6是本发明提供的电子设备的结构示意图。
具体实施方式
22.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
23.在工程机械行业,随着设备的作业安全和高效管理要求不断提升,如何识别设备的工况数据显得尤其重要。在设备作业过程中,准确地读取工况数据,一方面可以与系统读取数据结合后获取设备状态,另一方面可以对友商的设备机型进行监控管理。目前常用的文本识别方式一种是人工识别,但是人工的方式费时费力,准确率低,无法高效的获取工况数据信息。还有一种现有技术是通过固定安装在工业屏幕上方的单个摄像头获取屏幕图像,再通过光学字符识别(optical character recognition,ocr)技术获取工况数据信息,该方式基于深度学习的ocr方法鲁棒性强,识别速度快,能够较好的提取图像中的文字信息,是计算机视觉领域中一个非常重要的研究方向,目前也已经广泛应用于各大领域中。但是,由于作业场景复杂多变,且作业过程中受到的光照也时刻在变化,导致摄像头拍摄到的屏幕图像有不同程度的反光,严重影响到工况数据的识别效果。并且由于设备作业产生的剧烈震动或者操作手碰撞导致摄像头偏离原有位置,最终也会影响识别工况信息的完整性。
24.基于上述现有技术存在的问题,本发明提供一种文本识别方法,以更准确的识别
文本信息。下面结合图1至图4描述本发明的文本识别方法。
25.一个实施例中,如图1所示,文本识别方法实现过程如下:
26.步骤101,获取目标识别区域的至少两张待识别图像,其中,每两张待识别图像的图像采集时刻相同,且每两张待识别图像的图像采集方位不同。
27.本实施例中,目标识别区域指的是需要进行文本识别的区域,该目标识别区域可以为显示工况数据的工业屏幕所在区域,还可以为以其他形式显得的需要进行文本信息的区域。
28.本实施例中,通过采集目标识别区域的图像实现文本识别。具体的,待识别图像为对目标识别区域采集后形成的等待处理的图像。为了避免光线变化、图像采集设备抖动等因素造成的影响,本实施例中从不同方位采集目标识别区域的待识别图像。目标识别区域的各个待识别图像的采集时刻是相同的,这样可以保证不同待识别图像中包含的文本信息是一致的。
29.本实施例中,若由于反光等问题,导致一张待处理图像只有一部分图像区域能够有效体现目标识别区域的真实文本信息。而同一采集时刻不同方位的多张待识别图像,能够互相补充单个图像遗漏的内容,保证文本识别结果的全面性和准确性。
30.步骤102,分别对每一张待识别图像进行文本识别,获得每一张待识别图像分别对应的子识别结果。
31.本实施例中,获得各个待识别图像之后,分别对每一张待识别图像进行文本识别,获得每一张待识别图像分别对应的子识别结果。然后将各个子识别结果进行融合,以保证整体结果的全面性。
32.一个实施例中,分别对每一张待识别图像进行文本识别,获得每一张待识别图像分别对应的子识别结果,具体实现过程如下:
33.对每一张待识别图像进行如下处理:检测待识别图像中的至少一个文本框,其中,文本框为文本所在的框图区域;分别对每一个文本框进行文字识别,获得每一个文本框分别对应的单元识别结果;基于单元识别结果,获取待识别图像对应的子识别结果。
34.本实施例中,为了更为准确的定位每一张待识别图像的有效文本区域,可以直接检测待识别图像中的文本框,其中,文本框指的是文本集中展示所在的框型区域。对于每一张待识别图像而言,检测出该待识别图像中的文本框之后,对每一个文本框进行针对性文本识别,获得单元识别结果,该单元识别结果的文字识别准确性更高。然后根据各个单元识别结果,获得该待识别图像对应的子识别结果,进而通过子识别结果获得最终的文本识别结果。
35.一个实施例中,检测待识别图像中的至少一个文本框时,可以将待识别图像输入至预先设置的文本检测模型,获得文本检测模型输出的待识别图像中的每一个文本框;其中,文本检测模型为采用样本图像数据对原始检测模型进行训练得到,样本图像数据包括n个样本图像,以及n个样本图像中的各个样本文本框,其中,n为大于1的整数。
36.本实施例中,文本检测模型的训练过程如下:
37.将样本图像输入到原始检测模型,获得原始检测模型输出的样本图像对应的预测文本框;将预测文本框与样本文本框进行比较,若不一致,调整原始检测模型的内部参数,重复将样本图像输入到原始检测模型的步骤,直至预测文本框与样本文本框一致时,将原
始检测模型作为最终的文本检测模型。
38.一个实施例中,分别对每一个文本框进行文字识别,获得每一个文本框分别对应的单元识别结果时,可以将每一个文本框输入至预先设置的文本识别模型,获得文本识别模型输出的每一个文本框分别对应的单元识别结果和识别准确度;其中,文本识别模型为采用样本文本框数据对原始识别模型进行训练得到,样本文本框数据包括m个样本文本框,以及m个样本文本框分别对应的样本识别结果,以及m个样本文本框分别对应的样本准确度,其中,m为大于1的整数。具体的,m个样本文本框可以为n个样本图像中标注的文本框。
39.本实施例中,文本识别模型的训练过程如下:
40.将样本文本框输入到原始识别模型,获得原始识别模型输出的预测识别结果和预测准确度;将每一个样本文本框分别对应的预测识别结果和样本识别结果进行比较,以及获得每一个样本文本框分别对应的预测准确度和样本准确度的差值;若预测识别结果和样本识别结果不一致,且预测准确度和样本准确度的差值大于差值阈值,调整原始识别模型的内部参数,重复将样本文本框输入到原始识别模型的步骤,直至预测识别结果和样本识别结果一致,或者,预测准确度和样本准确度的差值小于或等于差值阈值。其中,差值阈值可以预先根据实际情况和需要进行设定。
41.本实施例中,文本识别模型可以根据ocr技术构建和训练。当然,还可以根据其他能够进行文本识别的技术训练得到。
42.步骤103,融合每一个子识别结果,获得目标识别区域对应的文本识别结果。
43.本实施例中,检测待识别图像中的至少一个文本框之后,获取每一个文本框基于目标识别区域的位置信息。融合每一个子识别结果,获得目标识别区域对应的文本识别结果,具体过程如下:对每两张待识别图像进行如下处理:根据位置信息,确定第一张待识别图像中每一个文本框,与第二张待识别图像中每一个文本框的重叠度;基于重叠度,确定第一张待识别图像和第二张待识别图像不重叠的单元识别结果,以及确定第一张待识别图像和第二张待识别图像重叠的单元识别结果;基于每两张待识别图像中不重叠的单元识别结果和重叠的单元识别结果,获得目标识别区域对应的文本识别结果。
44.本实施例中,目标识别区域可以为预先预定的区域,例如,用户预先规定起重机上的工业屏幕所在区域为目标识别区域。目标识别区域还可以为通过预先获得的全景图像,对全景图像进行图像分割处理后得到的区域,例如,预先获得起重机驾驶室的全景图像,通过图像分割处理后,确定起重机的工业屏幕所在区域为目标识别区域。
45.本实施例中,对于每一个待识别图像,检测出待识别图像中的至少一个文本框之后,即可确定各个文本框在该待识别图像中的位置,具体的,可以确定各个文本框在待识别图像中的位置坐标。为了将目标识别区域对应的各个待识别图像中的信息进行融合,在确定各个文本框在待识别图像中的位置后,对于每一个待识别图像,可以基于图像采集设备的设备坐标系和目标识别区域的物理坐标系之间的预设关系,确定各个文本框基于目标识别区域的位置信息,具体的,可以确定基于目标识别区域的位置坐标。
46.将各个待识别图像进行两两处理,对于每两张待识别图像(包括第一张待识别图像和第二张待识别图像),计算两张待识别图像中已将检测出来的文本框的重叠度(intersection over union,iou)。基于重叠度,确定不重叠的单元识别结果和重叠的单元识别结果。
47.一个实施例中,基于重叠度,确定第一张待识别图像和第二张待识别图像不重叠的单元识别结果,具体过程如下:确定第一张待识别图像中,重叠度小于或等于重叠阈值的第一文本框;确定第二张待识别图像中,重叠度小于或等于重叠阈值的第二文本框;确定第一文本框对应的单元识别结果,和第二文本框对应的单元识别结果,为不重叠的单元识别结果。
48.本实施例中,重叠阈值可以根据实际情况和需要预先设定。将两张待识别图像进行比较时,将第一张待识别图像与第二张待识别图像中,基本无交集(即重叠度小于重叠阈值)的文本框均进行保留,以此保证各个待识别图像包含的信息能够互补,保证能够得到目标识别区域的全部文本信息。
49.一个实施例中,确定第一张待识别图像和第二张待识别图像重叠的单元识别结果时,确定重叠度大于重叠阈值的至少一个文本框对,其中,文本框对包括一个第一张待识别图像中的文本框,和一个第二张待识别图像中的文本框;融合文本框对对应的单元识别结果,获得重叠的单元识别结果。
50.本实施例中,为了各个待识别图像中重复出现的文本信息,通过重叠度来确定重叠的文本框对,然后融合文本框对的单元识别结果,从而确定重叠的单元识别结果,避免文本信息重复出现,保证文本识别结果的准确性。
51.一个实施例中,分别对每一个文本框进行文字识别之后,获得每一个单元识别结果分别对应的识别准确度,其中,识别准确度与文本框一一对应。融合文本框对对应的单元识别结果,获得重叠的单元识别结果时,在第一张待识别图像中文本框的单元识别结果,与第二张待识别图像中文本框的单元识别结果相同的情况下,确定第一张待识别图像中文本框的单元识别结果为重叠的单元识别结果;在第一张待识别图像中文本框的单元识别结果,与第二张待识别图像中文本框的单元识别结果不同的情况下:基于文本框对,比较第一识别准确度和第二识别准确度,其中,第一识别准确度为第一张待识别图像中文本框对应的识别准确度,第二识别准确度为第二张待识别图像中文本框对应的识别准确度;当第一识别准确度大于或等于第二识别准确度时,确定第一张待识别图像中文本框的单元识别结果为重叠的单元识别结果;当第一识别准确度小于第二识别准确度时,确定第二张待识别图像中文本框的单元识别结果为重叠的单元识别结果。
52.本实施例中,根据对文本框进行文本识别时,结合单元识别结果的识别准确度,来融合文本框对的单元识别结果。将文本框对中,识别准确度更高的单元识别结果,作为最终需要的重叠的单元识别结果。
53.本实施例中,当存在两张以上的待处理图像时,任意两张待识别图像作为一组,获得每一组待识别图像对应的不重叠的单元识别结果和重叠的单元识别结果,将重叠的单元识别结果通过识别准确度进行融合。然后基于不重叠的单元识别结果和融合处理后的重叠的单元识别结果,即可得到该组待识别图像对应的识别结果。
54.将任意一组待识别图像对应的识别结果作为基础对照结果,逐个与其他每一组待识别图像对应的识别结果进一步融合,融合识别结果中的重叠部分,即可最终获得目标识别区域对应的文本识别结果。
55.一个具体的实施例中,共采用4个图像采集设备,具体的,采用4个摄像头对目标识别区域进行图像采集。其中,目标识别区域为工业屏幕所在区域,工业屏幕上显示的文本信
息为工况数据。如图2所示,4个摄像头包括摄像头a、摄像头b、摄像头c和摄像头d。摄像头a固定装置在显示屏左上方,摄像头b固定装置在显示屏正上方,摄像头c固定装置在显示屏右上方,摄像头d固定装置在显示屏正下方。
56.由于工业屏幕反光、摄像头抖动等问题,每个摄像头拍摄的待识别图像只有一部分区域可以做到有效识别,例如,各个摄像头拍摄的有效图像区域如图3所示,摄像头a对应的是方形区域(记为区域a),摄像头b对应的是方形区域(记为区域b),摄像头c对应的是方形区域(记为区域c),摄像头d对应的是方形区域(记为区域d)。
57.识别工业屏幕中文本信息的过程如下:
58.步骤一:4个摄像头固定在工业屏幕的不同方位,从不同方位对工业屏幕进行拍摄,通过摄像头可以获得各个方位的待识别图像;
59.步骤二:为了保证待识别图像的采集时刻相同,可以预先对各个摄像头进行同步矫正。在采集图像时,获得各个摄像头的同步帧对应的图像作为待识别图像。例如,摄像头a对于第t帧的图像是pat,摄像头b对于第t帧的图像是pbt,摄像头c对于第t帧的图像是pct,摄像头d对于第t帧的图像是pdt。其中,t为正整数,pat、pbt、pct和pdt即为不同的待识别图像。
60.步骤三:对每张图像pat、pbt、pct、pdt分别基于ocr技术,通过文本检测模型和文本识别模型得到各个待识别图像对应的子识别结果。每个子识别结果包括对应待识别图像对应的各个文本框的单元识别结果(即各个工况数据结果),以及各个单元识别结果的识别准确度。
61.识别到的每一个文本框对应的工况数据结果,基于待识别图像的反光程度不同,识别准确度也会不同,具体的,识别准确度可以通过一个分数值来(记为score)来表示。分数值score越高,代表反光程度越弱,识别准确度越高;分数值score越低,代表反光程度越强,识别准确度越低;分数值score为0,则此处为强光,该工况数据完全识别不出。
62.步骤四:每个摄像头对应第t帧的图像pat、pbt、pct、pdt的识别出工况数据后,将各个文本框对应的单元识别结果进行融合。
63.如图4所示,
64.第一组,待识别图像pat(有效区域为区域a)与待识别图像pbt(有效区域为区域b)中单元识别结果的融合过程如下:
65.区域a包含了工况数据1、工况数据3、工况数据4和工况数据5,总共4个工况数据(每一个工况数据对应一个单元识别结果),基于ocr技术的文本识别模型识别后,得到4个工况数据的单元识别结果及对应的分数值score(即识别准确度);区域b包含了工况数据1、工况数据2和工况数据3,总共3个工况数据,基于ocr技术的文本识别模型识别后,得到3个工况数据的单元识别结果及对应的分数值score。
66.由图4可知,基于各个文本框位置信息,计算iou值确定:不重叠的单元识别结果包括待识别图像pat中的工况数据4和工况数据5,以及待识别图像pbt中的工况数据2;重叠的单元识别结果包括工况数据1和工况数据3。
67.工况数据1和工况数据3分别对应区域a与区域b中两个单元识别结果和对应的两个score值。具体的,例如工况数据1,对应区域a的单元识别结果为ra1、分数值为sa1,对应区域b的单元识别结果为rb1、分数值为sb1。对比ra1与rb1,若两个单元识别结果相同,则工
况数据1的识别结果即为ra1(同rb1),若不相同,则比较分数值sa1与sb1大小,取分数值大的识别结果为工况数据1的识别结果。
68.对于工况数据3,对应区域a的单元识别结果为ra3、分数值为sa3,对应区域b的单元识别结果为rb3、分数值为sb3。对比ra3与rb3,若两个单元识别结果相同,则工况数据3的识别结果即为ra3(同rb3),若不相同,则比较分数值sa3与sb3大小,取分数值大的识别结果为工况数据3的识别结果。
69.第二组,待识别图像pbt(有效区域为区域b)与待识别图像pct(有效区域为区域c)中单元识别结果的融合过程如下:
70.区域b包含了工况数据1、工况数据2和工况数据3,总共3个工况数据(每一个工况数据对应一个单元识别结果),基于ocr技术的文本识别模型识别后,得到3个工况数据的单元识别结果及对应的分数值score(即识别准确度);区域c包含了工况数据6和工况数据7,总共2个工况数据,基于ocr技术的文本识别模型识别后,得到2个工况数据的单元识别结果及对应的分数值score。
71.由图4可知,基于各个文本框位置信息,计算iou值确定:不重叠的单元识别结果包括待识别图像pbt中的工况数据1、工况数据2和工况数据3,以及待识别图像pct中的工况数据6和工况数据7;无重叠的单元识别结果。
72.第三组,待识别图像pct(有效区域为区域c)与待识别图像pdt(有效区域为区域d)中单元识别结果的融合过程如下:
73.区域c包含了工况数据6和工况数据7,总共2个工况数据(每一个工况数据对应一个单元识别结果),基于ocr技术的文本识别模型识别后,得到2个工况数据的单元识别结果及对应的分数值score(即识别准确度);区域d包含了工况数据5和工况数据7,总共2个工况数据,基于ocr技术的文本识别模型识别后,得到2个工况数据的单元识别结果及对应的分数值score。
74.由图4可知,基于各个文本框位置信息,计算iou值确定:不重叠的单元识别结果包括待识别图像pat中的工况数据6,以及待识别图像pbt中的工况数据5;重叠的单元识别结果包括工况数据7。
75.对于工况数据7,对应区域c的单元识别结果为rc7、分数值为sc7,对应区域d的单元识别结果为rd7、分数值为sd7。对比rc7与rd7,若两个单元识别结果相同,则工况数据1的识别结果即为rc7(同rd7),若不相同,则比较分数值sc7与sd7大小,取分数值大的识别结果为工况数据7的识别结果。
76.第四组,待识别图像pat(有效区域为区域a)与待识别图像pdt(有效区域为区域d)中单元识别结果的融合过程如下:
77.区域a包含了工况数据1、工况数据3、工况数据4和工况数据5,总共4个工况数据(每一个工况数据对应一个单元识别结果),基于ocr技术的文本识别模型识别后,得到4个工况数据的单元识别结果及对应的分数值score(即识别准确度);区域d包含了工况数据5和工况数据7,总共2个工况数据,基于ocr技术的文本识别模型识别后,得到2个工况数据的单元识别结果及对应的分数值score。
78.由图4可知,基于各个文本框位置信息,计算iou值确定:不重叠的单元识别结果包括待识别图像pat中的工况数据1、工况数据3和工况数据4,以及待识别图像pdt中的工况数
据7;重叠的单元识别结果包括工况数据5。
79.对于工况数据5,对应区域a的单元识别结果为ra5、分数值为sa5,对应区域d的单元识别结果为rd5、分数值为sd5。对比ra5与rd5,若两个单元识别结果相同,则工况数据5的识别结果即为ra5(同rd5),若不相同,则比较分数值sd5与sd5大小,取分数值大的识别结果为工况数据5的识别结果。
80.第五组,区域a与区域c无重叠的部分,不重叠的单元识别结果包括待识别图像pat中的工况数据1、工况数据3、工况数据4和工况数据5,以及待识别图像pct中的工况数据6和工况数据7。
81.第六组,区域b与区域d无重叠的部分,不重叠的单元识别结果包括待识别图像pbt中的工况数据1、工况数据2和工况数据3,以及待识别图像pdt中的工况数据5和工况数据7。
82.综上所述,第一组,区域a和区域b融合的结果为:工况数据1、工况数据2、工况数据3、工况数据4和工况数据5;
83.第二组,区域b和区域c融合的结果为:工况数据1、工况数据2、工况数据3、工况数据6和工况数据7;
84.第三组,区域c和区域d融合的结果为:工况数据4、工况数据5、工况数据6和工况数据7;
85.第四组,区域d和区域a融合的结果为:工况数据1、工况数据3、工况数据4、工况数据5和工况数据7;
86.第五组,区域a和区域c融合的结果为:工况数据1、工况数据3、工况数据4、工况数据5、工况数据6和工况数据7;
87.第六组,区域b和区域d工况数据1、工况数据2、工况数据3工况数据5和工况数据7。
88.依据各个工况结果对应的分数值,对各组融合结果进行进一步累计融合,第一组与第二组融合的结果为:工况数据1、工况数据2、工况数据3、工况数据4、工况数据5、工况数据6和工况数据7;
89.该结果的基础上,再与第三组融合的结果为:工况数据1、工况数据2、工况数据3、工况数据4、工况数据5、工况数据6和工况数据7;
90.该结果的基础上,再与第四组融合的结果为:工况数据1、工况数据2、工况数据3、工况数据4、工况数据5、工况数据6和工况数据7;
91.该结果的基础上,再与第五组融合的结果为:工况数据1、工况数据2、工况数据3、工况数据4、工况数据5、工况数据6和工况数据7;
92.该结果的基础上,再与第六组融合的结果为:工况数据1、工况数据2、工况数据3、工况数据4、工况数据5、工况数据6和工况数据7;
93.则,六组结果融合完毕,得到最终的文本识别结果包括工况数据1、工况数据2、工况数据3、工况数据4、工况数据5、工况数据6和工况数据7。
94.步骤五:得到各个工况数据的识别结果,经过后处理优化后得到第t帧图像的最终的工况数据识别结果(即文本识别结果)。处理优化过程可以为添加数值单位信息、工况数据名称等过程。
95.本发明提供的文本识别方法,获取目标识别区域的至少两张待识别图像,然后分别对每一张待识别图像进行文本识别,获得每一张待识别图像分别对应的子识别结果;融
合每一个子识别结果,获得目标识别区域对应的文本识别结果。此过程中,至少两张待识别图像的图像采集时刻相同,但图像采集方位不同,通过对不同方位采集的待识别图像进行处理,并将各个待识别图像分别对应的子识别结果进行融合,可以避免由于采用一个图像采集装置采集图像时,光线变化、图像采集设备抖动等因素导致的文本识别结果不完整或不准确的情况,提升文本识别结果的准确性。
96.进一步的,多图像采集设备在同一时刻采集从不同方位采集目标识别区域的待识别图像,有效地解决了单个摄像头不能解决的问题,比如识别工业屏幕上的工况数据时,工业屏幕会在不同场景下产生不同程度的反光,极大影响识别效果,而多个图像采集设备会通过各个图像采集设备识别对应反光影响程度最小的区域,达到很好的识别效果;其次也可以解决由于设备作业产生的剧烈震动或者操作手碰撞导致图像采集设备偏离原有位置的问题。对各个区域进行存在交集的工况数据结果进行融合,基于识别准确度获得最终的文本识别结果,提高了其识别准确率。
97.本发明基于上述实施例,提供一种文本识别系统,包括处理器和至少两个图像采集设备,其中,至少两个图像采集设备安装于目标识别区域的不同方位;图像采集设备,用于采集目标识别区域的待识别图像,并将待识别图像传输给处理器;处理器,用于获取目标识别区域的至少两张待识别图像,其中,每两张待识别图像的图像采集时刻相同,且每两张待识别图像的图像采集方位不同;分别对每一张待识别图像进行文本识别,获得每一张待识别图像分别对应的子识别结果;融合每一个子识别结果,获得目标识别区域对应的文本识别结果。
98.本实施例中,处理器可以集成于任意一个图像采集设备中,也可以独立于各个图像采集设备,单独完成图像处理的过程,获得文本识别结果。
99.本发明提供的文本识别系统,能够有效提升文本识别结果的准确性,适用于各种作业环境,普适性更高。
100.下面对本发明提供的文本识别装置进行描述,下文描述的文本识别装置与上文描述的文本识别方法可相互对应参照。如图5所示,文本识别装置,包括:
101.获取模块501,用于获取目标识别区域的至少两张待识别图像,其中,每两张待识别图像的图像采集时刻相同,且每两张待识别图像的图像采集方位不同;
102.识别模块502,用于分别对每一张待识别图像进行文本识别,获得每一张待识别图像分别对应的子识别结果;
103.融合模块503,用于融合每一个子识别结果,获得目标识别区域对应的文本识别结果。
104.图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)601、通信接口(communications interface)602、存储器(memory)603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603中的逻辑指令,以执行文本识别方法,该方法包括:获取目标识别区域的至少两张待识别图像,其中,每两张待识别图像的图像采集时刻相同,且每两张待识别图像的图像采集方位不同;分别对每一张待识别图像进行文本识别,获得每一张待识别图像分别对应的子识别结果;融合每一个子识别结果,获得目标识别区域对应的文本识别结果。
105.此外,上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
106.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各实施例所提供的文本识别方法,该方法包括:获取目标识别区域的至少两张待识别图像,其中,每两张待识别图像的图像采集时刻相同,且每两张待识别图像的图像采集方位不同;分别对每一张待识别图像进行文本识别,获得每一张待识别图像分别对应的子识别结果;融合每一个子识别结果,获得目标识别区域对应的文本识别结果。
107.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各实施例提供的文本识别方法,该方法包括:获取目标识别区域的至少两张待识别图像,其中,每两张待识别图像的图像采集时刻相同,且每两张待识别图像的图像采集方位不同;分别对每一张待识别图像进行文本识别,获得每一张待识别图像分别对应的子识别结果;融合每一个子识别结果,获得目标识别区域对应的文本识别结果。
108.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
109.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
110.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1