本发明涉及视觉信息提取,具体提供一种图像文本信息的提取方法、控制装置及可读存储介质。
背景技术:
1、随着信息化技术的发展,人们对于图像文本电子化的需求也日益增加。例如,在银行、证券等领域,存在大量的图像文本信息提取的需求。通常由工作人员手工录入,并且在初步录入完成后还需要进行核对录入是否正确等。在手工录入过程中存在很多的弊端,一方面是人工录入可能会出现漏项错项问题,另外还需配置大量人力。在给工作人员带来较大工作压力的同时,还会造成人力资源的浪费,且整体的工作效率也难以提高。
2、图像文本信息的自动提取,可以极大降低人工录入的成本,提高工作效率。目前图像文本的信息提取主要依赖于两种不同的模态特征:文本语义信息和文本的排布版式,传统的算法不能将两种模态特征高效的融合起来,导致算法对文本的排布比较敏感,往往每种版式都需要开发一个模型,需要算法工程师投入大量精力去优化模型或者编辑提取规则,成本较高。
3、相应地,本领域需要一种新的图像文本信息的提取方案来解决上述问题。
技术实现思路
1、为了克服上述缺陷,提出了本发明,以提供解决或至少部分地解决如何更加准确的提取图像文本信息的技术问题的一种图像文本信息的提取方法。
2、在第一方面,本发明提供一种图像文本信息的提取方法,包括:
3、获取待提取图像文本的文本序列信息、字符位置信息和语义关系信息;
4、根据所述文本序列信息、字符位置信息和语义关系信息得到所述待提取图像文本的结构化信息。
5、在一个实施例中,所述获取待提取图像文本的文本序列信息,包括:
6、将待提取图像文本进行字符识别,得到待提取图像文本的字符序列和字符位置信息;
7、根据所述字符位置信息,获取所述字符序列中相邻的两个字符的位置关系;
8、根据所述相邻两个字符的位置关系,在所述字符序列中插入相应的间隔符,得到所述待提取图像文本的文本序列信息。
9、在一个实施例中,获取待提取图像文本的文本序列信息、字符位置信息和语义关系信息,包括:
10、将所述待提取文本进行序列识别,得到所述待提取文本的字符位置信息。
11、在一个实施例中,获取待提取图像文本的文本序列信息、字符位置信息和语义关系信息,还包括:
12、将所述待提取图像文本进行识别分割,得到多个待提取文本框;
13、建立所述待提取文本框中字符与其所在待提取文本框的联系,得到所述提取文本的语义关系信息。
14、在一个实施例中,根据所述相邻的两个字符的位置关系,在所述字符序列中插入相应的间隔符,得到所述待提取图像文本的文本序列信息,包括:
15、判断所述相邻的两个字符是否位于同一行;
16、若不位于同一行,则在所述相邻的两个字符之间插入第一间隔符;
17、若在同一行,则根据设定在所述相邻的两个字符之间插入第二间隔符。
18、在一个实施例中,所述根据设定在所述相邻的两个字符之间插入第二间隔符,包括:
19、判断所述相邻的两个字符的距离是否大于预设阈值;
20、若大于预设阈值,则在所述相邻的两个字符之间插入第二间隔符。
21、在一个实施例中,所述根据所述文本序列信息、字符位置信息和语义关系信息得到所述待提取图像文本的结构化信息,包括:
22、将所述文本序列信息、字符位置信息和语义关系信息分别进行特征嵌入,得到文本序列嵌入特征、字符位置嵌入特征和语义关系嵌入特征;
23、将所述文本序列嵌入特征、字符位置嵌入特征和语义嵌入特征输入已训练的转化器模型进行融合,得到多模态融合特征;
24、将所述多模态融合特征输入实体提取网络,得到所述待提取图像文本的结构化信息。
25、在一个实施例中,所述将所述待提取文本框进行序列识别,得到所述待提取文本的字符位置信息,包括:采用坐标形式表示所述待提取文本的字符位置信息。
26、在一个实施例中,所述建立所述待提取文本框中字符与其所在待提取文本框的联系,得到所述提取文本的语义关系信息,包括:
27、对所述待提取文本框进行编号,得到多个带有编号的待提取文本框;
28、将所述字符表征为其所属的待提取文本框的编号,得到所述待提取文本的语义关系信息。
29、在一个实施例中,所述转化器模型采用迁移学习模式进行训练。
30、在一个实施例中,所述方法还包括:
31、从语料库中选取文本或者设置固定文本,以合成数据样本;
32、根据所述数据样本得到文本序列信息、字符位置信息和语义关系信息;
33、将所述文本序列信息、字符位置信息和语义信息作为训练集对转化模型进行训练,得到所述已训练的转化器模型。
34、在第二方面,提供一种控制装置,该控制装置包括处理器和存储装置,所述存储装置适于存储多条程序代码,所述程序代码适于由所述处理器加载并运行以执行上述图像文本信息的提取方法的技术方案中任一项技术方案所述的图像文本信息的提取方法。
35、在第三方面,提供一种计算机可读存储介质,该计算机可读存储介质其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行上述图像文本信息的提取方法的技术方案中任一项技术方案所述的图像文本信息的提取方法。
36、本发明上述一个或多个技术方案,至少具有如下一种或多种有益效果:
37、在实施本发明的技术方案中,通过文本序列信息、字符位置信息、语义关系信息三者的结合,得到图像文本结构化信息,加强了文本语义信息和文本排版信息的联系。进一步的,显式的将文本的排版信息转化为间隔符插入到文本序列中,加强文本语义与文档排布之间的融合。
38、同时,由于模型只依赖于文本的信息和排版信息,为此通过数据样本合成,快速生成特定场景下的样本,应对特定场景下的多种版式变化,针对特定场景实现快速定制化;并采用迁移学习策略,减少对数据的依赖,能够针对特定的票据实现快速模型定制,加快模型的成型。另外由于文本信息占用的磁盘空间比图片要小很多,减少了对磁盘空间资源的占用。
1.一种图像文本信息的提取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取待提取图像文本的文本序列信息,包括:
3.根据权利要求1所述的方法,其特征在于,获取待提取图像文本的文本序列信息、字符位置信息和语义关系信息,包括:
4.根据权利要求1所述的方法,其特征在于,获取待提取图像文本的文本序列信息、字符位置信息和语义关系信息,还包括:
5.根据权利要求2所述的方法,其特征在于,根据所述相邻的两个字符的位置关系,在所述字符序列中插入相应的间隔符,得到所述待提取图像文本的文本序列信息,包括:
6.根据权利要求5所述的方法,其特征在于,所述根据设定在所述相邻的两个字符之间插入第二间隔符,包括:
7.根据权利要求1所述的方法,其特征在于,所述根据所述文本序列信息、字符位置信息和语义关系信息得到所述待提取图像文本的结构化信息,包括:
8.根据权利要求3所述方法,其特征在于,所述将所述待提取文本框进行序列识别,得到所述待提取文本的字符位置信息,包括:采用坐标形式表示所述待提取文本的字符位置信息。
9.根据权利要求4所述的方法,其特征在于,所述建立所述待提取文本框中字符与其所在待提取文本框的联系,得到所述提取文本的语义关系信息,包括:
10.根据权利要求7所述的方法,其特征在于,所述转化器模型采用迁移学习模式进行训练。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
12.一种控制装置,包括处理器和存储装置,所述存储装置适于存储多条程序代码,其特征在于,所述程序代码适于由所述处理器加载并运行以执行权利要求1至11中任一项所述的方法。
13.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至11中任一项所述的方法。