信息提取方法、装置及介质与流程

文档序号:29158141发布日期:2022-03-08 22:17阅读:88来源:国知局
信息提取方法、装置及介质与流程

1.本技术涉及计算机及人工智能技术领域,具体而言,涉及一种信息提取方法、装置及介质。


背景技术:

2.在信息提取场景中,比如在针对图像中的信息提取场景(例如提取图像中的公式或者文本),图像中的信息单元通常会存在尺寸大小不一致的情况,这会给信息单元的特征信息提取带来障碍,从而导致信息单元特征信息提取的准确率低下。
3.基于此,如何提高信息提取的准确度是亟待解决的技术问题。


技术实现要素:

4.本技术的实施例提供了一种信息提取方法、装置、计算机程序产品或计算机程序、计算机可读介质,进而至少在一定程度上可以提高信息提取的准确度。
5.本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。
6.根据本技术实施例的一个方面,提供了一种信息提取方法,包括:获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息,所述目标图像中包括至少一个信息单元;通过至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,得到至少两个定位参考信息;基于所述至少两个定位参考信息,确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息;基于所述目标定位信息,提取所述第二信息单元的目标特征信息。
7.根据本技术实施例的一个方面,提供了一种信息提取装置,包括:获取单元,被用于获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息,所述目标图像中包括至少一个信息单元;卷积单元,被用于通过至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,得到至少两个定位参考信息;确定单元,被用于基于所述至少两个定位参考信息,确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息;提取单元,被用于基于所述目标定位信息,提取所述第二信息单元的目标特征信息。
8.在本技术的一些实施例中,基于前述方案,所述获取单元配置为:获取目标图像中已完成特征信息提取的各个第一信息单元在历史上的定位信息;对所述已完成特征信息提取的各个第一信息单元在历史上的定位信息进行计算,得到所述历史定位信息。
9.在本技术的一些实施例中,基于前述方案,所述卷积单元配置为:通过信息提取模型中的第一定位卷积核对所述历史定位信息进行卷积处理,得到第一定位参考信息;通过所述信息提取模型中的第二定位卷积核对所述历史定位信息进行卷积处理,得到第二定位参考信息,所述第二定位卷积核的尺度大于所述第一定位卷积核的尺度。
10.在本技术的一些实施例中,基于前述方案,所述确定单元配置为:在基于所述至少
两个定位参考信息,确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息之前,按照所述至少一个信息单元在所述目标图像中的预设排列方向,从所述目标图像中未完成特征信息提取的信息单元中确定所述第二信息单元。
11.在本技术的一些实施例中,基于前述方案,所述确定单元还配置为:获取与所述第二信息单元排列距离最近的信息单元在特征信息提取时的隐藏状态信息,以及获取针对所述目标图像的编码特征数据;对所述至少两个定位参考信息,所述隐藏状态信息,以及所述编码特征数据进行聚合,得到所述第二信息单元的目标定位信息。
12.在本技术的一些实施例中,基于前述方案,所述提取单元配置为:获取针对所述目标图像的编码特征数据;基于所述目标定位信息,通过信息提取模型中的目标解码器模型对所述编码特征数据进行解码,得到所述第二信息单元的目标特征信息。
13.在本技术的一些实施例中,基于前述方案,所述装置还包括:训练单元,被用于在获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息之前,获取待训练模型,所述待训练模型中包括一个编码器模型和至少两个解码器模型,所述编码器模型用于对图像进行编码,得到编码特征数据,所述解码器模型用于对所述编码特征数据进行解码,得到所述图像中各个信息单元的特征信息;获取样本图像,并通过所述样本图像对所述待训练模型进行训练,得到信息提取模型。
14.在本技术的一些实施例中,基于前述方案,所述编码器模型包括密集连接卷积网络模型。
15.在本技术的一些实施例中,基于前述方案,所述训练单元配置为:通过所述编码器模型对所述样本图像进行编码,得到样本编码特征数据;通过所述至少两个解码器模型分别对所述样本编码特征数据进行解码,得到至少两组样本特征信息,其中,每一组样本特征信息中包括针对所述样本图像中各个信息单元的特征信息;触发所述至少两个解码器模型中的每一个解码器模型学习除自身之外其它解码器模型解码得到的样本特征信息;在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型,得到由所述编码器模型和所述目标解码器模型组成的所述信息提取模型。
16.在本技术的一些实施例中,基于前述方案,所述训练单元配置为:基于所述样本编码特征数据,通过所述至少两个解码器模型分别按照所述样本图像中信息单元的不同排列方向确定所述样本图像中各个信息单元的样本定位信息;基于所述至少两个解码器模型对应的样本定位信息,分别对所述样本编码特征数据进行解码,得到所述至少两组样本特征信息。
17.在本技术的一些实施例中,基于前述方案,所述信息单元包括字符单元,所述目标图像中的至少一个信息单元组成一个或者多个包含所述字符单元的公式,所述至少两个定位参考信息用于分别关注不同尺寸大小的字符单元的定位信息。
18.在本技术的一些实施例中,基于前述方案,所述装置还包括:编辑单元,被用于在基于所述目标定位信息,提取所述第二信息单元的目标特征信息之后,获取所述目标图像中各个字符单元对应的目标特征信息;基于所述目标特征信息,将所述目标图像中的一个或者多个公式编辑至公式编辑区域。
19.根据本技术实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质
中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行如上述实施例中所述的信息提取方法。
20.根据本技术实施例的一个方面,还提供了一种信息提取装置,其特征在于,包括有存储器,以及一个以上程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如上述实施例中所述的信息提取方法的指令。
21.根据本技术实施例的一个方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由处理器加载并执行以实现如上述实施例中所述的信息提取方法所执行的操作。
22.在本技术的一些实施例所提供的技术方案中,通过至少两个不同尺度的定位卷积核,分别对目标图像中已完成特征信息提取的第一信息单元的历史定位信息进行卷积处理,可以得到至少两个定位参考信息,然后基于所述至少两个定位参考信息,可以确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息,最后基于所述目标定位信息,可以提取所述第二信息单元的目标特征信息。由于在确定所述第二信息单元的目标定位信息时,通过至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,可以利用不同尺度的定位卷积核关注目标图像中尺寸大小不同的信息单元,故得到的至少两个定位参考信息中也包含了针对不同尺寸大小信息单元的关注信息,使得基于所述至少两个定位参考信息可以确定出针对第二信息单元的准确度较高的目标定位信息,从而能够提高由所述目标定位信息而确定的第二信息单元的目标特征信息的准确度。
23.应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
附图说明
24.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
25.图1示出了可以应用本技术实施例的技术方案的示例性系统架构的示意图;
26.图2示出了根据本技术一个实施例的信息提取方法的流程图;
27.图3示出了根据本技术一个实施例的获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息的细节流程图;
28.图4示出了根据本技术一个实施例的分别对所述历史定位信息进行卷积处理的细节流程图;
29.图5示出了根据本技术一个实施例的从所述目标图像中未完成特征信息提取的信息单元中确定所述第二信息单元的示意图;
30.图6示出了根据本技术一个实施例的确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息的细节流程图;
31.图7示出了根据本技术一个实施例的确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息的框架示意图;
32.图8示出了根据本技术一个实施例的提取所述第二信息单元的目标特征信息的细节流程图;
33.图9示出了根据本技术一个实施例的在获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息之前的方法流程图;
34.图10示出了根据本技术一个实施例的通过所述样本图像对所述待训练模型进行训练的细节流程图;
35.图11示出了根据本技术一个实施例的通过所述至少两个解码器模型分别对所述样本编码特征数据进行解码的细节流程图;
36.图12示出了根据本技术一个实施例的训练信息提取模型的框架示意图;
37.图13示出了根据本技术一个实施例的在基于所述目标定位信息,提取所述第二信息单元的目标特征信息之后的方法流程图;
38.图14示出了根据本技术一个实施例的信息提取装置的框图;
39.图15示出了根据本技术一个实施例的信息提取装置的框图。
具体实施方式
40.现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本技术将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
41.此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本技术的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本技术的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本技术的各方面。
42.附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
43.附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
44.需要说明的是:在本文中提及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
45.需要注意的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的对象在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在图示或描述的那些以外的顺序实施。
46.本技术中的实施例有涉及到关于人工智能的技术,即通过人工智能实现了对数据(例如图像数据)的完全自动化处理。人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用
知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
47.图1示出了可以应用本技术实施例的技术方案的示例性系统架构的示意图。
48.如图1所示,系统架构可以包括终端设备(如图1中所示智能手机101、平板电脑102和便携式计算机103中的一种或多种,当然也可以是台式计算机等等,但并不局限于此,本技术在此不做限制)、网络104和服务器105。网络104用以在终端设备和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线通信链路、无线通信链路等等。
49.在本技术的一个实施例中,用户在需要识别目标图像中至少一个信息单元所反映的特征信息时,可以通过终端设备将包括至少一个信息单元的目标图像发送至服务器105,服务器105在获取目标图像之后,即对目标图像中至少一个信息单元所反映的特征信息进行提取,其方案可以为:获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息,所述目标图像中包括至少一个信息单元;通过至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,得到至少两个定位参考信息;基于所述至少两个定位参考信息,确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息;基于所述目标定位信息,提取所述第二信息单元的目标特征信息。
50.在本实施中,在确定所述第二信息单元的目标定位信息时,通过至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,可以利用不同尺度的定位卷积核关注目标图像中尺寸大小不同的信息单元,故得到的至少两个定位参考信息中也包含了针对不同尺寸大小信息单元的关注信息,使得基于所述至少两个定位参考信息可以确定出针对第二信息单元的准确度较高的目标定位信息,从而能够提高由所述目标定位信息而确定的第二信息单元的目标特征信息的准确度。
51.需要说明的是,本技术实施例所提供的信息提取方法可以由服务器105执行,相应地,信息提取装置一般设置于服务器105中。但是,在本技术的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本技术实施例所提供的信息提取方案。
52.还需要说明的是,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、cdn、以及大数据和人工智能平台等基础云计算服务的云服务器。
53.需要解释的是,如上所述的云计算(cloud computing)是一种计算模式,它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。“云”中的资源在使用者看来是可以无限扩展的,并且可以随时获取,按需使用,随时扩展。通过建立云计算资源池(简称云平台,一般称为iaas(infrastructure as a service,基础设施即服务)平台,在资源池中部署多种类型的虚拟资源,供外部客户选择使用。云计算资源池中主要包括:计算设备(为虚拟化机器,包含操作系统)、存储设备、网络设备。
54.以下对本技术实施例的技术方案的实现细节进行详细阐述:
55.图2示出了根据本技术一个实施例的信息提取方法的流程图,该信息提取方法可以由具有计算处理功能的设备来执行,比如可以由图1中所示的服务器105来执行,或者可以由图1中所示的终端设备来执行。参照图2所示,该信息提取方法至少包括步骤220至步骤280,详细介绍如下:
56.在步骤220中,获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息,所述目标图像中包括至少一个信息单元。
57.在本技术中,所述目标图像可以是通过截取界面中的包含有目标对象的页面区域获取的,也可以是直接在本地获取的,所述目标图像中包括至少一个信息单元。
58.在本技术中,所提出的信息提取方案可以应用于图像中目标对象的信息识别场景,比如可以是图像中的公式识别场景,也可以是图像中的文本识别场景,还可以是图像中的某些特定图案识别场景。进一步的,图像中目标对象可以是由至少一个信息单元构成,比如,图像中的公式或者文本可以是由至少一个字符单元构成的,还比如,图像中的某些特定图案可以是由至少一个图形单元构成的。
59.需要说明的是,本技术所提出的特征信息,可以包括信息单元自身的形状特征信息,也可以包括信息单元的位置特征信息(例如与其它信息单元之间的相对位置关系),还可以同时包括信息单元自身的形状特征信息和位置特征信息。比如,以图像中的公式识别场景为例,信息单元可以是字符单元,所述目标图像中的至少一个信息单元组成一个或者多个包含所述字符单元的公式可以理解的是,公式中字符单元的特征信息可以包括每个字符单元的形状特征信息和/或字符单元之间的相对位置关系特征信息。
60.可以理解的是,在本技术中,目标图像中的每一个信息单元在目标图像中对应有一个定位信息,在对信息单元进行特征信息提取之前,需要确定信息单元的定位信息。
61.需要说明的是,在提取目标图像中信息单元的特征信息的过程中,可以是先确定一个信息单元的定位信息,并提取该定位信息所限定的信息单元的特征信息,然后,再确定下一个信息单元的定位信息,并提取下一个信息单元的特征信息,如此逐步提取信息单元特征信息,直至目标图像中所有信息单元的特征信息被提取完成。
62.为了使本领域技术人员更好的理解本技术,下面继续以图像中的公式识别场景为例进行说明。
63.例如,针对公式“a+b-c”中的字符“b”和字符
“‑”
,首选确定字符“b”的定位信息,并根据字符“b”的定位信息提取字符“b”的特征信息,然后再确定字符
“‑”
的定位信息,并根据字符
“‑”
的定位信息提取字符
“‑”
的特征信息。
64.在如图2所示步骤220的一个实施例中,获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息,可以按照如图3所示的步骤执行。
65.参见图3,示出了根据本技术一个实施例的获取目标图像中已完成特征信息提取的信第一息单元的历史定位信息的细节流程图。具体包括步骤221至步骤222:
66.步骤221,获取目标图像中已完成特征信息提取的各个第一信息单元在历史上的定位信息。
67.步骤222,对所述已完成特征信息提取的各个第一信息单元在历史上的定位信息进行计算,得到所述历史定位信息。
68.在本实施例中,继续以图像中的公式识别场景为例进行说明。例如,针对公式“a+
b-c”,若在历史上已经完成了针对字符“a”、字符“+”和字符“b”的特征信息提取,则获取字符“a”、字符“+”和字符“b”在历史上的定位信息,并对字符“a”、字符“+”和字符“b”在历史上的定位信息进行计算(比如进行相加计算),得到所述历史定位信息。
69.需要注意的是,在本技术中所提到的定位信息,其本质可以通过一个矩阵信息来表示。
70.继续参照图2,在步骤240中,通过至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,得到至少两个定位参考信息。
71.在本技术中,信息提取模型中可以包括至少两个不同尺度的定位卷积核,不同尺度的定位卷积核分别可以用于关注目标图像中不同尺寸大小信息单元。
72.可以理解的是,在本技术中,若所述信息单元包括字符单元,所述目标图像中的至少一个信息单元组成一个或者多个包含所述字符单元的公式,则通过至少两个不同尺度的定位卷积核分别对所述历史定位信息进行卷积处理得到至少两个定位参考信息可以用于分别关注不同尺寸大小的字符单元的定位信息。
73.在如图2所示步骤240的一个实施例中,通过至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,得到至少两个定位参考信息,可以按照如图4所示的步骤执行。
74.参见图4,示出了根据本技术一个实施例的分别对所述历史定位信息进行卷积处理的细节流程图。具体包括步骤241至步骤242:
75.步骤241,通过信息提取模型中的第一定位卷积核对所述历史定位信息进行卷积处理,得到第一定位参考信息。
76.步骤242,通过所述信息提取模型中的第二定位卷积核对所述历史定位信息进行卷积处理,得到第二定位参考信息,所述第二定位卷积核的尺度大于所述第一定位卷积核的尺度。
77.进一步的,比如,在本实施例中,所述第一定位卷积核的尺度大小可以为5
×
5,所述第二定位卷积核的尺度大小可以为11
×
11。
78.可见,在本实施例中,定位卷积核的数量为两个,但在其它实施例中,所述定位卷积核的数量也可以为三个,还可以为四个,在这里,本技术不对定位卷积核的数量做具体限定。
79.在本技术中,通过不同尺度的定位卷积核对所述历史定位信息进行卷积处理,可以重点关注目标图像中不同尺寸大小的信息单元,从而使得在后续中可以为第二信息单元(即一个目标信息单元)确定得到更为准确的定位信息。
80.继续参照图2,在步骤260中,基于所述至少两个定位参考信息,确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息。
81.在如图2所示步骤260的一个实施例中,在基于所述至少两个定位参考信息,确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息之前,可以执行如下步骤:
82.按照所述至少一个信息单元在所述目标图像中的预设排列方向,从所述目标图像中未完成特征信息提取的信息单元中确定所述第二信息单元。
83.在本技术中,所述目标图像中的信息单元按照固定的排列顺序排列,为了使本领
域技术人员更好的理解本技术,下面继续以图像中的公式识别场景为例,结合图5进行说明。
84.参见图5,示出了根据本技术一个实施例的从所述目标图像中未完成特征信息提取的信息单元中确定所述第二信息单元的示意图。
85.如图5所示,针对公式“a+b-c”500,字符“+”排列在字符“a”右侧,字符“b”排列在字符“+”右侧,符
“‑”
排列在字符“b”右侧,符“c”排列在字符
“‑”
右侧。
86.进一步的,所述至少一个信息单元在所述目标图像中的预设排列方向,可以是“a
”→“
+
”→“b”→“‑”→“
c”的预设排列方向,也可以是“c
”→“‑”→“b”→“
+
”→“
a”的预设排列方向。
87.进一步的,在本实施例中,可以是按照“a
”→“
+
”→“b”→“‑”→“
c”的预设排列方向从所述目标图像中未完成特征信息提取的信息单元中确定所述第二信息单元,如果公式“a+b-c”中的字符“a”和字符“+”已完成特征信息提取,则字符“b”、字符
“‑”
和字符“c”为未完成特征信息提取的信息单元,可以理解的是,按照预设排列方向,可以将字符“b”确定为所述第二信息单元。
88.在如图2所示步骤260的一个实施例中,基于所述至少两个定位参考信息,确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息,可以按照如图6所示的步骤执行。
89.参见图6,示出了根据本技术一个实施例的确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息的细节流程图。具体包括步骤261至步骤262:
90.步骤261,获取与所述第二信息单元排列距离最近的信息单元在特征信息提取时的隐藏状态信息,以及获取针对所述目标图像的编码特征数据。
91.步骤263,对所述至少两个定位参考信息,所述隐藏状态信息,以及所述编码特征数据进行聚合,得到所述第二信息单元的目标定位信息。
92.为了使本领域技术人员更好的理解本技术,下面将结合图7以一个具体示例进行说明。
93.参见图7,示出了根据本技术一个实施例的确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息的框架示意图。
94.如图7所示,公式701表示在历史上针对公式“a+b-c”中字符“a”和字符“+”的定位信息,通过对字符“a”和字符“+”的定位信息进行计算,得到如公式702所表示的历史定位信息,通过5
×
5的定位卷积核703和11
×
11的定位卷积核704分别对如公式702所表示的历史定位信息进行卷积处理,得到第一定位参考信息706和第二定位参考信息707,同时获取与第二信息单元(即字符“b”)排列距离最近的信息单元(即字符“+”)在特征信息提取时的隐藏状态信息705,以及获取针对所述目标图像的编码特征数据708,最后,对第一定位参考信息706,第二定位参考信息707,隐藏状态信息705以及编码特征数据708进行聚合,得到所述第二信息单元(即字符“b”)的目标定位信息709。
95.在本实施例中,通过对所述至少两个定位参考信息,所述隐藏状态信息,以及所述编码特征数据进行聚合,可以得到具有较高准确度的所述第二信息单元的目标定位信息,从而能够提高由所述目标定位信息而确定的第二信息单元的目标特征信息的准确度。
96.继续参照图2,在步骤280中,基于所述目标定位信息,提取所述第二信息单元的目
标特征信息。
97.在如图2所示步骤280的一个实施例中,基于所述目标定位信息,提取所述第二信息单元的目标特征信息,可以按照如图8所示的步骤执行。
98.参见图8,示出了根据本技术一个实施例的提取所述第二信息单元的目标特征信息的细节流程图。具体包括步骤281至步骤282:
99.步骤281,获取针对所述目标图像的编码特征数据。
100.步骤282,基于所述目标定位信息,通过信息提取模型中的目标解码器模型对所述编码特征数据进行解码,得到所述第二信息单元的目标特征信息。
101.需要说明的是,所述信息提取模型中包括编码器模型和目标解码器模型,所述编码器模型用于对目标图像进行编码,得到编码特征数据,所述目标解码器模型用于对所述编码特征数据进行解码,得到所述图像中各个信息单元的特征信息,其中,确定所述目标图像中各个信息单元的定位信息是基于所述目标解码器模型完成的。
102.在本技术中,所提出的信息提取方案主要基于预先训练的信息提取模型实现,接下来将基于所述信息提取模型进行展开说明。
103.在本技术的一个实施例中,在获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息之前,可以执行如图9所示的步骤。
104.参见图9,示出了根据本技术一个实施例的在获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息之前的方法流程图。具体包括步骤200至步骤210:
105.步骤200,获取待训练模型,所述待训练模型中包括一个编码器模型和至少两个解码器模型,所述编码器模型用于对图像进行编码,得到编码特征数据,所述解码器模型用于对所述编码特征数据进行解码,得到所述图像中各个信息单元的特征信息。
106.步骤210,获取样本图像,并通过所述样本图像对所述待训练模型进行训练,得到信息提取模型。
107.在本技术中,可以事先通过网络结构搜索编码器模型,然后基于所述编码器模型和至少两个解码器模型构建所属于待训练模型,本领域技术人员可以理解的是,所述编码器模型在本质上可以属于网络结构模型。
108.在本技术中,网络结构搜索(neural architecture search,nas)是生成和优化网络结构的有效工具,在不确定网络的长度和结构的情况下,使用一个循环神经网络(recurrent network)作为控制器来生成网络结构的字段,用来构建子神经网络。将训练子网络之后的准确率作为控制器回馈信号(reward signal),通过计算策略梯度(policy gradient)更新控制器,这样不断的迭代循环。在下一次迭代中,控制器将有更高的概率提出一个高准确率的网络结构。基于此,通过网络结构搜索的方式获取编码器模型,其好处在于可以获取较优的编码器模型,从而使得构建的待训练模型具有准确的学习能力。
109.在本技术的一个实施例中,所述编码器模型可以包括密集连接卷积网络模型(densely connected convolutional networks,densenet),mobilenetv2模型,以及xception模型中的任意一种。
110.在本技术的一个实施例中,所述解码器模型可以包括gru模型,lstm模型,以及transformer模型中的任意一种。
111.在本技术的一个实施例中,在步骤210之前,即在通过所述样本图像对所述待训练
模型进行训练之前,还可以基于模型剪枝算法,模型蒸馏算法,以及模型量化算法中的任意一种,对所述编码器模型和所述解码器模型中的至少一种模型进行压缩处理。
112.在本技术中,对所述编码器模型和所述解码器模型中的至少一种模型进行压缩处理,其好处在于,可以在模型精度损失较小或者无损的情况下,将所述编码器模型和所述解码器模型的模型体积进一步减少,从而可以进一步加快计算速度,同时还能节省计算机资源。
113.在如图9所示步骤210的一个实施例中,通过所述样本图像对所述待训练模型进行训练,得到信息提取模型,可以按照如10所示的步骤执行:
114.参见图10,示出了根据本技术一个实施例的通过所述样本图像对所述待训练模型进行训练的细节流程图。具体包括步骤211至步骤214:
115.步骤211,通过所述编码器模型对所述样本图像进行编码,得到样本编码特征数据。
116.步骤212,通过所述至少两个解码器模型分别对所述样本编码特征数据进行解码,得到至少两组样本特征信息,其中,每一组样本特征信息中包括针对所述样本图像中各个信息单元的特征信息。
117.步骤213,触发所述至少两个解码器模型中的每一个解码器模型学习除自身之外其它解码器模型解码得到的样本特征信息。
118.步骤214,在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型,得到由所述编码器模型和所述目标解码器模型组成的所述信息提取模型。
119.在如图10所示步骤212的一个实施例中,通过所述至少两个解码器模型分别对所述样本编码特征数据进行解码,得到至少两组样本特征信息,可以按照如图11所示的步骤执行:
120.参见图11,示出了根据本技术一个实施例的通过所述至少两个解码器模型分别对所述样本编码特征数据进行解码的细节流程图。具体包括步骤2121至步骤2122:
121.步骤2121,基于所述样本编码特征数据,通过所述至少两个解码器模型分别按照所述样本图像中信息单元的不同排列方向确定所述样本图像中各个信息单元的样本定位信息。
122.步骤2122,基于所述至少两个解码器模型对应的样本定位信息,分别对所述样本编码特征数据进行解码,得到所述至少两组样本特征信息。
123.为了使本领域技术人员更好的理解上述几个实施例,下面将继续以图像中的公式识别场景为例,结合图12以一个具体的示例进行说明。
124.参见图12,示出了根据本技术一个实施例的训练信息提取模型的框架示意图。
125.如图12所示,待训练模型中包括编码器模型1201,第一解码器模型1202和第二解码器模型1203。
126.首先,编码器模型针对包含有公式“a+b-c”的目标图像进行编码,得到编码特征数据,然后,第一解码器模型1202和第二解码器模型1203分别基于注意力机制对所述编码特征数据进行解码,得到两组特征信息。
127.其中,在针对所述编码特征数据进行解码的过程中,第一解码器模型1202和第二解码器模型1203可以分别按照目标图像中信息单元(即字符单元)的不同排列方向确定所
述目标图像中各个信息单元的定位信息,然后再基于该定位信息,分别对编码特征数据进行解码,得到两组样本特征信息。
128.比如,第一解码器模型1202可以按照公式“a+b-c”中“a
”→“
+
”→“b”→“‑”→“
c”的排列方向确定字符“a”,字符“+”,字符“b”,字符
“‑”
以及字符“c”的定位信息,第二解码器模型1203可以按照公式“a+b-c”中“c
”→“‑”→“b”→“
+
”→“
a”的排列方向确定字符“c”,字符
“‑”
,字符“b”,字符“+”以及字符“a”的定位信息。在确定公式“a+b-c”中每一个字符单元的定位信息之后,第一解码器模型1202和第二解码器模型1203可以基于自身所确定的字符单元的定位信息,对该字符单元进行特征信息提取。
129.进一步的,在得到针对公式“a+b-c”的两组特征信息之后,触发第一解码器模型1202学习第二解码器模型1203解码得到的特征信息,还触发第二解码器模型1203学习第一解码器模型1202解码得到的特征信息,以分别优化第一解码器模型1202和第二解码器模型1203中的模型参数。
130.最后,在第一解码器模型1202和第二解码器模型1203保留一个解码器模型作为目标解码器模型(例如,保留第一解码器模型1202作为目标解码器模型),得到由所述编码器模型和所述目标解码器模型组成的所述信息提取模型。
131.在本技术中,通过所述至少两个解码器模型分别按照图像中信息单元的不同排列方向对图像中各个信息单元进行解码训练,可以同时关注和充分利用图像中信息单元不同角度的信息(例如历史和未来的信息),进一步的,各解码器模型之间通过相互学习,可以充分利用信息单元不同排列方向的互补信息,探索远距离依赖信息,使得解码器模型的解码能力更强,从而有助于提高信息提取的准确度。
132.在本技术中,继续以图像中的公式识别场景为例,在如图2所示步骤280之后,即在基于所述目标定位信息,提取所述第二信息单元的目标特征信息之后,还可以执行如图13所示的步骤。
133.参见图13,示出了根据本技术一个实施例的在基于所述目标定位信息,提取所述第二信息单元的目标特征信息之后的方法流程图。具体包括步骤291至步骤292:
134.步骤291,获取所述目标图像中各个字符单元对应的目标特征信息。
135.步骤292,基于所述目标特征信息,将所述目标图像中的一个或者多个公式编辑至公式编辑区域。
136.具体的,在该应用场景中,用户在编辑文档时,可以在网页上截取需要编辑的公式图像,然后基于本技术提出的信息提取方案,对数所述公式图像中至少一个字符单元的第一特征信息进行提取,得到目标特征信息,然后再基于所述目标特征信息将所述公式图像中的公式编辑至公式编辑区域,可见,本技术提出的信息提取方法可以为用户在公式编辑过程中带来极大的便利和优良的用户体验。
137.本技术中,通过至少两个不同尺度的定位卷积核,分别对目标图像中已完成特征信息提取的第一信息单元的历史定位信息进行卷积处理,可以得到至少两个定位参考信息,然后基于所述至少两个定位参考信息,可以确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息,最后基于所述目标定位信息,可以提取所述第二信息单元的目标特征信息。由于在确定所述第二信息单元的目标定位信息时,通过至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,可以利用不同尺度的定位卷
积核关注目标图像中尺寸大小不同的信息单元,故得到的至少两个定位参考信息中也包含了针对不同尺寸大小信息单元的关注信息,使得基于所述至少两个定位参考信息可以确定出针对第二信息单元的准确度较高的目标定位信息,从而能够提高由所述目标定位信息而确定的第二信息单元的目标特征信息的准确度。
138.以下介绍本技术的装置实施例,可以用于执行本技术上述实施例中的信息提取方法。对于本技术装置实施例中未披露的细节,请参照本技术上述的信息提取方法的实施例。
139.图14示出了根据本技术一个实施例的信息提取装置的框图。
140.参照图14所示,根据本技术的一个实施例的信息提取装置1400,包括:获取单元1401、卷积单元1402、确定单元1403、和提取单元1404。
141.其中,获取单元1401,被用于获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息,所述目标图像中包括至少一个信息单元;卷积单元1402,被用于通过至少两个不同尺度的定位卷积核,分别对所述历史定位信息进行卷积处理,得到至少两个定位参考信息;确定单元1403,被用于基于所述至少两个定位参考信息,确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息;提取单元1404,被用于基于所述目标定位信息,提取所述第二信息单元的目标特征信息。。
142.在本技术的一些实施例中,基于前述方案,所述获取单元1401配置为:获取目标图像中已完成特征信息提取的各个第一信息单元在历史上的定位信息;对所述已完成特征信息提取的各个第一信息单元在历史上的定位信息进行计算,得到所述历史定位信息。
143.在本技术的一些实施例中,基于前述方案,所述卷积单元1402配置为:通过信息提取模型中的第一定位卷积核对所述历史定位信息进行卷积处理,得到第一定位参考信息;通过所述信息提取模型中的第二定位卷积核对所述历史定位信息进行卷积处理,得到第二定位参考信息,所述第二定位卷积核的尺度大于所述第一定位卷积核的尺度。
144.在本技术的一些实施例中,基于前述方案,所述确定单元1403配置为:在基于所述至少两个定位参考信息,确定所述目标图像中未完成特征信息提取的第二信息单元的目标定位信息之前,按照所述至少一个信息单元在所述目标图像中的预设排列方向,从所述目标图像中未完成特征信息提取的信息单元中确定所述第二信息单元。
145.在本技术的一些实施例中,基于前述方案,所述确定单元1403还配置为:获取与所述第二信息单元排列距离最近的信息单元在特征信息提取时的隐藏状态信息,以及获取针对所述目标图像的编码特征数据;对所述至少两个定位参考信息,所述隐藏状态信息,以及所述编码特征数据进行聚合,得到所述第二信息单元的目标定位信息。
146.在本技术的一些实施例中,基于前述方案,所述提取单元1404配置为:获取针对所述目标图像的编码特征数据;基于所述目标定位信息,通过信息提取模型中的目标解码器模型对所述编码特征数据进行解码,得到所述第二信息单元的目标特征信息。
147.在本技术的一些实施例中,基于前述方案,所述装置还包括:训练单元,被用于在获取目标图像中已完成特征信息提取的第一信息单元的历史定位信息之前,获取待训练模型,所述待训练模型中包括一个编码器模型和至少两个解码器模型,所述编码器模型用于对图像进行编码,得到编码特征数据,所述解码器模型用于对所述编码特征数据进行解码,得到所述图像中各个信息单元的特征信息;获取样本图像,并通过所述样本图像对所述待训练模型进行训练,得到信息提取模型。
148.在本技术的一些实施例中,基于前述方案,所述编码器模型包括密集连接卷积网络模型。
149.在本技术的一些实施例中,基于前述方案,所述训练单元配置为:通过所述编码器模型对所述样本图像进行编码,得到样本编码特征数据;通过所述至少两个解码器模型分别对所述样本编码特征数据进行解码,得到至少两组样本特征信息,其中,每一组样本特征信息中包括针对所述样本图像中各个信息单元的特征信息;触发所述至少两个解码器模型中的每一个解码器模型学习除自身之外其它解码器模型解码得到的样本特征信息;在所述至少两个解码器模型中确定一个解码器模型作为目标解码器模型,得到由所述编码器模型和所述目标解码器模型组成的所述信息提取模型。
150.在本技术的一些实施例中,基于前述方案,所述训练单元配置为:基于所述样本编码特征数据,通过所述至少两个解码器模型分别按照所述样本图像中信息单元的不同排列方向确定所述样本图像中各个信息单元的样本定位信息;基于所述至少两个解码器模型对应的样本定位信息,分别对所述样本编码特征数据进行解码,得到所述至少两组样本特征信息。
151.在本技术的一些实施例中,基于前述方案,所述信息单元包括字符单元,所述目标图像中的至少一个信息单元组成一个或者多个包含所述字符单元的公式,所述至少两个定位参考信息用于分别关注不同尺寸大小的字符单元的定位信息。
152.在本技术的一些实施例中,基于前述方案,所述装置还包括:编辑单元,被用于在基于所述目标定位信息,提取所述第二信息单元的目标特征信息之后,获取所述目标图像中各个字符单元对应的目标特征信息;基于所述目标特征信息,将所述目标图像中的一个或者多个公式编辑至公式编辑区域。
153.作为另一方面,本技术实施例还提供了另一种信息提取装置,包括有存储器,以及一个以上的程序,其中一个以上程序存储于存储器中,且经配置以由一个以上处理器执行所述一个以上程序,所述一个以上程序包含用于进行如上述实施例中所述的信息提取方法的指令。
154.图15示出了根据本技术一个实施例的信息提取装置的框图。例如,装置1500可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
155.参照图15,装置1500可以包括以下一个或多个组件:处理组件1502,存储器1504,电源组件1506,多媒体组件1508,音频组件1510,输入/输出(i/o)的接口1512,传感器组件1514,以及通信组件1516。
156.处理组件1502通常控制装置1500的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1502可以包括一个或多个处理器1518来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件1502可以包括一个或多个模块,便于处理组件1502和其他组件之间的交互。例如,处理组件1502可以包括多媒体模块,以方便多媒体组件1508和处理组件1502之间的交互。
157.存储器1504被配置为存储各种类型的数据以支持在设备1500的操作。这些数据的示例包括用于在装置1500上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1504可以由任何类型的易失性或非易失性存储设备或者它们的
组合实现,如静态随机存取存储器(sram),电可擦除可编程只读存储器(eeprom),可擦除可编程只读存储器(eprom),可编程只读存储器(prom),只读存储器(rom),磁存储器,快闪存储器,磁盘或光盘。
158.电源组件1506为装置1500的各种组件提供电力。电源组件1506可以包括电源管理系统,一个或多个电源,及其他与为装置1500生成、管理和分配电力相关联的组件。
159.多媒体组件1508包括在所述装置1500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(lcd)和触摸面板(tp)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1508包括一个前置摄像头和/或后置摄像头。当设备1500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
160.音频组件1510被配置为输出和/或输入音频信号。例如,音频组件1510包括一个麦克风(mic),当装置1500处于操作模式,如呼叫模式、记录模式和语音信息处理模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1504或经由通信组件1516发送。在一些实施例中,音频组件1510还包括一个扬声器,用于输出音频信号。
161.i/o接口1512为处理组件1502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
162.传感器组件1514包括一个或多个传感器,用于为装置1500提供各个方面的状态评估。例如,传感器组件1514可以检测到设备1500的打开/关闭状态,组件的相对定位,例如所述组件为装置1500的显示器和小键盘,传感器组件1514还可以搜索结果展示装置1500或装置1500一个组件的位置改变,用户与装置1500接触的存在或不存在,装置1500方位或加速/减速和装置1500的温度变化。传感器组件1514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1514还可以包括光传感器,如cmos或ccd图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1514还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
163.通信组件1516被配置为便于装置1500和其他设备之间有线或无线方式的通信。装置1500可以接入基于通信标准的无线网络,如wifi,2g或3g,或它们的组合。在一个示例性实施例中,通信组件1516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件1516还包括近场通信(nfc)模块,以促进短程通信。例如,在nfc模块可基于射频信息处理(rfid)技术,红外数据协会(irda)技术,超宽带(uwb)技术,蓝牙(bt)技术和其他技术来实现。
164.在示例性实施例中,装置1500可以被一个或多个应用专用集成电路(asic)、数字信号处理器(dsp)、数字信号处理设备(dspd)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
165.在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例
如包括指令的存储器1504,上述指令可由装置1500的处理器1518执行以完成上述的信息提取方法。例如,所述非临时性计算机可读存储介质可以是rom、随机存取存储器(ram)、cd-rom、磁带、软盘和光数据存储设备等。
166.作为另一方面,本技术还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行实现上述实施例中所述的信息提取方法。
167.作为另一方面,本技术还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。所述计算机可读存储介质中存储有至少一条程序代码,所述至少一条程序代码由该装置的处理器加载并执行以实现如上述实施例中所述的信息提取方法所执行的操作。
168.应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本技术的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
169.通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本技术实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本技术实施方式的方法。
170.本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本技术的其它实施方案。本技术旨在涵盖本技术的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本技术的一般性原理并包括本技术未公开的本技术领域中的公知常识或惯用技术手段。
171.应当理解的是,本技术并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本技术的范围仅由所附的权利要求来限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1