信息分割方法、信息提取方法和信息分割模型的训练方法与流程

文档序号：32780324发布日期：2022-12-31 14:47阅读：36来源：国知局

1.本公开涉及人工智能领域，具体涉及深度学习、图像处理和计算机视觉等技术领域，可应用于ocr等场景。

背景技术：

2.随着计算机技术和网络技术的发展，可以采用人工智能技术提取文本图像中的文本内容，并整理为结构化信息，以利于文档的电子化和文本内容的快速调用。

技术实现要素：

3.本公开旨在提供一种提高复杂场景下信息提取能力和精度的信息分割方法、信息提取方法和信息分割模型的训练方法、装置、电子设备和存储介质。
4.根据本公开的一个方面，提供了一种信息分割方法，包括：提取文本图像的图像特征；根据针对结构化信息的查询特征对图像特征进行解码，得到解码特征，解码特征表征文本图像包括的目标结构化信息；以及根据解码特征，确定文本图像包括的目标结构化信息的分割信息，其中，查询特征是预训练得到的。
5.根据本公开的另一个方面，提供了一种信息提取方法，包括：采用本公开提供的信息分割方法确定文本图像包括的目标结构化信息的分割信息；以及根据分割信息，提取得到文本图像中的目标结构化信息。
6.根据本公开的另一个方面，提供了一种信息分割模型的训练方法，其中，信息分割模型包括特征提取网络、解码网络和预测网络；训练方法包括：采用特征提取网络提取样本中文本图像的图像特征；样本还包括文本图像所包括的目标结构化信息的分割真值信息；采用解码网络来根据针对结构化信息的查询特征对图像特征进行解码，得到解码特征；解码特征表征文本图像包括的目标结构化信息；采用预测网络来根据解码特征确定文本图像包括的目标结构化信息的分割预测信息；以及根据分割真值信息和分割预测信息，对信息分割模型和查询特征进行训练。
7.根据本公开的一个方面，提供了一种信息分割装置，包括：特征提取模块，用于提取文本图像的图像特征；特征解码模块，用于根据针对结构化信息的查询特征对图像特征进行解码，得到解码特征，解码特征表征文本图像包括的目标结构化信息；以及分割信息确定模块，用于根据解码特征，确定文本图像包括的目标结构化信息的分割信息，其中，查询特征是预训练得到的。
8.根据本公开的另一个方面，提供了一种信息提取装置，包括：分割信息确定模块，用于采用本公开提供的信息分割装置确定文本图像包括的目标结构化信息的分割信息；以及信息提取模块，用于根据分割信息，提取得到文本图像中的目标结构化信息。
9.根据本公开的另一个方面，提供了一种信息分割模型的训练装置，其中，信息分割模型包括特征提取网络、解码网络和预测网络；训练装置包括：特征提取模块，用于采用特征提取网络提取样本中文本图像的图像特征；样本还包括文本图像所包括的目标结构化信
息的分割真值信息；特征解码模块，用于采用解码网络来根据针对结构化信息的查询特征对图像特征进行解码，得到解码特征；解码特征表征文本图像包括的目标结构化信息；分割信息预测模块，用于采用预测网络来根据解码特征确定文本图像包括的目标结构化信息的分割预测信息；以及训练模块，用于根据分割真值信息和分割预测信息，对信息分割模型和查询特征进行训练。
10.根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的以下方法中的至少之一：信息分割方法、信息提取方法和信息分割模型的训练方法。
11.根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的以下方法中的至少之一：信息分割方法、信息提取方法和信息分割模型的训练方法。
12.根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令存储于可读存储介质和电子设备其中至少之一上，所述计算机程序/指令在被处理器执行时实现本公开提供的以下方法中的至少之一：信息分割方法、信息提取方法和信息分割模型的训练方法。
13.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
14.附图用于更好地理解本方案，不构成对本公开的限定。其中：图1是根据本公开实施例的信息分割方法、信息提取方法和信息分割模型的训练方法、装置的应用场景示意图；图2是根据本公开实施例的信息分割方法的流程示意图；图3是根据本公开实施例的信息分割方法的实现原理图；图4是根据本公开另一实施例的信息分割方法的实现原理图；图5是根据本公开实施例的信息提取方法的流程示意图；图6是根据本公开实施例的信息分割模型的训练方法的流程示意图；图7是根据本公开实施例的信息分割装置的结构框图；图8是根据本公开实施例的信息提取装置的结构框图；图9是根据本公开实施例的信息分割模型的训练装置的结构框图；以及图10是用来实施本公开实施例的方法的电子设备的框图。
具体实施方式
15.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
16.提取结构化信息是指从文本图像中提取出感兴趣的有一定结构的文本信息，结构
化信息的结构例如可以包括键-值结构等。结构化信息提取任务具有较高的应用价值，可以应用到广泛的业务场景中，例如证件信息录入场景、合同比对场景、财务报销和医疗报销等场景。藉由结构化信息提取任务，可以利于银行、保险、物流等各行各业的企业实现智能化地信息管理，提升企业运转效率。
17.在各种场景下，结构化信息提取任务通常有较大的挑战性。例如除了因图像采集环境中的光照、采集角度、文本被遮挡、文本中字体不工整和背景复杂等干扰而影响结构化提取任务的实现精度外，通常文本图像中文本的版式不固定、所要提取的结构化信息易混淆等也会给结构化提取任务的实现带来挑战。
18.例如，可以采用依靠文本内容的后处理方法或依靠value检测的方法等来实现结构化信息提取任务。其中，依靠文本内容的后处理方法通常先使用光学字符识别ocr技术来识别出文本图像中的文字，随后根据识别出的文字进行策略上的信息比对和提取。该方法不仅依赖较强的ocr检测识别系统，而且依赖大量复杂和难以优化维护的人工策略。依靠value检测的方法则将结构化信息提取任务前置到了文本检测任务中，具体先对感兴趣的value进行检测，随后对检测到的结果进行识别。该方法无需提取策略，但由于仅检测value信息，因此在版式简单的场景中表现良好，而对于版式复杂、value易混淆的场景，则往往难以保证检测精度。
19.基于以上问题，本公开旨在提供一种提高复杂场景下信息提取能力和提取精度的信息分割方法、信息提取方法和信息分割模型的训练方法、装置，以下先结合图1对本公开提供的方法和装置的应用场景进行描述。
20.图1是根据本公开实施例的信息分割方法、信息提取方法和信息分割模型的训练方法、装置的应用场景示意图。
21.如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。
22.该电子设备110例如可以对文本图像120进行检测，以检测得到文本图像120中的文字，并对文字进行识别，后处理得到文字构成的结构化信息130。或者，电子设备110可以采用信息分割模型140对文本图像120进行处理，得到结构化信息的分割信息，随后根据该分割信息从文本图像中提取结构化信息130。其中，信息分割模型140例如可以为实例分割模型等。
23.在一实施例中，如图1所示，该应用场景100中还可以包括服务器150，该服务器150例如可以为支持电子设备110中客户端应用运行的后台管理服务器。电子设备110可以通过网络与服务器150通信连接，网络可以包括有线或无线通信链路。
24.例如，服务器150可以根据批量的文本图像及预先标注得到的该批量文本图像的标签，训练信息分割模型，并响应于电子设备110发送的获取请求，将训练得到的信息分割模型140发送给电子设备110，以供电子设备110执行结构化信息提取任务。
25.在一实施例中，电子设备110例如还可以将文本图像120发送给服务器150，由服务器150藉由训练得到的信息分割模型，来执行结构化信息提取任务。
26.需要说明的是，本公开提供的信息分割方法和/或信息提取方法可以由电子设备110执行，也可以由服务器150执行。相应地，本公开提供的信息分割装置和/或信息提取装
置可以设置在电子设备110中，也可以设置在服务器150中。本公开提供的信息分割模型的训练方法可以由服务器150执行。相应地，本公开提供的信息分割模型的训练装置可以设置在服务器150中。
27.应该理解，图1中的电子设备110和服务器150的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110和服务器150。
28.以下将结合图2~图4对本公开提供的信息分割方法进行详细描述。
29.图2是根据本公开实施例的信息分割方法的流程示意图。
30.如图2所示，该实施例的信息分割方法200可以包括操作s210~操作s230。
31.在操作s210，提取文本图像的图像特征。
32.根据本公开的实施例，文本图像可以为对卡证、票据或纸质文档等进行拍摄而得到的图像。可以采用基于卷积和/或transformer编码器等构建的特征提取网络来提取图像特征。例如，特征提取网络可以采用残差网络（resnet）或者transformer编码器，也可以采用resnet与transformer编码器相混合的网络结构。
33.根据本公开的实施例，提取得到的图像特征例如可以包括文本图像的单个尺度的视觉特征，也可以包括文本图像的多个尺度的视觉特征。该图像特征可以为通常作为解码器的输入的视觉特征，本公开对此不做限定。
34.在操作s220，根据针对结构化信息的查询特征对图像特征进行解码，得到解码特征。
35.根据本公开的实施例，查询特征可以是预训练得到的。该查询特征例如可以包括与文本图像包括的结构化信息相对应的特征。在训练得到查询特征的过程中，例如可以为查询特征赋予任意的初始值，通过训练不断提高查询特征表达结构化信息的结构的能力。
36.例如，若结构化信息为键-值结构，则查询特征例如可以包括与键对应的查询子特征和与值对应的查询子特征。可以理解的是，该查询特征中包括的查询子特征的个数可以根据实际场景来确定，且该查询子特征的个数应不小于实际场景中文本图像包括的键、值的总个数。
37.根据本公开的实施例，在对图像特征进行解码时，可以根据查询特征查询图像特征，得到图像特征中表征结构化信息的特征，将该查询得到的特征作为解码特征。如此，解码特征可以表征文本图像包括的目标结构化信息。例如，该实施例可以采用concat( )函数将图像特征和查询特征连接，随后对连接后的特征进行解码，从而得到解码特征。
38.根据本公开的实施例，可以采用transformer解码器来对图像特征进行解码。例如，可以根据图像特征，生成键特征k和值特征v。将查询特征作为特征q，随后，采用交叉注意力机制（cross-attention）对该三个特征进行运算，实现对图像特征的解码，得到解码特征。可以理解的是，在对三个特征进行运算之前，例如还可以对查询特征进行维度变换，使得变换得到的特征与键特征和值特征具有相同维度，以便于计算。在一实施例中，在对三个特征进行运算之前，例如还可以对三个特征进行归一化处理。在一实施例中，例如可以采用基于交叉注意力机制构建的多头注意力来对图像特征进行解码，以提高得到的解码特征的表达能力。
39.在操作s230，根据解码特征，确定文本图像包括的目标结构化信息的分割信息。
40.根据本公开的实施例，可以将解码特征作为常规目标检测模型中检测头的输入，
由检测头输出分割信息。例如，检测头可以根据解码特征检测得到文本图像中目标结构化信息的位置信息及类别。其中，位置信息可以包括包围目标结构化信息的包围框的位置，类别可以由包围框内包括文本的概率值来表示，以表征包围框内是否具有文本，即位置信息指示位置处是否有文本。在得到分割信息后，该实施例可以将概率值大于阈值的包围框所包围的信息作为目标结构化信息，通过对该包围框所包围的信息进行ocr识别，得到属于目标结构化信息的文字，完成结构化信息的提取。
41.根据本公开的实施例，可以将解码特征作为预测网络的输入，预测网络例如可以包括检测子网络和分类子网络，该实施例可以将解码特征作为检测子网络和分类子网络的输入，由检测子网络检测得到文本图像中目标结构化信息的位置信息，由分类子网络预测得到目标结构化信息的分类信息。该分类信息可以用于区分不同的目标结构化信息。例如，分类子网络输出的为目标图像的掩膜图像，在该掩膜图像中，目标结构化信息的掩膜即为分类信息，且不同的目标结构化信息的掩膜不同，以实现对不同的目标结构化信息的区分。
42.本公开实施例的技术方案，通过借助预训练得到的查询特征来对图像特征进行解码，可以提高解码得到的解码特征的表达能力，使得解码和预测过程不受文本图像中文档版式的限制，利于提高判别有歧义的结构化信息的能力，提高确定的分割信息的精度，并因此可以利于提高下游应用的精度。下游应用例如可以包括结构化信息的提取等，本公开对此不做限定。
43.以下将结合图3~图4，对信息分割方法的具体实现原理进行进一步的限定和扩展。
44.图3是根据本公开实施例的信息分割方法的实现原理图。
45.根据本公开的实施例，可以借由注意力机制来实现目标结构化信息的信息分割，以在分割过程中更好地挖掘文本图像中文本的上下文语义，并借由并行性提高分割效率。
46.如图3所示，该实施例300可以先将文本图像301输入特征提取网络310中，得到图像特征302。其中，特征提取网络310例如可以为transformer编码器，或者基于卷积构建的任意编码器，本公开对此不做限定。
47.随后，该实施例300可以将图像特征302和查询特征303同时输入基于transformer解码器构建的解码网络320中，以使得解码网络320根据查询特征303对图像特征进行解码，得到解码特征304。其中，解码网络320例如可以由依次连接的l个transformer解码器构成，每个transformer解码器基于交叉注意力机制来对特征进行处理。例如，解码网络320还可以包括三个线性处理层，其中两个线性处理层用于分别对图像特征302进行线性处理，从而得到键特征k和值特征v，另外的一个线性处理层用于对查询特征303进行线性处理，从而得到与键特征k和值特征v相同维度的查询特征q。
48.可以理解的是，每个transformer解码器例如可以包括交叉注意力层和叠加&归一化层，交叉注意力层用于对输入的k、v和q进行基于交叉注意力机制的运算，叠加&归一化层用于对注意力层运算得到的特征和q进行叠加，并进行归一化处理。该实施例可以将l个transformer解码器中最后一个transformer解码器归一化处理所得到的特征作为解码特征。
49.在一实施例中，查询特征可以以特征序列的形式体现。例如，查询特征可以包括第一特征序列，第一特征序列可以由表征至少一个结构化信息的至少一个第一特征构成。该第一特征序列可以以序列形式输入解码网络320，以根据每个第一特征查询图像特征302，
得到表征与每个第一特征对应的结构化信息的一个解码特征。如此，上文描述的操作s220得到的解码特征例如也可以以特征序列的形式体现。具体地，解码特征304例如可以包括由与至少一个第一特征分别对应，且表征至少一个目标结构化信息的至少一个第二特征构成的第二特征序列。
50.例如，在实施例300中，查询特征303包括由至少两个第一特征构成的第一特征序列。相应地，解码特征304包括由至少两个第二特征构成的第二特征序列。
51.相应地，在根据解码特征确定分割信息时，可以根据每个第二特征，确定该每个第二特征表征的目标结构化信息在文本图像301中的位置信息305，并确定该每个第二特征表征的目标结构化信息的分类信息306。例如，该实施例可以将第二特征序列输入预测网络330包括的检测子网络331和分类子网络332。检测子网络331对第二特征序列中的每个第二特征进行处理后，输出与第二特征序列对应的位置信息序列，位置信息序列中包括与每个第二特征对应的位置信息305。分类子网络332对第二特征序列中的每个第二特征进行处理后，输出与第二特征序列对应的分类信息序列，分类信息序列中包括与每个第二特征对应的分类信息306。
52.在一实施例中，检测子网络331的结构可以与目标检测模型中检测头的结构类似，可以不仅包括回归层，还包括二分类层，回归层用于回归得到与每个第一特征对应的第二特征所表征的目标结构化信息的包围框，该包围框的位置可以作为目标结构化信息的预测位置。二分类层用于进行文本和非文本的分类，得到表征包围框内是否有文本的预测类别。例如，该检测子网络331由卷积层构成，检测子网络331可以先根据解码特征确定感兴趣区域，然后将感兴趣区域的特征送入回归层进行坐标回归，由回归层进行连通域分析，回归得到目标结构化信息的包围框。同时，将感兴趣区域的特征送入分类层，进行文本和非文本的二分类。
53.在一实施例中，分类子网络332可以采用全连接层构成，用于对文本图像301中像素进行类别的区分，为属于同一类别的像素生成相同颜色的掩膜（mask），如此，输出与文本图像301对应的掩膜图像，根据该掩膜图像中的掩膜，即可得到分类信息，将不同的第二特征所表征的目标结构化信息区分开。
54.该实施例通过以序列形式构建查询特征，并以序列形式进行解码，可以实现对文本图像中多个目标结构化信息的一次性提取，可以提高提取效率。需要说明的是，查询特征中第一特征的个数可以根据实际场景进行设定，以保证该第一特征的个数不小于实际场景中目标图像中可能包括的结构化信息的个数。
55.可以理解的是，该实施例300，可以采用实例分割模型来完成信息分割方法，分割过程中，实例分割模型以单个结构化信息作为一个实例。
56.在一实施例中，结构化信息可以为键-值对结构的信息。该实施例中，查询特征可以包括表征键信息的第一查询子特征和表征值信息的第二查询子特征。例如，查询特征可以是由一个第一查询子特征和一个第二查询子特征构成的特征对。则在对图像特征进行解码的过程中，可以根据第一查询子特征查询图像特征中与键信息对应的特征，根据第二查询子特征查询图像特征中与值信息对应的特征。相应地，解码得到的解码特征中可以包括与第一查询子特征对应的第一解码子特征和与第二查询子特征对应的第二解码子特征。该第一解码子特征可以表征结构化信息中的键信息，第二解码子特征可以表征结构化信息中
的值信息。则在确定目标结构化信息在文本图像中的位置信息时，可以根据第一解码子特征得到表征的目标键信息在文本图像中的第一位置信息，根据第二解码子特征得到表征的目标值信息在文本图像中的第二位置信息。第二位置信息处的目标值信息与第一位置信息处的目标键信息即可构成一个键-值对结构的结构化信息。
57.通过包括第一查询子特征和第二查询子特征的查询特征的设置，可以在信息分割过程中实现键信息和值信息的同时检测和分割。相较于相关技术中根据键类别检测值信息的技术方案，由于同时考虑了图像特征中键信息的特征和值信息的特征，因此可以避免因值信息易混淆而导致的结构化信息提取不准确的情况。
58.在一实施例中，在如上文描述的查询特征包括由至少一个第一特征构成的第一特征序列的情况下，每个第一特征可以包括表征键信息的第一查询子特征和表征值信息的第二查询子特征，每个第一特征中包括的第二查询子特征表征与第一查询子特征表征的键信息相配对的值信息，该键信息和相配对的值信息构成键-值对结构的结构化信息。
59.示例性地，第二查询子特征例如可以包括表征至少两个值信息的至少两个子特征，如此，该至少两个值信息均与第一查询子特征表征的键信息相配对。例如，每个第一特征可以包括表征（m-1）个值信息的（m-1）子特征和表征键信息的1个第一查询子特征。如图3所示，m可以为4或任意大于1的整数，本公开对此不做限定。可以理解的是，若与键信息对应的值信息的文本在文本图像中包括多行的文本，则该实施例可以将每一行的文本作为一个值信息，即值信息可以是以行为单位的文本信息。
60.示例性地，在查询特征包括n个第一特征的情况下，查询特征例如还可以表示为尺寸为n
×
m的特征矩阵，每一列包括的m个特征对应一个结构化信息，m个特征中包括1个表征键信息的第一查询子特征和（m-1）个表征（m-1）个值信息的子特征。
61.相应地，解码得到的解码特征也可以表示为尺寸为n
×
m的特征矩阵，每一列包括的m个解码子特征构成一个第二特征，用于分别表征键信息和与该键信息配对的（m-1）个值信息。根据解码特征确定的位置信息也应包括n
×
m个位置信息，每一列的位置信息包括目标键信息在文本图像中的第一位置信息和配对的（m-1）个目标值信息在文本图像中的位置信息，该（m-1）个目标值信息在文本图像中的位置信息即可构成上文描述的第二位置信息。可以理解的是，在文本图像中与某个键信息配对的值信息的个数小于（m-1）时，可以输出预定值（例如0等）来表示（m-1）个目标值信息中未检测到的值信息的位置信息。在文本图像中包括的目标结构化信息的个数小于n的情况下，可以输出预定值（例如0等）来表示n个目标结构化信息中未检测到的结构化信息的分割信息。
62.通过该实施例中第一查询子特征和包括至少两个子特征的第二查询子特征的设置，可以实现键信息及与键信息配对的一个或多个值信息的同步检测，可以进一步提高信息分割效率和结构化信息的提取效率。
63.图4是根据本公开另一实施例的信息分割方法的原理示意图。
64.根据本公开的实施例，在结构化信息为键-值对结构，查询特征包括第一查询子特征和第二查询子特征的情况下，该实例在采用解码网络解码图像特征时，例如可以先对包括第一查询子特征和第二查询子特征的第一特征中的查询子特征进行融合，以充分挖掘值信息和键信息的语义关系，利于在解码时，有效识别图像特征中有歧义的值信息的语义特征，提高信息分割精度。
65.例如，在解码得到解码特征时，可以先采用第一注意力机制对第一特征中的查询子特征进行融合，得到与第一特征对应的第一融合特征。随后，将该第一融合特征作为交叉注意力机制中的查询特征，根据由图像特征生成的键特征、值特征和该第一融合特征，采用交叉注意力机制来解码得到解码特征。其中，第一自注意力机制例如可以为内部自注意力机制（intra self-attention）。
66.如图4所示，在该实施例400中，解码网络420可以包括l个由自注意力层421和transformer解码器422构成的解码单元。第一个解码单元中的自注意力层421用于对查询特征403包括的每个第一特征中的查询子特征进行融合，得到与每个第一特征对应的第一融合特征。例如，若第一特征包括m个查询子特征，该m个查询子特征中包括（m-1）个表征值信息的子特征和1个表征键信息的第一查询子特征，该自注意力层421可以用于对该m个查询子特征中的每两个特征进行注意力运算，以将第一特征中的m个查询子特征关联起来。
67.在该实施例中，可以根据文本图像401经由特征提取网络410提取得到的图像特征402，生成键特征k和值特征v，根据自注意力层421融合得到的第一融合特征来得到输入transformer解码器422的查询特征q。随后，该实施例可以将k、v和q输入transformer解码器422中，由transformer解码器422采用交叉注意力机制解码得到解码特征。可以理解的是，对于后续的每个解码单元，自注意力层421的输入可以为前一解码单元输出的特征，transformer解码器422的输入可以为根据该解码单元中自注意力层421输出的特征得到的查询特征q、根据图像特征402生成的键特征k和值特征v。该实施例可以将第l个解码单元输出的特征作为解码得到的解码特征404。
68.在一实施例中，在查询特征包括的第一特征为至少两个的情况下，该实施例还可以对查询特征进行第一特征彼此之间的融合，以在解码过程中更好地区分不同的结构化信息，避免经由预测网络440中的检测子网络441对同一个结构化信息进行多次检测，使得得到的位置信息405中包括同一个结构化信息的多个位置信息，也利于分类子网络442更好的对不同的结构化信息进行区分，提高得到的分类信息406的精度。
69.例如，如图4所示，自注意力层421可以包括内部自注意力层4211和外部自注意力层4212。内部自注意力层4211可以用于采用上文描述的第一自注意力机制对查询特征403中包括的每个第一特征中的查询子特征进行融合，得到第一融合特征。与至少两个第一特征对应的至少两个第一融合特征可以构成融合特征序列407。外部自注意力层4212用于采用第二自注意力机制对至少两个第一融合特征进行融合，得到第二融合特征。通过对该第二融合特征进行线性处理，可以得到输入transformer解码器422的查询特征q。其中，第二自注意力机制例如可以采用外部自注意力机制（inter self-attention），用于对至少两个第一融合特征中，相同位置处的至少两个子特征进行关联，以更好地学习到针对不同结构化信息的特征之间的语义上下文信息，更好地区分不同的结构化信息。
70.基于本公开提供的信息分割方法，本公开还提供了一种信息提取方法，以下将结合图5对该信息提取方法进行详细描述。
71.图5是根据本公开实施例的信息提取方法的流程示意图。
72.如图5所示，该实施例的信息提取方法500可以包括操作s510~操作s520。
73.在操作s510，确定文本图像包括的目标结构化信息的分割信息。可以理解的是，该操作s510可以采用上文描述的信息分割方法来确定分割信息，在此不再赘述。
74.在操作s520，根据分割信息，提取得到文本图像中的目标结构化信息。
75.根据本公开的实施例，在得到分割信息后，该实施例例如可以根据分割信息中的位置信息对文本图像进行裁剪，得到表示目标结构化信息的子图像。随后，根据表征分割信息中分类信息的掩膜图像对子图像进行掩膜处理，以去除子图像中的背景。最后，对掩膜处理后的图像进行字符识别，识别得到作为目标结构化信息的文本。
76.本公开实施例的信息提取方法，通过采用上文描述的信息分割方法得到分割信息，即可直接根据分割信息来提取结构化信息，而无需进行nms等复杂的后处理，也基于查询特征可以很好地区分有歧义的值信息。因此，可以提高信息提取方法的处理效率和提取精度，且该信息提取方法可以用于完成各种复杂场景下结构化信息提取任务，具有较高的鲁棒性。
77.为了便于本公开提供的信息分割方法的实施，本公开还提供了一种信息分割模型的训练方法，以下将结合图6对该方法进行详细描述。
78.图6是根据本公开实施例的信息分割模型的训练方法的流程示意图。
79.如图6所示，该实施例的信息分割模型的训练方法600可以包括操作s610~操作s640。该信息分割模型可以包括特征提取网络、解码网络和预测网络。
80.在操作s610，采用特征提取网络提取样本中文本图像的图像特征。
81.根据本公开的实施例，样本除了包括图像特征外，还可以包括文本图像包括的目标结构化信息的分割真值信息。该分割真值信息例如可以包括文本图像中的目标结构化信息的位置信息的真值和掩码图像，该掩码图像用于表示分类信息的真值。可以理解的是，该操作s610的实现原理与上文描述的操作s210的实现原理类似，特征提取网络可以为上文描述的特征提取网络，在此不再赘述。
82.在操作s620，采用解码网络来根据针对结构化信息的查询特征对图像特征进行解码，得到解码特征。其中，解码特征表征文本图像包括的目标结构化信息。可以理解的是，该操作s620的实现原理与上文描述的操作s220的实现原理类似，解码网络可以采用上文描述的transformer解码器，也可以采用上文描述的图3和图4中的解码网络的结构，在此不再赘述。
83.在操作s630，采用预测网络来根据解码特征确定文本图像包括的目标结构化信息的分割预测信息。该分割预测信息与上文描述的分割信息类似，该操作s630的实现原理与上文描述的操作s230的实现原理类似，在此不再赘述。
84.在操作s640，根据分割真值信息和分割预测信息，对信息分割模型和查询特征进行训练。
85.在该实施例中，查询特征例如可以采用嵌入网络处理生成。嵌入网络的输入可以为指示查询特征中各特征位置的初始化信息。采用嵌入网络中的网络参数对初始化信息进行处理，可以得到查询特征。该实施例在对查询特征进行训练的过程，可以理解为是对嵌入网络中的网络参数进行训练的过程。在训练得到理想的查询特征和信息分割模型后，在执行信息分割方法时，可以采用该初始化信息作为嵌入网络的输入，由嵌入网络输出预训练的查询特征。
86.在一实施例中，可以根据分割真值信息和分割预测信息之间的差异，来确定信息分割模型针对文本图像的分割损失值，随后，以最小化该预测损失值为目标，采用反向传播
算法来对信息分割模型和嵌入网络中的网络参数进行训练。
87.例如，可以根据分割真值信息中位置信息所指示位置与分割预测信息中位置信息所指示位置之间的交并比，来确定分割损失值。例如，可以采用dice loss函数来计算分割损失值。
88.例如，可以根据分割真值信息中的掩膜图像与表征分割预测信息中分类信息的掩膜图像之间的像素级差异，来确定分割损失值。例如，可以采用交叉熵损失函数来计算分割损失值。
89.在一实施例中，可以将采用交叉熵损失函数计算得到的损失值和dice loss函数计算得到的损失值的加权和，作为信息分割模型针对文本图像的分割损失值。
90.根据本公开的实施例，该实施例可以先根据匹配算法来对分割真值信息和分割预测信息进行匹配，以在文本图像中包括至少两个目标结构化信息的情况下，将对应同一个目标结构化信息的预测信息和真值信息进行匹配，提高确定的预测损失值的准确性，提高模型的训练效率和训练精度。
91.示例性地，可以设定分割真值信息中对应一个目标结构化信息的部分信息为一个第一分割信息，设定分割预测信息中对应一个目标结构化信息的部分信息为一个第二分割信息。即分割真值信息可以包括与至少一个目标结构化信息对应的至少一个第一分割信息，分割预测信息包括与至少一个目标结构化信息对应的至少一个第二分割信息。上述操作s640在训练模型和查询特征时，可以先采用匹配算法匹配至少一个第一分割信息和至少一个第二分割信息，得到至少一个信息对。每个信息对包括一个第一分割信息和与该一个第一分割信息匹配的一个第二分割信息。随后，根据信息对中第一分割信息与第二分割信息之间的差异，来确定分割损失值，并以最小化该分割损失值为目标，对信息分割模型和查询特征进行训练。
92.例如，可以采用二分图匹配算法等来匹配分割预测信息和分割真值信息。可以以位置信息作为依据进行匹配，将位置匹配的第一分割信息和第二分割信息构成一个信息对。
93.例如，对于未匹配到第一分割信息的第二分割信息，例如可以为该第二分割信息分配预定的损失值。该实施例可以将根据信息对中第一分割信息与第二分割信息之间的差异所确定的分割损失值与该预定的损失值的和，作为信息分割模型的总损失值。随后以最小化该总损失值为目标，对信息分割模型和查询特征进行训练。
94.在一实施例中，预测网络可以采用上文描述的图3或图4中的预测网络，即该预测网络包括检测子网络和分类子网络。上述操作s630在确定分割预测信息时，可以采用检测子网络来根据解码特征，确定目标结构化信息在文本图像中的预测位置信息。同时，可以采用分类子网络来根据解码特征，确定目标结构化信息的预测分类信息。其中，预测分类信息用于区分不同的第二特征表征的目标结构化信息。该确定预测位置信息和预测分类信息的原理与上文描述的图3和图4中确定分类信息和位置信息的原理类似，在此不再赘述。
95.根据本公开的实施例，上述的检测子网络例如采用常规目标检测模型中的检测头。如此，与上文描述类似，在将解码特征输入该检测头后，检测头确定的信息可以包括目标结构化信息的预测位置和预测类别。预测类别可以表征预测位置处是否具有文本。预测位置即为包围目标结构化信息的包围框的位置。相应地，可以将分割真值信息中位置信息
指示位置处的类别确定为具有文本的真值类别。在确定信息分割模型的损失时，除了考虑预测分割信息和真值分割信息中位置之间的差异、分类信息之间的差异外，还可以考虑表征是否具有文本的类别之间的差异。
96.例如，可以根据上文描述的第一分割信息中预测位置与第二分割信息中真值位置之间的差异，来确定第一损失值。例如，可以采用dice loss函数来计算第一损失值。可以根据第一分割信息中预测类别与第二分割信息中真值类别之间的差异，确定第二损失值。例如，可以采用交叉熵损失函数来计算第二损失值。可以根据第一分割信息中预测分类信息与第二分割信息中真值分类信息之间的差异，确定第三损失值。例如可以采用交叉熵损失函数来计算第三损失值。最后，该实施例可以根据第一损失值、第二损失值和第三损失值，来对信息分割模型和查询特征进行训练。
97.示例性地，可以将第一损失值、第二损失值和第三损失值的加权和，作为信息分割模型的总损失值。以最小化总损失值为目标，来对信息分割模型和得到查询特征的嵌入网络的网络参数进行训练。其中，计算加权和时所采用的权重可以根据实际需求来进行设定，本公开对此不做限定。
98.基于本公开提供的信息分割方法，本公开还提供了一种信息分割装置。以下将结合图7对该装置进行详细描述。
99.图7是根据本公开实施例的信息分割装置的结构框图。
100.如图7所示，该实施例的信息分割装置700可以包括特征提取模块710、特征解码模块720和分割信息确定模块730。
101.特征提取模块710用于提取文本图像的图像特征。在一实施例中，特征提取模块710可以用于执行上文描述的操作s210，在此不再赘述。
102.特征解码模块720用于根据针对结构化信息的查询特征对图像特征进行解码，得到解码特征。其中，解码特征表征文本图像包括的目标结构化信息，查询特征是预训练得到的。在一实施例中，特征解码模块720可以用于执行上文描述的操作s220，在此不再赘述。
103.分割信息确定模块730用于根据解码特征，确定文本图像包括的目标结构化信息的分割信息。在一实施例中，分割信息确定模块730可以用于执行上文描述的操作s230，在此不再赘述。
104.根据本公开的实施例，上述分割信息确定模块730可以包括位置确定子模块和分类确定子模块。位置确定子模块用于根据解码特征，确定目标结构化信息在文本图像中的位置信息。分类确定子模块用于根据解码特征，确定目标结构化信息的分类信息。
105.根据本公开的实施例，查询特征包括第一特征序列，第一特征序列由表征至少一个结构化信息的至少一个第一特征构成；解码特征包括第二特征序列，第二特征序列由与至少一个第一特征分别对应、且表征至少一个目标结构化信息的至少一个第二特征构成。上述位置确定子模块具体可以用于：根据至少一个第二特征中的每个第二特征，确定每个第二特征表征的目标结构化信息在文本图像中的位置信息。上述分类确定子模块具体可以用于：根据每个第二特征，确定每个第二特征表征的目标结构化信息的分类信息。其中，分类信息用于区分不同的第二特征表征的目标结构化信息。
106.根据本公开的实施例，查询特征包括表征键信息的第一查询子特征和第二查询子特征，第二查询子特征表征与键信息配对的值信息；解码特征包括与第一查询子特征对应
的第一解码子特征和与第二查询子特征对应的第二解码子特征。上述位置确定子模块可以包括第一确定单元和第二确定单元。第一确定单元用于根据第一解码子特征，确定目标结构化信息中的目标键信息在文本图像中的第一位置信息。第二确定单元用于根据第二解码子特征，确定目标结构化信息中与目标键信息配对的目标值信息在文本图像中的第二位置信息。
107.根据本公开的实施例，第二查询子特征包括表征至少两个值信息的至少两个子特征。第二位置信息包括与目标键信息配对的至少两个目标值信息在文本图像中的位置信息。
108.根据本公开的实施例，上述特征解码模块720可以包括特征生成子模块和解码子模块。特征生成子模块用于根据图像特征，生成键特征和值特征。解码子模块用于根据键特征、值特征和查询特征，采用交叉注意力机制解码得到解码特征。
109.根据本公开的实施例，查询特征包括第一特征序列，第一特征序列由表征至少一个结构化信息的至少一个第一特征构成；第一特征包括表征键信息的第一查询子特征和第二查询子特征，第二查询子特征表征与键信息配对的值信息。上述解码子模块可以包括融合单元和解码单元。融合单元用于采用第一自注意力机制对第一特征中的查询子特征进行融合，得到与第一特征对应的第一融合特征。解码单元用于根据键特征、值特征和第一融合特征，采用交叉注意力机制解码得到解码特征。
110.根据本公开的实施例，第一特征的数量为至少两个。上述解码单元可以包括融合子单元和解码子单元。融合子单元用于采用第二自注意力机制对与至少两个第一特征对应的至少两个第一融合特征进行融合，得到第二融合特征。解码子单元用于根据键特征、值特征和第二融合特征，采用交叉注意力机制解码得到解码特征。
111.基于本公开提供的信息提取方法，本公开还提供了一种信息提取装置。以下将结合图8对该装置进行详细描述。
112.图8是根据本公开实施例的信息提取装置的结构框图。
113.如图8所示，该实施例的信息提取装置800可以包括分割信息确定模块810和信息提取模块820。
114.分割信息确定模块810可以采用上文描述的信息分割装置确定文本图像包括的目标结构化信息的分割信息。在一实施例中，分割信息确定模块810可以用于执行上文描述的操作s510，在此不再赘述。
115.信息提取模块820用于根据分割信息，提取得到文本图像中的目标结构化信息。在一实施例中，信息提取模块820可以用于执行上文描述的操作s520，在此不再赘述。
116.基于本公开提供的信息分割模型的训练方法，本公开还提供了一种信息分割模型的训练装置。以下将结合图9对该装置进行详细描述。
117.图9是根据本公开实施例的信息分割模型的训练装置的结构框图。
118.如图9所示，信息分割模型的训练装置900可以包括特征提取模块910、特征解码模块920、分割信息预测模块930和训练模块940。其中，信息分割模型可以包括特征提取网络、解码网络和预测网络。
119.特征提取模块910用于采用特征提取网络提取样本中文本图像的图像特征。样本还包括文本图像所包括的目标结构化信息的分割真值信息。在一实施例中，特征提取模块
910可以用于执行上文描述的操作s610，在此不再赘述。
120.特征解码模块920用于采用解码网络来根据针对结构化信息的查询特征对图像特征进行解码，得到解码特征；解码特征表征文本图像包括的目标结构化信息。在一实施例中，特征解码模块920可以用于执行上文描述的操作s620，在此不再赘述。
121.分割信息预测模块930用于采用预测网络来根据解码特征确定文本图像包括的目标结构化信息的分割预测信息。在一实施例中，分割信息预测模块930可以用于执行上文描述的操作s630，在此不再赘述。
122.训练模块940用于根据分割真值信息和分割预测信息，对信息分割模型和查询特征进行训练。在一实施例中，训练模块940可以用于执行上文描述的操作s640，在此不再赘述。
123.根据本公开的实施例，分割真值信息包括与至少一个目标结构化信息对应的至少一个第一分割信息；分割预测信息包括至少一个第二分割信息。上述训练模块940可以包括匹配子模块和训练子模块。匹配子模块用于采用匹配算法匹配至少一个第一分割信息和至少一个第二分割信息，得到至少一个信息对，信息对包括一个第一分割信息和与一个第一分割信息匹配的一个第二分割信息。训练子模块用于根据信息对中第一分割信息与第二分割信息之间的差异，对信息分割模型和查询特征进行训练。
124.根据本公开的实施例，预测网络包括检测子网络和分类子网络。上述分割信息预测模块930可以包括位置确定子模块和分类确定子模块。位置确定子模块用于采用检测子网络来根据解码特征，确定目标结构化信息在文本图像中的预测位置信息。分类确定子模块用于采用分类子网络来根据解码特征，确定目标结构化信息的预测分类信息。其中，预测分类信息用于区分不同的目标结构化信息。
125.根据本公开的实施例，上述位置确定子模块具体可以用于采用检测子网络来根据解码特征，确定文本图像包括的目标结构化信息的预测位置和预测类别；预测类别用于表征预测位置处是否具有文本。上述训练子模块可以包括第一损失确定单元、第二损失确定单元、第三损失确定单元和训练单元。第一损失确定单元用于根据第一分割信息中预测位置与第二分割信息中真值位置之间的差异，确定第一损失值。第二损失确定单元用于根据第一分割信息中预测类别与第二分割信息中真值类别之间的差异，确定第二损失值。第三损失确定单元用于根据第一分割信息中预测分类信息与第二分割信息中真值分类信息之间的差异，确定第三损失值。训练单元用于根据第一损失值、第二损失值和第三损失值，对信息分割模型和查询特征进行训练。
126.需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。
127.根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
128.图10示出了可以用来实施本公开实施例的方法的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以
表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
129.如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器（rom）1002中的计算机程序或者从存储单元1008加载到随机访问存储器（ram）1003中的计算机程序，来执行各种适当的动作和处理。在ram 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、rom 1002以及ram 1003通过总线1004彼此相连。输入/输出（i/o）接口1005也连接至总线1004。
130.设备1000中的多个部件连接至i/o接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
131.计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元（cpu）、图形处理单元（gpu）、各种专用的人工智能（ai）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（dsp）、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如信息分割方法、信息提取方法和信息分割模型的训练方法中的至少之一。例如，在一些实施例中，信息分割方法、信息提取方法和信息分割模型的训练方法中的至少之一可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由rom 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到ram 1003并由计算单元1001执行时，可以执行上文描述的信息分割方法、信息提取方法和信息分割模型的训练方法中的至少之一的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行信息分割方法、信息提取方法和信息分割模型的训练方法中的至少之一。
132.本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（fpga）、专用集成电路（asic）、专用标准产品（assp）、芯片上系统的系统（soc）、复杂可编程逻辑设备（cpld）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
133.用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
134.在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供
指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦除可编程只读存储器（eprom或快闪存储器）、光纤、便捷式紧凑盘只读存储器（cd-rom）、光学储存设备、磁储存设备、或上述内容的任何合适组合。
135.为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，crt（阴极射线管）或者lcd（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。
136.可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（lan）、广域网（wan）和互联网。
137.计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与vps服务（"virtual private server"，或简称 "vps"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。
138.应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
139.上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张晓强钦夏孟章成全姚锟
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种机器人自动抓取的精度料框的制作方法
上一篇：一种工业风扇吊装的防脱结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。