信息抽取方法、装置、设备及存储介质与流程

文档序号:29948975发布日期:2022-05-07 17:22阅读:76来源:国知局
1.本公开涉及数据处理中的大数据
技术领域
:,尤其涉及一种信息抽取方法、装置、设备及存储介质。
背景技术
::2.随着互联网的不断普及,信息呈现爆炸式地增长,大量重要数据以文本文字的形式呈现,例如,各个公司的公告信息。如果能够根据实际需求,自动分析、过滤、抽取有价值的结构化数据,就能帮助研究人员快速获取投资线索,从而做出最及时、准确的决策。3.相关技术中,公告信息的抽取方式主要是基于预先制定的规则集和/或词典集,对公告中的关键信息进行抽取,从而得到有价值的架构化数据。但是,预先建立的规则集或词典集可能无法覆盖到公告文本的所有情况,而且需要不断对其进行更新维护,存在人力成本高、维护困难的问题。技术实现要素:4.本公开提供了一种信息抽取方法、装置、设备及存储介质。5.根据本公开的第一方面,提供了一种信息抽取方法,包括:6.获取待处理文档,所述待处理文档包括待处理区域;7.对所述待处理区域进行解析,得到所述待处理区域对应的解析信息;8.基于目标键名,从所述待处理区域对应的解析信息中,抽取所述目标键名对应的目标信息。9.根据本公开的第二方面,提供了一种信息抽取装置,包括:10.获取单元,用于获取待处理文档,所述待处理文档包括待处理区域;11.解析单元,用于对所述待处理区域进行解析,得到所述待处理区域对应的解析信息;12.抽取单元,用于基于目标键名,从所述待处理区域对应的解析信息中,抽取所述目标键名对应的目标信息。13.根据本公开的第三方面,提供了一种电子设备,包括:14.至少一个处理器;以及15.与所述至少一个处理器通信连接的存储器;其中,16.所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面所述的方法。17.根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面所述的方法。18.根据本公开的第五方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面所述的方法。19.根据本公开的技术方案,实现了信息的自动抽取,降低了人工成本,提高了抽取准确性。20.应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。附图说明21.附图用于更好地理解本方案,不构成对本公开的限定。其中:22.图1是本公开实施例提供的信息抽取方法所适用的应用场景示意图;23.图2是本公开实施例提供的信息抽取系统的架构示意图;24.图3是本公开第一实施例提供的信息抽取方法的流程示意图;25.图4是本公开第二实施例提供的信息抽取方法的流程示意图;26.图5是利用机器阅读理解方式抽取目标信息的流程示意图;27.图6是本公开第三实施例提供的信息抽取方法的流程示意图;28.图7是待处理文档中的表格区域解析前和解析后的示意图;29.图8是本公开第四实施例提供的信息抽取方法的流程示意图;30.图9是待处理文档的一页文档进行表格检测的结构示意图;31.图10是本公开第五实施例提供的信息抽取方法的流程示意图;32.图11是本公开实施例提供的信息抽取装置的结构示意图;33.图12示出了用来实施本公开的实施例的示例电子设备的示意性框图。具体实施方式34.以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。35.近年来,随着互联网的不断普及,信息呈现爆炸式地增长,丰富多样的信息以互联网为载体呈现。在如今大数据时代的背景下,大量重要数据以文本文字的形式呈现,文本数据根据结构可分为三类:结构化、非结构化和半结构化。结构化信息是指可以在关系数据库中表示和存储的信息;非结构化信息没有固定的结构;半结构化信息是介于结构化信息和非结构化信息之间的一种信息,这种信息有结构,但结构是隐式的、不规则的或不完整的。36.在一种可能的示例中,随着金融领域与互联网的密切结合,通过网络每天都会产生大量的金融文本,其内容分散、数据稀疏、冗余信息杂乱等特点也随之突显。为了从大量非结构化文本中快速有效地查找有用信息,就需要有信息抽取的系统。对于信息抽取系统来说,其主要任务是输入各类具有自然语义的原始文本,输出固定格式的结构化信息,并将其统一集成于后台数据库中,方便查阅和分析。37.在另一种可能的示例中,随着互联网金融时代的到来,某些公司每天通过信息披露网站发布海量的文档,例如,公告,公告中蕴含的信息对投资分析、企业利益、市场影响和社会经济资源分配都起着至关重要的作用。公司信息披露是指公司按照法律要求将自身财务经营等会计信息情况向监管部门报告,并且向社会公众投资者以公告的形式披露。公司信息披露公告一般包括年度报告、季度报告等,具体到各个重大事件信息包括资产置换、关联交易、股份质押和投资融资等。38.在投资研究过程中,公司金融类公告是投资者的重要参考材料,挖掘公告中的重要信息十分关键,对市场、管理层、公司和投资者行为都有着重要影响。39.在实际应用中,公司每天通过信息披露网站会发布海量的文档,海量的公告信息让人难以负荷,传统主要以人工提取的方式获取信息,例如,首先根据具体的任务制定专门的规则集或者词典库,然后再基于规则集与词典库进行关键信息的抽取,但是这种方案存在如下问题:一、制定的规则集和者词典库难以覆盖到所有的情况,需要不断地更新和维护,人力成本较高;二、随着规则集或字典库中的规则越来越多,规则之间容易发生冲突,导致维护困难、泛化能力差;三、文档中可能同时包含平文和表格,但现有人工提取的方式往往仅能够获取平文中的部分信息,无法同时提取平文和表格中的信息。即,现有人工提取信息的方式不仅需要花费巨大代价,而且无法适应人们日益变化的实际需求,存在人力成本高、维护困难的问题。40.针对上述技术问题,本公开技术方案的技术构思过程如下:鉴于人工提取信息的方式存在人力成本高、维护困难的问题,如果机器能够根据实际需求,自动分析、过滤、抽取有价值的结构化数据,就能帮助研究人员快速获取投资线索,从而做出最及时、准确的决策。此外,由于信息披露公告本身是一类非结构化文本,其信息分布零散且冗余信息干扰较大,传统的信息抽取系统有诸多局限性,难以快速、高效、准确地抽取到公告的关键信息,如果利用命名实体识别、机器阅读理解和表格解析技术,能够完成信息披露公告的关键信息抽取。41.基于上述技术构思过程,本公开实施例提供了一种信息抽取方法,通过获取包括待处理区域的待处理文档,对待处理区域进行解析,得到待处理区域对应的解析信息,最后基于目标键名,从待处理区域对应的解析信息中,抽取该目标键名对应的目标信息。该技术方案中,能够自动对待处理区域进行解析,以及基于目标键名快速定位并抽取目标信息,降低了人工成本,提高了抽取准确性。42.示例性的,图1是本公开实施例提供的信息抽取方法所适用的应用场景示意图。如图1所示,该应用场景中可以包括:信息抽取设备11、网络12和服务器13。其中,信息抽取设备11可以通过网络12从服务器13上获取待处理文档。可选的,图1所示的应用场景还可以包括与信息抽取设备11和/或服务器13连接的数据存储设备14。43.示例性的,在图1所示的应用场景中,信息抽取设备11既可以利用获取到的文档统一资源定位符(uniformresourcelocator,url)地址,通过网络12从服务器13上获取待处理文档,也可以直接获取本地上传的待处理文档。44.作为一种示例,信息抽取设备11可以执行本公开提供的信息抽取方法,对获取到的待处理文档进行信息抽取,得到目标信息。45.作为另一种示例,信息抽取设备11可以先将获取到的待处理文档存储至数据存储设备14,然后在后续对待处理文档进行信息抽取时直接使用。46.在本实施例中,数据存储设备14可以包括至少一个数据库,每个数据库可以存储至少一种任务类型数据,因而,在信息抽取设备11对待处理文档进行信息抽取得到目标信息后,还可以基于任务需求,分别将目标信息存储至数据存储设备14的至少一个数据库中。47.需要说明的是,附图1仅是本公开实施例提供的一种应用场景的示意图,本公开实施例不对图1中包括的设备进行限定,也不对图1中设备之间的位置关系进行限定,例如,在图1中,数据存储设备14相对服务器13可以是外部存储器,在其它情况下,也可以将数据存储设备14置于服务器13中。48.在上述图1所示的应用场景中,信息抽取设备11是具有数据抽取能力的设备,具体的,可以通过服务器或终端设备实现。在本公开的实施例中,可以将用于执行数据抽取任务的服务器或终端设备统称为电子设备。可选的,本公开实施例提供的信息抽取方法以电子设备作为执行主体进行解释说明。49.示例性的,图2是本公开实施例提供的信息抽取系统的架构示意图。如图2所示,该信息抽取系统按照功能划分,主要包括:文档解析模块201、表格信息抽取模块202和平文信息抽取模块203。50.在本公开的实施例中,文档解析模块201主要用于对待处理文档进行解析,得到待处理文档对应的解析信息。其中,待处理文档可以为word文档,也可以为pdf文档。也即,文档解析模块201主要用于对word文档或pdf文档解析,得到的解析信息为文本区域和/或表格区域。51.可理解,待处理文档还可以是文本文档。若待处理文档为文本文档,则无需经过文档解析模块201的处理。52.表格信息抽取模块202主要对待处理文档解析得到的表格区域进行表格解析、表格信息抽取,进而从表格区域中获取到目标信息。53.平文信息抽取模块203主要对待处理文档解析得到的平文区域进行段落划分、关键信息定位和平文信息抽取,进而从平文区域中获取到目标信息。54.在一种可能的设计中,该信息抽取系统还可以包括:显示模块204和/或存储模块205。显示模块204主要用于对文档解析模块201和/或表格信息抽取模块202和/或平文信息抽取模块203的处理结果进行显示。存储模块205主要用于对文档解析模块201和/或表格信息抽取模块202和/或平文信息抽取模块203的处理结果进行存储。55.可理解,本公开实施例的各模块相互连通,能够极大地提升文档解读的准确性和效率。56.可理解,本公开实施例并不限定信息抽取系统的具体组成,其可以根据实际应用场景进行增加或删减,此处不作赘述。57.本公开提供一种信息抽取方法、装置、设备及存储介质,应用于数据处理中的大数据
技术领域
:、自然语言处理(naturallanguageprocessing,nlp)
技术领域
:以及深度学习
技术领域
:,以实现对待处理文档进行信息抽取的目的,降低了人工抽取成本和维护难度。58.可理解,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。59.下述具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。60.图3是本公开第一实施例提供的信息抽取方法的流程示意图。本实施例的方法可以由图1中的电子设备执行。如图3所示,本实施例的信息抽取方法可以包括如下步骤:61.s301、获取待处理文档,该待处理文档包括待处理区域。62.在本公开的实施例中,电子设备可以从多个数据源获取待处理文档,针对每个待处理文档均可以执行本实施例的方法,以实现信息抽取的目的。其中,每个待处理文档均可以包括待处理区域,该处理区域可以是由文本信息组成的平文区域,还可以是在表格中携带文本信息的表格区域。63.在实际应用中,待处理文档通常是公司信息披露的公告,其大多是word文档或者pdf文档。因此,首先需要进行文档解析,确定出待处理文档中的待处理区域。64.可理解,基于业务需求,有时可能只需对待处理文档中的平文区域进行信息抽取,有时也可能只需对待处理文档中的表格区域进行信息抽取,也有可能需要同时对表格区域和平文区域进行区域,因而,待处理区域可以包括:平文区域和/或表格区域。65.在本公开的另一种可能示例中,待处理区域还可以包括其他区域,例如,图片区域。本公开实施例并不对待处理区域包括的具体内容进行限定,其可以基于实际需求设定。66.s302、对待处理区域进行解析,得到待处理区域对应的解析信息。67.在本实施例中,对待处理文档的待处理区域进行解析时,可以基于待处理文档的格式,保留待处理区域的属性。示例性的,对word文档或者pdf文档中的平文区域进行解析,可以得到文本信息;对word文档或者pdf文档中的表格区域进行解析,可以得到结构化信息等。68.作为一种示例,若待处理文档为word文档,则可以首先确定出word文档包括的平文区域和/或表格区域,进而利用word文档解析器,将word文档中的平文区域转化为文本信息,并且保留文本属性,例如,标题、正文、页眉和页脚等,将word文档中的表格区域转化为结构化信息。69.可选的,若待处理文档是pdf文档,则可以首先将pdf文档转化为word文档,再对word文档包括的平文区域和/或表格区域进行解析得到解析信息。70.示例性的,在待处理文档的处理过程中,为了保留页码信息,文档解析可以是分页解析。71.s303、基于目标键名,从待处理区域对应的解析信息中,抽取目标键名对应的目标信息。72.示例性的,待处理文档中的关键信息通常采用键值对(key-value)的形式存在,因而,针对待处理区域对应的解析信息,可以采用目标键名(目标key)作为索引,定位到目标信息所在的位置,然后从定位的位置处获取目标键名对应的目标信息(即,目标key对应的value值)。可选的,在一些场景中,该目标信息也可以称为关键信息,此处不作限定。73.示例性的,对于一篇报道某个学校的一年级人数的文档,则可以首先定位到“一年级人数”这个key,然后确定出该key对应的具体数值,例如,50人等。74.在本公开的实施例中,通过获取包括待处理区域的待处理文档,对待处理区域进行解析,得到待处理区域对应的解析信息,最后基于目标键名,从待处理区域对应的解析信息中,抽取该目标键名对应的目标信息。该技术方案中,能够自动对待处理区域进行解析,以及基于目标键名快速定位并抽取目标信息,降低了人工成本,提高了抽取准确性。75.在图3所示实施例的基础上,对本公开实施例提供的信息抽取方法进行更详细的介绍。76.图4是本公开第二实施例提供的信息抽取方法的流程示意图。在本实施例中,上述待处理区域包括:平文区域,相应的,待处理区域对应的解析信息包括平文区域对应的文本信息,且该文本信息包括待处理文档的目录标题和正文信息。因而,本实施例的方法可以作为图3中s303的可能的实现方式。如图4所示,本实施例的方法可以包括:77.s401、基于目标键名和目录标题,确定该目标键名所在的目标段落。78.在本公开的实施例中,电子设备对平文区域进行解析可以保留文本区域的文本属性,例如,目录标题、正文、页眉和页脚等格式信息。因而,对文本区域对应的文本信息进行信息抽取时,可以首先基于目标键名,在文本信息包括的目录标题中,定位到目标键名所在的目标段落,进而再在目标段落中定位出目标信息。79.示例性的,由于公司的公告文档往往都是格式固定的,而且为了能够准确地定位到信息,可以首先根据目录标题和目标键名,确定出目标键名所在的段落,然后,再利用预设方式找到目标信息。80.s402、从目标段落的正文信息中抽取目标信息。81.可选的,可以利用机器阅读理解的方式进行信息抽取。其中,机器阅读理解(machinereadingcomprehension,mrc)是一种利用算法使计算机理解文章语义并回答相关问题的技术,在本实施例中,电子设备可以理解目标段落中正文信息的上下文语义,进而准确的从目标段落的正本信息中抽取出目标信息。82.在本公开实施例的一种可能设计中,图5是利用机器阅读理解方式抽取目标信息的流程示意图。如图5所示,利用机器阅读理解的方式从目标段落的正文信息中抽取目标信息的实现方案,具体如下:83.a1、对目标段落中的正文信息进行语句编码,得到各语句的段落嵌入文本、标记嵌入文本和定位嵌入文本。84.在本步骤中,电子设备可以首先对目标段落中的正文信息进行文本嵌入。例如,将文本信息映射成词向量,对输入的每个语句进行编码,依次得到句子的段落嵌入文本(segmentembeddings)、标记嵌入文本(tokenembeddings)和定位嵌入文本(positionembeddings)。85.可选的,在本公开的实施例中,机器阅读理解使用的是albert模型,而且,在tokenembeddings中的标记化(tokenization)过程既包括词级别的tokenization,也包括字级别的tokenization,提高了语句编码的效果。86.可选的,在本步骤中,文本嵌入的过程,既包括要提取的关键词,还有文档本身的平文部分。87.a2、基于各语句的段落嵌入文本、标记嵌入文本、定位嵌入文本的原始特征和各语句的段落嵌入文本、标记嵌入文本、定位嵌入文本的上下文特征,确定各个语句的语义表达信息。88.在本公开中,电子设备可以执行上下文特征融合,主要是融合各语句的段落嵌入文本、标记嵌入文本、定位嵌入文本的原始特征,结合各语句的段落嵌入文本、标记嵌入文本、定位嵌入文本的前向和后向的上下文特征,进而丰富各个语句的语义表达信息,从而提高了后续语义匹配的准确性。89.a3、根据目标键名和各个语句的语义表达信息,确定目标键名和各个语句的相似度匹配矩阵;90.示例性的,本步骤的目的是执行语义匹配。具体的,采用注意力机制计算目标键名中的每个词和各个语句中每个字的相似度匹配程度,得到目标键名和各个语句的相似度匹配矩阵。91.a4、根据相似度匹配矩阵,从目标段落的正文信息中抽取目标信息。92.可选的,在得到相似度匹配矩阵后,电子设备便可以执行信息预测,确定出目标信息的预测结果。具体的,利用相似度匹配矩阵,分别确定目标信息在各个语句中的开始文字序号和结束文字序号。93.本公开实施例中,通过基于目标键名和目录标题,确定该目标键名所在的目标段落,利用机器阅读理解的方式,从目标段落的正文信息中抽取目标信息。该技术方案中,可以自动化确定文本信息中的目标信息,支持批量处理,提高了处理速度,利用机器阅读理解、语义理解等技术,提高了抽取准确性。94.图6是本公开第三实施例提供的信息抽取方法的流程示意图。在本实施例中,上述待处理区域包括:表格区域,相应的,待处理区域对应的解析信息包括表格区域对应的结构化信息。在实际应用中,对表格区域的信息解析,主要是为了获取到表格区域的信息行列号。因而,本实施例的方法可以作为图3中s302的可能的实现方式。如图6所示,本实施例的方法可以包括:95.s601、利用语义分割模型抽取表格区域的掩膜图。96.在本实施例中,利用语义分割模型提取表格区域的掩膜图(mask图)。这里,语义分割模型为deeplabv3+,其运用了膨胀卷积,在保证图像大小不变的情况下,增大了抽取到的掩膜图的感受视野。97.可选的,语义分割模型的网络为“编码模块-解码模块”结构。编码模块包括相互连接的深度卷积神经网络(diffusion-convolutionalneuralnetworks,dcnn)和空洞卷积的空间金字塔池化层(atrousspatialpyramidpooling,aspp),其中,dcnn用于从表格区域中提取特征,该dcnn后面连接的aspp用于提取并融合图像的多尺度特征。解码模块包括上采样单元,其用于通过上采样得到分割的mask图。98.在本步骤中,由于deeplabv3+模型引入多尺度信息,因而能够将表格区域的底层特征与高层特征进一步融合,极大地提升了mask图的边界分割的准确度。99.s602、基于上述掩膜图,确定表格区域的文字检测框。100.示例性的,基于s601得到的掩膜图,即利用语义分割的结果可以获得文字检测框,利用opencv库的连通域和canny边缘检测算法对上述文字检测框进行处理,可以获得文字检测框边缘的坐标,针对文字检测框边缘的坐标,通过取极大值和极小值,最终可得到文字检测框的四点坐标(x_min,x_max,y_min,y_max),具体的,四个点的坐标分别是(x_min,y_min)、(x_min,y_max)、(x_max,y_min)和(x_max,y_max)。101.s603、利用文字检测框的坐标完成行列对齐,得到表格区域的表格行表头和表格列表头。102.在步骤主要基于文字检测框的四点坐标(x_min,x_max,y_min,y_max)实现。具体的,针对从文字检测框的四点坐标中确定出列的分割坐标,利用列的分割坐标实现文字检测框的列对齐,得到表格区域的表格行表头。同理,从文字检测框的四点坐标中确定出行的分割坐标,利用行的分割坐标实现文字检测框的行对齐,得到表格区域的表格列表头。103.示例性的,图7是待处理文档中的表格区域解析前和解析后的示意图。如图7所示,以a公司的流量表进行举例说明。假设该表格区域是4列和4行的表格,示例性的,第一列为项目,第二列为注释号,第三列为本期数,第四列为上年同期数,第一列中的项目包括:xxxxx1、xxxxx2、xxxxx3,且,xxxxx1对应的本期数为yyy1,对应的上年同期数为zzz1,xxxxx2对应的本期数为yyy2,对应的上年同期数为zzz2,xxxxx3对应的本期数为yyy3,对应的上年同期数为zzz3等。参照图7所示,解析后的表格区域中标注有行列的信息,例如,第一行中的项目对应的行列信息为0_0,注释号对应的行列信息为0_1,本期数对应的行列信息为0_2,上年同期数对应的行列信息为0_3。104.可理解,图7中所示的信息均是示例性说明,本公开实施例不对表格区域的具体内容进行限定。105.s604、基于表格行表头和表格列表头,确定表格区域对应的结构化信息。106.示例性的,在本实施例中,可以按照表格行表头和表格列表头,将表格区域的信息转化为结构化信息,例如,json格式的结构化信息,相应的,结构化信息可存入数据库中,以便后续查询和使用。107.示例性的,下述信息是图7中表格区域对应的结构化信息的部分示例:[0108][0109]相应的,上述s303可以替换为如下步骤实现:[0110]基于目标键名,从表格区域对应的结构化信息中,抽取目标键名对应的目标信息。[0111]在本实施例中,经过上述各步骤完成了表格区域的解析,但是要想利用表格区域的信息,还需要对表格区域进行目标信息的抽取。比如,如果想要获取到“xxxxx1”,需要利用目标键名(key)与表格区域解析后得到的json文件进行匹配,例如,目标键名“本期数”对应的目标信息为“yyy1”,目标键名“上年同期数”对应的目标信息为“zzz1”。[0112]示例性的,在本实施例中,目标键名与表格区域对应的json文件进行匹配时使用的相似度匹配模型。[0113]在本公开的实施例中,利用语义分割模型抽取表格区域的掩膜图,进而确定该表格区域的文字检测框,利用该文字检测框的坐标完成行列对齐,得到表格区域的表格行表头和表格列表头,最后基于表格行表头和表格列表头,确定表格区域对应的结构化信息,其实现了对表格区域进行解析,并抽取目标信息的目的,提高了信息抽取的准确性。[0114]可选的,在本公开实施例的一种可能设计中,在上述s301(获取待处理文档)之后,该信息抽取方法还包括:[0115]对待处理文档进行布局分析,确定待处理文档中的待处理区域。[0116]在实际应用中,待处理文档中的结构通常是多样化的,例如,word文档中既可以包括平文区域,又可以包括表格区域,还可以包括图片区域。例如,当word文档中除了平文区域,还包括表格区域时,直接利用word解析器进行解析时,无法保留表格结构,可能进而致使无法抽取到表格区域中的信息,因而,电子设备还需要对word文档进行布局分析,确定出待处理文档中的待处理区域,例如,表格区域和/或平文区域。[0117]作为一种示例,待处理区域包括:平文区域和所述表格区域。可选的,图8是本公开第四实施例提供的信息抽取方法的流程示意图。在本实施例中,如图8所示,对待处理文档进行布局分析,确定待处理文档中的待处理区域,可以包括:[0118]s801、利用编码-解码器架构的表格检测模型对待处理文档进行处理,确定待处理文档中的表格区域。[0119]在本公开的目标信息抽取的过程中,平文区域与表格区域两部分内容的处理方式不同,因此,需要对待处理文档中的平文区域和表格区域进行分类处理。[0120]示例性的,表格检测应用的算法为tablenet,主要基于表格检测和表格结构识别这两个任务之间固有的相互依赖性实现。该tablenet使用编码-解码器架构,在编码器网络中,利用vgg-19层作为基础网络,同时,在编码网络中同时利用表格信息和列信息的信息进行检测,从而能更好地找到表格区域。在解码器网络中,使用一系列阶跃的卷积层来提升图像的感受视野,最后,计算图像的两个分支的输出,生成表格和列区域的掩码。由于同时考虑了列信息编码和表格信息编码,tablenet模型的检测效果要优于同类的表格检测模型。[0121]在本公开的实施例中,利用tablenet能够准确的定位到待处理文档中的表格区域,区分待处理文档的平文区域和表格区域。由于word文档和pdf文档是分页解析的,因此,表格检测过程也是分成一页一页进行表格位置定位。[0122]示例性的,图9是待处理文档的一页文档进行表格检测的结构示意图。如图9所示,经过该步骤的表格检测,可以检测出表1和表2所在的区域。[0123]s802、根据待处理文档和该表格区域,确定出待处理文档中的平文区域。[0124]可选的,对于待处理文档,当确定出该待处理文档中的表格区域后,除去该表格区域外的区域即为平文区域。[0125]在本公开的实施例中,利用编码-解码器架构的表格检测模型对待处理文档进行处理,确定待处理文档中的表格区域,根据待处理文档和该表格区域,确定出待处理文档中的平文区域,实现了表格区域和平文区域的划分,为后续提高信息抽取准确性奠定了基础。[0126]可选的,在本公开实施例的一种可能设计中,该信息抽取方法还可以包括如下步骤:[0127]b1、对目标信息进行核验,得到核验结果;[0128]b2、响应于该核验结果指示目标信息中存在错误信息,对目标信息中的错误信息进行校正。[0129]在本实施例中,在得到待处理文档中的目标信息后,还可以校验目标信息的准确性,并对目标信息中的错误信息进行校正。[0130]示例性的,目标信息中的错误信息可以来自多个部分,例如:文档内容本身存在错误信息、文档解析引入错误信息、表格解析引入错误信息等。本实施例并不对错误信息的原因进行限定。[0131]可选的,在本公开的实施例中,针对目标信息进行核验的内容可以包括但不局限于:主体名称核验、数值一致性和单位核查。[0132]其中,主体名称核验是指在利用本公开实施例提供的方法进行信息抽取时可能存在多抽文字或者少抽文字的情况,或者,文档本身笔误引入的错误。在该种情况下,可以利用已有信息库中的专有名词,对主体名称进行核验,确保主体名称无误。比如,“xx控股份有限公司”,正确的名称应该是“xx控股股份有限公司”等。[0133]数值一致性校验是指利用常用数值计算公式进行数值的校验,确保提取数值的准确性。比如:总资产周转率=营业收入净额/平均资产总额。[0134]单位核查可以基于预设核查规则对目标信息中的单位进行核查得到。例如,通过前后一致性原则等。例如,待处理文档的信息中,由于笔误,或者抽取不完整,可能存在单位不一致的情况。比如,“2016-2018年末及2019年9月末发行人总资产分别为1,584,216.71万元、1,610,215.89万元、1,671,892.87万元和1,895,207.46”,此时,可以看出来最后一个金额“1,895,207.46”缺少了单位“万元”。[0135]在本公开的实施例中,通过对目标信息进行校验可以确保得到的信息的准确性。[0136]在本公开实施例的一种可能设计中,该信息抽取方法还可以包括:[0137]c1、获取信息存储指令,该信息存储指令包括至少一个存储位置,每个存储位置用于存储至少一个任务类型数据;[0138]c2、基于该信息存储指令,将目标信息存储至至少一个存储位置。[0139]在实际应用中,各类信息抽取的结果对于后台数据库支撑、后续企业画像数据的更新都有重要意义,因而,可以将得到的目标信息存储于不同的存储位置,例如,基于后续的任务类型存储至不同的数据库中,以便后续基于任务需求从指定的存储位置读取该目标信息。[0140]示例性的,文档解析后的目标信息可以存储于训练数据库中,可作为训练任务的原始语料;各类结构化信息等重要数据存储于另一个数据库中,作为各类任务的后台数据支持,而一些特殊的数据如公司名、高管名存储于非关系型数据库中,作为信息校验的信息库。[0141]可理解,本公开实施例并以一些示例进行解释说明,其具体可以根据实际需求确定,此处不作赘述。[0142]在本公开实施例的一种可能设计中,上述s301(获取待处理文档)可以通过如下步骤实现:[0143]获取文档网络地址,加载该文档网络地址对应的待处理文档;[0144]或者[0145]获取本地上传的待处理文档。[0146]示例性的,用户通过在电子设备的人机交互界面上输入文档网络地址,例如,文件url地址,这样电子设备可以基于该文档网络地址,将文档网络地址对应的待处理文档加载至电子设备的信息抽取系统中。[0147]示例性的,用户还可以通过上传文件的方式,将本地的待处理文档导入到电子设备的信息抽取系统中。[0148]可选的,电子设备对获取待处理文档进行信息抽取得到目标信息后,还可以展示该待处理文档的信息抽取结果。[0149]由上述各公开实施例的内容可知,本公开实施例可以将人工智能的技术应用于生活,能够辅助业务人员快速地进行文档信息的分析,而且具有较强的泛化能力,具有可扩展性,实现了文档的解读,完全自动化完成,支持批量处理,处理速度快,而且,自动化进行文档信息的解读时,成本低,效率高,通过利用机器阅读理解、语义理解、表格解析等技术,提高了抽取准确性,通过包含核验部分,能够进一步确保信息的精准性。[0150]可选的,本公开实施例的方法可以应用于公司公告、财务报告等各种文档的信息抽取,同时能够支持平文信息抽取和表格信息抽取。[0151]示例性的,下述通过一个实施例对本公开实施例的完整流程进行解释说明。图10是本公开第五实施例提供的信息抽取方法的流程示意图。如图10所示,该信息抽取方法可以包括如下步骤:[0152]s1001、获取待处理文档。[0153]示例性的,用户通过前端界面将待处理文档输入到系统中,或者,用户通过前端界面将文档对应的网络地址输入到系统中,以便系统自动加载待处理文档。[0154]s1002、待处理文档的解析。[0155]可选的,电子设备对待处理文档进行文档预处理,确定出待处理文档的目标处理部分。[0156]s1003、通过表格检测,确定文档布局分析。[0157]可选的,电子设备对待处理文档的目标处理部分进行布局分析,区分出文字区域、表格区域、标题区域等,形成文档布局分析结果。[0158]示例性的,假设电子设备只对文档布局分析结果中的平文区域和表格区域进行信息的抽取。[0159]s1004至s1007、对于平文区域,确定出目标键名所在的目标段落,然后基于机器阅读理解模型,进行平文目标信息的抽取。[0160]s1008至s1010、针对表格区域,经过表格解析,进行表格目标信息的抽取。[0161]示例性的,该信息抽取还可以包括:[0162]s1011、核验校对。[0163]可选的,电子设备还可以利用核验模块对抽取获得的目标信息进行校对。[0164]s1012、结果展示。[0165]示例性的,电子设备可以通过显示模块对抽取得到的目标信息进行展示,以便用户查看抽取结果。[0166]本公开实施例的各步骤实现可参见上述各实施例中的记载,此处不作赘述。[0167]图11是本公开实施例提供的信息抽取装置的结构示意图。本实施例提供的信息抽取装置可以为图1中的电子设备或者为电子设备中的装置。如图11所示,本实施例提供的信息抽取装置1100包括:[0168]获取单元1101,用于获取待处理文档,所述待处理文档包括待处理区域;[0169]解析单元1102,用于对所述待处理区域进行解析,得到所述待处理区域对应的解析信息;[0170]抽取单元1103,用于基于目标键名,从所述待处理区域对应的解析信息中,抽取所述目标键名对应的目标信息。[0171]在一种可能的实现方式中,所述待处理区域包括:平文区域,所述待处理区域对应的解析信息包括所述平文区域对应的文本信息,所述文本信息包括所述待处理文档的目录标题和正文信息;[0172]相应的,所述抽取单元1103,包括:[0173]第一抽取模块,用于基于所述目标键名和所述目录标题,确定所述目标键名所在的目标段落;[0174]第二抽取模块,用于从所述目标段落的正文信息中抽取目标信息。[0175]可选的,所述第二抽取模块,包括:[0176]编码子模块,用于对所述目标段落中的正文信息进行语句编码,得到各语句的段落嵌入文本、标记嵌入文本和定位嵌入文本;[0177]第一抽取子模块,用于基于各语句的段落嵌入文本、标记嵌入文本、定位嵌入文本的原始特征和各语句的段落嵌入文本、标记嵌入文本、定位嵌入文本的上下文特征,确定各个语句的语义表达信息;[0178]第二抽取子模块,用于根据所述目标键名和各个语句的语义表达信息,确定所述目标键名和各个语句的相似度匹配矩阵;[0179]第三抽取子模块,用于根据所述相似度匹配矩阵,从所述目标段落的正文信息中抽取目标信息。[0180]一种可能的实现方式中,所述待处理区域包括:表格区域,所述待处理区域对应的解析信息包括所述表格区域对应的结构化信息;[0181]相应的,所述解析单元1102,包括:[0182]第一解析模块,利用语义分割模型抽取所述表格区域的掩膜图;[0183]基于所述掩膜图,确定所述表格区域的文字检测框;[0184]第二解析模块,用于利用所述文字检测框的坐标完成行列对齐,得到所述表格区域的表格行表头和表格列表头;[0185]第三解析模块,用于基于所述表格行表头和所述表格列表头,确定所述表格区域对应的结构化信息。[0186]一种可能的实现方式中,所述装置还包括:[0187]确定单元(未示出),用于对所述待处理文档进行布局分析,确定所述待处理文档中的所述待处理区域。[0188]可选的,所述待处理区域包括:平文区域和表格区域;[0189]相应的,所述确定单元,包括:[0190]第一确定模块,用于利用编码-解码器架构的表格检测模型对所述待处理文档进行处理,确定所述待处理文档中的表格区域;[0191]第二确定模块,用于根据所述待处理文档和所述表格区域,确定出所述待处理文档中的所述平文区域。[0192]一种可能的实现方式中,所述装置还包括:[0193]核验单元(未示出),用于对所述目标信息进行核验,得到核验结果;[0194]校正单元(未示出),用于响应于所述核验结果指示所述目标信息中存在错误信息,对所述目标信息中的错误信息进行校正。[0195]一种可能的实现方式中,所述获取单元1101,还用于:[0196]获取信息存储指令,所述信息存储指令包括至少一个存储位置,每个存储位置用于存储至少一种任务类型数据;[0197]基于所述信息存储指令,将所述目标信息存储至所述至少一个存储位置。[0198]一种可能的实现方式中,所述获取单元1101,具体用于:[0199]获取文档网络地址;[0200]加载所述文档网络地址对应的待处理文档;[0201]或者[0202]获取本地上传的待处理文档。[0203]本实施例提供的信息抽取装置,可用于执行上述任意方法实施例的信息抽取方法,其实现原理和技术效果类似,此处不做作赘述。[0204]根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。[0205]根据本公开的实施例,本公开还提供了一种计算机程序产品,计算机程序产品包括:计算机程序,计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从可读存储介质读取计算机程序,至少一个处理器执行计算机程序使得电子设备执行上述任一实施例提供的方案。[0206]图12示出了用来实施本公开的实施例的示例电子设备的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。[0207]如图12所示,设备1200包括计算单元1201,其可以根据存储在只读存储器(rom)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(ram)1203中的计算机程序,来执行各种适当的动作和处理。在ram1203中,还可存储设备1200操作所需的各种程序和数据。计算单元1201、rom1202以及ram1203通过总线1204彼此相连。输入/输出(i/o)接口1205也连接至总线1204。[0208]设备1200中的多个部件连接至i/o接口1205,包括:输入单元1206,例如键盘、鼠标等;输出单元1207,例如各种类型的显示器、扬声器等;存储单元1208,例如磁盘、光盘等;以及通信单元1209,例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。[0209]计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理,例如信息抽取方法。例如,在一些实施例中,信息抽取方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元1208。在一些实施例中,计算机程序的部分或者全部可以经由rom1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到ram1203并由计算单元1201执行时,可以执行上文描述的信息抽取方法的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行信息抽取方法。[0210]本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、复杂可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。[0211]用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。[0212]在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。[0213]为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。[0214]可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。[0215]计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与vps服务("virtualprivateserver",或简称"vps")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。[0216]应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。[0217]上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1