文档信息抽取方法及系统与流程

文档序号:37482315发布日期:2024-04-01 13:51阅读:8来源:国知局
本发明涉及文档信息处理,特别是涉及一种文档信息抽取方法及系统。
背景技术
::1、pdf(portable document format,可携带文档格式)是由adobe systems用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式,pdf格式已被iso组织批准为国际开放标准。pdf文件格式可以将文字、字型、格式、颜色及独立于设备和分辨率的图形图像等封装在一个文件中。该格式文件还可以包含超文本链接、声音和动态影像等电子信息,集成度和安全可靠性都较高。2、pdf文件格式将文字、字型、格式及图表等元素封装,无法直接读取其中的文字内容。在数字化处理过程中,需要对pdf文件中的文字内容进行提取,以利于信息系统自动化处理。在现有技术中,对pdf文件内容提取的技术方案中,无法处理图片和表格对正文内容的干扰,缺乏正文内容的分段处理,没有将文档正文内容与目录的匹配,造成提取内容效果欠佳。技术实现思路1、(一)发明目的2、本发明的目的是在现有文档信息处理技术的基础上,提出一种文档信息抽取方法及系统,缓解现有技术中文档内容提取效果欠佳的技术问题。3、(二)技术方案4、根据一些实施例,本发明的第一方面提供了一种文档信息抽取方法,包括:遍历文档的页面,根据关键字匹配目录页和/或正文页;提取目录页中的标题,形成第一标题集合;识别并提取正文页内容中的图表后,将正文页内容根据元数据的位置分布聚类形成行或段,元数据是文档中的字符串、数字或图形;提取正文页内容中的标题,形成第二标题集合,建立第二标题集合中标题与正文页内容的第一映射;将第一标题集合中的标题与第二标题集合中的标题进行匹配,建立第一标题集合中的标题与第二标题集合中的标题的第二映射。5、在一个实施例中,提取目录页中标题的步骤,包括:根据至少一种正则表达式匹配目录页中的标题;通过正则表达式或字符匹配,合并目录页中多行文本形成标题。6、在一个实施例中,还包括:如果第一标题集合中标题属于不同级别的标题,建立不同级别标题间树状数据结构的映射。7、在一个实施例中,识别并提取正文页内容中图表的步骤,包括:根据正文页内容中的位置信息、几何构造信息识别图表;提取图表在正文页中坐标。8、在一个实施例中,元数据的位置分布包括:元数据的坐标分布、行间距分布及两者的统计特征。9、在一个实施例中,将正文页内容根据元数据的位置分布聚类形成行或段的步骤,包括:读取正文页内容的元数据,根据元数据的坐标、行间距、段间距将元数据聚类为若干个段;将段内的元数据按照坐标、行间距聚类为若干行;将行内的元数据按照坐标逐字符拼接。10、在一个实施例中,读取正文页内容的元数据之后,还包括:如果元数据位于图表区域,将元数据保存,不将元数据聚类形成行或段。11、在一个实施例中,其特征在于,将段内的元数据按照坐标、行间距聚类为若干行的步骤,还包括:根据元数据字体的类型或大小聚类成行。12、在一个实施例中,提取正文页内容中的标题,形成第二标题集合的步骤,包括:遍历正文页内容中的行,提取行中的粗体字符作为标题,加入第二标题集合,建立标题与正文页内容的第一映射。13、在一个实施例中,在形成所述第二标题集合之后,还包括:删除第二标题集合中标题的图表标注;对第二标题集合中的标题进行合并。14、在一个实施例中,将第一标题集合中的标题与第二标题集合中的标题进行匹配之后,包括:如果第一标题集合中的标题已完成遍历,将第二标题集合中剩余标题及其对应的正文内容,与第一标题集合中的最后一个标题建立第二映射。15、在一个实施例中,在建立第二映射之前,还包括:对正文页内容的跨页部分根据文档页面的遍历顺序进行合并和标识。16、在一个实施例中,建立第二映射的步骤,还包括:根据第一映射,获取第二映射中每个原像对应的正文页开始页码和结束页码。17、在一个实施例中,还包括:如果第一标题集合中的标题为正文页第一个标题,将标题前的正文页内容,与标题的前一个标题建立第一映射。18、在一个实施例中,将第一标题集合中的标题与第二标题集合中的标题进行匹配的步骤,包括:将第一标题集合中的标题与第二标题集合中的标题进行逐字符匹配或正则表达式匹配。19、在一个实施例中,还包括:设置匹配阈值,对第一标题集合中的标题与第二标题集合中的标题进行最大相似匹配运算,如果匹配度大于匹配阈值,则两者匹配。20、在一个实施例中,还包括:如果第一标题集合为空,将第二标题集合中的标题作为目录标题;或读入预置标题作为目录标题。21、根据一些实施例,本发明的第二方面提供了一种文档信息抽取系统,包括:遍历模块,其用于遍历文档的页面,根据关键字匹配目录页和/或正文页;目录页处理模块,其用于提取目录页中的标题,形成第一标题集合;正文页处理模块,其用于识别并提取正文页内容中的图表后,将正文页内容根据元数据的位置分布聚类形成行或段,元数据是文档中的字符串、数字或图形;提取正文页内容中的标题,形成第二标题集合,建立第二标题集合中标题与正文页内容的第一映射;匹配模块,其用于将所述第一标题集合中的标题与第二标题集合中的标题进行匹配,建立所述第一标题集合中的标题与第二标题集合中的标题的第二映射。22、根据一些实施例,本发明的第三方面提供了一种电子设备,包括:存储器,其上存储有计算机程序;处理器,用于执行存储器中的计算机程序,以实现本发明第一方面方法的步骤23、(三)有益效果24、本发明的上述技术方案具有如下有益的技术效果:通过识别并提取正文页内容中的图表,规避图表对提取正文内容的干扰;通过根据元数据的位置分布聚类形成行或段,实现正文内容的自动分段;通过将第一标题集合中的标题与第二标题集合中的标题进行匹配,将文档正文内容与目录的匹配,提高了文档的结构化索引效率。25、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。技术特征:1.一种文档信息抽取方法,其特征在于,包括:2.根据权利要求1所述的方法,其特征在于,提取所述目录页中标题的步骤,包括:3.根据权利要求1所述的方法,其特征在于,还包括:4.根据权利要求1所述的方法,其特征在于,识别并提取所述正文页内容中图表的步骤,包括:5.根据权利要求1或4任一所述的方法,其特征在于,所述元数据的位置分布包括:元数据的坐标分布、行间距分布及两者的统计特征。6.根据权利要求5所述的方法,其特征在于,将所述正文页内容根据元数据的位置分布聚类形成行或段的步骤,包括:7.根据权利要求6所述的方法,其特征在于,读取所述正文页内容的元数据之后,还包括:8.根据权利要求6所述的方法,其特征在于,将所述段内的元数据按照坐标、行间距聚类为若干行的步骤,还包括:9.根据权利要求1所述的方法,其特征在于,提取所述正文页内容中的标题,形成第二标题集合,建立所述第二标题集合中标题与正文页内容的第一映射的步骤,包括:10.根据权利要求9所述的方法,其特征在于,在形成所述第二标题集合之后,还包括:11.根据权利要求1所述的方法,其特征在于,将所述第一标题集合中的标题与第二标题集合中的标题进行匹配之后,包括:12.根据权利要求1所述的方法,其特征在于,在建立所述第二映射之前,还包括:13.根据权利要求1所述的方法,其特征在于,建立所述第二映射的步骤,还包括:14.根据权利要求1所述的方法,其特征在于,还包括:15.根据权利要求1所述的方法,其特征在于,将所述第一标题集合中的标题与第二标题集合中的标题进行匹配的步骤,包括:16.根据权利要求15所述的方法,其特征在于,还包括:17.根据权利要求1所述的方法,其特征在于,还包括:18.一种文档信息抽取系统,其特征在于,包括:19.一种电子设备,其特征在于,包括:技术总结本发明公开了一种文档信息抽取方法及系统,用于文档信息抽取,该方法包括:遍历文档的页面,根据关键字匹配目录页和/或正文页;提取目录页中的标题,形成第一标题集合;识别并提取正文页内容中的图表后,将正文页内容根据元数据的位置分布聚类形成行或段;提取正文页内容中的标题,形成第二标题集合,建立第二标题集合中标题与正文页内容的第一映射;将第一标题集合中的标题与第二标题集合中的标题进行匹配,建立第一标题集合中的标题与第二标题集合中的标题的第二映射。本发明提出的技术方案在现有文档信息处理技术的基础上,规避了图表对提取正文内容的干扰,实现了正文内容的自动分段,以及文档正文内容与目录的匹配。技术研发人员:王涛,王锦涛,方铿懿,陈金鹏,罗路平,李涓子,赵姝,陈洁受保护的技术使用者:启元实验室技术研发日:技术公布日:2024/3/31
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1