一种文档内容的提取方法和装置与流程

文档序号:12176944阅读:350来源:国知局
一种文档内容的提取方法和装置与流程

本发明实施例涉及文档信息处理的技术领域,特别涉及一种文档内容的提取方法和装置。



背景技术:

随着教育信息化与在线教育的普及,越来越多的word文档(以下统称文档)通过网络或学校内部系统传播、使用。Word作为客户端的文档编辑程序,文档内容在电子系统中使用时,只能嵌入特定的控件进行展示、编辑,使用方式单一、限制多,无法充分利用到文档中的内容。在线教育企业在题库建设过程中,通常是将文档转换成内容数据,这些转换如果采用人工进行,对于成千上万的文档来说效率是相当低的,怎样通过一种计算机的内容提取方法,将文档转换成标准通用的格式,在提高效率的同时,缩减电子系统使用文档的限制,充分使用文档中的试题内容。

目前虽然有技术手段能够解决该问题,但所采用的技术主要关注文档本身的结构(段落、层级),而非文档内容本身;或需要指定文档模板才能进行有效分析;或加入特殊标记,分析提取文档中的特定内容(表格),无法适应于试题多样化的内容形式。



技术实现要素:

有鉴于此,本发明实施例提供一种文档内容的提取方法和装置,以适应于多样化的文档内容。

第一方面,本发明实施例提供了一种文档内容的提取方法,包括:

搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式,得到预处理文档;

提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;

提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。

第二方面,本发明实施例提供了一种文档内容的提取装置,包括:

预处理模块,用于搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式,得到预处理文档;

格式转换模块,用于提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;

文本存储模块,用于提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。

由上述技术方案可知,本发明实施例通过对文档内容进行分析,充分识别并提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制,充分利用已有文档中的内容的目的,并且由于直接对文档内容进行分析,可以适应于多样化的文档内容。

附图说明

图1是本发明实施例一提供的一种文档内容的提取方法流程示意图;

图2是本发明实施例二提供的一种文档内容的提取方法流程示意图;

图3是本发明实施例提供的文档内容的提取方法中的Word文档自有工具使用界面图;

图4是本发明实施例五提供的一种文档内容的提取装置的结构示意图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的一种文档内容的提取方法流程示意图。该方法可以由文档内容的提取装置来执行,该装置可以由软件和/或硬件的方式来实现,通常可配置在可提供文档内容提取服务的服务器中。如图1所示,该方法包括:

S110、搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式,得到预处理文档;

初始文档即为用户需要处理的原始文档,初始文档可以是多种格式的文档(如Word文档、PPT文档和PDF文档等)。满足设定格式条件的内容可以根据预设格式从初始文档中搜索得到,满足设定格式条件的内容包括多种格式的内容(如上标内容、下标内容和下划线内容等)。

具体的,初始文档的文档类型优选为Word文档。

用户根据自身需求对要提取的Word文档文件进行选择,上传至可提供文档内容提取服务的服务器,可提供文档内容提取服务的服务器可为云端服务器。上传成功后,服务器从初始文档的全部内容中搜索满足多种设定格式条件的内容,并通过去除内容中的对应格式符得到预处理文档。

S120、提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;

目标内容包括初始文档中的表格、公式、域和图片等多种格式的内容。标签与内容文件的格式相对应,用于标注对应格式内容,使转换形成的格式内容文件按原有格式显示。

得到预处理文档后,将预处理文档中表格、公式、域和图片等多种格式的目标内容提取形成格式内容文件,并用与不同格式相对应的标签进行标注,并将目标内容从预处理文档中删除。

S130、提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。

文本文件即txt格式的文件。将提取的处理后的剩余内容保存为文本文件,并与S120中得到的格式内容文件存储在同一文件夹,并打包成压缩文件。

综上所述,根据本实施例的技术方案,解决了现有技术只能提取文档中的特定内容,无法适用于格式多样化的内容问题,通过对文档内容进行分析,充分识别并提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制,充分利用已有文档中的内容的目的,并且由于直接对文档内容进行分析,可以适应于多样化的文档内容。

实施例二

图2是本发明实施例二提供的一种文档内容的提取方法流程示意图。如图2所示,本实施例在实施例一的基础上进行了优化,在S110之前添加了S210。如图2所示,S210具体为:

S210、将待处理文档复制到临时目录下,得到初始文档,并将初始文档的状态设置为不可见。

待处理文档为服务器接收到由用户所上传的需要处理的文档,当用户发出指令后,服务器会将上传成功的文档复制到临时目录,得到初始文档,并将初始文档的文档状态设置为不可见,避免服务器在对初始文本处理的过程中受到其他操作的影响。

可选的,所述方法还可以在提取处理后预处理文档中的剩余内容之前包括:

删除预处理文档中的预设符号。

预设符号包括响铃符号(\a)、退格符号(\b)、换页符号(\f)、垂直制表符号(\v)和水平制表符号(\t)。

将标注后的目标内容从预处理文档中删除后,剩余内容中还会存在响铃符号(\a)、退格符号(\b)、换页符号(\f)、垂直制表符号(\v)和水平制表符号(\t)等预设符号,这些符号会改变预处理文档中文本内容的格式,因此将预设符号全部删除。

综上所述,根据本实施例的技术方案通过将初始文档的状态设置为不可见,将服务器对初始文档的处理过程处于隐蔽状态,减少了其他操作对文档提取的影响。

实施例三

本实施例在上述实施例的基础上进行了优化,进一步阐述预处理过程中不同的满足设定格式条件的内容的处理方式。

设定格式条件可以包括多种格式。可选的,满足设定格式条件的内容包括上标内容、下标内容和下划线内容;当满足设定格式条件的内容是上标内容、下标内容和下划线内容时,搜索初始文档中满足设定格式条件的内容,并去除所述内容对应的格式包括:

首先,调用Word文档高级搜索工具,在初始文档中搜索满足设定格式条件的内容;

如图3所示,Word文档高级搜索工具为Word文档中自有工具。

其次,确定与满足设定格式条件的内容对应的目标格式符;

每一种设定格式都有对应的目标格式符。示例性的,上标格式对应的格式符为<sup></sup>,下标格式对应的格式符为<sub></sub>,下划线格式内容对应的格式符为<u></u>。

再次,根据目标格式符以及满足设定格式条件的内容构造代替内容;

最后,调用Word文档高级搜索工具,去除满足设定格式条件的内容的格式,并使用代替内容替换满足设定格式条件的内容。

示例性的,搜索到特定下标格式后将文本内容content替换为<sup>content</sup>,删除该格式即可。

可选的,满足设定格式条件的内容包括浮动图片;

当所述方法中满足设定格式条件的内容是浮动图片时,搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式包括:

搜索初始文档中的浮动图片;

将浮动图片转换为嵌入图片。

浮动图片与文字位于同一层,当文档中的内容发生变化时,图片会有移位,进而遮住文字或者被文字覆盖掉。嵌入图片与文字不在同一层上,当文档中的内容发生变化的时候,图片的移位很小,如果是采用锁定的方式插入的话,不管文档内容怎么变化图片都不会产生位移,而浮动式图片是不能锁定的。因此当浮动图片转换为嵌入图片后,图片位置锁定,不会因为文档内容的改变而改变。

具体的,将浮动图片转换为嵌入图片包括:

首先,获取浮动图片的锚点位置信息和浮动图片所在的页码;锚点位置信息包括锚点的横坐标和锚点的纵坐标;

其次,遍历浮动图片,剪切遍历到的当前图片;

文档中会存在多张浮动图片,因此在处理过程中需要遍历初始文档中的全部内容,将全部浮动图片转换为嵌入图片。

再次,根据当前图片所在的页码,遍历该页码上的行,确定与当前图片的锚点的纵坐标对应的行;

再次,在确定的行中遍历该行对应的列,确定与当前图片的锚点的横坐标对应的列;

图片锚点用于标识图片的位置,包括横坐标和纵坐标。在确定文档中图片的位置时,先确定当前图片在文档中的页码,再根据当前图片锚点的纵坐标确定文档中对应的行号,根据当前图片锚点的横坐标确定文档中对应的列号,得到图片位置。

最后,将当前图片粘贴到确定的行和列对应的位置。

将当前图片粘贴到所确定的图片位置,即实现了将浮动图片转换得到嵌入图片。当浮动图片转换为嵌入图片后,图片位置锁定,不会因为文档内容的改变而改变。

可选的,满足设定格式条件的内容包括自动编号和段落标记;

当满足设定格式条件的内容是自动编号和段落标记时,搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式包括:

搜索初始文档中的满足设定格式条件的内容;

将满足设定格式条件的内容替换为对应的目标格式内容。

当设定格式条件的内容为自动编号内容时,搜索初始文档中的自动编号内容,将自动编号内容中的自动编号替换为普通编号,并去除自动编号;当设定格式条件的内容为段落标记内容时,搜索初始文档中的段落标记,并将段落标记替换为换行符。

综上所述,根据本实施例的技术方案根据不同设定格式条件的内容采取不同的处理方式,进而利用已有文档中的内容,提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制的目的。

实施例四

本实施例在上述实施例的基础上进行了优化,进一步阐述格式转换过程中不同的目标内容的处理方式。

目标内容包括表格;

示例性的,当目标内容是表格时,提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从初始文档中删除目标内容包括:

首先,遍历预处理文档中的表格;

其次,获取当前表格的格式和内容,当前表格的内容包括单元格内容和单元格位置信息;

其中,当前表格为当前遍历到的表格。

再次,根据单元格位置信息对单元格内容添加单元格格式符;

在对表格内容进行转换时,需先确定表格的中全部单元格的位置和内容,并将每个单元格内容用单元格格式符标识出来。

最后,根据当前表格的格式,将添加了单元格格式符的当前表格的内容转换为格式内容文件,给格式内容文件添加表格标签进行标注,并在预处理文档中删除当前表格的内容和格式。

具体的,单元格格式符为HTML语言中单元格标签。

将用单元格格式符标识的单元格信息转换为格式内容文件,得到可在网页中正常显示的表格内容,然后根据得到的表格位置信息,给格式内容文件添加表格标签进行标注,使表格内容在原有位置显示,最后在去除格式后的初始文档即预处理文档中删除当前表格的内容和格式。

并列的,目标内容包括公式、域和图片;

示例性的,当目标内容是公式、域和图片时,提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从初始文档中删除目标内容包括:

遍历预处理文档中的目标内容;

获取当前目标内容的位置信息;

将当前目标内容转换为预设图片格式的格式内容文件;

根据位置信息对格式内容文件添加标签进行标注,从预处理文档中删除目标内容。

同理,当对公式、域和图片等目标内容进行处理时,也会先获取目标内容的原有位置,并将目标内容转换为可在网页中正常显示的格式内容文件,并对不同目标内容和目标内容的位置添加不同标签进行标注,使目标内容可以在网页中在原有位置正常显示,最后在预处理文档中删除目标内容。

综上所述,根据本实施例的技术方案对不同目标内容采取不同的处理方式,利用已有文档中的内容,将不同目标内容转换为对应的格式内容文件,进而提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制的目的。

实施例五

图4是本发明实施例五提供的一种文档内容的提取装置的结构示意图。如图4所示,该装置包括:预处理模块410、格式转换模块420和文本存储模块430。

其中,预处理模块410,用于搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式,得到预处理文档;

格式转换模块420,用于提取预处理文档中的目标内容,并转换形成格式内容文件,给格式内容文件添加标签进行标注,从预处理文档中删除目标内容;

文本存储模块430,用于提取处理后预处理文档中的剩余内容,保存为文本文件,与格式内容文件存储至初始文档对应的文件夹。

进一步的,装置还包括:

状态切换模块,用于搜索初始文档中满足设定格式条件的内容,并去除内容对应的格式,之前,将待处理文档复制到临时目录下,得到初始文档,并将初始文档的状态设置为不可见。

进一步的,初始文档的文档类型为Word文档。

进一步的,满足设定格式条件的内容包括:上标内容、下标内容和下划线内容;

预处理模块410包括:

第一内容搜索单元,用于调用Word文档高级搜索工具,在初始文档中搜索满足设定格式条件的内容;

格式符设定单元,用于确定与满足设定格式条件的内容对应的目标格式符;

内容构造单元,用于根据目标格式符以及满足设定格式条件的内容构造代替内容;

第一内容替换单元,用于调用Word文档高级搜索工具,去除满足设定格式条件的内容的格式,并使用代替内容替换满足设定格式条件的内容。

进一步的,满足设定格式条件的内容包括浮动图片;

预处理模块410包括:

浮动图片搜索单元,用于搜索初始文档中的浮动图片;

图片转换单元,用于将浮动图片转换为嵌入图片。

进一步的,图片转换单元包括:

位置信息获取子单元,用于获取浮动图片的锚点位置信息和浮动图片所在的页码;锚点位置信息包括锚点的横坐标和锚点的纵坐标;

图片获取子单元,用于遍历浮动图片,剪切遍历到的当前图片;

行信息确定子单元,用于根据当前图片所在的页码,遍历该页码上的行,确定与当前图片的锚点的纵坐标对应的行;

列信息确定子单元,用于在确定的行中遍历该行对应的列,确定与当前图片的锚点的横坐标对应的列;

图片放置子单元,将当前图片粘贴到确定的行和列对应的位置。

进一步的,满足设定格式条件的内容包括自动编号和段落标记;

预处理模块410包括:

第二内容搜索单元,用于搜索初始文档中的满足设定格式条件的内容;

第二内容替换单元,用于将满足设定格式条件的内容替换为对应的目标格式内容。

进一步的,目标内容包括表格;

格式转换模块420包括:

表格遍历单元,用于遍历预处理文档中的表格;

表格信息获取单元,用于获取当前表格的格式和内容,当前表格的内容包括单元格内容和单元格位置信息;

格式符添加单元,用于根据单元格位置信息对单元格内容添加单元格格式符;

表格信息替换单元,用于根据当前表格的格式,将添加了单元格格式符的当前表格的内容转换为格式内容文件,给格式内容文件添加表格标签进行标注,并在预处理文档中删除当前表格的内容和格式。

进一步的,目标内容包括公式、域和图片;

格式转换模块420包括:

目标内容遍历单元,用于遍历预处理文档中的目标内容;

位置信息获取单元,用于获取当前目标内容的位置信息;

预设内容转换单元,用于将当前目标内容转换为预设图片格式的格式内容文件;

预设内容标注单元,用于根据位置信息对格式内容文件添加标签进行标注,从预处理文档中删除目标内容。

进一步的,所述装置还包括:

符号删除模块,用于在提取处理后预处理文档中的剩余内容之前,删除预处理文档中的预设符号。

综上所述,根据本实施例的技术方案,解决了现有技术只能提取文档中的特定内容,无法适应于格式多样化的内容问题,通过对文档内容进行分析,充分识别并提取文档中不同格式的内容,最终达到缩减电子系统使用文档的限制,充分利用已有文档中的内容的目的,并且由于直接对文档内容进行分析,可以适应于多样化的文档内容。

本发明实施例所提供的一种文档提取装置可以用于执行本发明实施例所提供的一种文档提取方法,具备相应的功能和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的一种文档提取方法。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1