一种pdf文档到xml文档转换的方法

文档序号：6650723阅读：502来源：国知局

专利名称：一种pdf文档到xml文档转换的方法
技术领域：
本发明是一种信息转化的方法，属于信息技术类，确切地说，它包括中间文档生成模块、规则生成模块、自动抽取模块的信息抽取系统的方法。
背景技术：
随着Web技术的发展，越来越多的信息呈现在用户面前。如何对海量的信息资源进行处理，是数字图书馆研究工作的一项重要内容。为了实现对网络信息资源的有效开发利用，需要进行信息的分类、检索等操作。所有对信息处理的操作都应该涉及到对文档信息的抽取。文档信息抽取是指从一段文本中抽取指定的一类信息，并将其形成结构化数据填入数据库中供用户查询使用的过程。
信息抽取现有三种基本实现方法基于字典，基于马尔可夫模型和基于规则。其中，基于字典和基于马尔可夫模型主要应用于WebIE领域；只有基于规则的方法不仅应用于WebIE中，同时也是实现信息抽取的主要方法。目前有三种主要的基于规则的信息抽取技术基于自然语言理解、基于Ontology和基于DOM树。
1、基于自然语言理解的信息抽取技术自然语言的处理技术通常用于自由文本的信息抽取。自然语言处理的过程如下首先把文本分割成多个句子，对每个句子的成分进行标记；然后将已分析好的句子成分和事先定义好的规则进行匹配，从而获得句子的内容。这种信息抽取方法的实质是，根据语义项对应的语义类，语义项的上下文和所处的句子成分实现信息的定位。它主要适合源文档中含有大量文本的情况，尤其是合乎文法的文本。
2、基于ontology的信息抽取主要利用了对数据本身的描述信息实现抽取。采用该方法，事先要由知识领域专家采用人工的方式书写某一应用领域的ontology，并且根据ontology中常值和关键字的描述信息产生抽取规则，对每个无结构的文本块进行抽取获得各语义项的值。这种方法对页面的结构和表现形式依赖少，只要事先创建的应用领域的ontology足够强大，系统可以对某一应用领域中各种网页实现信息抽取。不过，这事先需要构造一个完整的ontology库，而构造这样一个库需要花费专家大量的时间；而且，有时很多信息很难给出对应的ontology库。
3、基于DOM树的信息抽取技术在信息抽取之前，通过解析器将HTML文档或XML文档解析成DOM树，然后以自动化或半自动化的方式产生抽取规则，将信息抽取转化为对DOM树的操作。该类信息抽取技术应用于能够表示为DOM树的文档，如HTML文档，XML文档的信息抽取。
经检索还没有见到一种包括中间文档生成模块、规则生成模块、自动抽取模块信息抽取系统的方法，从PDF文档到XML文档转换的方法方面的文献报道。

发明内容
本发明的目的在于发明一种信息抽取的方法。
本发明是这样实现的它包括中间文档生成模块、规则生成模块、自动抽取模块依次进行，其步骤为(一)中间文档生成模块针对PDF样本文档(2)的内容，根据语义项和文本块之间的映射关系，系统自动生成标记语义项和信息块特征的中间XML文档；(二)规则生成模块对PDF样本文档(2)进行分析和处理，调用中间文档生成模块(7)产生的中间XML文档，通过文档解析器读取PDF源文档(1)的内容，并将其转换为规则的XSLT文档；(三)自动抽取模块接受规则XSLT文档(4)，得到满足目标DTD文档并具有语义信息的目标XML文档(5)。
本发明可以对转换后的XML文档做进一步的操作，从而提高文档自动分类和用户信息检索的效率。

图1为本发明的系统总体框架图；图2为本发明的系统流程图；图3为样例PDF源文档片断；图4为样例中间XML文档片断；图5为样例目标XML文档图中1为PDF源文档；2为PDF样本文档；3为中间XML文档；4为规则XSLT文档；5为目标XML文档；6为PDF文档库；7为中间文档生成模块；8为规则生成模块；9为自动抽取模块；10为XSLT规则文档库；11为目标XML文档库以下将结合实施例对本发明进行进一步的描述
具体实施例方式一、模块的具体设计和实现1.中间文档生成模块中间文档生成模块7设计是先将PDF源文档1转换成为一种易于处理的中间格式，再对中间格式进行基于规则的自动的XML文档转换。
本模块的实现有两个关键点(一)中间文档的结构的定义。
对中间文档结构设计的要求如下一是它能够描述源文档的格式特征和编排结构信息，这是自动抽取模块9规则匹配的依据；二是PDF文档到中间文档的转换最好能够较为容易地进行。
(二)设计PDF文档的解析器，生成满足上述要求的中间文档。
目前，有不少软件如pdfpert，pdftohtml等，能够将PDF文档转换为XML文档。它们转换后生成的XML文档基本上都是平级XML文档，其中的XML元素和属性包含了PDF源文档1中大量的显示信息。因此，可以基于上述软件提供的接口开发中间文档生成模块。
2.规则生成模块该模块的功能是生成应用于PDF源文档1对应的中间XML文档3的规则XSLT文档4。规则生成模块8采用半自动化的方式生成规则，具体包括以下三个步骤(一)开发用户学习界面。用户首先全面理解PDF样本文档2的内容和结构，并在用户学习界面的帮助下，建立语义项与文本块之间的映射关系。系统利用Adobe在Acrobat 7.0 SDK中提供的一个IAC(Interapplication Communication)实例ActiveView完成用户学习界面的开发。
(二)生成规则中间文档。目的是方便规则XSLT文档4的编写。这个过程是通过对PDF样本文档2对应的中间XML文档3进行解析完成的。由于中间XML文档3的结构趋于平面化，整个文档的数据量很大，而目标文档的生成所需的信息一般只位于文档的开始部分，所以选择XML简单应用编程接口SAX对中间XML文档3进行解析。Sun公司提供了Java API for XML Parsing(JAXP)接口支持SAX和DOM的使用，任何与JAXP兼容的XML文档解析器都可以使用，如Apache的Xerces解析器。
(三)编辑规则XSLT文档4。结合文本块的显示特征，位置特征以及先验的文本特征，根据每个元素的XPath形成XSLT文档。该XSLT文档就是抽取规则。
3.自动抽取模块由于抽取规则采用XSLT语言进行编辑，所以自动抽取模块9需要做的工作是执行抽取规则XSLT文档4。本系统使用Xalan作为XSLT执行引擎，由于XSLT执行引擎都实现了XML转换接口，所以它们可以任意替代而不影响应用程序代码。
二、信息抽取系统运行过程步骤一针对PDF样本文档2的内容，用户为页面信息附加语义；根据用户建立的语义项和文本块之间的映射关系，系统自动生成标记语义项和信息块特征的规则中间XML文档；完成规则XSLT文档4的编辑，存入规则文档库中。
步骤二用户从PDF文档库中选择PDF源文档1，同时从规则文档库中选择规则文档。系统调用中间文档生成模块7，通过文档解析器读取PDF源文档1的内容，并将其转换为中间XML文档3。中间XML文档3是自动抽取模块9的输入项。
步骤三自动抽取模块9使用规则解析器读取规则文档中的内容，自动地将抽取规则应用于中间XML文档3，从而得到满足目标DTD文档并具有语义信息的XML文档。
其中，规范目标XML文档的DTD文件如下

三.系统的特点1.系统通过中间文档生成模块7，先将PDF文档转换为中间文档，该中间文档保留了PDF源文档1中的文本显示信息以及版面编排结构特征，方便了自动抽取模块9的规则匹配，从而降低了系统设计的难度。
2.中间文档生成模块7选择XML格式作为中间文档的信息表现形式，优点表现在以下两个方面(一)可以通过XML文档的自定义标签(包括元素和属性)保存PDF源文档1中的显示信息，从而可以利用PDF文档中的显示信息有效地完成基于规则的信息抽取。
(二)可以利用XML的标准化工具完成对中间文档的合法性验证和有效性验证，以及利用XML的解析模型DOM或SAX对中间文档进行解析，而不需要开发专门的工具，从而减少了不必要的系统开支。
3.在规则生成模块中，选择XSLT作为抽取规则描述语言。
XSLT作为W3C制定的标准，支持它的工具很多，目前已经获得了包括xalan在内的二十多种工具的支持；XSLT定义了一套强大而且灵活的数据定位指令XPath和抽取指令，具有部分的高级编程语言的能力，能够应付许多场合的变换要求；XSLT采用XML语法进行定义，易于理解和修改，而且具有良好的扩展性；与java，c等高级语言相比，XSLT能够以少量代码完成文本块的定位和抽取。
本发明也可以是将PDF源文档1经过中间文档生成模块7，产生中间XML文档3，不经过规则生成模块8，而是直接进入自动抽取模块9，输出目标XML文档5。还可以将PDF文档，先经过规则生成模块8，输出规则XSLT文档4，再进入自动抽取模块9，输出目标XML文档5。
PDF源文档1为系统处理的原始对象、PDF样本文档2为提供给用户学习从而获得系统抽取规则的对象。
权利要求
1.一种PDF文档到XML文档转换的方法，其特征在于它包括中间文档生成模块(7)、规则生成模块(8)、自动抽取模块(9)依次进行，其步骤为步骤一中间文档生成模块针对PDF样本文档(2)的内容，根据语义项和文本块之间的映射关系，系统自动生成标记语义项和信息块特征的中间XML文档(3)；步骤二规则生成模块对PDF样本文档(2)进行分析和处理，调用中间文档生成模块(7)产生的中间XML文档，通过文档解析器读取PDF源文档(1)的内容，并将其转换为规则XSLT文档(4)；步骤三自动抽取模块接受规则XSLT文档(4)，得到满足目标DTD文档并具有语义信息的目标XML文档(5)。
2.根据权利要求1所述的一种PDF文档到XML文档转换的方法，其特征在于也可以是将PDF源文档(1)经过中间文档生成模块(7)，产生中间XML文档，不经过规则生成模块(8)，而是直接进入自动抽取模块(9)，输出目标XML文档。
3.根据权利要求1所述的一种PDF文档到XML文档转换的方法，其特征在于可以将PDF文档，先经过规则生成模块(8)，输出规则XSLT文档，再进入自动抽取模块(9)，输出目标XML文档。
4.根据权利要求1或3所述的一种PDF文档到XML文档转换的方法，其特征在于规则生成模块(8)生成的结果为规则XSLT文档，包括以下三个步骤步骤一，开发用户学习界面；步骤二，生成规则中间文档；步骤三，编辑规则XSLT文档。
全文摘要
本发明公开了一种PDF文档到XML文档转换的方法，(一)中间文档生成模块(7)针对PDF样本文档(2)的内容，根据语义项和文本块之间的映射关系，系统自动生成标记语义项和信息块特征的中间XML文档(3)；(二)规则生成模块对PDF样本文档(2)进行分析和处理，调用中间文档生成模块(7)产生的中间XML文档(3)，通过文档解析器读取PDF源文档(1)的内容，并将其转换为规则的XSLT文档；(三)自动抽取模块接受规则的XSLT文档，得到满足目标DTD文档并具有语义信息的目标XML文档(5)。本发明可以对转换后的XML文档做进一步的操作，从而提高文档自动分类和用户信息检索的效率。
文档编号G06F17/30GK1776673SQ200510122890
公开日2006年5月24日申请日期2005年12月3日优先权日2005年12月3日
发明者张文德, 宋艳娟, 陈振标, 杨传耀, 陈俊林, 朱丹红申请人:福州大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：张文德;宋艳娟;陈振标;杨传耀;陈俊林;朱丹红
技术所有人：福州大学
我是此专利的发明人

上一篇：基于嵌入式加数字信号处理的电力电子数字控制平台的制作方法
上一篇：显示器驱动控制装置及其方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。