一种xml文档处理方法

文档序号:6514972阅读:133来源:国知局
专利名称:一种xml文档处理方法
技术领域
本发明涉及一种计算机办公自动化技术领域中的文档的处理方法,尤其是一种可公开验证的可扩展置标语言(XML)的文档处理方法。
背景技术
长期以来,文档主要采用专用的记录格式来描述,采用专用的记录格式必然带来严重的兼容性问题,例如,WPS文档编辑器难以正确解释Word采用的DOC格式,当前使用的PowerPointer不能正确解释老版本的PPT格式等等;同时,文档的处理能力也会受文档处理工具提供厂商的制约。近年来,随着可扩展置标语言(XML)应用的兴起,文档的记录格式越来越多地采用XML来描述。例如,Sun/Oasis的办公软件OpenOffice,Microsoft的办公软件Office 2003等等。采用XML描述文档,能够通过定义大纲(schema)来规范文档的记录格式,并对其进行验证,并大大增强文档格式的交换能力。然而,文档编辑工具并不完全公开其使用的Schema,这样不同来源的编辑工具无法充分理解其他编辑工具产生的文档,也无法对文档正确性加以验证;另一方面,现今的文档处理工具只能处理一种格式Schema,例如Microsoft Word 2003只能处理WordML,Sun/Oasis的办公软件也只能处理OpenOffic定义的Schema。目前的文档处理工具很难摆脱单一格式描述方法的约束,使编辑工具达到与格式描述形式无关。

发明内容
本发明的目的在于针对现有技术的不足,提供一种XML文档处理方法,使不同的文档编辑工具可以充分理解其他文档编辑工具产生的文档;可以使文档编辑工具摆脱格式描述方法的约束,与格式描述形式无关,方便文档编辑工具的研制,具有较高的通用性、灵活性和实用性。
为实现上述目的,本发明提供了一种XML数据的处理方法,包括以下步骤步骤1、文档编辑工具获取采用公开的命名空间定义的文档格式Schema和/或用户逻辑内容Schema,确定文档的格式描述方法和/或逻辑内容结构;步骤2、文档编辑工具根据所述文档格式Schema和/或用户逻辑内容Schema生成相应的文档或对用户已建立的文档进行验证。
在步骤2中所述文档编辑工具根据文档格式Schema和/或用户逻辑内容Schema对文档的格式描述和/或逻辑内容结构进行解析,得到所述文档格式和/或用户逻辑内容的编辑规则;所述文档编辑工具根据解析得到的所述文档格式和/或用户逻辑内容的编辑规则生成相应的文档。
在步骤2中对用户已建立的文档进行验证过程为验证所述用户已建立的文档是否符合步骤1中获取的文档格式Schema和/或用户逻辑内容Schema,如果符合,则该文档正确,如不符合,该文档错误,作出错误提示。
其中,为了使文档格式Schema和/或用户逻辑内容Schema公开,可以将其存放在一个公共可存取空间,根据其存放的位置,如存放在本地或其他地方,步骤1中所述的文档编辑工具在本地或通过远程访问,从所述公共可存取空间获取文档格式Schema和/或用户逻辑内容Schema。如果是远程访问,可以通过网络路径、URL地址或协议访问,这里所述的协议可以为HTTP、FTP或共同的约定。
另外,当所述文档编辑工具根据所述文档格式Schema和/或用户逻辑内容Schema生成相应的文档后,所述文档编辑工具提取文档的格式数据和/或内容数据,由通用的XML分析器根据用于生成该文档的格式Schema和/或内容Schema进行验证,以保证格式和/或内容数据的正确。
当所述文档编辑工具处理其他文档编辑工具生成的文档时,在所述步骤1之前,还要先获取该文档;在所述步骤2中,所述文档编辑工具根据获取的文档的Schema信息获取该文档对应的文档格式Schema和/或用户逻辑内容Schema;所述文档编辑工具根据文档格式Schema和/或用户逻辑内容Schema对文档的格式描述和/或逻辑内容结构进行解析,得到所述文档格式和/或用户逻辑内容的编辑规则;所述文档编辑工具根据解析得到的所述文档格式和/或用户逻辑内容的编辑规则生成相应的文档。
上述的文档编辑工具为不同厂家或版本的、所见即所得(What You Seeis What You Get)的或离线自动处理方式的文档处理器,“所见即所得”即在文档编辑器界面中看到的是什么样,产生出来的文档就是什么样,换一句话说就是直观、交互的编辑方式。
所述文档格式Schema和用户逻辑内容Schema为不同的Schema描述,并且,格式Schema和内容Schema的定义是公开的,所有用到的命名空间的定义也是公开的。
本发明将文档的格式描述方法作为共享资源进行共享,使不同来源的编辑工具可以充分理解其他编辑工具产生的文档,并对文档正确性加以验证;另外,可以使文档编辑工具摆脱格式描述方法的约束,与格式描述形式无关,大大提高了文档交换能力,方便了文档编辑工具的研制,具有较高的通用性、灵活性和实用性。
下面结合具体实施例和附图对本发明作进一步详细的说明。


图1是本发明一实施例的流程图;图2是本发明另一实施例的流程图。
具体实施例方式
参见图1,为本发明可公开验证XML文档处理方法的实施例一的流程图,本实施例包括以下步骤步骤A1、文档编辑工具获取采用公开的命名空间定义的文档格式Schema和/或用户逻辑内容Schema,确定文档的格式描述方法和/或逻辑内容结构;步骤A2、文档编辑工具根据所述文档格式Schema和/或用户逻辑内容Schema对文档的格式描述和/或逻辑内容结构进行解析,得到所述文档格式和/或用户逻辑内容的编辑规则;步骤A3、所述文档编辑工具根据得到所述文档格式和/或用户逻辑内容的编辑规则引导用户进行编辑,生成相应的文档。
为了保证格式数据和/或内容数据的正确性,还可以包括步骤A4步骤A4、文档编辑工具提取该文档的格式数据和/或内容数据,由通用的XML分析器根据用于生成该文档的文档格式Schema和/或用户逻辑内容Schema,即步骤A1获得的文档格式Schema和/或用户逻辑内容Schema对提取的格式数据和/或内容数据进行验证,如果正确,不做任何处理,如果不正确,则做出提示,提示用户该文档错误。
其中,所述采用公开的命名空间定义的文档格式Schema和/或用户逻辑内容Schema可以作为一个公开的网络资源被共享,文档编辑工具在本地或远程进行访问,当通过远程访问时,可以通过网络路径、URL地址或特定的协议来访问该网络资源,获得所述的文档格式Schema和/或用户逻辑内容Schema。
步骤A1中的文档格式Schema和/或用户逻辑内容Schema的定义是公开的,所有用到的命名空间的定义也是公开的,便于其他的文档编辑工具可以获得所述的格式Schema和/或内容Schema,并根据格式Schema和/或内容Schema充分理解文档的格式描述方法和逻辑内容结构。当文档用户逻辑内容结构无关紧要时,与用户逻辑内容相关的Schema可以不出现。
当所述文档编辑工具处理其他的文档编辑工具生成的文档时,如实施例二,如图2所示,包括以下步骤步骤B1、所述文档编辑工具获取其他所述文档编辑工具生成的文档;步骤B2、所述文档编辑工具根据获取文档的Schema信息得到该文档对应的文档格式Schema和/或用户逻辑内容Schema,该Schema信息可以为一个URI(Universal Resource Indicator),通过它可以定位到所述Schema;步骤B3、所述文档编辑工具根据获得的文档格式Schema和/或用户逻辑内容Schema对文档的格式描述和/或逻辑内容结构进行解析,得到所述文档格式和/或用户逻辑内容的编辑规则;步骤B4、所述文档编辑工具根据得到所述文档格式和/或用户逻辑内容的编辑规则引导用户进行编辑,生成相应的文档。
为了保证格式数据和/或内容数据的正确性,还可以包括步骤B5步骤B5、所述文档编辑工具提取该文档的格式数据和/或内容数据,由通用的XML分析器根据用于生成该文档的文档格式Schema和/或用户逻辑内容Schema,即步骤B2获得的文档格式Schema和/或用户逻辑内容Schema对提取的格式数据和/或内容数据进行验证,如果正确,不做任何处理,如果不正确,则做出提示,提示用户该文档错误。
所述文档编辑工具为不同厂家或版本的、所见即所得的或离线自动处理方式的文档处理器。
对上述两个实施例举例说明对于实施例一,对于汉语文档格式,定义了一个符合W3C XML Schema描述的han.xsd,表示其格式描述方法,并在网络路径“http://schemas.uof.org/2003/”上提供访问。
对于藏语文档格式,定义了一个符合W3C XML Schema描述的zang.xsd,表示其格式描述方法,并在网络路径“http://schemas.uof.org/2003/”上提供访问。
当使用编辑工具Editor时,选择采用何种格式Schema。当用户选择“http://schemas.uof.org/2003/han.xsd”时,Editor通过该网络路径获得han.xsd,并根据该Schema对文档的格式描述和/或逻辑内容结构进行解析,得到所述文档格式和/或用户逻辑内容的编辑规则,编辑工具Editor根据得到所述文档格式和/或用户逻辑内容的编辑规则引导用户编辑完成符合汉语文档格式的文档;或者先由用户生成一个文档,Editor根据获得的Schema与文档进行比较验证,验证该文档是否符合所述的Schema,如果符合,不做任何处理,如果不符合,提示错误。
同理,当用户选择“http://schemas.uof.org/2003/zang.xsd”时,Editor通过该网络路径获得zang.xsd,并根据该Schema引导用户编辑完成符合藏语文档格式的文档。
对于实施例二,对于中文办公文档格式,定义了一套符合W3C XMLSchema描述的uof.xsd、text.xsd、ss.xsd和pp.xsd等,分别表示全局、文字处理、电子表格、演示文稿等方面的格式描述方法,作为不同命名空间的定义,全部公开,并在网络路径“http://schemas.uof.org/cn/2003/”上提供访问。
厂商a开发的编辑工具Editor_a从“http://schemas.uof.org/cn/2003/uof”上获得uof.xsd、text.xsd、ss.xsd和pp.xsd等命名空间的定义,通过引导式编辑产生结果文档a.uof。该文档a.uof除了包含相应的信息schema(即URIhttp://schemas.uof.org/cn/2003/uof.xsd、http://schemas.uof.org/cn/2003/text.xsd、http://schemas.uof.org/cn/2003/ss.xsd和http://schemas.uof.org/cn/2003/pp.xsd)之外,还包含具体的格式和内容,例如所有用到的字型、段落式样和段落的实际文字内容等。这里所述的Schema信息为一个URI,通过它可以定位到所述Schema。
从该文档提取出格式描述数据(即XML实例),并可以用通用XML分析器“XP”根据上述中文办公文档格式Schema加以验证。
厂商b开发的编辑工具Editor_b获得Editor_a生成的文档a.uof,并从文档a.uof获得Schema信息(见上述URI),并从中获得uof.xsd、text.xsd、ss.xsd和pp.xsd等命名空间的定义;根据该Schema对文档的格式描述和/或逻辑内容结构进行解析,得到所述文档格式和/或用户逻辑内容的编辑规则,正确理解了a.uof,引导用户进行编辑,产生结果文档b.uof。用户在进行编辑时,可以对其进行修改,也可以不修改,修改时,可以修改其格式,如字体,也可以修改其内容,如删去一个字或增加一个字。上述生成的文档b.uof可以同样按实施例一的验证方法进行验证,并将验证通过的文档交由Editor_a或其他工具进一步处理(如显现或打印)。
最后所应说明的是,以上实施例仅用以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解依然可以对本发明进行修改或者等同替换,对于不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
权利要求
1.一种XML文档处理方法,其特征在于,包括以下步骤步骤1、文档编辑工具获取文档格式Schema和/或用户逻辑内容Schema,所述文档格式Schema和/或用户逻辑内容Schema采用公开的命名空间进行定义;步骤2、所述文档编辑工具根据获取的所述文档格式Schema和/或用户逻辑内容Schema生成相应的文档或对用户已建立的文档进行验证。
2.根据权利要求1所述的XML文档处理方法,其特征在于,在步骤2中所述文档编辑工具根据获取的所述文档格式Schema和/或用户逻辑内容Schema对文档的格式描述和/或逻辑内容结构进行解析,得到所述文档格式和/或用户逻辑内容的编辑规则;所述文档编辑工具根据解析得到的所述文档格式和/或用户逻辑内容的编辑规则生成相应的文档。
3.根据权利要求1所述的XML文档处理方法,其特征在于,所述步骤2中对用户已建立的文档进行验证的过程为验证所述用户已建立的文档是否符合步骤1中获取的文档格式Schema和/或用户逻辑内容Schema,如不符合,作出提示。
4.根据权利要求1-3任一所述的XML文档处理方法,其特征在于,在步骤1中所述的文档编辑工具获取文档格式Schema和/或用户逻辑内容Schema的方式为所述的文档编辑工具在本地或远程访问并获取作为共享资源的文档格式Schema和/或用户逻辑内容Schema。
5.根据权利要求4所述的XML文档处理方法,其特征在于,所述远程访问方式为通过网络路径、URL地址或约定协议访问。
6.根据权利要求1或2所述的XML文档处理方法,其特征在于,在步骤2中,所述文档编辑工具根据获取的所述文档格式Schema和/或用户逻辑内容Schema生成相应的文档后,所述文档编辑工具提取该文档的格式数据和/或内容数据,由通用的XML分析器根据用于生成该文档的格式Schema和/或内容Schema进行验证,以保证格式和/或内容数据的正确性。
7.根据权利要求1所述的XML文档处理方法,其特征在于,在步骤1之前还包括所述文档编辑工具获取其他文档编辑工具生成的文档。
8.根据权利要求7所述的XML文档处理方法,其特征在于,所述步骤1具体是所述文档编辑工具根据所述其他文档编辑工具生成的文档的Schema信息获取该文档对应的文档格式Schema和/或用户逻辑内容Schema。
9.根据权利要求7或8所述的XML文档处理方法,其特征在于,在步骤2中,生成相应的文档后,所述文档编辑工具提取文档的格式数据和/或内容数据,由通用的XML分析器根据用于生成该文档的格式Schema和/或内容Schema进行验证,以保证格式和/或内容数据的正确。
全文摘要
本发明公开了一种XML文档处理方法,文档编辑工具获取采用公开命名空间定义的文档格式Schema和/或用户逻辑内容Schema,确定文档的格式描述方法和/或逻辑内容结构;所述文档编辑工具根据所述文档格式Schema和/或用户逻辑内容Schema生成相应的文档或对用户已建立的文档进行验证。本发明使文档编辑工具能够共享XML Schema,从而使文档可以在不同编辑系统中准确交换,使不同的文档编辑工具可以充分理解其他文档编辑工具产生的文档;可以使文档编辑工具摆脱格式描述方法的约束,与格式描述形式无关,方便文档编辑工具的研制,具有较高的通用性、灵活性和实用性。
文档编号G06F17/21GK1825302SQ20051000747
公开日2006年8月30日 申请日期2005年2月22日 优先权日2005年2月22日
发明者李宁 申请人:中国电子技术标准化研究所, 北京信息工程学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1