中文办公软件文档与其他格式文档相互转换的方法及装置的制作方法

文档序号:6613079阅读:150来源:国知局
专利名称:中文办公软件文档与其他格式文档相互转换的方法及装置的制作方法
技术领域
本发明涉及一种文档格式转换技术,尤其涉及一种实现中文办公软件文档 与其他格式文档相互转换的方法及装置。
背景技术
在中文办公流程中,由于各个环节对同一文档呈现方式的要求不同,因而 对承载有信息的文档的记录方式的要求也不相同。
例如在政府公文处理流程中,在起草公文时,出于对公文语义要素的严格
要求,起草的公文须符合国家标准《基于XML的电子公文格式规范第2部分公 文体》的要求;而在传送到各种显示环境中时,为了使XML电子公文体能够在 各种显示环境中得到规范、 一致的显现效果,又要求所述公文符合《基于XML 的电子公文格式规范第3部分显现》的要求;当办公人员在查看、编辑、修 订公文时,由于办公人员可能更习惯于使用各种办公软件对公文进行操作,此 时就要求办公人员获得的公文符合国家标准《中文办公软件文档格式规范》的 要求。
由于存在着需要用不同格式展现同一份文档的需求,所以,必然要求公文 在传输过程中经历 一 系列的转换操作来适应流程的各个环节的要求。
目前,部分厂商对中文办公软件文档(U0F)与0penXML (微软办公软件文 档的标准)或0DF (另一种办公软件文档的国际标准)转换的可行性做了部分研 究,但至今没有公开任何有关文档转换的技术方案。但是,目前尚没有实现中 文办公软件文档与电子公文等其他格式文档之间的相互转换的技术,也未公开 有关如何实现所述文档格式之间进行转换的方法。

发明内容
本发明提供了 一种中文办公软件文档与其他格式文档相互转换的方法及装 置,以加快中文办公软件文档和其他格式文档之间的转换速度。
案一种中文办公软件文档与其他格式文档相互转换的方法,包括以下步骤 根据其他格式文档/中文办公软件文档的格式要求,将中文办公软件文档/ 其他;格式文档生成中间文档;
根据所述中间文档,生成XSL样式表文件;
利用所述XSL样式表文件,对所述中间文档进行XSL转换,得到其他格式 文档/中文办公软件文档。
本发明中文办公软件文档与其他格式文档相互转换的装置采用以下技术方

中文办公软件文档与其他格式文档相互转换的装置,所述装置包括
中间文档生成单元,用于根据其他格式文档/中文办公软件文档的格式要
求,生成中间文档;
XSL样式表文件生成单元,用于根据所述中间文档,生成XSL样式表文件; 转换单元,用于利用所述XSL样式表文件,对所述中间文档进行XSL转换,
得到其他格式文档/中文办公软件文档。
转换中根据目标文档(中文办公软文档或其他格式文档)的格式要求,生成了 中间文档,且生成的中间文档符合XML标准规范,因而能够加快中文办公软件 文档与其他格式文档的相互转换的速度,很好的适应了办公流程的各个环节中 对具有不同格式的文档的需求,从而提高了办公效率。


图2是中文办公软件文档转换成其他格式文档时,属性归并提取过程的流 程图3是中文办公软件文档转换成其他格式文档时,语义分析过程的流程图; 图4是本发明中文办公软件文档与其他格式文档相互转换的装置的结构图; 图5是本发明中文办公软件文档与其他格式文档相互转换的装置中,中间 文档生成单元的结构图6是本发明中文办公软件文档与其他格式文档相互转换的装置的具体结构图。
具体实施例方式
为使本发明的技术方案的优点更加清楚,下面结合附图对本发明做进一步 的详细i兌明。
标文档(中文办公软件文档或其他格式文档)的格式要求,生成中间文档。然
后,根据所述的中间文档生成XSL样式表文件。最后再对所述中间文档进行XSL 转换,得到目标文档(中文办公软件文档或其他格式文档)。需要指出的是,本 文中的"中文办公软件文档"专指符合国家标准《中文办公软件文档格式规范》 的UOF格式文档,它为国内各大Office厂商所支持,如永中集成EIOffice、红 旗RedOffice等。
包括如下步骤
Sl:根据其他格式文档/中文办公软件文档的格式要求,对源文档(中文办 公软件文档/根据其他格式文档)进行预排版处理,生成中间文档; S2:根据所述中间文档,生成XSL样式表文件;
S3:利用所述XSL样式表文件,对所述中间文档进行XSL转换,得到其他 格式文档/中文办公软件文档。
通过本发明所述的方法,由于在转换过程中,根据目标文档(中文办公软 件文档或其他格式文档)的格式要求,生成了中间文档,且生成的中间文档符 合XML标准规范,因而能够加快中文办公软件文档与其他格式文档的相互转换, 很好的适应了办公流程的各个环节中对同一文档不同呈现格式的要求,从而提 高了办公效率。
所述其他格式文档为以文本方式记录的文档,例如XML格式文档或方正书 版FBD格式文档等。
所述的预排版处理是指,由于各种格式的文档对信息的描述存在着差异, 因而其中一些差异使得目标文档所需的信息不能直接从源文档获取,而必须通 过对源文档进行预排版处理才能得到。预排版处理的过程包括属性归并提取,属性预排计算和属性转移/转换等。 其中,所述的属性归并提取是指,在源文档的内容属性与目标文档的内容属性 存在多对一的映射关系时,需要根据目标文档的需求,将源文档的多个同类属 性值进行归并,提取出唯一的无歧义的属性值的过程。所述的属性预排计算是 指,对于源文档中不存在,但在目标文档中存在的属性,调用排版引擎进行排 版计算以获得相关属性的过程。所述的属性转移/转换是指,对于仅存在于源文 档中的属性,进行分析、计算后转移到目标文档的其他属性上的过程。上述三 种预排版处理的方式结合具体实施例进行说明。
因而可通过相关规范的要求获得两种格式文档的具体格式要求,从而能够找出 两个文档格式的差异。
对于中文办公软件文档与其他格式文档之间的相互转换,存在以下两种情 况(1)由中文办公软件文档向其他格式文档的转换,也即源文档为中文办公 软件文档,目标文档为其它格式文档。(2)由其他格式文档向中文办公软件文 档的转换,也即源文档为其它格式文档,目标文档为中文办公软件文档。
下面分别描述一下上述两种转换的具体实现过程。 (1)由中文办公软件文档向其他格式文档的转换。
由中文办公软件文档向其他格式文档转换的过程包括如下步骤
Tl:根据目标文档(其他格式文档)的格式要求,对源文档(中文办公软 件文档)进行预排版处理,生成中间文档。
这里目标文档的格式要求可以为目标文档对字体的要求,对字号的要求, 或者对段落行距等的要求等。在使用本方法的过程中,各种要求根据目标文档 的具体情况而定。
所述的预排版处理包括上述的属性归并提取,属性预排计算和属性转移/转 换等。通过所述的预排版处理,可以得到文档属性和目标文档属性大致相同的 中间文档。
在此实施例中,以属性归并提取为例,说明一下对源文档做预排版处理的 过程。对于源文档来说,文档中的各个句子可能设置了不同的句属性,所述的句属性可包括每个句子中文字的字体属性,字符间距属性等,而目标文档则要 求其文档中的句子只有一个段落属性。因而,这就需要对源文档进行属性归并 提取处理,得到目标文档中无歧义的段落属性。
图2为对源文档的段落属性进行归并提取的过程的流程图。由图2所示的 流程图可知,在此实施例中,以源文档的某^爻落中第一句的字体属性为参考, 直到查找出此段落中和第 一 句的字体属性不同的句子为止。若未找到字体属性 不同的句子,则以第一句的字体属性作为中间文档相应段的段落属性值;否则, 若该段落具有段落字体属性值,则以此段落字体属性值作为中间文档相应段的 段落属性值;若该段落不具有字体属性值,则将所述第一句的字体属性作为目 标文档中唯一的无歧义的字体属性。
这样通过上述属性归并提取,就得到了目标文档无歧义的段落属性。当然 由于源文档和目标文档的属性各不相同,对源文档的预处理的方法也不限于上 述的三种方法。
利用对源文档的属性进行属性归并提取后得到的属性,作为中间文档的相 应属性。为了便于进行XSLT转换,生成的中间文档符合XML标准规范。
若进行属性预排,则需要调用排版引擎计算获得。之后,将经排版引擎计 算后的属性值作为中间文档的相应属性值。
若进行属性转移/转换,则需要将仅存在于源文档中的属性,进行分析、计 算后转移到目标文档的其他属性上,得到属性转移后存在于目标文档中的属性 值,也即转移属性值,并将具有所述转移属性值的内容体现在目标文档中。例 如源文档中的单元格自涨属性为随着输入的字数的增多,单元格行高自动逐渐 增大,而目标文档中并不存在这种属性。那么可将源文档中同一表格行中最大 的单元格高度这一属性值,作为中间文档相应表格行的行高属性,在转换后体 现在目标文档相应表格行的行高属性上。因此,在这个实施例中,所述最大的 单元格高度值即为转移属性值。
T2:将所述中间文档设计成XSL样式表文件。
XSL样式表(Extensible Style Language,可扩展样式语言),用于格式化 XML文档。它由两部分组成XSLT和XPath,其中XSLT ( XSL转换语言)可以把XML文档从一种格式转化为另一种格式;XPath是一种能够在XML文档中寻找信 息的语言,它通过XML文档中的元素和属性来进行导航。
生成的中间文档,只是格式与目标文档的格式相近的文档,但是二者在格 式上还是存在着差异。因而,所述XSL样式表文件,主要是根据中间文档与目 标文档之间的差异进行设计的才莫板。在此实施例中,节选句属性(部分)才莫板 如下
<!—===========—=========杨〖生模板一=====——=—==—
——>
<xsl: template match-"字句属性"〉 <句式样>
<xsl: attribute name-"标识符"selectJ'5)字式才羊引用"/> <xsl: attribute name-"名称"select="'归并句式样'"/> <字体〉
<xsl: if test」'字字体/5)字西文字体引用"〉
<xsl: attribute name^'西文字体引用"select」'字字体/fi)字西 文字体引用"/>
</xsl: if>
<xsl: if test」'字字体/a字中文字体引用">
<xsl: attribute name-1'中文字体引用"select」'字字体/5)字中 文字体引用"/>
</xsl: if>
<xsl: if test」'字字体/a字特殊字体引用"〉
<xsl: attribute name-"特殊字体引用"select-"字字体/9字特 殊字体引用"/></xsl:if>
〈xsl:if test-"字字体/a字颜色"〉
<xsl: attribute name-"颜色"select-"字字体/6)字颜色"/〉 </xsl: if〉
〈xsl:if test」'字字体/6)字字号">
<xsl: attribute name-"X字号"select-"字字体/5)字字号"/> <xsl: attribute name-"Y字号"select-"字字体/扭字字号"/〉 〈xsl:if test-"字缩i丈and字缩力文!-'100'"> <xsl: attribute name-"X字号"〉
<xsl: value-of select="format-number (字字体/Q字字 号*字缩放div 100, '0. #')"/> </xs1: attribute> </xsl: if〉 </xsl: if〉 </字体>
〈xsl:if test-"字i]a体/a字4直"〉 <粗体>
<xsl: attribute name-"值"select-"字粗体/5)字值"/> </粗体> </xsl: if> <!——......—->
</句式才羊〉 </xsl: template>在对中间文档进行语义分析时,当所述中间文档具有"字句属性"元素 时,则ii7v此句属性模板。通过执行上面的一段程序,将中间文档中的"#字 式样引用","归并句式样"等属性值分别映射到目标文档的"标识符"、"名称" 等属性上去。
在此只是以句属性模板为例进行说明,在实际过程中,可能还存在着多种 模板,例如段落属性模板等等。通过上述的过程,可以使得所述中文文档的格 式更加符合目标文档的要求。
T3:当目标文档是语义相关的文档时,根据目标文档的特性,对中间文档 做语义分析。例如,目标文档是由一系列语义单元组成的,而源文档文件的元 素是语义无关的,这就要求在XSL转换的过程中对源文档进行语义分析。在此 实施例中,以对目标文档中的"紧急程度,,元素进行语义分析为例进行说明。
图3为以对中文办公软件文档中的"紧急程度"为例进行语义分析的流程图。
通过图3可知,通过分别查找中文办公软件文档中的段落以及图形子元素 中引用的图形对象的文本内容,并在查找到与"紧急程度"语义相关的关键字 (如"紧急"、"急件"、"特急")后,对所述段落或图形对象的文本内容进^f亍处 理。
T4:利用所述XSL样式表文件,对中间文档进行XSL转换,得到目标文档。
在此实施例中,XSLT遵循的标准版本为1.0、 1.1、 2. 0或以上版本,XPath 遵循的标准版本为1. 0、 2. 0或以上版本。进行XSLT转换所使用的文档解析器 可以是MicroSoft的MSXML,也可以是Apache的Xalan,也可以是任意第三方 的支持XSL标准的解析器。因而所述XSL样式表文件定义的模板、函数等元素 能够满足从中间文档转换至目标文档的需要。
通过上述过程,实现了从中文办公软件文档向其他格式文档的转换,使得 中文办公软件文档很好的适应了办公流程的各个环节中对具有不同格式的文档 的需求,从而提高了办公效率。
(2 )由其他格式文档向中文办公软件文档的转换。
由其他格式文档向中文办公软件文档的转换包括如下步骤Ll:根据目标文档的格式要求(中文办公软件文档),对源文档(其他格式 文档)进行预排版处理,生成中间文档。
这里的预排版处理过程,和由中间格式文档向其他格式文档的转换实施例 中所述的预排版处理的原理相同。在此不再赘述。
L2:生成XSL样式表文件。
在此实施例中,需要根据中间文档与中间格式文档的特性之间的差异,生 成XSL样式表文件。设计原理和由中间格式文档向其他格式文档的转换实施例 中所述的预排版处理的原理相同。在此不再赘述。
L3:利用所述XSL样式表文件,对中间文档进行XSL转换,得到目标文档。
在此实施例中,XSLT遵循的标准版本为1.0、 1.1、 2. 0或以上版本,XPath 遵循的标准版本为l. 0、 2. Q或以上版本。进行XSLT转换所使用的文档解析器 可以是Microsoft的MSXML,也可以是Apache的Xalan,也可以是任意第三方 的支持XSL标准的解析器。因而所述XSL样式表文件定义的模板、函数等元素 满足从中间文档转换至中文办公软件文档的需要。
通过上述过程,实现了从其他格式文档向中文办公软件文档的转换,使得 其他格式文档很好的适应了办公流程的各个环节中对具有不同格式的文档的需 求,从而提高了办公效率。
供了 一种中文办公软件文档与其他格式文档相互转换的装置。
如图4所示,本发明所述的中文办公软件文档与其他格式文档相互转换的 装置包括如下模块
中间文档生成单元,用于根据其他格式文档/中文办公软件文档的格式要 求,对其他格式文档/中文办公软件文档进行预排版处理,生成中间文档;
XSL样式表文件生成单元,用于生成XSL样式表文件;
转换单元,用于利用所述XSL样式表文件,对所述中间文档进行XSL转换, 得到其他格式文档/中文办公软件文档。
其中,所述其他格式文档为以文本方式记录的文档,例如XML格式文档或 方正书版FBD格式文档等。所述的预排版处理包括属性归并提取,属性预排计算和属性转移/转换等。 其中,所述的属性归并提取是指,在源文档的内容属性与目标文档的内容属性 存在多对一的映射关系时,需要根据目标文档的需求,将源文档的多个同类属 性值进行归并,提取出唯一的无歧义的属性值。所述的属性预排计算是指,对 于源文档中不存在,但在目标文档中存在的属性,调用排版引擎进行排版计算 以获得相关属性的过程。所述的属性转移/转换是指,对于仅存在于源文档中的 属性,进行分析、计算后转移到目标文档的其他属性上的过程。
的适应目标文档的^f各式要求,如图5所示,所述的中间文档生成单元包括属 性归并单元,用于将中文办公软件文档或其他格式文档中的至少一个同类属性 值进行归并,提取出唯一的无歧义的属性值,并将所述无歧义的属性值作为中 间文档的相应属性值。
所述的中间文档生成单元还可包括属性提取单元,用于获得存在于中文
中的内容的属性值,并将所述属性值作为中间文档的相应属性值。
所述的中间文档生成单元还可包括属性转移单元,用于对爿f又在中文办7^ 软件文档或其他格式文档中存在的属性进行分析计算,得到转移属性值,并将 所述转移属性值作为中间文档的相应属性值。
通过属性归并单元、属性提取单元以及属性转移单元的操作,可使得生成 的中间文档的格式更接近于目标文档的格式,从而方便了中间办公软件文档和 其他格式文档之间的相互转换。
为了便于转换,生成的中间文档符合XML标准规范。在对XSL样式表进行 XSL转换的过程中,XSLT遵循的标准版本为1. 0、 1.1、 2. 0或以上版本,XPath 遵循的标准版本为1. 0、 2. 0或以上版本。进行XSLT转换所使用的文档解析器 可以是Microsoft的MSXML,也可以是Apache的Xalan,也可以是任意第三方 的支持XSL标准的文档解析器。因而所述XSL样式表文件定义的模板、函数等 元素满足从中间文档转换至中文办公软件文档的需要。
本发明中文办公软件文档与其他格式文档相互转换的装置,由于在转换中根据目标文档(中文办公软文档或其他格式文档)的格式要求,生成了中间文
档,且生成的中间文档符合XML标准规范,因而能够加快中文办公软件文档与 其他格式文档的相互转换的速度,很好的适应了办公流程的各个环节中对具有 不同格式的文档的需求,从而提高了办公效率。
如图6所示,为了准确的再现中文办公软件文档的内容,在从中文办公软 件文档转换到其他格式文档时,所述装置还包括语义分析单元,用于对其它 格式的文档进行语义分析。语义分析的原理,和本发明方法实施例中语义分析 的原理相同,在此不再赘述。
并不局限于应用在中文办7>软件文档和以文本方式记录的文档(如XML文档) 之间的转换,还可应用在任意的两种不同格式的文档之间的转换。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情 况下,本领域技术人员当可根据本发明做出各种相应的改变和变形,但这些相 应的改变和变形都应属于本发明所附的权利要求的保护范围。
权利要求
1、一种中文办公软件文档与其他格式文档相互转换的方法,其特征在于包括以下步骤根据其他格式文档/中文办公软件文档的格式要求,将中文办公软件文档/其他格式文档生成中间文档;根据所述中间文档,生成XSL样式表文件;利用所述XSL样式表文件,对所述中间文档进行XSL转换,得到其他格式文档/中文办公软件文档。
2、 根据权利要求1所述的中文办公软件文档与其他格式文档相互转换的方 法,其特征在于,所述方法还包括对所述中间文档侮:语义分析。
3、 根据权利要求1所述的中文办公软件文档与其他格式文档相互转换的方 法,其特征在于,在由中文办公软件文档转换为其他格式文档的过程中,所述 根据其他格式文档的格式要求,生成中间文档的步骤具体为将中文办公软件文档的至少 一个同类属性值进行归并,提取出唯一 的无歧 义的属性值;将所述无歧义的属性值作为中间文档的相应属性值。
4、 根据权利要求1所述的中文办公软件文档与其他格式文档相互转换的方 法,其特征在于,在由中文办公软件文档转换为其他格式文档的过程中,所述 根据其他格式文档的格式要求,生成中间文档的步骤具体为值;将所述属性值作为中间文档的相应属性值。
5、 根据权利要求1所述的中文办公软件文档与其他格式文档相互转换的方 法,其特征在于,在由中文办公软件文档转换为其他;f各式文档的过程中,所述 根据其他格式文档的格式要求,生成中间文档具体为对仅在中文办公软件文档中存在的属性进行分析计算,得到转移属性值; 将所述转移属性值作为中间文档的相应属性值。
6、 根据权利要求1所述的中文办公软件文档与其他格式文档相互转换的方法,其特征在于,在由中文办公软件文档转换为其他格式文档的过程中,所述利用所述XSL样式表文件,对所述中间文档进行XSL转换的过程具体为利用所述XSL样式表文件,使用文档解析器对所述中间文档进行XSL转换。
7、 根据权利要求1所述的中文办公软件文档与其他格式文档相互转换的方 法,其特征在于,在由其他格式文档转换为中文办公软件文档的过程中,所述 根据中文办公软件文档的格式要求,生成中间文档具体为将其他格式文档中的至少一个同类属性值进行归并,提取出唯一的无歧义 的属性值;将所述无歧义的属性值作为中间文档的相应属性值。
8、 根据权利要求1所述的中文办公软件文档与其他格式文档相互转换的方 法,其特征在于,在由其他格式文档转换为中文办公软件文档的过程中,所述 根据中文办公软件文档的格式要求,生成中间文档具体为值;将所述属性值作为中间文档的相应属性值。
9、 根据权利要求1所述的中文办公软件文档与其他格式文档相互转换的方 法,其特征在于,在由其他格式文档转换为中文办公软件文档的过程中,所述 根据中文办公软件文档的格式要求,生成中间文档具体为对仅在其他格式文档中存在的属性进行分析计算,得到转移属性值; 将所述转移属性值作为中间文档的相应属性值。
10、 根据权利要求1所述的中文办公软件文档与其他格式文档相互转换的 方法,其特征在于,在由其他格式文档转换为中文办公软件文档的过程中,所 述利用所述XSL样式表文件,对所述中间文档进行XSL转换的过程具体为利用所述XSL样式表文件,使用文档解析器对所述中间文档进行XSL转换。
11、 根据权利要求1-10中任一权利要求所述的中文办公软件文档与其他格 式文档相互转换的方法,其特征在于,所述的其他格式文档为XML格式文档或方正书版FBD格式文档。
12、 中文办公软件文档与其他格式文档相互转换的装置,其特征在于,所述装置包括中间文档生成单元,用于根据其他格式文档/中文办公软件文档的格式要求,生成中间文档;XSL样式表文件生成单元,用于根据所述中间文档,生成XSL样式表文件; 转换单元,用于利用所述XSL样式表文件,对所述中间文档进行XSL转换,得到其他格式文档/中文办公软件文档。
13、 根据权利要求12所述的中文办公软件文档与其他格式文档相互转换的 装置,其特征在于,所述装置还包括语义分析单元,用于对所述中间文档进行语义分析。
14、 根据权利要求12所述的中文办公软件文档与其他格式文档相互转换的 装置,其特征在于,所述中间文档生成单元包括属性归并单元,用于将中文办公软件文档或其他-格式文档中的至少一个同 类属性值进行归并,提取出唯一的无歧义的属性值,并将所述无歧义的属性值 作为中间文档的相应属性值。
15、 根据权利要求12所述的中文办公软件文档与其他格式文档相互转换的 装置,其特征在于,所述中间文档生成单元包括存在于其它格式文档或中文办公软件文档中的内容的属性值,并将所述属性值 作为中间文档的相应属性值。
16、 根据权利要求12所述的中文办公软件文档与其他格式文档相互转换的 装置,其特征在于,所述中间文档生成单元包括属性转移单元,用于对仅在中文办公软件文档或其他格式文档中存在的属性进行分析计算,得到转移属性值,并将所述转移属性值作为中间文档的相应 属性值。
全文摘要
本发明公开了一种中文办公软件文档与其他格式文档相互转换的方法及装置,涉及文档转换,为加快中文办公软件文档和其他格式文档之间的转换速度而发明。所述方法包括根据其他格式文档/中文办公软件文档的格式要求,生成中间文档;根据所述中间文档,生成XSL样式表文件;利用所述XSL样式表文件,对所述中间文档进行XSL转换,得到其他格式文档/中文办公软件文档。所述装置包括中间文档生成单元,XSL样式表文件生成单元以及转换单元。利用本发明的方法和装置能够加快中文办公软件文档和其他格式文档之间的转换速度,提高办公效率。
文档编号G06F17/30GK101430684SQ20071016629
公开日2009年5月13日 申请日期2007年11月9日 优先权日2007年11月9日
发明者权 于, 叶群策 申请人:北大方正集团有限公司;北京方正电子政务技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1