复杂文档分离组织方法以及复杂文档自动生成方法

文档序号:8282454阅读:459来源:国知局
复杂文档分离组织方法以及复杂文档自动生成方法
【技术领域】
[0001]本发明涉及文档生成领域,更具体地说,本发明涉及一种复杂文档分离组织方法以及基于XML (Extensible Markup Language,可扩展标记语言)描述的复杂文档自动生成方法。
【背景技术】
[0002]一直以来,文档都是承载信息的重要工具之一,是人与人之间互通信息的重要手段。因所要描述信息内容的不同,文档的种类缤纷多彩,有以文字信息为主的文本文件(TXT)、富文本文件(RTF、DOC),有以图表数据为主的电子表格文件(Excel),有以图像演示为主的演示文件(PPT),有以图形绘制为主的绘图文件(Vis1)。并且,因各种存储方式和各种工具解析方式的不同,文档及其信息的格式也存在着千差万别。
[0003]随着政府、企业办公自动化步伐的逐步推进,对信息内容的多样性要求越来越高,同时对信息格式的规范性要求也越来越严格,同样对信息向文档自动化转化的需求也越来越复杂。如何既能满足文档内容的丰富多样性,又能满足文档格式的规范化和标准化,同时又保证较高效的性能输出,是文档自动生成技术不懈探索和努力的目标。
[0004]现有的文档生成技术一般依赖于特定的工具或组件,例如利用Microsoft Office的DCOM组件进行Word、Excel、PowerPoint等文档的生成,利用Office OpenXml SDK进行Word、Excel、PowerPoint等文档的生成,利用iText java类库生成PDF文档,利用各种编程语言的基础库函数生成Html、RTF、Text等格式要求较简单的文档。
[0005]传统的文档自动生成技术,受文档查看工具和文档编码格式的限制,对文档自动生成开发工具和文档查看工具的依赖性较大。简单文档对格式要求不高,自动生成的手段也比较灵活。但对于复杂文档而言,其内容信息的描述受到文档模板格式、样式的约束,同时文档模板格式、样式也反制于文档内容信息。
[0006]随着Office OpenXml标准的确立,对于Word、Excel、PowerPoint等复杂文档而言,无论是文档内容信息,还是文档模板格式、样式,都可以统一地使用Xml语言进行描述,这就给复杂文档的内容和样式的分离带来了可能性。
[0007]然而,Office OpenXml标准主要是由Microsoft公司提出的,其提供的OfficeOpenXml SDK开发工具,依赖于Windows操作系统环境及Visual Stud1编程开发环境,不利于Office OpenXml标准的推广和跨平台使用。

【发明内容】

[0008]本发明所要解决的技术问题是针对现有技术中存在上述缺陷,提供一种复杂文档分离组织方法以及复杂文档的自动生成技术,其能够实现文档大纲、文档数据和文档样式分离,并且不受操作系统环境和文档工具限制自动生成复杂文档。
[0009]根据本发明的第一方面,提供了一种复杂文档分离组织方法,包括:将复杂文档分解成文档大纲、文档数据和文档样式;其中将复杂文档的文档大纲定义为对文档结构的宏观描述,是按照文档内容对文档的层次化分解、定义和管理,是对文档数据和文档样式模板的统一组织;复杂文档的文档数据是对文档元数据的组织和描述;复杂文档的文档样式是对文档样式的组织和描述。
[0010]优选地,文档大纲包括文档架构描述、文档关联索引、文档数据模板定义、文档样式模板定义和文档属性定义;文档架构描述是按照内容对整个文档进行层次化分解和组织,为文档主体框架的静态展现;文档关联索引定义文档层次与元素间的引用和关联关系,将文档架构的各个组成部分进行有机融合;文档数据模板定义是文档数据模板的入口,描述了文档数据相关模板的获取方法;文档样式模板定义是文档样式模板的入口,描述了文档样式相关模板的获取方法;文档属性定义包含文档的全局的、通用的属性描述,可以在文档的相关数据和样式模板中进行引用。
[0011]优选地,文档数据包括文档具体内容、文档内容分组、文档内容与样式关联;文档具体内容是文档需要实际展现的数据,是对原始数据的处理和组织;文档内容分组是在文档大纲的宏观组织下,进一步细化对文档内容的组织,或者是粗粒度的文档内容;文档内容分组包括封面、目录页、正文、附录;文档内容与样式关联是确定文档具体内容最终输出的样式;文档内容与样式关联具有间接关系,文档内容所属的文档内容分组与一个文档内容样式索引进行关联,文档具体内容通过引用文档内容样式索引的序号间接地与文档具体内容样式进行关联。
[0012]优选地,文档样式包括文档整体样式、文档结构样式、文档内容样式和文档内容样式索引;文档整体样式针对于整个文档设置的样式,包括文字处理类文档中的页眉页脚、演示文稿类文档中的母版设置;文档结构样式针对于文档结构层次设置的样式,包括文字处理类文档中的分节;文档内容样式针对于上文提到的文档具体内容设置的样式,包括表格样式、段落样式、编号样式、字体样式;文档内容样式索引分组地对文档内容样式进行编排,文档内容通过引用内容样式序号间接地与内容样式进行关联。
[0013]根据本发明的第一方面,提供了一种基于本发明第一方面的复杂文档分离组织方法的复杂文档自动生成方法,其特征在于包括:
[0014]首先,执行第一步骤以获取文档大纲模板描述;随后,执行第二步骤以便对文档大纲模板进行解析;其中在第二步骤中,根据文档数据和文档样式模板定义信息控制进行第三步骤、第四步骤和第五步骤以完成文档相关数据和样式模板的获取;随后,根据文档架构描述和关联索引信息控制第六步骤、第七步骤和第八步骤以完成文档数据获取及其格式的转换;接着,根据文档内容与样式关联信息执行第九步骤和第十步骤以完成文档数据与样式的匹配及组装,最后根据文档的完成情况进入第十一步骤以完成最终文档的输出;其中,第三步骤用于获取文档数据组模板,数据组模板描述了文档内容的组合和获取方法以及文档内容分组的样式索引;第四步骤用于获取文档样式组模板,文档样式组模板定义了文档内容样式索引,并且对文档内容样式的具体标识进行了编排;第五步骤用于获取文档的属性模板。
[0015]优选地,第六步骤用于根据文档大纲模板中文档架构描述和关联索引信息涉及的宏观的文档内容分组信息,从第三步骤获取到的文档数据组模板中提取相应的文档内容分组描述并进行解析,获取文档内容数据的模板信息。
[0016]优选地,第七步骤用于根据第六步骤获取到的文档内容数据的模板信息,获取文档数据模板。
[0017]优选地,第八步骤用于根据第七步骤获取到的文档数据模板,获取原始数据,并将原始数据进行格式转换。
[0018]优选地,第九步骤用于将第八步骤格式转换后的文档数据与第四步骤获取到文档内容样式索引进行关联分析,根据文档内容分组关联的文档内容样式索引,以及文档具体内容关联的文档内容样式索引序号,将格式转换后的文档数据中的文档具体内容与具体的文档内容样式标识进行匹配。
[0019]优选地,第十步骤用于将第九步骤样式匹配后的文档数据与第五步获取到的各类文档样式进行组装,第十一步骤用于根据文档格式需求,将组装好的带样式的文档数据进行格式化输出,形成最终文档。
【附图说明】
[0020]结合附图,并通过参考下面的详细描述,将会更容易地对本发明有更完整的理解并且更容易地理解其伴随的优点和特征,其中:
[0021]图1示意性地示出了根据本发明优选实施例的基于Xml描述的复杂文档模板结构示意图。
[0022]图2示意性地示出了根据本发明优选实施例的基于Xml描述的复杂文档的自动生成方法的流程图。
[0023]图3示意性地示出了根据本发明优选实施例的基于Xml描述的复杂文档模板关系示意图。
[0024]图4示意性地示出了根据本发明优选实施例的复杂文档大纲模板的Xml描述示例。
[0025]图5示意性地示出了根据本发明优选实施例的复杂文档数据组模板的Xml描述示例。
[0026]图6示意性地示出了根据本发明优选实施例的复杂文档样式组模板的Xml描述示例。
[0027]图7示意性地示出了根据本发明优选实施例的复杂文档数据模板的Xml描述示例。
[0028]图8示意性地示出了根据本发明优选实施例的复杂文档分节模板的Xml描述示例。
[0029]图9示意性地示出了根据本发明优选实施例的基于Xml描述的文档数据与样式模板转换成Office OpenXml过程示例。
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1