一种结构化数字内容析取与重组方法

文档序号:6365457阅读:454来源:国知局
专利名称:一种结构化数字内容析取与重组方法
技术领域
本发明涉及信息技术领域,尤其涉及一种结构化数字内容析取与重组方法,利用数字化出版技术、数据库文档管理技术,解决传统数字出版制作中,文档内容的存储方式不利于重复利用以及信息冗余的问题。
背景技术
数字内容出版作为ー种新兴的出版 业态,随着互联网和移动通信的发展而逐步普及到多种阅读終端。目前数字内容出版物的展示終端日益丰富,产业服务链趋于完善,技术不断革新,成为出版业界新的增长点,得到出版从业人员和相关研究机构的广泛关注和积极參与。面对数字化出版浪潮,传统内容组织与发布形式已不适应新形势下的出版业态,数字出版产业的发展需要引入新的内容组织方式和技术标准。

发明内容
有鉴于此,本发明的主要目的在于提供一种结构化数字内容析取与重组方法,以有效减少数字化出版过程中的信息冗余,为内容深加工和多渠道发布提供了崭新的模式。通过结构化内容析取重组与映射的特点和优势来适应数字化出版时代多終端,多形态,多渠道传播的出版模式的特点,从而实现信息制作和传播效益的最大化。为达到上述目的,本发明的技术方案是这样实现的
一种结构化数字内容析取与重组方法,该方法包括
A、将数字化出版的备选内容存储在以可扩展标记语言XML格式为代表的非结构化数据存储器内;
B、将所述的数据存储器内的信息単元,依据结构化数字内容析取与重组的标准定义的析取信息単元的标签进行格式化,形成信息主体的主题块;
C、使用以XML为载体的映射将所述的主题块之间进行关联,并在映射的作用下,将所述的分散的主题块重组为具备逻辑关系的结构化文档;
D、对所述的结构化文档通过可扩展语言XSL及扩展样式转换XSLT根据出版的需求进行样式的渲染,生成各种XML可转换形成的目标出版格式。其中,所述步骤C,同时还包括支持领域专门化,所述领域专门化包括主题专门化和映射专门化;所述主题专门化是对主题进行更高层次的抽象、复用,细化的主题包括概念、任务和引用用来生成各领域的主題;所述映射专门化,是面向映射领域实现专门化。所述步骤A中,所述备选内容存储在内容仓库中,该内容仓库采用XML树状结构组织对半结构化和非结构化数据进行设计和优化,能够实现垓字节TB级非结构化数据资源的全文检索。所述步骤B中采用析取目标内容形成信息主体的主题块的过程包括将具备语义自包含性的析取的主题,并使用XML描述构成主题块的结构体,将出版物的内容与形式相分离。所述具备语义自包含性的析取的主题,是指需要具备信息描述完备性,能准确完整的表达内容含义,并能满足上下文灵活有效的重组重用。步骤C所述将分散的主题块重组为具备逻辑关系的结构化文档的过程为以XML为载体,通过映射来连接上下文,映射中包含指向主题的链接,指向主题的链接按顺序或层级结构将分散的主题粘合起来成为集合,形成具有逻辑化顺序的文档。所述步骤D中,根据不同的阅读终端的差异,采用不同的渲染方式;所述渲染方式是采用XSL格式化对象语言XSL-FO。所述采用XSL-FO处理文档分为两个阶段一、文档依据XSL-FO定义的组版对象转换为根据版面设计指定的XSL-FO文档;ニ、根据XSL-FO定义的版面设计,转换引擎借助基于XSL-FO的打印格式处理器Apache FOP从XSL-FO对象树种读入并将渲染后的页面输出为指定的比特流,打印生成最終的目标出版物。所述阶段一,具体为所述文档依据XSL-FO定义的组版对象,如页面尺寸、页面范围、分段对象、齐行要求、段落间距、表格的要求,转换为根据版面设计指定的XSL-FO文档;在该阶段中,转换器使用扩展样式表转换语言XSLT定义的XML文档转换映射结构,将结构化数字内容出版转换成XSL-FO文档。所述阶段ニ,具体为将读取的内容经FOP格式处理器,在目标出版物的页面上进行内容编排处理,并将渲染后的页面输出为指定的比特流,打印生成最終的目标出版物,通过该阶段的组版,由FOP组版处理并打印输出的结构化数字内容出版物包含HF、PCL、PS、SVG的多种目标格式。本发明所提供的结构化数字内容析取与重组方法,具有以下优点
该方法通过对XML格式对文档进行描述结构化的描述,生成的结构化模块即主题(Topic).利用对象映射(Mapping)机制对相同对象的主题进行逻辑顺序组织,形成结构化文档。最后经由可扩展样式语言(XSL)及扩展样式语言转换(XSLT)进行渲染,成为具备排版格式样式美观的出版物文档。本发明方法能适应未来出版物内容承载形式多元化,展示形式和終端多祥化的特点,井能根据这些特点合并重复内容,減少信息冗余,让信息内容以多种出版形态,多种发布渠道在传统介质和多媒体介质中传播,从而提高了信息传播的效率,实现了信息制作和传播效益的最大化。


图I为本发明结构化数字内容析取与重组方法的流程 图2为本发明中主题的基础结构示意 图3为本发明中映射的基础结构 图4为本发明中内容主题的重组映射示意 图5为本发明中领域专门化的结构示意 图6为本发明的方法的第四步中样式渲染的流程示意图。
具体实施例方式下面结合附图及本发明的实施例对本发明的方法作进ー步详细的说明。、
本发明的核心思想在于通过结构化内容析取重组与映射的特点和优势来适应数字化出版时代多終端,多形态,多渠道传播的出版模式的特点,从而实现信息制作和传播效应的最大化。图I为本发明结构化数字内容析取与重组方法的流程图,如图I所示,该方法主要包括如下步骤
步骤11 :将数字化出版的备选内容存储在以可扩展标记语言(extensible MarkupLanguage, XML)格式为代表的非结构化数据存储的容器内。在数字化出版的内容流转过程中,备选内容存储在内容仓库中。内容仓库采用XML树状结构组织对半结构化和非结构化数据进行设计和优化,实现垓字节(lTbyte=1024Gbyte)级非结构化数据资源的全文检索。步骤12:对所述步骤11中已形成的容器内的信息単元,根据结构化数字内容析取与重组方法的标准来定义的析取信息単元的标签进行格式化,形成信息主体的主题(Topic)块。其中,采用的析取目标内容形成主题块的过程为析取的主题要具备语义的自包含性,即主题需要具备信息描述的完备性,能准确完整的表达内容含义,井能满足上下文灵活有效的重组重用。构成主题块的结构体使用XML来描述,可将出版物的内容与形式分离。特定领域的出版编辑用DTD文档类型定义。同时该方法还支持主题专门化,首先由领域专家分析并建立面向领域出版的要素模型,之后根据模型定义面向领域的主题标签并形成DTD模板。在对主题粒度的划分上,要根据内容编辑的需求遵循一定准则实施划分。主题作为信息段落的载体,具备语义自包含的特性,即主题需具有信息描述的完备性,能够准确完整的表达内容含义,所以划分的粒度不易过于细碎。从另ー个角度看,主题是建立上下文关联映射的基础单元(如图3所示),为便于通过结构化数字内容析取与重组方法下的映射文件进行内容段落的重用,主题的划分粒度也不宜过粗,以避免影响内容重组的灵活性。主题的粒度划分既要求大到能自我容纳,同时又要求小到满足上下文灵活有效的重组重用的程度,最終形成如图2所示的信息主体的主题(Topic)块的形式,即该主题块要包括标题(Title)、摘要(Abstract)、内容主体(Content)、任务(Task)、引用(Reference)。其中,所述任务(Task)还可以进ー步包括子任务,如子任务I、子任务2等。步骤13 :对步骤12中形成的不同主题块之间的关联,使用以XML为载体的映射(Mapping)来维系,并在映射的作用下(如图3、图4所示),将在步骤12中形成的分散的主题块重组为具备逻辑关系的结构化文档。同时,结构化数字内容析取与重组方法还支持领域专门化,包括主题和映射文件专门化,如图5所示,其中,主题专门化首先由该领域内的专家分析并建立面向领域出版的要素模型,之后根据模型定义面向领域的主题标签并形成DTD模板。主题专门化是对主题进行更高层次的抽象、复用,细化的主题包括概念、任务和引用用来生成各领域的主題;所述映射专门化,是指面向映射领域实现专门化通常是将引用主题的标签专门化为映射领域,并可在多种不同映射类型中实现设计模式重用。 如图3所示,该方法的映射文件的形成同样是以XML为载体,通过映射来连接上下文,映射中包含指向主题的链接,指向主题的链接按顺序或层级结构将分散的主题粘合起来成为集合,形成具有逻辑化顺序的文档。映射文件在内部使用主题引用标签组织ー个或多个主題,并赋予主题上下文的顺序和层级关系。主题引用标签引用主题的组装顺序表示内容上下文的先后关系;主题引用标签的主题嵌套层级表示内容上下文的包含关系。映射文件在编译处理时,该方法通过映射这样的单ー逻辑结构来管理主题组装后的导航顺序,并且适用于各种类型的交付出版物的聚合生成。步骤14 :在形成数字出版物之前,步骤13中形成的结构化文档由可扩展样式表语言(Extensible Stylesheet Language,XSL)及可扩展样式表语言转换(XSLT)根据出版的需求进行样式的渲染,可生成各种XML能转换 形成的目标出版格式。这里,可以根据不同的阅读终端的差异,采用不同的渲染方式。结构化数字内容析取与重组方法常用的渲染方式是利用XSL格式化对象语言XSL-FO,它是用于文档格式排版的XML标记语言。XSL-FO处理结构化数字内容析取与重组方法的文档分为两个阶段
第一个阶段文档依据XSL-FO定义的组版对象转换为根据版面设计指定的XSL-FO文档。第二阶段根据XSL-FO定义的版面设计,转换引擎借助基于XSL-FO的打印格式处理器Apache FOP从XSL-FO对象树种读入并将渲染后的页面输出为指定的比特流,打印生成最終的目标出版物。如图5所示,在所述样式渲染的过程中,结构化数字内容析取与重组方法下的映射形成的中间结果,经XSLT处理程序加载样式表,将内置的标签,连同领域专门化定义的标签进行解析识别,渲染为出版物中对应的样式布局。XSL格式化对象语言XSL-FO是用于文档格式排版的XML标记语言,是结构化数字内容析取与重组方法常用的出版物渲染方式。XSL-FO包含控制内容显示方式的版式结构定义,为符合XML规范的结构化数字内容析取与重组方法的内容排版提供样式渲染和格式转换功能。图6为本发明的方法的第四步中样式渲染的流程示意图,如图6所示,结构化数字内容析取与重组方法给出的出版渲染方式是采用XSL格式化对象语言XSL-FO,XSL-FO用于文档格式排版的XML标记语言,XSL-FO包含控制内容显示方式的版式结构定义,为符合XML规范的数字出版内容排版提供了样式渲染和格式转换功能。在结构化数字内容出版物样式渲染的过程中,映射形成的中间结果经XSLT处理程序加载样式表,将结构化数字内容出版物内置的标签,连同领域专门化定义的标签进行解析识别,渲染为出版物中对应的样式布局。结构化数字内容出版物样式渲染主要分为两个阶段
第一阶段结构化数字内容出版文档依据XSL-FO定义的组版对象,如页面尺寸、页面范围、分段对象、齐行要求、段落间距、表格等要求,转换为根据版面设计指定的XSL-FO文档。在这个阶段中,转换器使用扩展样式表转换语言XSLT定义的XML文档转换映射结构,将结构化数字内容出版转换成XSL-FO文档。第二阶段根据XSL-FO定义的版面设计,转换引擎借助基于XSL-FO的打印格式处理器 Apache FOP (Formatting Objects Processor)从 XSL-F0 对象树中读入各个排版项。读取的内容经FOP格式处理器,在目标出版物的页面上进行内容编排处理,并将渲染后的页面输出为指定的比特流,打印生成最終的目标出版物。通过第二阶段的组版,由FOP组版处理并打印输出的结构化数字内容出版物包含H)F、PCL、PS、SVG等多种目标格式。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
权利要求
1.一种结构化数字内容析取与重组方法,其特征在于,该方法包括 A、将数字化出版的备选内容存储在以可扩展标记语言XML格式为代表的非结构化数据存储器内; B、将所述的数据存储器内的信息単元,依据结构化数字内容析取与重组的标准定义的析取信息単元的标签进行格式化,形成信息主体的主题块; C、使用以XML为载体的映射将所述的主题块之间进行关联,并在映射的作用下,将所述的分散的主题块重组为具备逻辑关系的结构化文档; D、对所述的结构化文档通过可扩展语言XSL及扩展样式转换XSLT根据出版的需求进行样式的渲染,生成各种XML可转换形成的目标出版格式。
2.根据权利要求I所述的结构化数字内容析取与重组方法,其特征在于,所述步骤C,同时还包括支持领域专门化,所述领域专门化包括主题专门化和映射专门化;所述主题专门化是对主题进行更高层次的抽象、复用,细化的主题包括概念、任务和引用用来生成各领域的主题;所述映射专门化,是面向映射领域实现专门化。
3.根据权利要求I所述的结构化数字内容析取与重组方法,其特征在于,所述步骤A中,所述备选内容存储在内容仓库中,该内容仓库采用XML树状结构组织对半结构化和非结构化数据进行设计和优化,能够实现垓字节TB级非结构化数据资源的全文检索。
4.根据权利要求I所述的结构化数字内容析取与重组方法,其特征在于,所述步骤B中采用析取目标内容形成信息主体的主题块的过程包括将具备语义自包含性的析取的主题,并使用XML描述构成主题块的结构体,将出版物的内容与形式相分离。
5.根据权利要求4所述的结构化数字内容析取与重组方法,其特征在于,所述具备语义自包含性的析取的主題,是指需要具备信息描述完备性,能准确完整的表达内容含义,并能满足上下文灵活有效的重组重用。
6.根据权利要求I所述的结构化数字内容析取与重组方法,其特征在于,步骤C所述将分散的主题块重组为具备逻辑关系的结构化文档的过程为以XML为载体,通过映射来连接上下文,映射中包含指向主题的链接,指向主题的链接按顺序或层级结构将分散的主题粘合起来成为集合,形成具有逻辑化顺序的文档。
7.根据权利要求I所述的结构化数字内容析取与重组方法,其特征在于,所述步骤D中,根据不同的阅读终端的差异,采用不同的渲染方式;所述渲染方式是采用XSL格式化对象语言XSL-FO。
8.根据权利要求7所述的结构化数字内容析取与重组方法,其特征在于,所述采用XSL-FO处理文档分为两个阶段一、文档依据XSL-FO定义的组版对象转换为根据版面设计指定的XSL-FO文档;ニ、根据XSL-FO定义的版面设计,转换引擎借助基于XSL-FO的打印格式处理器Apache FOP从XSL-FO对象树种读入并将渲染后的页面输出为指定的比特流,打印生成最終的目标出版物。
9.根据权利要求8所述的结构化数字内容析取与重组方法,其特征在于,所述阶段一,具体为所述文档依据XSL-FO定义的组版对象,如页面尺寸、页面范围、分段对象、齐行要求、段落间距、表格的要求,转换为根据版面设计指定的XSL-FO文档;在该阶段中,转换器使用扩展样式表转换语言XSLT定义的XML文档转换映射结构,将结构化数字内容出版转换成XSL-FO文档。
10.根据权利要求8所述的结构化数字内容析取与重组方法,其特征在于,所述阶段ニ,具体为将读取的内容经FOP格式处理器,在目标出版物的页面上进行内容编排处理,并将渲染后的页面输出为指定的比特流,打印生成最終的目标出版物,通过该阶段的组版,由FOP组版处理并打印输出的结构化数字内容出版物包含H)F、PCL、PS、SVG的多种目标格式。
全文摘要
本发明公开一种结构化数字内容析取与重组方法,包括将数字化出版的备选内容存储在以可扩展标记语言(XML)格式为代表的非结构化数据存储器内;将所述的数据存储器内的信息单元,依据结构化数字内容析取与重组的标准定义的析取信息单元的标签进行格式化,形成信息主体的主题块;使用以XML为载体的映射将所述的主题块之间进行关联,并在映射的作用下,将所述的分散的主题块重组为具备逻辑关系的结构化文档;对所述的结构化文档通过可扩展样式语言(XSL)及可扩展样式语言转换(XSLT)根据出版的需求进行样式的渲染,生成各种XML可转换形成的目标出版格式。采用本发明,能适应未来出版物内容承载形式多元化,展示形式和终端多样化的特点。
文档编号G06F17/30GK102646125SQ20121004753
公开日2012年8月22日 申请日期2012年2月28日 优先权日2012年2月28日
发明者孙广芝, 程越, 邢立强, 高昂 申请人:中国标准化研究院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1