一种用于文档构建的数据加工方法和装置的制作方法

文档序号:6426649阅读:174来源:国知局
专利名称:一种用于文档构建的数据加工方法和装置的制作方法
技术领域
本发明涉及通信领域,特别涉及一种用于文档构建的数据加工方法和装置。
背景技术
随着互联网的快速发展,各种媒体传播方式层出不穷,数字资源传播越发的快速和普及,从而带来了阅读方式的改变。大量的读者从传统的纸质阅读转变为利用计算机等电子设备进行电子阅读。在文档数字化的过程中,为了实现文档的数字化显示,需要对文档进行数据加工, 并对其中的数据格式进行定义。但是,目前主要基于以下两种格式来显示数据加工后的文档第一种格式采用图片的形式,将文档生成图片,供用户在线阅读;第二种格式采用HF文件的形式,将文档生成PDF文件,供用户下载或在线阅读。但是,这两种方式都存在一定的缺陷采用图片形式时,即使对传输图片进行压缩,压缩比也比较低,不能从根本上节省带宽和传输时间,而且还会损失图片的清晰度。采用PDF文件形式时,若对其在线阅读可能还需要用户端安装相应的插件,不够便捷。由此可见,现有技术普遍存在如下缺陷在对文档进行数据加工时,没有专门定义能够在网络中传输以及在用户端展示的数据格式;且用户端很难从图片中解析出构成文档的各种元素,如文本、图片等,自然也无法控制这些元素的展示样式和风格,因此缺乏灵活性,同时导致生成的电子文档的可扩展性不好。

发明内容
本发明提供了一种用于文档构建的数据加工方法和装置,用以解决现有技术中的数据加工方法在显示时缺乏灵活性的问题。一种用于文档构建的数据加工方法,包括
根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规
则;
根据所述语法规则,生成文档中每个信息层次所对应的目标文件。一种用于文档构建的数据加工装置,包括
定义单元,用于根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规则;
生成单元,用于根据所述语法规则,生成文档中每个信息层次所对应的目标文件。本发明实施例中事先根据文档类型,为不同类型的文档确定出至少一个信息层次,并为每个信息层次制定对应的语法规则,在后续对文档进行电子显示时,只需根据事先确定的各个信息层次以及对应的语法规则,生成对应的目标文件即可。通过事先根据文档类型确定信息层次及其对应的语法规则,可以针对该类型的文档专门制定语法规则,有针对性的产生目标文件,从而实现数据加工,并可以进行电子显示,因此,大大提高了电子显示时的灵活性。


图I为本发明实施例提供的一种用于文档构建的数据加工方法流程 图2为报纸的数据结构 图3为本发明实施例中基于报纸数据的信息结构 图4为本发明实施例提供的一种用于文档构建的数据加工装置结构图。·
具体实施例方式本发明实施例提供了一种用于文档构建的数据加工方法和装置,可以解决现有技术中的文档数据加工方法在显示时缺乏灵活性的问题。本发明实施例提供了一种用于文档构建的数据加工方法,如图I所示,包括
SlOl :根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语
法规则。S102 :根据所述语法规则,生成文档中每个信息层次所对应的目标文件。在本实施例中,可以事先根据特定类型文档的特点,将该类型的文档分为至少一个信息层次,并为每个信息层次定义对应的语法规则,具体的,由于文档的信息层次最终会被加工为目标文件,通过目标文件进行显示,因此,定义每个信息层次对应的语法规则也可以理解为定义每个信息层次对应的目标文件的语法规则。这里,目标文件类型可以是可扩展标记语言(Extensible Markup Language, XML)文件,也可以是超文本标记语言(Hyper Text Mark-up Language,HTML)文件等,通过采用不同的编程语言可生成不同类型的目标文件。当所述目标文件为XML文件时,所述语法规则通过XML文件的文档类型定义(Document Type Definition , DTD)进行定义,所述DTD中包含生成该信息层次所对应的XML文件时所需的元素和属性。并且,在利用所述目标文件对文档进行电子显示时,还可以进一步根据定义的语法规则验证目标文件是否符合规范。具体实现时,可以根据文档类型的特点,将该类型的文档分为多个信息层次,例如,当文档类型为报纸时,报纸的数据结构如图2所示,每份报纸包含若干个版面,每个版面上又各自包含具体的文本信息和图片信息,因此,可以将报纸这一类型的文档分成两个信息层次,即第一信息层次和第二信息层次。其中,第一信息层次包括版面名称和版面路径信息,还可以包括报纸的相关信息,如报文封皮等,其中,版面名称主要指报纸共分为多少个版面以及每个版面的名称等,版面路径信息包括该版面所对应的目标文件的路径。第二信息层次包括版面上的文章及图片信息等。而且,当目标文件的语法规则通过XML文件的DTD来定义时,第一信息层次对应的XML文件的DTD中的元素主要包括报纸类型、版面列表和版面概要,其中,报纸类型对应的属性包括报纸名称和发行时间,版面概要对应的属性包括版面编号、版面标题、版面统一资源定位符(Universal Resource Locator ,URL)地址和版面封皮。所述第二信息层次对应的XML文件的DTD中的元素包括文章列表和文章信息。并且,为了便于用户阅读相关的内容,所述第一信息层次或第二信息层次对应的XML文件的DTD中的元素还可以包括指向其他文件的链接。如果文档属于其他类型时,例如,要显示的文档为书籍,则可以根据书籍的特点,事先将书籍这一类型的文档分为多个信息层次,如将书籍的章节信息作为第一信息层次,将每个章节的具体内容作为第二信息层次,分别为第一信息层次和第二信息层次对应的目标文件制定语法规则。在后续显示具体的书籍时,则直接根据第一信息层次和第二信息层次对应的语法规则生成相应的目标文件即可。通过采用本实施例提供的用于文档构建的数据加工方法,事先根据文档类型,为不同类型的文档确定出至少一个信息层次,并为每个信息层次所对应的目标文件制定语法规则,在后续对文档进行数据加工时,只需根据事先确定的各个信息层次以及对应的目标文件的语法规则,生成对应的目标文件即可。通过事先根据文档类型确定信息层次及其对应的目标文件的语法规则,可以针对该类型的文档有针对性的产生目标文件,从而利用目标文件实现显示,因此,大大提高了显示时的灵活性。
下面以一个优选实施例详细描述一下本发明提供的用于文档构建的数据加工方法。在本实施例中,以报纸类型的文档为例进行说明,但是本领域技术人员应当理解,其他类型的文档也可以应用本发明中提供的方法进行数据加工并显示,并不仅限于报纸这一种类型。另外,在本实施例中,采用可扩展标记语言,所产生的目标文件为XML文件,当然,也可以根据需要选择其他的语言来生成其他类型的目标文件,如HTML文件等,并不仅限于XML文件这一种实现方式。本实施例中报纸数据的信息结构如图3所示,分为包括版面名称、版面路径信息以及报纸相关信息,如报纸封皮等的第一信息层次,以及包括版面上的文章及图片信息等的第二信息层次。为了将报纸数据生成XML文件,并规范生成的XML文件格式以及XML文件所采用的标记元素,以便于后续对生成的XML文件进行验证,以确保XML文件格式正确且符合规范,可针对第一信息层次和第二信息层次分别定义一套标记元素,也可以称作文档类型定义DTD。在本实施例中,将第一信息层次所对应的DTD命名为Index, xml文件,将第二信息层次所对应的DTD命名为List, xml文件。在Index, xml文件中定义了描述报纸的版面名称、版面路径信息以及其他报纸相关信息时所需的元素及属性,在List, xml文件中定义了描述报纸版面上的文档及图片信息时所需的元素及属性。下面通过具体实例分别介绍一下Index, xml文件和List, xml文件。Index, xml 文件如下
<!DOCTYPE Newspaper [
<!—定义Newspaper根兀素一>
<!ELEMENT Newspaper (PageList)>
〈!一定义PageList兀素,PageList兀素是报纸版面列表一>
<!ELEMENT PageList (PageInfo+)>
〈!一定义PageInfo元素为空元素,PageInfo元素描述报纸版面概要信息一>
<!ELEMENT PageInfo EMPTY〉
<!—定义Newspaper元素属性一><!ATTLIST Newspaper
〈! 一 Name属性,定义报纸名称,必需一>
Name CDATA REQUIRED
〈! 一 Date属性,定义报纸发行时间,必需一>
Date CDATA REQUIRED
〈!一 Number属性,定义报纸文章序号一>
Number CDATA “ ”
>
<!—定义PageInfo元素属性一>
<!ATTLIST PageInfo
<!— PageNo属性,定义版面编号一>
PageNo CDATA REQUIRED
〈! 一 PageTitle属性,定义版面标题一>
PageTitle CDATA REQUIRED<!— href属性,定义版面URL —>href CDATA REQUIRED
〈!一 CoverImg属性,定义版面封皮,用以在其上显示热点一>
CoverImg CDATA REQUIRED
>
]
上述Index, xml文件即是通过DTD定义的第一信息层次对应的XML文件的语法规则,上述代码符合DTD的语法规范。在该文件中,首先定义了根元素Newspaper,用以表示报纸数据。接着又定义了 Newspaper的子元素PageList,用以表示报纸版面列表。然后又定义了PageList的子元素PageInfo,用以描述报纸版面的概要信息,这里,PageInfo元素被定义为空元素,也就是说该元素并没有子元素。接下来,通过ATTLIST定义了各个元素的元素属性首先定义了 Newspaper的名称属性Name、发行时间属性Date以及文章序号属性Number等。然后定义了 PageInfo的版面编号属性PageNo、版面标题属性PageTitle、版面URL属性href以及版面封皮属性Coverlmg。 List, dtd 文件如下
List, dtd,定义List, xml文件规范
<!DOCTYPE ArticleList [
〈!一定义ArticleList兀素,用以描述文章列表一>
<!ELEMENT ArticleList (Article+) >
〈! 一定义Article兀素,用以描述文章/[目息一>
<!ELEMENT Article (IntroTitle, Title, SubTitle , Author , Source ,Content , PointList >
<!—定义IntroTitle元素,用以描述文章导语一>
<!ELEMENT IntroTitle (#PCDATA) >
〈丨一定义Title兀素,用以描述文章标题一><!ELEMENT Title (#PCDATA)>
〈!一定义SubTitle兀素,用以描述文章副标题一>
<!ELEMENT SubTitle (#PCDATA)>
〈!一定义Author元素,用以描述文章作者一>
<!ELEMENT Author (#PCDATA)>
<!—定义Source元素,用以描述文章来源一>
<!ELEMENT Source (#PCDATA)>
〈! 一定义Content兀素,用以描述文章内容一>·<!ELEMENT Content (Image*, P+)>
〈!一定义Image元素,用以描述文章图片信息〉
<!ELEMENT Image EMPTY〉
〈! 一定义P兀素,用以描述文章段落 目息一>
<!ELEMENT P (#PCDATA)>
〈! 一定义PointList兀素,用以描述热点/[目息一>
<!ELEMENT PointList (Point+)>
〈!一定义Point兀素,用以描述热点/[目息一>
<!ELEMENT Point EMPTY〉
<!ATTLIST Image
〈!一定义属性src,用以描述图片源一>src CDATA REQUIRED
>
<!ATTLIST Point
〈!一定义属性X,用以描述X坐标一>
X CDATA REQUIRED〈!一定义属性Y,用以描述y坐标一>
Y CDATA REQUIRED
>
]>
上述List, dtd文件即是通过DTD定义的第二信息层次对应的XML文件的语法规则,上述代码符合DTD的语法规范。在该文件中,首先定义了根元素ArticleList,用以描述文章列表。接着又定义了 ArticleList的子元素Article,用以描述文章信息。然后又定义了 Article 的若干个子兀素 IntroTitle、Title、SubTitle > Author、Source、Content和PointList。这里,IntroTitle元素用以描述文章导语,Title元素用以描述文章标题,SubTitle元素用以描述文章副标题,Author元素用以描述文章作者,Source元素用以描述文章来源,Content元素用以描述文章内容,且Content元素具有两个子元素即用于描述文章图片信息的Image元素和用于描述文章段落信息的P元素,PointList元素用以描述热点信息,且PointList元素具有子元素Point。接下来还定义了一些属性,如属性src用以描述图片源,属性X用以描述X坐标以及属性Y用以描述I坐标等。通过上述的Index, xml文件和List, xml文件则分别定义了第一信息层次和第二信息层次对应的XML文件所遵循的语法规则。因此,后续在对一份指定的报纸进行电子显示时,只需先按照Index, xml文件指定的规则,即根据Index, xml文件定义的元素及属性生成该报纸的第一信息层次所对应的XML文件,一般一份报纸对应生成一个遵循Index, xml文件中的语法规则的XML文件,在该XML文件中描述了报纸的版面数量及每个版面的概要信息等。然后再按照List, xml文件指定的规则,即根据List, xml文件定义的元素及属性生成该报纸的第二信息层次所对应的XML文件,一般一份报纸有多少个版面则对应生成多少个遵循List, xml文件中的语法规则的XML文件,在这些XML文件中分别描述了报纸的各个版面上的文字及图片信息等。下面以一份具体的名为参考消息的报纸为例介绍一下根据该报纸生成的XML文件。根据该报纸生成的Index, xml文件,即第一信息层次对应的XML文件如下·< xml version=〃L 0〃 encoding=〃UTF_8〃?>
<!DOCTYPE Newspaper system "Index. dtd">
〈Newspaper Name="参考消息〃 Date=IOlKMlS" Number=^XPageList>
〈Pagelnfo PageNo="l" PageTitle="第 I 版头版新闻 〃 src="l/List. xml"/〉 〈Pagelnfo PageNo="2" PageTitle="第 2 版新闻热点〃 src="2/List. xml V〉 〈Pagelnfo PageNo="3" PageTitle="第 3 版时事纵横〃 src="3/List. xml V〉 〈Pagelnfo PageNo="4" PageTitle="第 4 版经济广角 〃 src="4/List. xml V〉 〈Pagelnfo PageNo="5" PageTitle="第 5 版财经透视〃 src="5/List. xml V〉 〈Pagelnfo PageNo="6" PageTitle="第 6 版军事暸望 〃 src="6/List. xml"/〉 〈Pagelnfo PageNo="7" PageTitle="第 7 版科技前沿〃 src="7/List. xml V〉 〈Pagelnfo PageNo="8" PageTitle="第 8 版社会扫描 〃 src="8/List. xml"/〉 〈Pagelnfo PageNo="9" PageTitle="第 9 版文体看台〃 src="9/List. xml V〉 〈Pagelnfo PageNo=〃10" PageTitle="第 10 版参考论坛 〃 src="10/List. xml"/〉 〈Pagelnfo PageNo="ll〃 PageTitle=〃第 11 版:特别报道〃 src="ll/List. xml V〉 〈Pagelnfo PageNo="12〃 PageTitle="第 12 版海峡两岸 〃 src="12/List. xml"/〉 〈Pagelnfo PageNo="13〃 PageTitle=〃第 13 版:海外视角〃 src="13/List. xml V〉 〈Pagelnfo PageNo="14〃 PageTitle=〃第 14 版:观察中国〃 src="14/List. xml V〉 〈Pagelnfo PageNo="15〃 PageTitle=〃第 15 版:中国大地〃 src="15/List. xml V〉 </PageList>
〈/Newspaper〉
通过上述代码可以看出,这份报纸的名称为“参考消息”,发行时间为2011年4月18日,且共分为15个版面,每个版面都有其对应的概要名称。根据该报纸生成的一个List, xml文件,即第二信息层次对应的XML文件如下 List, xml 文件
< xml version=〃L 0〃 encoding=〃UTF_8〃?>
<!DOCTYPE ArticleList system "List. dtd">
<ArticleList>
〈Article〉< IntroTit I eX/IntroTit I e>
〈Title〉轮到美国人书写历史〈/Title〉
〈SubTitleX/SubTitle〉
〈AuthorX/Author)
<SourceX/Source>
〈Content〉
<Image src="S1907d03bb001. jpg"/> <Image src="S1907d03bb002. jpg"/>
面对阿森纳被美国人收购的事实,英国人的内心自然是极其复杂的。大英帝国的子民们眼见着劳斯莱斯这样的贵族品牌、女王心仪的路虎吉普车以及王室亲授殊荣的吉百利巧克力事实上都已经彻底被海外资本侵蚀控制了,那份惆怅与失落难以言表,自己的历史被人买走的感觉不会太好。 〈/P〉
〈P〉
1886年,由皇家兵工厂工人们创建的阿森纳俱乐部,自然是英国现代文明史中引以为傲的瑰宝。足球是英国传之后人的遗产,现如今老大帝国已经无力用资本的力量来保护这份血脉了。《每日邮报》的专栏作家不禁慨叹“我们的汽车品牌被出售给德国人还不够,现在还要把足球俱乐部中的劳斯莱斯卖给扬基佬。”
〈/P〉
〈/Content〉
<PointList>
〈Point X="54〃 Y="74〃 />
〈Point X="99〃 Y="74〃 />
〈Point X="99〃 Y="105" />
〈Point X="54〃 Y="105" />
〈Point X="134" Y="95〃 />
〈Point X="266" Y="95〃 />
〈Point X="266" Y="177" />
〈Point X="134" Y="177" />
〈Point X="54〃 Y="60〃 />
〈Point X="64〃 Y="60〃 />
〈Point X=〃64〃 Y=〃66〃 />
〈Point X=〃54〃 Y=〃66〃 />
</PointList>
〈/Article〉
</ArticleList>
通过上述代码可以看出,在这份报纸的一个版面上印有一篇名为“轮到美国人书写历史”的文章,并且在该版面上还设置有12个指向其他文件的链接,这些链接也可以称为热点导航,每个热点导航通过坐标X和Y限定其位置,读者在这些位置上点击鼠标则可以进一步获取到相关的链接信息,从而方便读者的阅读。本实施例在具体实现时,还可以根据实际情况进行必要的调整,例如,在Index,xml文件和List, xml文件中还可以根据实际需要增加或删除一些元素及属性,以适合报纸电子显示的需要。通过采用本实施例提供的用于文档构建的数据加工方法,因为生成的XML文件为文本数据格式,因此易于压缩、便于传输;并且,由于基于XML语言实现,因此结构清晰,易于解析和展示;并且基于XML DTD,定义了报纸的第一信息层次以及第二信息层次的XML文件所采取的语法规则,从而便于实现验证。而且,由于基于XML语言实现,因此具有良好的可扩展性,使用户在阅读时可以根据需要灵活设置展示样式和风格,大大提高了用户体验度。本发明实施例还提供了一种用于文档构建的数据加工装置,如图4所示,包括·定义单元41,用于根据文档类型将所述文档分成至少一个信息层次,定义每个信息层
次对应的语法规则;
生成单元42,用于根据所述语法规则,生成文档中每个信息层次所对应的目标文件。较佳的,当所述文档的类型为报纸时,将报纸分成第一信息层次和第二信息层次,其中,所述第一信息层次包括版面名称和版面路径信息,所述第二信息层次包括版面上的文章及图片信息。通过采用本实施例提供的用于文档构建的数据加工装置,事先根据文档类型,为不同类型的文档确定出至少一个信息层次,并为每个信息层次所对应的目标文件制定语法规则,在后续对文档进行电子显示时,只需根据事先确定的各个信息层次以及对应的目标文件的语法规则,生成对应的目标文件即可。通过事先根据文档类型确定信息层次及其对应的目标文件的语法规则,可以针对该类型的文档有针对性的产生目标文件,从而实现电子显示,因此,大大提高了电子显示时的灵活性。本领域技术人员可以理解,虽然上述说明中,为便于理解,对方法的步骤采用了顺序性描述,但是应当指出,对于上述步骤的顺序并不作严格限制。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如R0M/RAM、磁碟、光盘等。还可以理解的是,附图或实施例中所示的装置结构仅仅是示意性的,表示逻辑结构。其中作为分离部件显示的模块可能是或者可能不是物理上分开的,作为模块显示的部件可能是或者可能不是物理模块。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
权利要求
1.一种用于文档构建的数据加工方法,其特征在于,包括 根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规则; 根据所述语法规则,生成文档中每个信息层次所对应的目标文件。
2.如权利要求I所述的方法,其特征在于,所述目标文件类型为XML文件。
3.如权利要求2所述的方法,其特征在于,所述语法规则通过XML文件的DTD进行定义,所述DTD中包含生成该信息层次所对应的XML文件时所需的元素和属性。
4.如权利要求I所述的方法,其特征在于,当所述文档类型对应为报纸时,将报纸分成第一信息层次和第二信息层次。
5.如权利要求4所述的方法,其特征在于,所述第一信息层次包括版面名称和版面路径信息,所述第二信息层次包括版面上的文章及图片信息。
6.如权利要求4所述的方法,其特征在于,当所述语法规则通过XML文件的DTD进行定义时,所述第一信息层次对应的XML文件的DTD中的元素包括报纸类型、版面列表和版面概要;其中,报纸类型对应的属性包括报纸名称和发行时间,版面概要对应的属性包括版面编号、版面标题、版面URL地址和版面封皮。
7.如权利要求4所述的方法,其特征在于,当所述语法规则通过XML文件的DTD进行定义时,所述第二信息层次对应的XML文件的DTD中的元素包括文章列表和文章信息。
8.如权利要求6或7所述的方法,其特征在于,所述第一信息层次或第二信息层次对应的XML文件的DTD中的元素还包括 指向其他文件的链接。
9.一种用于文档构建的数据加工装置,其特征在于,包括 定义单元,用于根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规则; 生成单元,用于根据所述语法规则,生成文档中每个信息层次所对应的目标文件。
10.如权利要求9所述的装置,其特征在于,当所述文档的类型为报纸时,将报纸分成第一信息层次和第二信息层次,其中,所述第一信息层次包括版面名称和版面路径信息,所述第二信息层次包括版面上的文章及图片信息。
全文摘要
本发明实施例公开了一种用于文档构建的数据加工方法和装置,该方法包括根据文档类型将所述文档分成至少一个信息层次,定义每个信息层次对应的语法规则;根据所述语法规则,生成文档中每个信息层次所对应的目标文件。本发明实施例中事先根据文档类型确定信息层次及其对应的语法规则,可以针对该类型的文档有针对性的产生目标文件,从而完成数据加工,实现电子显示,因此,大大提高了电子文档显示时的灵活性。
文档编号G06F17/30GK102841890SQ20111016654
公开日2012年12月26日 申请日期2011年6月20日 优先权日2011年6月20日
发明者文秀 申请人:汉王科技股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1