一种对电子图书进行快速语义标注的方法和系统的制作方法

文档序号:6434224阅读:198来源:国知局
专利名称:一种对电子图书进行快速语义标注的方法和系统的制作方法
技术领域
本发明涉及电子图书数字出版技术领域,特别是涉及一种对电子图书进行快速语义标注的方法和系统。
背景技术
数字出版的核心竞争力是对数字内容的快速检索与方便查阅,而快速检索与方便查阅的核心是语义检索,因此,基于语义检索的语义标注技术是数字出版的核心技术。实现语义标注的技术不同,造成的语义标注的加工效率与成本也不同。目前已有的技术对语义标注的加工效率很低,成本很高。要解决好效率与成本的问题,就要在技术上解决,技术手段主要与两个技术问题有关,一个是电子书的拆分结构如何设计,各种排版软件编排的图书(或期刊)具有不同的版式特点,数字加工需要把这些图书拆分为不同粒度的单元,目前所有的拆分方法都面临着低效率的问题,需要过多的人工干预。另一个就是语义标注如何设计。不同的设计方案产生不同的应用效果与加工成本。最严格的技术方案是可以对电子图书的每一个细节(比如,像词这样的细节)进行语义的标注,这种技术方案的特点是应用范围广,缺点是加工成本不容易降得很低。但是实际情况是,有一部分应用并不需要对词、段这种细节进行语义标注,可能对节以上单元进行标注就可以满足市场需要了。本发明方案就是针对这类应用而设计的,可以进一步提高加工效率,降低成本。

发明内容
鉴于现有技术的缺陷,本发明提供一种对电子图书进行快速语义标注的方法,其特征在于包括如下步骤(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时每个章节元素含有页码信息的属性;(2)在目录结构文件的基础上对目录元素进行语义标注;(3)对电子图书按页进行分割成多个页文件,每个页文件是电子图书的一页内容;(4)将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包,形成一个完整的电子图书。根据本发明所述的对电子图书进行快速语义标注的方法,其特征在于所述目录结构文件以XML形式存在,其内容形式采用电子图书的传统目录形式,并可以被第三方工具识别出。根据本发明所述的对电子图书进行快速语义标注的方法,其特征在于每一个XML 目录元素具有结构属性,分别为标题内容与页码范围。根据本发明所述的对电子图书进行快速语义标注的方法,其特征在于所述目录结构文件的生成包括如下步骤(11)制订电子书稿在排版过程中对段落样式的命名的规范; (12)根据段落样式命名规范,把电子图书中标题部分提取出来,形成一个没有层次关系的XML文件,每一个XML元素是一个标题内容,该元素具有一个页码属性用来存放该标题所在页码的信息;(13)把无层次关系的XML文件按前缀大小关系重组建立新的章节元素,该元素有一个子元素是标题元素,有两个属性存放该元素的页码范围。根据本发明所述的对电子图书进行快速语义标注的方法,其特征在于对所述目录元素进行语义标注的方法采用多元数组法或者知识点法,并且均通过手工填加。根据本发明所述的对电子图书进行快速语义标注的方法,其特征在于还包括如下步骤(5)建立一个数据库,把所述目录结构文件和所述多个页文件保存于数据库中;(6) 通过语义检索在目录结构文件中对目录元素进行检索,根据所检索到的目录元素所指向的页码在所述数据库中检索页文件。此外,本发明还提供了一种与上述对电子图书进行快速语义标注方法相对应的系统。本发明章节目录是基于XML技术来实现,XML的结构性强、易于计算机程序读写, 所以在拆分、形成结构、检索等环节是可以通过计算机程序处理。此外由于语义描述是采取了多维阵列的方式,每一维陈列反映了该章节的一个完整语义,因此可以从多个角度来概括一个章节的内容。借助计算机程序实现对电子图书进行自动拆分处理,全面提高了对电子图书进行拆分的效率,同时也不影响到检索效果。同时配合上述拆分方法,设计出一种通过对电子图书的目录结构进行简单的语义标注,提高了语义标注的效率。


图1是本发明对电子图书进行快速语义标注的方法的数据处理流程图。
具体实施例方式为使本发明的上述目的、特征和优点更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。图1是本发明对电子图书进行快速语义标注的方法的数据处理流程图,其具体包括如下步骤(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时每个章节元素含有页码信息的属性;现有技术中都是在电子图书内部进行结构描述,电子书中即有内容又有结构信息。而本发明则完全放弃在电子图书内容部分中描述结构,而是采用另外建立目录文件的形式,通过一个外部的目录文件来反映出了电子图书的基本结构从而以独立于电子图书的方式以目录结构文件的方法来描述图书的结构。可以通过各种方法建立一个目录结构文件,这个目录结构文件是以XML形式存在,内容形式可以采用电子图书(或期刊)的传统目录形式。与一般意义的目录不同的地方是以下几个特点I本目录是有结构的,是可以被第三方工具识别出结构信息的。此目录文件中的 XML元素分为章、节、小节、三级节……,并依次向下嵌套。II每一个目录元素具有结构属性,分别为标题内容与页码范围。
III每一个目录文件还具有该图书的版权内容,内容应用都柏林标准。优选地,本发明目录结构文件生成通过如下方式进行(11)制订电子书稿在排版过程中对段落样式的命名的规范;要求在排版图书时,把书稿中同一级的标题均使用同样的段落样式名前缀,所有章节标题的段落样式的前缀按自然数N,依次排列。如,1-,2-,3_,……;所有章标题的段落样式名均使用1-作为样式名的前缀,形如I-XXXX ;所有节标题的段落样式名均使用2-作为样式名的前缀,形如2-XXXX ;所有小节标题的段落样式名均使用3-作为样式名的前缀,形如3-XXXX ;依次类推。(12)根据段落样式命名规范,把电子图书中标题部分提取出来,形成一个没有层次关系的XML文件,每一个XML元素是一个标题内容,该元素具有一个页码属性用来存放该标题所在页码的信息;该步骤可以通过开发一个目录文件提取的计算机程序来实现,通过计算机程序,根据段落样式前缀特点,把电子图书中标题部分提取出来,形成一个没有层次关系的XML文件,每一个XML元素是一个标题内容,该元素具有一个页码属性用来存放该标题所在有页码信息。(13)把无层次关系的XML文件按前缀大小关系重组建立新的章节元素,该元素有一个子元素是标题元素,有两个属性存放该元素的页码范围。这样一个与图书页码信息有关的目录文件就形成了。(2)在目录结构文件的基础上对目录元素进行语义标注;本发明对目录结构进行语义描述的方法在目录结构文件的基础上对目录元素进行标注,不再进入到图书的具体内容中进行语义标注,即,在电子图书外部进行标注,由于图书的每一个章节反映了不同粒度的,相对完整的内容,因此可以对章节进行语义内容的概括。这一步必须是手工填加,实现对目录内容的概括过程。具体实现可以采用如下方法“1、多元数组法每一个目录元素的语义标注方法为对于元素S,用DD描述语义特征.DD = U {OP i},OP i = (0 i,A i, AK i, C i)S卩,用多个属性组合(OP i)从其用途、意义、内容概括、相关问题等多方面来描述片断⑶的。其中,DD为功能语义描述集合;它由若干功能的语义描述组成。功能语义描述OP i是一个四元组。其中0 i表示语义的本体;A i为语义的谓体;AK i为A i的补充关键字; C i为约束条件,可以是一个多元组{C,1 i,C,2 i,C,3 i,……}2、知识点法为了可以快速进行语义标注,可以在某一些领域建立相应的知识点语义系统,把较固定的知识点语义用多个相互关联的词组成相对完整、固定的词组合。如(办公应用 OFFICE WORD文件建立),(办公应用OFFICE WORD文件删除),这些词之间顺序固定,是树的逻辑结构,整个知识点语义构成一个完整的树结构。本发明把一些教材的知识体系分解为一个个词组合,以树形式表现出来,使标注知识点更加方便快捷。(3)对电子图书按页进行分割成多个页文件,每个页文件是电子图书的一页内容;常用的用于出版纸质图书的电子文件是按页来组织的,因此它可以按每一页来分离。图书的每一个章节都有起始页码,因此可以计算出每一个章节所包含的页的起与止页码。通过各种方法,本发明采用计算机程序对原图书按页进行分割成N(图书页数)个文件,每个文件是原图书的一页内容,文件格式可以是图片或PDF或FLASH,文件的属性中体现出页码。建立一个数据库,把这些“页文件”保存于数据库。并可以通过其属性检索到该文件。(4)将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包,形成一个完整的电子图书文件包。开发一个语义图书的导出程序,实现对填加语义属性的XML目录文件语法检查、 与CIP数据、版权的声明,包文件结构等其它文件一起打包,形成一个完整的电子图书。或者存放到数据库中,与各类图书管理系统联结。本发明由于电子图书内容与语义标注是分离在两个文件中,那么查询语义的方法就与一般的语义查询方法不同。如果可以快速检索到该章节,那么就可进一步检索到该章节包含的所有页。因此,通过章节目录可以检索出页的内容。(这种页内容是不可直接检索到的图片,或者其它不可检索的格式)。因此,本发明可以实现对电子图书进行如下应用1、文件检索把页文件与目录结构文件合并为一个包文件,必要时把图书CIP信息、文件结构信息等其它文件放入该文件包。当用户提出查询语义的内容时,通过语义检索在电子图书文件包中的目录结构文件中对目录元素进行检索,根据所检索到的目录元素所指向的页码在电子图书文件包中检索页文件。2、数据库检索把页文件及目录文件放入数据库,应用系统通过检索目录文件来检索语义,然后根据该元素所指向的页码内容及自身的版权内容,向“页文件”的数据库检索该页内容(或多页内容),最终从数据库中取得页文件返回。此方法的优点是加工效率高,检索效果满足大部分常用需求。本发明章节目录是基于XML技术来实现,XML的结构性强、易于计算机程序读写, 所以在拆分、形成结构、检索等环节是可以通过计算机程序处理。此外由于语义描述是采取了多维阵列的方式,每一维陈列反映了该章节的一个完整语义,因此可以从多个角度来概括一个章节的内容。借助计算机程序实现对电子图书进行自动拆分处理,全面提高了对电子图书进行拆分的效率,同时也不影响到检索效果。同时配合上述拆分方法,设计出一种通过对电子图书的目录结构进行简单的语义标注,提高了语义标注的效率。下面通过实际操作过程,对本发明实施方式进行举例说明,以进一步理解本发明的工作过程。第一步,数据输入取自任意一本电子图书,格式可以是DOC、INDD等图书排版文件。启动《希望自动拆分工具》运行在服务器上,然后向服务器上传电子图书文件。第二步,目录文件生成与页文件拆分
服务器实时监控,发现有新文件上传执行目录生成进程,产生一个具有层次树状结构的XML文件,该文件中包含有每个元素的页码信息。同时对电子图书文件进行拆分为每一个页文件,可以各种图片文件、PDF、FLASH等最后打包发送到结果池中,供下一环节下载使用。第三步,数据的语义处理运行《希望语义标注系统》,导入上一环节输出的XML文件与压缩包文件运行“浏览XML”功能,在浏览窗口中查看XML文件,这时的XML文件是具有先后顺序及层次关系的,进一步浏览并检查是否有错误,如果有,可以用鼠标拖动方式调整位置关系。对XML目录文件进行语义标注,可以采用多元数组方法标注,也可采用知识点标注方法标注,其中知识点标注方法会在界面上呈现出知识点的树状结构,便于操作。标注过程中,可以即时查阅该章节所对应的原版图书内容。第四步,数据输出运行“输出语义图书”功能,系统即可在现有的XML文件中,加入相应的CIP、结构、 版权等内容。如果不输出电子图书,那么这些所有信息均保存在数据库中。对这些图书书的调用检索均通过WEBSERVICE向外发布,其它图书管理系统可直接调用。在“保存文件”的提示下,输出一个具有结构及语义的电子图书的包文件。最后应当说明的是以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解依然可以对本发明的具体实施方式
进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。
权利要求
1.一种对电子图书进行快速语义标注的方法,其特征在于包括如下步骤(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时每个章节元素含有页码信息的属性;(2)在目录结构文件的基础上对目录元素进行语义标注;(3)对电子图书按页进行分割成多个页文件,每个页文件是电子图书的一页内容;(4)将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包,形成一个完整的电子图书文件包。
2.根据权利要求1所述的对电子图书进行快速语义标注的方法,其特征在于所述目录结构文件以XML形式存在,其内容形式采用电子图书的传统目录形式,并可以被第三方工具识别出。
3.根据权利要求2所述的对电子图书进行快速语义标注的方法,其特征在于每一个 XML目录元素具有结构属性,分别为标题内容与页码范围。
4.根据权利要求1所述的对电子图书进行快速语义标注的方法,其特征在于所述目录结构文件的生成包括如下步骤(11)制订电子书稿在排版过程中对段落样式的命名的规范;(12)根据段落样式命名规范,把电子图书中标题部分提取出来,形成一个没有层次关系的XML文件,每一个XML元素是一个标题内容,该元素具有一个页码属性用来存放该标题所在页码的信息;(13)把无层次关系的XML文件按前缀大小关系重组建立新的章节元素,该元素有一个子元素是标题元素,有两个属性存放该元素的页码范围。
5.根据权利要求1所述的对电子图书进行快速语义标注的方法,其特征在于对所述目录元素进行语义标注的方法采用多元数组法或者知识点法,并且均通过手工填加。
6.根据权利要求1所述的对电子图书进行快速语义标注的方法,其特征在于还包括如下步骤(5)建立一个数据库,把所述目录结构文件和所述多个页文件保存于数据库中;(6)通过语义检索在目录结构文件中对目录元素进行检索,根据所检索到的目录元素所指向的页码在所述数据库中检索页文件。
7.根据权利要求1所述的对电子图书进行快速语义标注的方法,其特征在于通过语义检索在电子图书文件包中的目录结构文件中对目录元素进行检索,根据所检索到的目录元素所指向的页码在电子图书文件包中检索页文件。
8.一种对电子图书进行快速语义标注的系统,其特征在于包括如下装置用于以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时在每个章节元素中填加有页码信息的装置;用于在目录结构文件的基础上对目录元素进行语义标注的装置;用于对电子图书按页进行分割成多个页文件的装置,每个页文件是电子图书的一页内容;用于将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包,形成一个完整的电子图书的装置。
9.根据权利要求8所述的对电子图书进行快速语义标注的系统,其特征在于所述目录结构文件以XML形式存在,其内容形式采用电子图书的传统目录形式,并可以被第三方工具识别出。
10.根据权利要求9所述的对电子图书进行快速语义标注的系统,其特征在于每一个 XML目录元素具有结构属性,分别为标题内容与页码范围。
11.根据权利要求8所述的对电子图书进行快速语义标注的系统,其特征在于用于生成所述目录结构文件的装置包括如下装置用于制订电子书稿在排版过程中对段落样式的命名的规范的装置;用于根据段落样式命名规范,把电子图书中标题部分提取出来,形成一个没有层次关系的XML文件的装置,每一个XML元素是一个标题内容,该元素具有一个页码属性用来存放该标题所在页码的信息;用于把无层次关系的XML文件按前缀大小关系重组建立新的章节元素的装置,该元素有一个子元素是标题元素,有两个属性存放该元素的页码范围。
12.根据权利要求8所述的对电子图书进行快速语义标注的系统,其特征在于采用多元数组法或者知识点法对所述目录元素进行语义标注,并且均通过手工填加。
13.根据权利要求8所述的对电子图书进行快速语义标注的系统,其特征在于还包括如下装置用于建立一个数据库,并把所述目录结构文件和所述多个页文件保存于数据库中的装置;用于通过语义检索在目录结构文件中对目录元素进行检索,根据所检索到的目录元素所指向的页码在所述数据库中检索页文件的装置。
14.根据权利要求1所述的对电子图书进行快速语义标注的系统,其特征在于通过语义检索在电子图书文件包中的目录结构文件中对目录元素进行检索,根据所检索到的目录元素所指向的页码在电子图书文件包中检索页文件。
全文摘要
一种对电子图书进行快速语义标注的方法和系统,其特征在于包括如下步骤(1)以独立于电子图书的方式建立用于描述电子图书的结构的目录结构文件,把电子图书的章节目录提取出来,并建立树状结构层次关系,同时每个章节元素含有页码信息的属性;(2)在目录结构文件的基础上对目录元素进行语义标注;(3)对电子图书按页进行分割成多个页文件,每个页文件是电子图书的一页内容;(4)将所述目录结构文件与图书CIP数据、版权声明以及所述多个页文件一起打包,形成一个完整的电子图书文件包。
文档编号G06F17/30GK102332023SQ20111028916
公开日2012年1月25日 申请日期2011年9月27日 优先权日2011年9月27日
发明者张训军 申请人:北京中科希望软件股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1