处理文档中片断化数据的方法和装置的制作方法

文档序号：6426745阅读：139来源：国知局

专利名称：：处理文档中片断化数据的方法和装置的制作方法
技术领域：
：本发明涉及计算机数据处理领域，具体而言，涉及处理文档中片断化数据的方法和装置。
背景技术：
：目前的出版领域中，主要通过“选题策划、组稿、审稿、排版、印刷”的方式出版纸质出版物。图书通常分篇章，论文集通常由多篇论文结集出版，期刊由多篇相互独立的稿件组成。稿件中的各种类型的内容，如图片、字符、视频片段、音频片段等，这些内容通常称之为“片断化数据”。出版物通常由较多的片断化数据聚合而成。用户需要将散落在多本出版物中的片断化数据提取并整理，将整理后的数据汇编成出版物。发明人发现，片断化数据分散在各个电子文档中，由于没有关于片断化数据的数据关系，不便于查询一些片断化数据。用户查找出版物中片断化数据的过程较为繁琐，为了某个出版物的一篇文章甚至一段话，由于需要浏览该出版物整个的电子文档，查找效率较低。
发明内容本发明旨在提供一种处理文档中片断化数据的方法和装置，以解决上述无法建立关于片断化数据的数据关系的问题。在本发明的实施例中，提供了一种处理文档中片断化数据的方法，包括提取文档中的片断化数据；相关联地记录所述片断化数据的属性、所述文档的属性和所述文档所归属的出版物的属性。在本发明的实施例中，提供了一种处理文档中片断化数据的装置，包括提取模块，用于提取文档中的片断化数据；记录模块，用于相关联地记录所述片断化数据的属性、所述文档的属性和所述文档所归属的出版物的属性。本发明的实施例关联地记录提取的片断化数据的属性、以及归属文档的属性、归属的出版物的属性。从而便于为后续查找片断化数据时，提供了快速的查找依据。此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中图I示出了实施例一的流程图；图2示出了实施例二的流程图；图3示出了实施例中选择文档的屏幕截图；图4示出了实施例三的结构框图。具体实施例方式下面将参考附图并结合实施例，来详细说明本发明。参见图1，图I是本发明实施例一的流程图，包括步骤S11:提取文档中的片断化数据；实施例中出版物由多个文档构成，例如摄影类的出版物，里面包括多个章节，每个章节的内容存储到一个文档中，在文档中，有注释、图片等片断化数据。提取文档中的片断化数据的过程，可先获得存储文档中片断化数据的文件，例如word文档由多个子文档组成，包括段落格式的文档、显示样式的文档、存储内容的文档等，将word文档进行转换，可获得xml格式的这些文档，通过遍历存储内容的文档的节点，可提取每个节点中的内容，即片断化数据。步骤S12:相关联地记录所述片断化数据的属性、所述文档的属性和所述文档所·归属的出版物的属性。对于提取的片断化数据，为便于后续的查找，可将片断化数据相关的属性一同关联地记录。在本实施例中，将片断化数据的属性、文档的属性和文档所归属的出版物的属性存储在一条记录中，便于后续的查找片断化数据。通过关联地记录这些关于片断化数据的属性，便于后续查询片断化数据。通过接收用户输入的关键词，可从属性数据中快速查找属性所关联的片断化数据，并显示给用户。实施例中的方法，还可预先定义需要提取的片断化数据的采集模板，通过采集模板定义各种片断化数据，并为片断化数据、文档、出版物分别建立存储标识，存储到各个数据库中，从而便于关联地查找。下面通过实施例说明，参见图2的所示的实施例二的流程图，包括以下步骤步骤S21:按照预先定义的模板采集文档中的片断化数据。在本实施例中，以word文档为例进行说明，片断化数据存储在组成word文档的一个xml格式的文档中。需要预先定义xml格式的采集模板，通过采集模板，调用存储片断化数据的xml格式的文档，从而提取片断化数据。采集模板的部分代码如下<root><tableMap><tabletitle="篇章库"><metaname='!createDateMvalType=HdatencolName-'SYSCREATED"/><metaname=”creatornvalType="string"colName="SYS_AUTHORSn/></table></tableMap>在采集模板中，tableMap定义文档中的片断化数据的元数据(即属性)和关系数据库存储字段间的关系。关系数据库包括多个表，每一个表对应一种类型的片断化数据。每个表的一条记录对应一个片断化数据。每个表包括多列，各列分别对应片断化数据的各个元数据描述。其中，table节点定义了片断化数据存储的表名,meta节点具体定义了片断化数据的元数据和数据库存储字段间的关系。meta节点包括以下三个属性Name为文档的节点名，通过此节点名称用于在文档中定位该节点。valType节点处理类型,通过此属性决定处理指定的节点的方法,每一种类型对应一种处理节点的方法。例如，获取节点的字符数据，规范(或标准)化节点字符数据，转换图片的格式、转换音频文件的格式等，同时提取片断化数据的元数据(即属性)。对节点内容处理后，把片断化数据的属性保存在colName中。colName为名称为“篇章库”的数据库的字段名，用于保存对节点处理后的结果。采集时，从图书中选择相应的出版物或文档即可，如图3所示的名称区域内，选择的图书为论语，选择的文档为论语的语料文件(word格式文件)、即文档。··步骤S22:将片断化数据归属的文档的属性和归属的出版物的属性关联地记录在数据库的同一条记录中。预先将需要提取片断化数据的文档的属性和归属出版物的属性关联的记录，并存储在名称为“图书库”的数据库。在提取片断化数据之后，将图书库中存储的文档属性和归属出版物的属性与片断化数据的属性合并在一条记录中。相关的部分代码如下权利要求1.一种处理文档中片断化数据的方法，其特征在于，包括提取文档中的片断化数据；相关联地记录所述片断化数据的属性、所述文档的属性和所述文档所归属的出版物的属性。2.根据权利要求I所述的方法，其特征在于，还包括接收关键词；从所述属性中查找所接收到的关键词；反馈所述查找到的属性所关联的片断化数据。3.根据权利要求I所述的方法，其特征在于，所述提取的过程包括将所述文档转换为xml格式的文档；遍历所述xml格式的文档中各个节点的内容；提取所述内容作为所述片断化数据。4.根据权利要求3所述的方法，其特征在于，所述相关联地记录的过程包括在所述遍历的过程中，从所述xml格式的文档中提取每个所述片断化数据的属性；将每个所述片断化数据的属性存储到预先创建的数据库记录中；确定所述文档所归属的出版物；在所述数据库的每一条记录中存储每一个所述片断化数据的属性、所述文档的属性和所述文档所归属的出版物的属性。5.根据权利要求2所述的方法，其特征在于，还包括将所述片断化数据、所述文档和所述出版物分别存储，并分别生成存储标识；在关联地记录所述属性的同时，关联地记录所述片断化数据的所述存储标识、所述文档的所述存储标识和所述出版物的所述存储标识。6.根据权利要求5所述的方法，其特征在于，所述反馈查找到的属性所关联的片断化数据之后，还包括反馈所述片断化数据关联的所述文档或所述出版物的访问链接；所述访问链接中含有所述文档或所述出版物的存储标识。7.根据权利要求6所述的方法，其特征在于，还包括预先在使用含有所述片断化数据存储标识的占位符替换所述文档中的片断化数据；按照所述访问链接访问所述文档；显示所述文档的过程中，按照所述存储标识获得所述片断化数据，替换所述占位符。8.—种处理文档中片断化数据的装置，其特征在于，包括提取模块，用于提取文档中的片断化数据；记录模块，用于相关联地记录所述片断化数据的属性、所述文档的属性和所述文档所归属的出版物的属性。9.根据权利要求8所述的装置，其特征在于，还包括查找模块，用于从所述属性中查找所接收到的关键词；反馈模块，用于反馈所述查找到的属性所关联的片断化数据。10.根据权利要求9所述的装置，其特征在于，还包括标识模块，用于将所述片断化数据、所述文档和所述出版物分别存储，并分别生成存储标识；标识记录模块，用于在关联地记录所述属性的同时，关联地记录所述片断化数据的所述存储标识、所述文档的所述存储标识和所述出版物的所述存储标识。11.根据权利要求10所述的装置，其特征在于，还包括链接反馈模块，用于反馈所述片断化数据关联的所述文档或所述出版物的访问链接。全文摘要本发明提供了一种处理文档中片断化数据的方法和装置，本发明的方法包括提取文档中的片断化数据；相关联地记录所述片断化数据的属性、所述文档的属性和所述文档所归属的出版物的属性。本发明还提供了一种处理文档中片断化数据的装置，包括提取模块，用于提取文档中的片断化数据；记录模块，用于相关联地记录所述片断化数据的属性、所述文档的属性和所述文档所归属的出版物的属性。本发明通过关联地记录提取的片断化数据的属性、以及归属文档的属性、归属的出版物的属性。从而便于为后续查找片断化数据时，提供了快速的查找依据。文档编号G06F17/22GK102841893SQ201110168129公开日2012年12月26日申请日期2011年6月21日优先权日2011年6月21日发明者黄锴,翟因为,陈长刚申请人:北大方正集团有限公司,北京北大方正电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄锴;翟因为;陈长刚
技术所有人：北大方正集团有限公司;北京北大方正电子有限公司
我是此专利的发明人

上一篇：基于Mean Shift和块匹配的运动目标跟踪方法
上一篇：对数据、模式

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。