出版物数字资源的自动采集方法及系统的制作方法

文档序号：6509403阅读：198来源：国知局

出版物数字资源的自动采集方法及系统的制作方法
【专利摘要】本发明提供了一种出版物数字资源的自动采集方法及系统，该方法包括：获取出版物数字资源中的资源文件；根据预设的识别规则对所述资源文件进行识别，得到识别结果，所述识别结果包括：文件类型、文件关系及排序；将所述资源文件上传到服务器；根据所述识别结果生成所述资源文件的属性信息；将所述属性信息存储到数据库中。利用本发明，可以提高采集出版物数字资源的效率，节省大量的工作量。
【专利说明】出版物数字资源的自动采集方法及系统

【技术领域】
[0001] 本发明涉及数字出版领域，具体而言，涉及一种出版物数字资源的自动采集方法及系统。

【背景技术】
[0002] 目前的出版物如图书、期刊、课件等的数字资源，内容众多，类型复杂。如以图书数字资源为例，一本图书的资源文件可能有上万个之多，包括封面、插图、排版文件、配套音频、配套视频等。再比如一个课件,包含多个PPT，每个PPT的内容中可能会以链接的形式引用多个音视频、图片、WORD等附件，PPT和其附属文件属于主从关系，另外，PPT及附属文件在硬盘中的相对路径在入库后必须保持，否则无法根据PPT中的链接打开附属文件，最后，多个PPT之间是有前后顺序的。
[0003] 为了更有效地利用这些出版物数字资源，目前通过人工录入，将出版物数字资源录入到数据库中。然而人工操作容易出错。

【发明内容】

[0004] 本发明实施例提供一种出版物数字资源的自动采集方法及系统，以解决现有技术中出版物数字资源采集管理中人工参与程度高，效率低下、耗时长的问题。
[0005] 为此，本发明实施例提供如下技术方案：
[0006] -种出版物数字资源的自动采集方法，包括：
[0007] 获取出版物数字资源中的资源文件；
[0008] 根据预设的识别规则对所述资源文件进行识别，得到识别结果，所述识别结果包括：文件类型、文件关系及排序；
[0009] 将所述资源文件上传到服务器；
[0010] 根据所述识别结果生成所述资源文件的属性信息；
[0011] 将所述属性信息存储到数据库中。
[0012] 优选地，所述方法还包括：
[0013] 获取并解析XML格式的配置文件，从中得到所述识别规则。
[0014] 优选地，所述根据所述识别结果生成所述资源文件的属性信息包括：
[0015] 根据所述识别结果生成XML格式的通知文件；
[0016] 解析所述通知文件，得到所述资源文件的属性信息。
[0017] 优选地，所述方法还包括：
[0018] 在得到所述识别结果后，向用户展现手动修改操作界面，以使用户在所述操作界面上调整文件的类型、文件关系及排序。
[0019] 优选地，所述方法还包括：
[0020] 从数据库读取资源文件的属性信息，并在浏览器中进行展示所述属性信息。
[0021] 一种出版物数字资源的自动采集系统，包括：
[0022] 获取模块，用于获取出版物数字资源中的资源文件；
[0023] 识别模块，用于根据预设的识别规则对所述资源文件进行识别，得到识别结果，所述识别结果包括：文件类型、文件关系及排序；
[0024] 上传模块，用于将所述资源文件上传到服务器；
[0025] 资源入库模块，用于根据所述识别结果生成所述资源文件的属性信息，并将所述属性信息存储到数据库中。
[0026] 优选地，所述识别模块，还用于获取并解析XML格式的配置文件，从中得到所述识别规则。
[0027] 优选地，所述资源入库模块包括：
[0028] 解析单元，用于从所述识别模块获取XML格式的通知文件，解析所述XML文件得到资源文件的属性信息；
[0029] 入库单元，用于将所述属性信息存储进数据库。
[0030] 优选地，所述系统还包括：
[0031] 展现模块，用于在所述识别模块得到识别结果后，向用户展现手动修改操作界面，以使用户在所述操作界面上调整文件的类型、文件关系及排序。
[0032] 优选地，所述系统还包括：
[0033] 资源管理模块，用于从数据库读取资源文件的属性信息，并在浏览器中进行展示所述属性信息。
[0034] 本发明实施例提供的出版物数字资源的自动采集方法及系统，可以提高采集出版物数字资源的效率，将采集工作人员从庞大的资源文件中解放出来，节省大量的工作量。而且，利用本发明实施例的方法及系统，可以自动将采集结果入库，实现对出版物数字资源的持久化管理应用。从资源采集到入库，全程都是自动进行的，不需要用户手动参与，提高了系统的自动化程度。

【专利附图】

【附图说明】
[0035] 图1是本发明实施例出版物数字资源的自动采集方法的流程图；
[0036] 图2是本发明实施例出版物数字资源的自动采集系统的结构示意图；
[0037] 图3是本发明实施例中的图书样例的整理目录结构；
[0038] 图4是本发明实施例中的课件样例的整理目录结构；
[0039] 图5是本发明实施例中资源采集装置的界面展示图；
[0040] 图6是本发明实施例中课件样例存储的数据库相关表及联系；
[0041] 图7是本发明实施例中资源管理装置展示图书列表的效果图；
[0042] 图8是本发明实施例中资源管理装置展示课件详细信息的效果图。

【具体实施方式】
[0043] 下面将参考附图并结合实施例，来详细说明本发明。
[0044] 如图1所示，是本发明实施例出版物数字资源的采集方法的流程图，包括以下步骤：
[0045] 步骤101、获取出版物数字资源中的资源文件。
[0046] 步骤102、根据预设的识别规则对所述资源文件进行识别，得到识别结果，所述识别结果包括：文件类型、文件关系及排序。
[0047] 所述识别规则可以通过获取并解析XML格式的配置文件来得到。
[0048] 在实际应用中，对文件的排序可以先按照排序规则进行排序，不符合排序规则的，可以按照英文、字符按照首字符ASCII码进行排序，首字符中文按照拼音排序。而且，所述排序规则可以通过读取配置文件得到，默认规则可以为阿拉伯数字1、2、3…以及大写一、 --· · · --、___ 〇
[0049] 需要说明的是，对于已经入库的出版物数字资源，可以重新该出版物数字资源，进行再次修改调整或者追加资源文件。
[0050] 另外，对识别后的资源文件还可以进行手动调整，直到满足需求。因为自动识别毕竟是机器识别，总会有识别不了的一些很个性化的地方，比如识别课件，在识别规则中设置课件的后缀名必须是PPT，但是突然有一章的课件是HTML，仅此一个，那么可以通过手工将该是HTML文件设置为课件。具体地，可以在得到所述识别结果后，向用户展现手动修改操作界面，以使用户在所述操作界面上调整文件的类型、文件关系及排序。
[0051] 步骤103、将所述资源文件上传到服务器。
[0052] 具体地，可以通过FTP或者共享方式将所述资源文件从本地上传到服务器。
[0053] 步骤104、根据所述识别结果生成所述资源文件的属性信息，并将所述属性信息存储到数据库中。
[0054] 具体地，可以首先根据所述识别结果生成XML格式的通知文件，将该通知文件传输给资源入库模块，由资源入库模块解析XML文件得到相应的属性信息，然后将所述属性信息存储进数据库。
[0055] 所述属性信息可以包括：文件大小、后缀名、文件类型(文档、图片、音频、视频)，业务类型(封面、插图、低精度rof)等，图片会有分辨率，音视频有时长等等（当然后面这些属性，分辨率和时长的提取需要用的其他工具，可以集成到采集环节中）。
[0056] 在本发明实施例中，还可进一步包括以下步骤：从数据库读取资源文件的属性信息，并在浏览器中进行展示所述属性信息。
[0057] 本发明实施例提供的出版物数字资源的自动采集方法，可以有效提高采集出版物数字资源的效率，将采集工作人员从庞大的资源文件中解放出来，节省大量的工作量。而且，利用本发明实施例的方法，可以自动将采集结果入库，实现对出版物数字资源的持久化管理应用。从资源采集到入库，全程都是自动进行的，不需要用户手动参与，提高了系统的自动化程度。
[0058] 利用本发明实施例的方法，对于具体的使用者来说，只需要在部署系统的时候制定一次识别规则XML即可，无需每次使用前制定。可以批量识别出版物数字资源。可以手动选择出版物数字资源，也可以设定目录，定时扫描识别。
[0059] 相应地，本发明实施例还提供一种出版物数字资源的自动采集系统，图2示出了该系统的结构。
[0060] 在该实施例中，所述系统包括：
[0061] 获取模块201，用于获取出版物数字资源中的资源文件；
[0062] 识别模块202,用于根据预设的识别规则对所述资源文件进行识别，得到识别结果，所述识别结果包括：文件类型、文件关系及排序；
[0063] 上传模块203,用于将所述资源文件上传到服务器；
[0064] 资源入库模块204,用于根据所述识别结果生成所述资源文件的属性信息，并将所述属性信息存储到数据库中。
[0065] 在实际应用中，上述识别模块202还用于获取并解析XML格式的配置文件，从中得到所述识别规则。
[0066] 所述资源入库模块204可以包括：解析单元和入库单元，其中，所述解析单元用于从所述识别模块202获取XML格式的通知文件，解析所述XML文件得到资源文件的属性信息；所述入库单元用于将所述属性信息存储进数据库。
[0067] 另外，在本发明系统的另一实施例中，所述系统还可进一步包括：展现模块，用于在所述识别模块202得到识别结果后，向用户展现手动修改操作界面，以使用户在所述操作界面上调整文件的类型、文件关系及排序。用户可以利用该界面修改资源文件类型、修改资源文件间的关系及手动排序。
[0068] 另外，在本发明系统的另一实施例中，所述系统还可进一步包括：资源管理模块，用于从数据库读取资源文件的属性信息，并在浏览器中进行展示所述属性信息。比如，可以从数据库获取到出版物数字资源列表，进行列表或封面展示，还可以浏览出版物数字资源详细信息。
[0069] 需要说明的是，在本发明实施例中，所述识别规则可以采用配置文件的方式来定义。可以自定义，以满足用户的个性化需求。采用XML格式定义，修改配置十分方便。所述识别规则可以是文件类型识别规则和文件关系识别规则两种。文件类型识别规则是指将单个资源文件进行归类的规则；文件关系识别规则是指建立文件之间关系的自动识别规则。
[0070] 进一步，识别模块202还可以对资源文件进行排序。支持多种排序方式，并且可以配置扩展。
[0071] 本发明实施例提供的出版物数字资源的自动采集系统，可以有效提高采集出版物数字资源的效率，将采集工作人员从庞大的资源文件中解放出来，节省大量的工作量。而且，利用本发明实施例的系统，可以自动将采集结果入库，实现对出版物数字资源的持久化管理应用。从资源采集到入库，全程都是自动进行的，不需要用户手动参与，提高了系统的自动化程度。
[0072] 下面以典型的图书及课件为例来详细说明本发明实施例中制定XML格式的识别规则及利用该识别规则对资源文件进行识别及采集的过程。
[0073] 图书最常用的整理分类方法为图3所示的目录结构，图书所属的所有资源分为封面、正文、插图、配套音频、配套视频五种。每一种分类都有一些属性来标识自己以及规范属于自己的资源文件，比如：
[0074] 识别码（code):分类的唯一标识；
[0075] 名称（caption):分类的显示名；
[0076] 过滤器（filter):分类下的文件过滤；
[0077] 资源类型（fileResTypes):分类下所有文件的资源业务类型；
[0078] 附件类型（fileTypes):分类下所有文件的附件类型；
[0079] 排序属性（order):分类下文件是否需要排序，默认不排序；
[0080] 关联关系（relation):分类下资源之间是否有关联关系，默认没有。
[0081] 由此可以制定如下的识别规则XML :

【权利要求】
1. 一种出版物数字资源的自动采集方法，其特征在于，包括：获取出版物数字资源中的资源文件；根据预设的识别规则对所述资源文件进行识别，得到识别结果，所述识别结果包括：文件类型、文件关系及排序；将所述资源文件上传到服务器；根据所述识别结果生成所述资源文件的属性信息；将所述属性信息存储到数据库中。
2. 根据权利要求1所述的方法，其特征在于，所述方法还包括：获取并解析XML格式的配置文件，从中得到所述识别规则。
3. 根据权利要求1所述的方法，其特征在于，所述根据所述识别结果生成所述资源文件的属性信息包括：根据所述识别结果生成XML格式的通知文件；解析所述通知文件，得到所述资源文件的属性信息。
4. 根据权利要求1所述的方法，其特征在于，所述方法还包括：在得到所述识别结果后，向用户展现手动修改操作界面，以使用户在所述操作界面上调整文件的类型、文件关系及排序。
5. 根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括：从数据库读取资源文件的属性信息，并在浏览器中进行展示所述属性信息。
6. -种出版物数字资源的自动采集系统，其特征在于，包括：获取模块，用于获取出版物数字资源中的资源文件；识别模块，用于根据预设的识别规则对所述资源文件进行识别，得到识别结果，所述识别结果包括：文件类型、文件关系及排序；上传模块，用于将所述资源文件上传到服务器；资源入库模块，用于根据所述识别结果生成所述资源文件的属性信息，并将所述属性信息存储到数据库中。
7. 根据权利要求6所述的系统，其特征在于，所述识别模块，还用于获取并解析XML格式的配置文件，从中得到所述识别规则。
8. 根据权利要求6所述的系统，其特征在于，所述资源入库模块包括：解析单元，用于从所述识别模块获取XML格式的通知文件，解析所述XML文件得到资源文件的属性信息；入库单元，用于将所述属性信息存储进数据库。
9. 根据权利要求6所述的系统，其特征在于，所述系统还包括：展现模块，用于在所述识别模块得到识别结果后，向用户展现手动修改操作界面，以使用户在所述操作界面上调整文件的类型、文件关系及排序。
10. 根据权利要求6至9任一项所述的系统，其特征在于，所述系统还包括：资源管理模块，用于从数据库读取资源文件的属性信息，并在浏览器中进行展示所述属性信息。
【文档编号】G06F17/30GK104424271SQ201310385324
【公开日】2015年3月18日申请日期:2013年8月29日优先权日:2013年8月29日
【发明者】百华睿, 陈长刚申请人:北大方正集团有限公司, 方正信息产业控股有限公司, 北京北大方正电子有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：百华睿;陈长刚;
技术所有人：北大方正集团有限公司;方正信息产业控股有限公司;北京北大方正电子有限公司;
我是此专利的发明人

上一篇：一种多人异地并行协同系统的制作方法
上一篇：一种电子凭证管理系统及方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。