出版物数字资源的自动采集方法及系统的制作方法

文档序号:6509403阅读:198来源:国知局
出版物数字资源的自动采集方法及系统的制作方法
【专利摘要】本发明提供了一种出版物数字资源的自动采集方法及系统,该方法包括:获取出版物数字资源中的资源文件;根据预设的识别规则对所述资源文件进行识别,得到识别结果,所述识别结果包括:文件类型、文件关系及排序;将所述资源文件上传到服务器;根据所述识别结果生成所述资源文件的属性信息;将所述属性信息存储到数据库中。利用本发明,可以提高采集出版物数字资源的效率,节省大量的工作量。
【专利说明】出版物数字资源的自动采集方法及系统

【技术领域】
[0001] 本发明涉及数字出版领域,具体而言,涉及一种出版物数字资源的自动采集方法 及系统。

【背景技术】
[0002] 目前的出版物如图书、期刊、课件等的数字资源,内容众多,类型复杂。如以图书 数字资源为例,一本图书的资源文件可能有上万个之多,包括封面、插图、排版文件、配套音 频、配套视频等。再比如一个课件,包含多个PPT,每个PPT的内容中可能会以链接的形式引 用多个音视频、图片、WORD等附件,PPT和其附属文件属于主从关系,另外,PPT及附属文件 在硬盘中的相对路径在入库后必须保持,否则无法根据PPT中的链接打开附属文件,最后, 多个PPT之间是有前后顺序的。
[0003] 为了更有效地利用这些出版物数字资源,目前通过人工录入,将出版物数字资源 录入到数据库中。然而人工操作容易出错。


【发明内容】

[0004] 本发明实施例提供一种出版物数字资源的自动采集方法及系统,以解决现有技术 中出版物数字资源采集管理中人工参与程度高,效率低下、耗时长的问题。
[0005] 为此,本发明实施例提供如下技术方案:
[0006] -种出版物数字资源的自动采集方法,包括:
[0007] 获取出版物数字资源中的资源文件;
[0008] 根据预设的识别规则对所述资源文件进行识别,得到识别结果,所述识别结果包 括:文件类型、文件关系及排序;
[0009] 将所述资源文件上传到服务器;
[0010] 根据所述识别结果生成所述资源文件的属性信息;
[0011] 将所述属性信息存储到数据库中。
[0012] 优选地,所述方法还包括:
[0013] 获取并解析XML格式的配置文件,从中得到所述识别规则。
[0014] 优选地,所述根据所述识别结果生成所述资源文件的属性信息包括:
[0015] 根据所述识别结果生成XML格式的通知文件;
[0016] 解析所述通知文件,得到所述资源文件的属性信息。
[0017] 优选地,所述方法还包括:
[0018] 在得到所述识别结果后,向用户展现手动修改操作界面,以使用户在所述操作界 面上调整文件的类型、文件关系及排序。
[0019] 优选地,所述方法还包括:
[0020] 从数据库读取资源文件的属性信息,并在浏览器中进行展示所述属性信息。
[0021] 一种出版物数字资源的自动采集系统,包括:
[0022] 获取模块,用于获取出版物数字资源中的资源文件;
[0023] 识别模块,用于根据预设的识别规则对所述资源文件进行识别,得到识别结果,所 述识别结果包括:文件类型、文件关系及排序;
[0024] 上传模块,用于将所述资源文件上传到服务器;
[0025] 资源入库模块,用于根据所述识别结果生成所述资源文件的属性信息,并将所述 属性信息存储到数据库中。
[0026] 优选地,所述识别模块,还用于获取并解析XML格式的配置文件,从中得到所述识 别规则。
[0027] 优选地,所述资源入库模块包括:
[0028] 解析单元,用于从所述识别模块获取XML格式的通知文件,解析所述XML文件得到 资源文件的属性信息;
[0029] 入库单元,用于将所述属性信息存储进数据库。
[0030] 优选地,所述系统还包括:
[0031] 展现模块,用于在所述识别模块得到识别结果后,向用户展现手动修改操作界面, 以使用户在所述操作界面上调整文件的类型、文件关系及排序。
[0032] 优选地,所述系统还包括:
[0033] 资源管理模块,用于从数据库读取资源文件的属性信息,并在浏览器中进行展示 所述属性信息。
[0034] 本发明实施例提供的出版物数字资源的自动采集方法及系统,可以提高采集出版 物数字资源的效率,将采集工作人员从庞大的资源文件中解放出来,节省大量的工作量。而 且,利用本发明实施例的方法及系统,可以自动将采集结果入库,实现对出版物数字资源的 持久化管理应用。从资源采集到入库,全程都是自动进行的,不需要用户手动参与,提高了 系统的自动化程度。

【专利附图】

【附图说明】
[0035] 图1是本发明实施例出版物数字资源的自动采集方法的流程图;
[0036] 图2是本发明实施例出版物数字资源的自动采集系统的结构示意图;
[0037] 图3是本发明实施例中的图书样例的整理目录结构;
[0038] 图4是本发明实施例中的课件样例的整理目录结构;
[0039] 图5是本发明实施例中资源采集装置的界面展示图;
[0040] 图6是本发明实施例中课件样例存储的数据库相关表及联系;
[0041] 图7是本发明实施例中资源管理装置展示图书列表的效果图;
[0042] 图8是本发明实施例中资源管理装置展示课件详细信息的效果图。

【具体实施方式】
[0043] 下面将参考附图并结合实施例,来详细说明本发明。
[0044] 如图1所示,是本发明实施例出版物数字资源的采集方法的流程图,包括以下步 骤:
[0045] 步骤101、获取出版物数字资源中的资源文件。
[0046] 步骤102、根据预设的识别规则对所述资源文件进行识别,得到识别结果,所述识 别结果包括:文件类型、文件关系及排序。
[0047] 所述识别规则可以通过获取并解析XML格式的配置文件来得到。
[0048] 在实际应用中,对文件的排序可以先按照排序规则进行排序,不符合排序规则的, 可以按照英文、字符按照首字符ASCII码进行排序,首字符中文按照拼音排序。而且,所述 排序规则可以通过读取配置文件得到,默认规则可以为阿拉伯数字1、2、3…以及大写一、 --· · · --、___ 〇
[0049] 需要说明的是,对于已经入库的出版物数字资源,可以重新该出版物数字资源,进 行再次修改调整或者追加资源文件。
[0050] 另外,对识别后的资源文件还可以进行手动调整,直到满足需求。因为自动识别毕 竟是机器识别,总会有识别不了的一些很个性化的地方,比如识别课件,在识别规则中设置 课件的后缀名必须是PPT,但是突然有一章的课件是HTML,仅此一个,那么可以通过手工将 该是HTML文件设置为课件。具体地,可以在得到所述识别结果后,向用户展现手动修改操 作界面,以使用户在所述操作界面上调整文件的类型、文件关系及排序。
[0051] 步骤103、将所述资源文件上传到服务器。
[0052] 具体地,可以通过FTP或者共享方式将所述资源文件从本地上传到服务器。
[0053] 步骤104、根据所述识别结果生成所述资源文件的属性信息,并将所述属性信息存 储到数据库中。
[0054] 具体地,可以首先根据所述识别结果生成XML格式的通知文件,将该通知文件传 输给资源入库模块,由资源入库模块解析XML文件得到相应的属性信息,然后将所述属性 信息存储进数据库。
[0055] 所述属性信息可以包括:文件大小、后缀名、文件类型(文档、图片、音频、视频),业 务类型(封面、插图、低精度rof)等,图片会有分辨率,音视频有时长等等(当然后面这些属 性,分辨率和时长的提取需要用的其他工具,可以集成到采集环节中)。
[0056] 在本发明实施例中,还可进一步包括以下步骤:从数据库读取资源文件的属性信 息,并在浏览器中进行展示所述属性信息。
[0057] 本发明实施例提供的出版物数字资源的自动采集方法,可以有效提高采集出版物 数字资源的效率,将采集工作人员从庞大的资源文件中解放出来,节省大量的工作量。而 且,利用本发明实施例的方法,可以自动将采集结果入库,实现对出版物数字资源的持久化 管理应用。从资源采集到入库,全程都是自动进行的,不需要用户手动参与,提高了系统的 自动化程度。
[0058] 利用本发明实施例的方法,对于具体的使用者来说,只需要在部署系统的时候制 定一次识别规则XML即可,无需每次使用前制定。可以批量识别出版物数字资源。可以手 动选择出版物数字资源,也可以设定目录,定时扫描识别。
[0059] 相应地,本发明实施例还提供一种出版物数字资源的自动采集系统,图2示出了 该系统的结构。
[0060] 在该实施例中,所述系统包括:
[0061] 获取模块201,用于获取出版物数字资源中的资源文件;
[0062] 识别模块202,用于根据预设的识别规则对所述资源文件进行识别,得到识别结 果,所述识别结果包括:文件类型、文件关系及排序;
[0063] 上传模块203,用于将所述资源文件上传到服务器;
[0064] 资源入库模块204,用于根据所述识别结果生成所述资源文件的属性信息,并将所 述属性信息存储到数据库中。
[0065] 在实际应用中,上述识别模块202还用于获取并解析XML格式的配置文件,从中得 到所述识别规则。
[0066] 所述资源入库模块204可以包括:解析单元和入库单元,其中,所述解析单元用于 从所述识别模块202获取XML格式的通知文件,解析所述XML文件得到资源文件的属性信 息;所述入库单元用于将所述属性信息存储进数据库。
[0067] 另外,在本发明系统的另一实施例中,所述系统还可进一步包括:展现模块,用于 在所述识别模块202得到识别结果后,向用户展现手动修改操作界面,以使用户在所述操 作界面上调整文件的类型、文件关系及排序。用户可以利用该界面修改资源文件类型、修改 资源文件间的关系及手动排序。
[0068] 另外,在本发明系统的另一实施例中,所述系统还可进一步包括:资源管理模块, 用于从数据库读取资源文件的属性信息,并在浏览器中进行展示所述属性信息。比如,可以 从数据库获取到出版物数字资源列表,进行列表或封面展示,还可以浏览出版物数字资源 详细信息。
[0069] 需要说明的是,在本发明实施例中,所述识别规则可以采用配置文件的方式来定 义。可以自定义,以满足用户的个性化需求。采用XML格式定义,修改配置十分方便。所述 识别规则可以是文件类型识别规则和文件关系识别规则两种。文件类型识别规则是指将单 个资源文件进行归类的规则;文件关系识别规则是指建立文件之间关系的自动识别规则。
[0070] 进一步,识别模块202还可以对资源文件进行排序。支持多种排序方式,并且可以 配置扩展。
[0071] 本发明实施例提供的出版物数字资源的自动采集系统,可以有效提高采集出版物 数字资源的效率,将采集工作人员从庞大的资源文件中解放出来,节省大量的工作量。而 且,利用本发明实施例的系统,可以自动将采集结果入库,实现对出版物数字资源的持久化 管理应用。从资源采集到入库,全程都是自动进行的,不需要用户手动参与,提高了系统的 自动化程度。
[0072] 下面以典型的图书及课件为例来详细说明本发明实施例中制定XML格式的识别 规则及利用该识别规则对资源文件进行识别及采集的过程。
[0073] 图书最常用的整理分类方法为图3所示的目录结构,图书所属的所有资源分为封 面、正文、插图、配套音频、配套视频五种。每一种分类都有一些属性来标识自己以及规范属 于自己的资源文件,比如:
[0074] 识别码(code):分类的唯一标识;
[0075] 名称(caption):分类的显示名;
[0076] 过滤器(filter):分类下的文件过滤;
[0077] 资源类型(fileResTypes):分类下所有文件的资源业务类型;
[0078] 附件类型(fileTypes):分类下所有文件的附件类型;
[0079] 排序属性(order):分类下文件是否需要排序,默认不排序;
[0080] 关联关系(relation):分类下资源之间是否有关联关系,默认没有。
[0081] 由此可以制定如下的识别规则XML :

【权利要求】
1. 一种出版物数字资源的自动采集方法,其特征在于,包括: 获取出版物数字资源中的资源文件; 根据预设的识别规则对所述资源文件进行识别,得到识别结果,所述识别结果包括:文 件类型、文件关系及排序; 将所述资源文件上传到服务器; 根据所述识别结果生成所述资源文件的属性信息; 将所述属性信息存储到数据库中。
2. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 获取并解析XML格式的配置文件,从中得到所述识别规则。
3. 根据权利要求1所述的方法,其特征在于,所述根据所述识别结果生成所述资源文 件的属性信息包括: 根据所述识别结果生成XML格式的通知文件; 解析所述通知文件,得到所述资源文件的属性信息。
4. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 在得到所述识别结果后,向用户展现手动修改操作界面,以使用户在所述操作界面上 调整文件的类型、文件关系及排序。
5. 根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括: 从数据库读取资源文件的属性信息,并在浏览器中进行展示所述属性信息。
6. -种出版物数字资源的自动采集系统,其特征在于,包括: 获取模块,用于获取出版物数字资源中的资源文件; 识别模块,用于根据预设的识别规则对所述资源文件进行识别,得到识别结果,所述识 别结果包括:文件类型、文件关系及排序; 上传模块,用于将所述资源文件上传到服务器; 资源入库模块,用于根据所述识别结果生成所述资源文件的属性信息,并将所述属性 信息存储到数据库中。
7. 根据权利要求6所述的系统,其特征在于, 所述识别模块,还用于获取并解析XML格式的配置文件,从中得到所述识别规则。
8. 根据权利要求6所述的系统,其特征在于,所述资源入库模块包括: 解析单元,用于从所述识别模块获取XML格式的通知文件,解析所述XML文件得到资源 文件的属性信息; 入库单元,用于将所述属性信息存储进数据库。
9. 根据权利要求6所述的系统,其特征在于,所述系统还包括: 展现模块,用于在所述识别模块得到识别结果后,向用户展现手动修改操作界面,以使 用户在所述操作界面上调整文件的类型、文件关系及排序。
10. 根据权利要求6至9任一项所述的系统,其特征在于,所述系统还包括: 资源管理模块,用于从数据库读取资源文件的属性信息,并在浏览器中进行展示所述 属性信息。
【文档编号】G06F17/30GK104424271SQ201310385324
【公开日】2015年3月18日 申请日期:2013年8月29日 优先权日:2013年8月29日
【发明者】百华睿, 陈长刚 申请人:北大方正集团有限公司, 方正信息产业控股有限公司, 北京北大方正电子有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1