出版物资源整合方法与出版物资源整合系统与流程

文档序号:26050777发布日期:2021-07-27 15:25阅读:121来源:国知局
出版物资源整合方法与出版物资源整合系统与流程

本申请涉及出版物资源管理技术领域,特别是涉及一种出版物资源整合方法与出版物资源整合系统。



背景技术:

传统的出版资源管理系统一般包括图书管理系统、课程管理系统和插图库管理系统。三个系统都是独立建设,独立运行,每个系统只处理某一类的数据,或者提供某一部分的功能服务。图书管理系统包含出版的图书资源,用于检索图书相关信息。课程管理系统包含线上线下的课程资源,用于检索课程相关信息。插图库管理系统包含图书与课程中一些图片素材,用于专门管理这些图片素材。

传统的出版资源管理系统中,三个系统独立建设,独立运行,每个系统只处理某一类的数据,或者提供某一部分的功能,图书、课程、图片等资源分散存储在各自系统的数据库中。这就会产生一个问题,各个系统的出版物资源数据之间产生了数据孤岛。如果需要编辑处理某一类型的出版物资源,例如要处理与课程相关的信息需要分别到三个系统中获取相应的信息然后手工汇总分析,这不但会消耗大量的人工工作量,没有实现智能能力与出版生产能力的有效辅助,而且会导致出版社无法有效掌控出版物资源的实时整体情况,无法及时、有效、清晰的对出版物资源进行管理。



技术实现要素:

基于此,有必要针对传统出版资源管理方法导致出版物资源数据之间容易产生数据孤岛的问题,提供一种出版物资源整合方法与出版物资源整合系统。

本申请提供一种出版物资源整合方法,包括:

从业务系统获取多个出版物资源数据同步至数据存储单元;

从出版物资源网站和业务系统抓取运营数据,发送至数据存储单元;

将每一个出版物资源数据进行数据处理,以将每一类出版物资源数据标准化,以将不同的出版物资源数据之间建立关联;

基于所有出版物资源数据建立elasticsearch索引,将所有出版物资源数据导入elasticsearch搜索引擎;所述elasticsearch索引包括多条记录,每一条记录对应一个出版物资源数据。

本申请还提供一种出版物资源整合系统,与业务系统配合使用,包括:

管理单元,用于执行如前述内容提及的出版物资源整合方法;

数据存储单元,与所述管理单元连接,包括出版物资源数据存储单元和运营数据存储单元;

数据处理单元,与所述管理单元和所述数据存储单元分别连接,包括数据标准化单元和素材处理单元;

urc素材库,与所述管理单元和所述数据处理单元分别连接,用于存储媒体处理和内容审核后的文本类素材、图片类素材和语音类素材;

elasticsearch搜索引擎,与所述管理单元连接。

本申请涉及一种出版物资源整合方法与出版物资源整合系统,不但可以实现出版物资源全媒体(音视图文)数据的统一存储和管理,统一模型化和统一标准化,而且能基于此构建出版物资源数据之间的关联关系,有效的避免了出版物资源数据之间的数据孤岛问题,以使得管理者可以通过对出版物资源数据的关联关系的分析提供数据驱动的管理智能决策分析。

附图说明

图1为本申请一实施例提供的出版物资源整合方法的流程示意图;

图2为本申请一实施例提供的出版物资源整合系统的结构示意图。

附图标记:

10-出版物资源整合系统;110-管理单元;120-数据存储单元;

121-出版物资源数据存储单元;122-运营数据存储单元;

130-数据处理单元;131-数据标准化单元;132-素材处理单元;

140-urc素材库;150-elasticsearch搜索引擎;20-业务系统

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供一种出版物资源整合方法。需要说明的是,本申请提供的出版物资源整合方法的应用于任何种类的出版物资源,包括但不仅限于图书、影音资料、课程、资讯、专题、试题、试卷、会议、作者和期刊。

此外,本申请提供的出版物资源整合方法不限制其执行主体。可选地,本申请提供的出版物资源整合方法的执行主体的可以为一种出版物资源整合系统10。所述出版物资源整合系统10与出版商的业务系统20连接。具体地,本申请提供的出版物资源整合方法的执行主体的可以为出版物资源整合系统10中的管理单元110。

如图1所示,在本申请的一实施例中,所述方法包括如下s100至s400:

s100,从业务系统20获取多个出版物资源数据同步至数据存储单元120。

具体地,出版商本地的业务系统20,存放有自身的出版物资源数据。本步骤中,出版物资源整合系统10中的管理单元110可以将业务系统20中的多个出版物资源数据同步至出版物资源整合系统10中的数据存储单元120。

s200,从出版物资源网站和业务系统20抓取运营数据,发送至数据存储单元120。

具体地,步骤s100是出版物资源数据的获取,本步骤是对运营数据的抓取。运营数据可以涵盖很多方面的信息。例如,某一具体的出版物资源(比如图书)的预购人数。

s300,将每一个出版物资源数据进行数据处理,以将每一类出版物资源数据标准化,并以不同的出版物资源数据之间建立关联。

具体地,出版物资源数据在业务系统20中包含了音频,视频,图片等非结构化数据,本步骤的目的一方面是将这些非结构化数据转化为结构化数据。另一方面是将各类出版物资源的数据标准统一,即数据标准化,这样才能生成不同的出版物资源数据之间的关联数据,达到消除不同出版物资源数据之间的数据孤岛的目的。

s400,基于所有出版物资源数据建立elasticsearch索引,将所有出版物资源数据导入elasticsearch搜索引擎150。所述elasticsearch索引包括多条记录。每一条记录对应一个出版物资源数据。

具体地,elasticsearch搜索引擎150是一个基于lucene的搜索服务器,它提供了一个分布式多用户能力的全文搜索引擎,基于restfulweb接口。elasticsearch搜索引擎150具有横向扩展能力强的特点,可以通过每天或每个月将出版物资源数据同步至elasticsearch搜索引擎150中,通过elasticsearch搜索引擎150的aggregation进行数据统计和分析。统计分析的指标可以包括出版物资源总量、部门总量、学科总量、新增出版物资源、新增部门、新增学科、产品分发、搜索频率top5和热门top5中的一种或多种。

本实施例中,本申请涉及一种出版物资源整合方法与出版物资源整合系统,不但可以实现出版物资源全媒体(音视图文)数据的统一存储和管理,统一模型化和统一标准化,而且能基于此构建出版物资源数据之间的关联关系,有效的避免了出版物资源数据之间的数据孤岛问题,以使得管理者可以通过对出版物资源数据的关联关系的分析提供数据驱动的管理智能决策分析。

在本申请的一实施例中,所述s100包括如下步骤:

s110,基于dataworks数据采集脚本将业务系统20中的多个出版资源数据同步至数据存储单元120。

具体地,datawork支持多种计算和存储引擎服务,包括离线计算maxcompute、开源大数据引擎e-mapreduce、基于flink的实时计算、机器学习pai、图计算服务graphcompute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。基于dataworks数据采集脚本可以将业务系统20中的多个出版资源数据同步至数据存储单元120。

在本申请的一实施例中,所述s200包括如下步骤:

s210,基于爬虫服务、埋点服务和日志服务中的一种或多种抓取运营数据,将运营数据发送至数据存储单元120。

具体地,基于爬虫服务,可以从出版物销售网站抓取某一出版物资源或多个出版物资源的网络数据。例如,针对于a图书,可以基于爬虫服务,在amazon网站上抓取有多少用户关注这本书,有多少用户预购这本书,有多少用户实际下单购买了这本书等信息,这些都属于运营数据中的一种。

埋点服务与爬虫服务抓取的数据目标是一致的,也是为了获取某一出版物资源或多个出版物资源的网络数据。与爬虫服务的区别是,埋点服务是预先在出版物销售网站进行埋点,定期自动对出版物销售网站的网络数据进行抓取。

基于日志服务,可以在业务系统20中自动抓取与运营数据有关的日志文件,以帮助业务系统20掌握自己的运营状态。

本实施例中,通过爬虫服务、埋点服务和日志服务中的一种或多种抓取运营数据,可以帮助业务系统20掌握自己的运营状态和外部的运营状态,从而可以更好的维护和管理本地存储的出版物资源数据。

在本申请的一实施例中,所述s300包括以下步骤s310至s320:

s310,建立各类出版物资源的接口标准。

s320,对每一个出版物资源数据依据其对应的接口标准进行标准化处理,贴附标签。

具体地,为了建立不同出版物资源数据的关联关系,首先需要统一各类出版物资源的接口标准。不同的出版物资源数据,只要属于同一类型,就必须使用这个设定好的接口标准。也可以理解为不同的出版物资源数据,只要属于同一类型,使用的都是一个出版物资源模型。通过这种方式,就可以搜集不同的出版物资源数据中的关键信息和有效信息,从而建立不同不同出版物资源数据之间的关联关系。

本实施例中,通过建立各类出版物资源的接口标准,以及对每一个出版物资源数据依据其对应的接口标准进行标准化处理,贴附标签,实现了同一类型出版物资源物数据的统一模型化和统一标准化。

在本申请的一实施例中,所述s310包括以下步骤s311至s315:

s311,建立图书接口标准。所述图书接口标准包括书名、原书名、作者、原书作者、译者、wbs编号、物料号、isbn编号、e-isbn编号、定价、erp定价中的一种或多种标签。

s312,建立音频接口标准。所述音频接口标准包括版号、学科分类、题材、总集数、主讲人、类别、审核和时长中的一种或多种标签。

s313,建立视频接口标准。所述视频接口标准包括版号、学科分类、题材、总集数、主讲人、类别、审核和时长中的一种或多种标签。

s314,建立图片接口标准。所述视频接口标准包括分类、栏目、封面、关键词、名称、来源、简介和缩略图中的一种或多种标签。

s315,建立资讯接口标准.所述资讯接口标准包括读者id、读者层次、分类、省份、城市中的一种或多种标签。

具体地,当然,本实施例只是列举了几种常见的出版物资源类型的接口标准建立方法。以音频类出版物资源为例,基于音频接口标准对音频类出版物资源数据进行标准化处理,就可以在各个音频类出版物资源数据快速贴附版号、学科分类、题材、总集数、主讲人、类别、审核和时长中的一种或多种标签,实现音频类出版物资源数据的核心信息的搜集。

图书接口标准还可以包括合作出版者、erp出版时间、出版时间、所属部门、第一读者层次、第二读者层次、适用对象、关键词、重点项目、获奖信息和策划编辑中的一种或多种标签。

在本申请的一实施例中,所述s300包括如下步骤:

s330,对每一个出版物资源数据中的各类素材进行媒体处理和内容审核。

具体地,除了对素材进行媒体处理和内容审核,还可以针对素材进行媒资元信息处理,获取素材的元信息异步同步至elasticsearch搜索引擎150。只有video/audio/image类型的素材才需要获取元信息。

video元信息会获取视频的时长、大小、码率,video元信息会异步同步到elasticsearch搜索引擎150,可以实现对视频进行大小搜索、时长搜索等功能。

audio元信息包含音频的时长、大小,audio元信息会异步同步到elasticsearch搜索引擎150,可以实现对音频进行大小搜索、时长搜索等功能。

image元信息包含图片的大小,元信息会异步同步到elasticsearch搜索引擎150,可以对图片进行大小搜索。

内容安全审核可以过滤掉一些涉黄和涉及暴恐的不良内容。

本实施例中,通过对每一个出版物资源数据中的各类素材进行媒体处理和内容审核,使得出版物资源数据中的一些非结构化数据可以转化为结构化数据,便于后续将不同的出版物资源数据之间建立关联,内容安全审核可以过滤掉一些涉黄和涉及暴恐的不良内容。

在本申请的一实施例中,所述s330包括如下s331至s336:

s331,选取一个出版物资源数据。

s332,将所述出版物资源数据中的文本类素材进行文档处理。

具体地,文本类素材一般为doc格式的文档,对doc格式的文档进行文档处理,可以基于doc格式的文件生成一张或多张缩略图,这便于用户了解文档的大致内容。

s333,将所述出版物资源数据中的图片类素材进行转码处理,生成转码后的图片类素材,并将转码后的图片类素材进行水印处理。

具体地,图片类素材就是image格式的图片。转化处理可以将不同分辨率大小的图片转化为统一分辨率大小的的图片。例如将1080p,720p的几张图片转码处理,统一生成480p的图片,这属于图片类素材的标准化处理。水印处理就是将转码后的图片按需添加水印,例如添加出版商名字的水印。

步骤s332最终输出的缩略图,步骤s313最终输出的是添加水印后的图片,本质上这两个步骤最终输出的都不是非结构化数据。

s334,将所述转码后的图片类素材进行内容识别处理,生成结构化的图片类素材数据。

具体地,本步骤还需要将所述转码后的图片类素材进行内容识别处理,生成结构化的图片类素材数据。可选地,最终生成json结构的文本数据。内容识别处理可以包括人脸识别,人脸识别可以识别图片中出现人脸。

s335,将所述出版物资源数据中的音视频类素材进行音频转码处理和/或视频转码处理,以及语音识别处理,生成结构化的音视频类素材数据。

具体地,音视频类素材包括video素材和audio素材。audio素材需要进行视频转码处理。video素材由于也可能带有音频,所以既要进行音频转码处理,也要进行视频转码处理。转码处理后的数据还要进行语音识别,最终生成结构化的音视频类素材数据。可选地,最终生成json结构的文本数据。

s336,对经前述四个步骤s332至s335处理后生成的数据进行内容安全审核,审核通过后整合为与所述出版物资源数据对应的素材数据。

具体地,内容安全审核可以过滤掉一些涉黄和涉及暴恐的不良内容。可以将这些处理后并通过内容安全审核的素材存入urc素材库140中。

s316,反复执行上述六个步骤s311至s315,直至所有的出版物资源数据中的各类素材均进行过媒体处理和内容审核。

本实施例中,通过对不同类型的素材进行不同的媒体处理,使得相同类型的素材可以统一转化为同一格式的素材,并将一些非结构化数据转化为结构化数据,便于后续处理。

在本申请的一实施例中,所述s400包括如下s410至s420:

s410,基于所有标准化处理后的出版物资源数据建立产品数据elasticsearch索引,并将所有标准化处理后的出版物资源数据转化为mapping结构存入elasticsearch搜索引擎。

s420,基于所有素材数据建立素材数据elasticsearch索引,并将所有素材数据转化为mapping结构存入elasticsearch搜索引擎。

具体地,mapping结构是数据在elasticsearch搜索引擎150里的表现形式。本实施例通过生成elasticsearch索引,以及向入elasticsearch搜索引擎导入所有标准化处理后的出版物资源数据,以及所有素材数据,实现将所有出版物资源数据以及与其有关的数据管理信息导入了elasticsearch搜索引擎150,有益效果主要有3点:

1.elasticsearch搜索引擎150的搜索速度快。产品name和summary字段mapping定义为text分词,可以支持全文检索,而keyword用于关键词搜索。

2.elasticsearch搜索引擎150横向兼容各种数据库的结构。

3.elasticsearch搜索引擎150可以做出版物资源的统计工作,且统计速度快。产品的分类字段定义为pattern分词,可以支持树形结构统计,即在查询和统计时父分类包含子分类的数据。

在本申请的一实施例中,所述出版物资源整合方法还包括如下步骤:

s500,生成同一isbn出版物资源的搜索dsl、同一主题出版物资源的搜索dsl、同一名称出版物资源的搜索dsl、以及同一分类出版物资源的搜索dsl,以使得不同的结构化出版物资源数据之间得到额外拓展的关联关系。

具体地,生成同一isbn出版物资源的搜索dsl后,可以实现在elasticsearch搜索引擎150内搜索同一isbn的多个出版物资源,例如同一isbn的多本图书,形成一套从书。同一isbn的出版物资源的搜索dsl可以如下:

生成同一主题出版物资源的搜索dsl,可以实现在elasticsearch搜索引擎150内搜索同一主题的多个出版物资源,例如同一主题的多本图书,形成一套从书。同一主题的出版物资源的搜索dsl可以如下:

生成同一名称出版物资源的搜索dsl,可以实现在elasticsearch搜索引擎150内搜索同一名称的多个出版物资源,例如同一名称的多本图书,形成不同的出版社或者不同的版本的集合。同一名称的出版物资源的搜索dsl可以如下:

生成同一分类出版物资源的搜索dsl,可以实现在elasticsearch搜索引擎150内搜索同一分类的多个出版物资源。同一分类的出版物资源的搜索dsl可以如下:

本实施例中,通过生成不同类型的搜索dsl,可以实现使得不同的结构化出版物资源数据之间得到额外拓展的关联关系,使得有相同特质的出版物资源可以得到关联,便于统一管理。

本申请还提供一种出版物资源整合系统10,与业务系统20配合使用。

如图2所示,在本申请的一实施例中,所述出版物资源整合系统10包括管理单元110、数据存储单元120、数据处理单元130、urc素材库140和elasticsearch搜索引擎150。

所述管理单元110用于执行前述内容提及的任意一个实施例中提供的出版物资源整合方法。所述数据存储单元120与所述管理单元110连接。所述数据存储单元120包括出版物资源数据存储单元121和运营数据存储单元122。所述数据处理单元130与所述管理单元110连接。所述数据处理单元130还与所述数据存储单元120连接。所述数据处理单元130包括数据标准化单元131和素材处理单元132。所述urc素材库140与所述管理单元110连接。所述elasticsearch搜索引擎150与所述管理单元110连接。

具体地,所述urc素材库140用于存储媒体处理和内容审核后的各类素材数据。

以上所述实施例的各技术特征可以进行任意的组合,各方法步骤也并不做执行顺序的限制,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1