一种数据服务系统的制作方法

文档序号:12126710阅读:249来源:国知局

本发明涉及一种数据服务系统,具体涉及一种对供应商提供的数据进行服务的数据服务系统。



背景技术:

随着虚拟数据的广泛交易,推出了各种提供数据交易的数据服务平台,数据服务平台涉及供应商提供的数据的管理,包括数据存储、价值评估、定价等一系列操作服务。目前的数据服务平台不能有效的对供应商提供的数据进行管理。



技术实现要素:

针对上述技术问题,本发明提供一种能够有效对供应商提供的数据进行有效管理的数据服务系统。

本发明采用的技术方案为:

本发明的实施例提供一种数据服务系统,包括服务器端和若干客户端,所述服务器端用于对客户端发送的数据进行管理,包括数据接收模块,接收所述客户端发送的数据,并将接收的数据发送给所述数据审核模块;数据审核模块,接收所述数据接收模块发送的数据,并对接收的数据进行审核;数据评估模块,接收所述数据审核模块发送的审核数据,并对所述审核数据进行评估;数据定价模块,基于所述数据评估模块的评估结果,对评估后的数据进行定价;数据发布模块,对所述数据定价模块定价后的数据进行发布;数据存储模块,用于对数据接收模块、数据审核模块、数据定价模块中的数据进行存储;以及数据管理模块,用于对数据接收模块、数据审核模块、数据定价模块和数据存储模块中的数据进行管理。

优选地,所述数据审核模块将被审核的数据组装为一个个元数据,在调用审核接口时,传输元数据ID进行审核,并为所有要进行审核的流数据添加一个时间戳,以便于数据的分页读取。

优选地,所述数据审核模块包括接收到要审核的元数据ID的通知审核接口和根据元数据ID查询数据的审核状态的查询审核结果接口。

优选地,所述数据评估模块包括多个数据评估单元,每个数据评估单元基于预定的评估指标对经数据审核模块审核后的数据进行评估,并给出评估得分,在所有数据评估单元都给出评估得分后,通过指定的加权方法来确定数据的最终评估得分,以及为所有要进行评估的流数据添加一个时间戳,以便于数据的分页读取。

优选地,所述预定的评估指标包括8项评估指标,分别为数据一致性、数据时效性、数据稀缺性、数据重复性、数据量、数据结构化程度、数据完整性和数据冗余度。

优选地,每个数据评估单元基于以下公式(1)给出评估得分:

其中,P为数据评估单元给出的数据评估得分;fi为数据的第i个数据评估指标的评估得分;wi为第i个数据评估指标的权重;

所述数据的最终评估得分通过以下公式(2)得出:

其中,T为数据评估模块给出的数据的最终得分,Pi为每个数据评估单元给出的数据评估得分,Gi为赋予的数据评估单元的重要度。

优选地,所述数据一致性通过以下方法进行指标评估:

其中,H1为数据一致性指标评估得分;La表示实际数据量;Lm为元数据记录数据量;Sa为实际数据文件大小;Sm为元数据记录文件大小;P为数据格式一致性,其使用文件后缀名判别,如果文件后缀名与元数据中记录的数据名相同则赋值1,否则赋值为0;

所述数据时效性通过以下方法进行指标评估:

其中,H4为数据时效性指标评估得分;Tf为记录的最终时间,如无记录时间,则使用元数据时间;Ts为记录的起始时间,如无记录时间,则使用元数据时间;Tn为当前时间;

所述数据冗余度通过以下方法进行指标评估:

其中,H3为数据冗余度指标评估得分;ci为第i条重复记录出现的次数;R为记录的总数;

所述数据完整性通过以下方法进行指标评估:

其中,H2为数据完整性指标评估得分;aij为第i行、第j列数据是否为空值,如果是空值则取0,不是空值则取1;N为全体的数据个数,当数据商品共m行、n列,则N=m×n,且m和n为自然数;

所述数据量通过以下方法进行指标评估:

其中,H5为数据量指标评估得分;x为当前的数据量;O1为评估全量数据量;O2为元数据量;O3是承诺数据;

所述数据重复性通过以下方法进行指标评估:

式中,fc表示重复性指标的得分,ai表示某条重复记录出现的次数;N为记录的总数;其中,fc取值范围为[0,1],fc值越大,信息重复性小,数据价值越高;

所述数据稀缺性通过以下方法进行指标评估:

其中,fx表示稀缺性指标的得分,y表示市场出现的相似数据商品的数据数量;x表示当前数据商品的数据数量,e为自然对数的底;

所述数据量通过以下方法进指标评估:

式中,fs表示数据量指标的得分,La表示实际数据量;Lm表示元数据记录数据量;fs的取值范围为[0,1],当fs接近于0说明数据量远小于元数据中的数据量;fs等于1时表明数据量符合元数据提供的数量。

优选地,所述数据定价模块基于所述数据评估模块的评估结果以及客户端的预期价格,按照数据的类型和不同的定价方式来对评估的数据进行定价。

优选地,所述定价方式包括第一定价方式、第二定价方式和第三定价方式,其中所述第一定价方式为定价整块数据的价位,第二定价方式为定价访问一条数据的价位或者定价打包购买若干条数据的价位,第三定价方式为定价按月调用API查询数据的价位;其中,对于文件数据采用第一定价方式进行定价,对于静态表数据采用第一定价方式、第二定价方式或第三低价方式进行定价,对于动态流数据采用第二定价方式或者第三定价方式进行定价。

本发明的数据服务系统能够对客户端(供应商)提供的数据进行包括审核、评估、定价和发布等一系列服务操作,使得系统能够与客户端进行实时互动,并能够根据客户端实时输入的数据动态进行动态更新,方便便捷,实时高效,经济适用性强。

附图说明

图1为本发明实施例提供的数据服务系统的结构示意图。

具体实施方式

以下结合附图对本发明的数据服务系统进行介绍。

图1为本发明实施例提供的数据服务系统的结构示意图。如图1所示,本发明的实施例提供的数据服务系统,包括服务器端2和若干客户端1,所述服务器端2用于对客户端1发送的数据进行管理,通过网络与客户端1进行通讯连接。客户端1可为提供数据的供应商,可为企业或者个人等,可通过电子设备,如手机、个人电脑等与服务器端2进行信息交互。

服务器端2可包括数据接收模块21,通过数据接收端口接收所述客户端发送的数据,并将接收的数据发送给所述数据审核模块;数据审核模块22,接收所述数据接收模块发送的数据,并对接收的数据进行审核;数据评估模块23,接收所述数据审核模块发送的审核数据,并对所述审核数据进行评估;数据定价模块24,基于所述数据评估模块的评估结果,对评估后的数据进行定价;数据发布模块25,对所述数据定价模块定价后的数据进行发布;数据存储模块27,所述数据存储模块支持PB级的海量存储和访问、动态可插拔水平线性扩展以及适应未知的数据变化及应用扩展;所述数据存储模块基于分布式文件系统HDFS,兼容主流Hadoop发行版,具备Hadoop架构体系下的各种功能特点,同时提供多级索引、服务端计算、用户角色权限控制、SQL接口、大表联合查询、查询优化等能力;以及对数据进行管理的数据管理模块26。

以下,对本发明的数据服务系统的主要模块进行介绍。

在本发明中,数据审核模块22用于对客户端1上传的数据进行审核,保证数据完整、正确的进入后续模块中进行操作。具体地,所述数据审核模块将被审核的数据组装为一个个元数据,在调用审核接口时,传输元数据ID进行审核,当查询元数据详情时,同样是使用元数据ID去调用系统的接口进行查询,并为所有要进行审核的流数据添加一个时间戳,以便于数据的分页读取。所述数据审核模块可包括接收到要审核的元数据ID的通知审核接口和根据元数据ID查询数据的审核状态的查询审核结果接口,具体地,可通过通知审核接口接收到要审核的数据ID,再调用外部系统提供的数据查询接口,将dataId对应的数据详情查询过来,在系统中进行展示,并交由操作者进行审核,审核数据是否通过。

在实际操作中,数据审核模块会提供一个展示审核数据列表的页面,用以显示由外部系统通过接口传送进来的待审核的数据列表,及审核中或已审核的数据元列表,供审核操作者查看。操作者可以选择待审核的数据列表,点击进入详情查看页面,查看元数据的概要信息(此处需要调用外部系统的数据详情查询接口),以及根据需要查询数据的详细信息。并决定是否审核通过。审核操作者审核的结果需要调用客户端所在的外部系统的数据反馈接口,将审核状态和审核相关信息反馈给外部系统。

所述数据评估模块22可以对数据进行多用户评估,最终加权得到最终评估结果,为后面的定价及数据分析提供依据,可包括多个数据评估单元,每个数据评估单元基于预定的评估指标对经数据审核模块审核后的数据进行评估,并给出评估得分,在所有数据评估单元都给出评估得分后,通过指定的加权方法来确定数据的最终评估得分,以及为所有要进行评估的流数据添加一个时间戳,以便于数据的分页读取。数据评估完成之后,可提供接口,以供评估时根据元数据的ID查询评估数据的详细信息。如果是流数据,则需要以分页形式获取展示。业务数据需要对流数据提供时间戳属性,并在数据存储模块中保存已经获取过的时间戳,在时间戳之前的数据默认为都是已经经过查看评估的(数据较大时,操作者的评估可以根据需要进行抽样查看)。此外,可提供一个展示评估数据列表的页面,用以显示已经通过数据审核的数据列表,供评估操作者查看。评估操作者可以选择待评估的数据列表,点击进入多人评估的页面,用以按照约定的指标,例如,包括数据一致性、数据时效性、数据稀缺性、数据重复性、数据量、数据结构化程度、数据完整性和数据冗余度的8项指标,对每个元数据的每一项进行打分,并将最终评估结果保存在数据存储模块27中。还可提供一个汇总页面,设定一个最终评估期限,在到达期限或多人评估结果都到达后(在开发进度允许的情况下,可以实时显示当前评估提交人数,评估完成百分比),将多人的评估结果根据指定的加权方法计算出最终评估结果,进行保存。评估的结果需要调用外部系统的数据反馈接口,将评估状态和评估相关信息反馈给外部系统。

优选地,每个数据评估单元可基于以下公式(1)给出评估得分:

其中,P为数据评估单元给出的数据评估得分;fi为数据的第i个数据评估指标的评估得分;wi为第i个数据评估指标的权重,各权重可基于实际情况来确定,对于不同类型的数据,评估指标的权重可不同;

所述数据的最终评估得分通过以下公式(2)得出:

其中,T为数据评估模块给出的数据的最终得分,Pi为每个数据评估单元给出的数据评估得分,Gi为赋予的数据评估单元的重要度,可根据实际情况来确定,可根据评分操作者的经验来设定,具有较多评分经验的人赋予较多的权值,n为数据评估单元的个数,数据评估单元的个数可根据实际情况来确定,可为5个,8个或者更多个。

优选地,所述数据一致性通过以下方法进行指标评估:

其中,H1为数据一致性指标评估得分;La表示实际数据量;Lm为元数据记录数据量;Sa为实际数据文件大小;Sm为元数据记录文件大小;P为数据格式一致性,其使用文件后缀名判别,如果文件后缀名与元数据中记录的数据名相同则赋值1,否则赋值为0;

所述数据时效性通过以下方法进行指标评估:

其中,H4为数据时效性指标评估得分;Tf为记录的最终时间,如无记录时间,则使用元数据时间;Ts为记录的起始时间,如无记录时间,则使用元数据时间;Tn为当前时间;

所述数据冗余度通过以下方法进行指标评估:

其中,H3为数据冗余度指标评估得分;ci为第i条重复记录出现的次数;R为记录的总数;

所述数据完整性通过以下方法进行指标评估:

其中,H2为数据完整性指标评估得分;aij为第i行、第j列数据是否为空值,如果是空值则取0,不是空值则取1;N为全体的数据个数,当数据商品共m行、n列,则N=m×n,且m和n为自然数;

所述数据量通过以下方法进行指标评估:

其中,H5为数据量指标评估得分;x为当前的数据量;O1为评估全量数据量;O2为元数据量;O3是承诺数据;

所述数据重复性通过以下方法进行指标评估:

式中,fc表示重复性指标的得分,ai表示某条重复记录出现的次数;N为记录的总数;其中,fc取值范围为[0,1],fc值越大,信息重复性小,数据价值越高;

所述数据稀缺性通过以下方法进行指标评估:

其中,fx表示稀缺性指标的得分,y表示市场出现的相似数据商品的数据数量;x表示当前数据商品的数据数量,e为自然对数的底;

所述数据量通过以下方法进指标评估:

式中,fs表示数据量指标的得分,La表示实际数据量;Lm表示元数据记录数据量;fs的取值范围为[0,1],当fs接近于0说明数据量远小于元数据中的数据量;fs等于1时表明数据量符合元数据提供的数量。

所述数据定价模块24基于所述数据评估模块的评估结果以及客户端的预期价格,按照数据的类型和不同的定价方式来对评估的数据进行定价,为后期的数据交易提供价格依据。当数据评估完成后,管理员直接操作定价模块,根据用户的预期价值,及元数据的评估结果,对数据进行最终定价。当元数据有更新时,更新的数据做为新的元数据,重新跑一次审核、评估、定价、发布的流程,跟原先的数据定价没关系。定价成功后,数据定价模块需调用外部系统的数据反馈接口,将定价结果反馈给外部系统。

优选地,所述定价方式可包括第一定价方式、第二定价方式和第三定价方式,其中所述第一定价方式为定价整块数据的价位,即整块数据卖多少钱,第二定价方式为定价访问一条数据的价位或者定价打包购买若干条数据的价位,即按条访问,每条数据多少钱,或者总共多少钱可以购买多少条数据,第三定价方式为定价按月调用API查询数据的价位,即按月调用API查询数据需要多少钱;其中,对于文件数据可采用第一定价方式进行定价,对于静态表数据可采用第一定价方式、第二定价方式或第三低价方式进行定价,对于动态流数据可采用第二定价方式或者第三定价方式进行定价。

所述数据存储模块27用于对前述各模块中的数据进行存储的数据库,其架构在分布式文件系统之上的分布式列式数据库系统,能够为海量的结构化和半结构化数据提供高效存储、实时处理及离线分析的完整解决方案。类似传统数据仓库,所述数据存储模块可存储结构化和半结构化数据。与传统数据库仓库系统相比,其显著特点是:支持PB级的海量存储和访问;动态可插拔水平线性扩展,适应未知的数据变化及应用扩展。

所述数据存储模块基于分布式文件系统HDFS,兼容主流Hadoop发行版,具备Hadoop架构体系下的各种功能特点,同时提供多级索引、服务端计算、用户角色权限控制、SQL接口、大表联合查询、查询优化等能力。主要功能包括:

1.数据存储管理功能:支持海量结构化、半结构化的存储;支持HFile、HBase、TextFile、SequenceFile、ORC、Parquet等多种存储系统;支持以数据库和表的方式对数据进行管理。

2.SQL实时短查询:对全量数据的实时简单查询,包括单表多条件的组合查询

3.SQL长查询@OLAP:支持复杂的SQL分析功能,兼容多维分析模型,尤其对多表join做性能调优

4.增强型局部多索引技术:基于底层K-V模型实现了tabular模型封装,并支持对同一表多字段索引的支持,可分别配置条件字段和结果字段。

5.分布式事务机制:基于多版本数据模型实现了无状态更新以及读取的无锁并行控制,事务处理能力和Google最新技术相当

6.流式数据写入加速:通过客户端并发、IO shortcut、及并发flush,精简数据合并等技术,大幅提升系统的聚合写入带宽,同时保持低时延

7.服务端聚集计算框架:遵循数据计算结合的原则,通过MPP框架将计算分载到距离数据最近的存储节点,有效分载数据分析运算在客户端的计算压力。

8.全文索引及后缀索引:支持对表中一列或多列构建全文索引,并支持实时或批量定时更新机制。对全文索引的检索融合在SQL语法中,可与基于列的数据过滤条件无缝链接做组合查询;同时可提供对字串类字段以后缀方式建索引,并提供与前缀索引相当的查询性能。

9.透明数据压缩:同时支持软件及硬件板卡的压缩技术,压缩功能有效隔离在底层存储,可对上层透明独立。

10.多租户性能隔离:提供不同用户基于表空间的配置,提供表粒度的隔离。

11.快速数据ETL:提供与外部多数据源的并发数据导入/导出通道。包括RDB、文件系统、数据总线等流式数据源。

所述数据管理模块26用于对前述各模块中的数据进行管理,主要操纵和管理数据存储模块27、用于建立、使用和维护数据库的管理模块。它主要对数据存储模块27(以下简称数据库)进行统一的管理和控制,以保证数据库的安全性和完整性。用户可通过数据管理模块26访问数据库中的数据,数据库管理员也通过dbms进行数据库的维护工作。它可使多个应用程序和用户用不同的方法在同时或不同时刻去建立,修改和询问数据库,供用户定义数据库的模式结构与权限约束,实现对数据的追加、删除等操作。

数据管理模块是实现把用户意义下抽象的逻辑数据处理,转换成为计算机中具体的物理数据处理的模块。有了数据管理模块,就可以在抽象意义下处理数据,而不必顾及这些数据在计算机中的布局和物理位置。其具有以下功能:

(1)数据定义:数据管理模块提供数据定义语言DDL(Data Definition Language),供用户定义数据库的三级模式结构、两级映像以及完整性约束和保密限制等约束。DDL主要用于建立、修改数据库的库结构。DDL所描述的库结构仅仅给出了数据库的框架,数据库的框架信息被存放在数据字典(Data Dictionary)中。

(2)数据操作:数据管理模块提供数据操作语言DML(Data Manipulation Language),供用户实现对数据的追加、删除、更新、查询等操作。

(3)数据库的运行管理:数据库的运行管理功能是数据管理模块的运行控制、管理功能,包括多用户环境下的并发控制、安全性检查和存取限制控制、完整性检查和执行、运行日志的组织管理、事务的管理和自动恢复,即保证事务的原子性。

(4)数据组织、存储与管理:数据管理模块要分类组织、存储和管理各种数据,包括数据字典、用户数据、存取路径等,需确定以何种文件结构和存取方式在存储级上组织这些数据,如何实现数据之间的联系。数据组织和存储的基本目标是提高存储空间利用率,选择合适的存取方法提高存取效率。

(5)数据库的保护:数据库中的数据是信息社会的战略资源,所以数据的保护至关重要。数据管理模块对数据库的保护通过4个方面来实现:数据库的恢复、数据库的并发控制、数据库的完整性控制、数据库安全性控制。数据管理模块的其他保护功能还有系统缓冲区的管理以及数据存储的某些自适应调节机制等。

(6)数据库的维护:这一部分包括数据库的数据载入、转换、转储、数据库的重组合重构以及性能监控等功能,这些功能分别由各个使用程序来完成。

(7)通信:数据管理模块具有与操作系统的联机处理、分时系统及远程作业输入的相关接口,负责处理数据的传送。数据管理模块具有与网络中其他软件系统的通信功能以及数据库之间的互操作功能。

数据管理模块的技术特点包括:采用复杂的数据模型表示数据结构,数据冗余小,易扩充,实现了数据共享;具有较高的数据和程序独立性,数据库的独立性有物理独立性和逻辑独立性;为用户提供了方便的用户接口;提供4个方面的数据控制功能,分别是并发控制、恢复、完整性和安全性。数据服务系统中各个应用程序所使用的数据由数据管理模块统一规定,按照一定的数据模型组织和建立,由数据管理模块统一管理和集中控制;增加了数据服务系统的灵活性。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1