基于一致性的数据文件价值评估方法和系统与流程

文档序号:12157979阅读:383来源:国知局
基于一致性的数据文件价值评估方法和系统与流程

本发明涉及大数据领域,具体涉及一种基于一致性的数据文件价值评估方法和系统。



背景技术:

数据交易目前处于行业初期,发展非常迅速,但缺少成熟的理论指导。将数据价值量化是一件非常困难的事,这是由数据的本质特征以及目前的商业环境所决定的。同时,这一工作还要受到众多客观因素的阻碍,如数据收集成本的精确评估,数据的贬值与生命周期变化,以及数据的附加价值等。

因此亟待需要一种能够对数据价值进行量化,对数据资产进行估值,以更好的为数据市场行为服务,促进数据市场交易和数据项目落地。



技术实现要素:

针对上述技术问题,本发明提供一种从数据结构一致性的角度对数据价值进行评估,为数据定价和数据交易提供一定的参考依据的评估方法和系统。

一致性是国际公认的空间数据质量指标之一,可以区分为空间一致性、属性一致性、拓扑一致性、语义一致性等类型。现有的一致性研究主要在检测源数据与备份数据是否一致来确保备份数据高可用性的技术。本发明不是衡量源数据和备份数据是否完全一致性问题,而是针对一个数据文件夹,里面包含各种数据类型的的文件,如JSON,图片,视频,音频等等文件,怎么衡量该文件一致性问题是本发明主要解决的问题。

为此,本发明的一实施例提供一种基于一致性的数据文件价值评估方法,包括:采集待评估的数据文件;对采集的数据文件的类型进行划分,并计算每个类型的数据文件在整个数据文件中所占的比例;利用预设的处理方法对所述数据文件的一致性进行处理。

本发明的另一实施例提供一种基于一致性的数据文件价值评估系统,其特征在于,包括:数据采集模块,采集待评估的数据文件;类型划分模块,对采集的数据文件的类型进行划分,并计算每个类型的数据文件在整个数据文件中所占的比例;一致性处理模块,利用预设的处理方法对所述数据文件的一致性进行处理。

本发明提供的基于一致性的数据文件价值评估方法和系统,该方法通过将数据文件集合中不同文件进行格式上的划分,整理出非结构化数据、半结构化数据和结构化数据的比例,再通过不同形态文件的比例,计算出该数据文件集合的格式一致性,解决了数据价值评估和价格评估的一个环节,从数据格式的一致性角度来对数据文件集合进行价值上的评估,为数据价值定价和数据交易提供一定的依据。

附图说明

图1为本发明实施例提供的数据价值评估过程的示意图;

图2为本发明实施例提供的数据价值评估系统的结构示意图。

具体实施方式

以下结合附图对本发明的具体实施方式进行描述。

【本发明的技术思想】

本发明基于一致性原则,通过一致性评分公式来对包含各种数据类型的的文件,如JSON,图片,视频,音频等等文件的数据文件夹的一致性进行评估,从而评估数据文件夹的价值,实现数据价值量化。

图1为本发明实施例提供的数据价值评估过程的示意图。图2为本发明实施例提供的数据价值评估系统的结构示意图。以下结合附图对本发明的数据评估方法和系统进行介绍。

【数据文件评估方法】

如图1所示,本发明的数据文件评估方法包括以下步骤:

S101:采集待评估的数据文件;

S102:数据文件类型划分,并确定比例

S103:对数据文件的一致性进行处理;

上述步骤S101中,可利用现有的数据采集装置来进行数据采集,例如可通过网络爬虫来从网络中采集数据文件,本发明中的数据文件可为包含多个数据文件集合的数据包,也可为单个的文档,采集的数据包可包含JSON,图片,视频,音频等文件,但并不局限于此。

上述步骤S102中,按照数据类型,将采集的数据文件划分为非结构化数据、半结构化数据和结构化数据,并计算这些数据类型占整个文件的大小的比例。具体操作过程中,可通过手动操作来划分数据类型,可借助于R语言和手动操作来完成各个类型的比例计算。

在本发明的实施例中,非结构化数据、半结构化数据和结构化数据定义如下:

非结构化数据:非结构化数据是指没有固定结构的数据,例如,所有格式的办公文档、文本、图片、各类报表、图像和音频、视频信息。

半结构化数据:半结构化数据是指数据具有隐含结构但又不是以二维表之类的形式存在的,介于结构化和非结构化知识源之间的一种知识源,例如,存储员工的简历、类似XML、HTML、JSON等文件。

结构化数据:传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示的数据,例如,存储于csv,excel的数据、二维表。

非结构化数据、半结构化数据和结构化数据在整个数据文件中所占的比例可分别用q、p和h进行表示。

在上述步骤S103中,可通过利用下述一致性评分公式对数据文件的一致性进行评估:

其中,f是指一致性得分,范围为[0,1],f值越大,表示数据文件的一致性越高,q、p和h分别表示非结构化数据、半结构化数据和结构化数据的比例,其中q+p+h=1。

可通过步骤S103中计算的关于数据文件的一致性得分f来评估数据文件的价值,一致性得分f与数据文件价值的成正比,如果f值越大,即越接近1,则表示数据文件相应的估值也越高,所得出的一致性得分会被进行存储。

<实施例>

采集的待评估数据文件为一个JSON类型的专利数据包,大小为1G。利用本发明提供的评估方法进行评估,过程如下:

(1)计算专利数据包中的各类型数据的比例

通过对该数据文件的类型进行划分和比例进行计算,确认含有结构化数据半结构化数据和非结构化数据,且结构化数据为234.5M,半结构化数据为103.36M,结构化数据为686.14M,这样各数据所占比例如下:

结构化数据占比:q=234.5/1024=0.229

半结构化数据占比:p=103.36/1024=0.1

结构化数据占比:h=686.13/1024=0.671

(2)对专利数据包的一致性进行评估

利用评估公式对该专利数据包的评分进行计算,计算结果如下所示:

由于f值只有0.269,所以该专利数据包的内容的一致性不高,因而在对该专利数据包的价值进行评估时,它的价格估值也不会很高。

【数据文件评估系统】

本发明的另一实施例还提供一种评估系统,该系统包括:数据采集模块1,采集待评估的数据文件;类型划分模块2,对采集的数据文件的类型进行划分,并计算每个类型的数据文件在整个数据文件中所占的比例;一致性处理模块3,利用预定公式来确定所述数据文件的一致性得分。

具体地,数据采集模块可通过现有的数据采集装置来进行数据采集,例如可通过网络爬虫来从网络中采集数据文件,本发明中的数据文件可为包含多个数据文件集合的数据包,也可为单个的文档,采集的数据包可包含JSON,图片,视频,音频等文件,但并不局限于此。

类型划分模块在对数据文件的类型进行划分时,按照数据类型,将采集的数据文件划分为非结构化数据、半结构化数据和结构化数据,并计算这些数据类型占整个文件的大小的比例。具体操作过程中,可通过手动操作来划分数据类型,可借助于R语言和手动操作来完成各个类型的比例计算。

在本发明的实施例中,非结构化数据、半结构化数据和结构化数据定义如下:非结构化数据:非结构化数据是指没有固定结构的数据,例如,所有格式的办公文档、文本、图片、各类报表、图像和音频、视频信息。半结构化数据:半结构化数据是指数据具有隐含结构但又不是以二维表之类的形式存在的,介于结构化和非结构化知识源之间的一种知识源,例如,存储员工的简历、类似XML、HTML、JSON等文件。结构化数据:传统的关系数据模型、行数据,存储于数据库,可用二维表结构表示的数据,例如,存储于csv,excel的数据、二维表。非结构化数据、半结构化数据和结构化数据在整个数据文件中所占的比例可分别用q、p和h进行表示。

一致性处理模块在对数据文件的一致性进行处理的过程中,可通过利用下述一致性评分公式对数据文件的一致性进行评估:

其中,f是指一致性得分,范围为[0,1],f值越大,表示数据文件的一致性越高,q、p和h分别表示非结构化数据、半结构化数据和结构化数据的比例,其中q+p+h=1。可通过一致性处理模块处理得到的关于数据文件的一致性得分f来评估数据文件的价值,一致性得分f与数据文件价值的成正比,如果f值越大,即越接近1,则表示数据文件相应的估值也越高。

在本发明中,一致性处理模块所计算得到的关于数据文件的一致性得分会保存在评估系统的存储系统中,并会被传送至数据定价系统中利用,以为数据文件的价值评估提供参考依据,估算的数据文件的价值会在数据交易显示终端或展示平台,例如,对于专利数据包,会在显示有该专利数据包的平台,如专利查询网站上进行显示,以供相关人员参考使用。

需要注意的是,数据文件的评估方面有很多,需要综合考虑各个方面才能得出数据文件的最终估值,本发明提供的只是估算数据文件价值的一方面,为数据文件的估值提供一个参考依据。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1