本发明涉及资产评估技术领域,特别涉及一种数据资产的评估方法。
背景技术:
考虑到不同行业的数据价值不同,而税收可以判断企业交易金额的大小,故根据税务年鉴等资料,将数据按行业分为:
(1)农业数据
(2)采矿业数据
(3)制造业数据
(4)电力、热力、燃气及水的生产和供应业数据
(5)建筑业数据
(6)批发和零售业数据
(7)交通运输、仓储和邮政业数据
(8)住宿和餐饮业数据
(9)信息传输、软件和信息技术服务业
(10)金融业数据
(11)房地产业数据
(12)租赁和商业服务业数据
(13)教育数据
(14)卫生和社会工作数据
(15)文化、体育和娱乐业数据
(16)公共管理、社会保障和社会组织数据
(17)其他行业数据
我们知道,每个数据文件通常包括多种信息,故按数据内容又可将数据分为:
(1)交易数据
(2)个人信息
(3)商品(服务)信息
(4)生产管理数据
(5)用户评价数据
(6)社交网络数据
其中,个人信息包括供应方信息和消费方信息。值得注意的是,每个数据文件包含上述六类数据中的一类或多类数据。
近年来,随着“大数据”这个词汇频频出现在我们的生活中,数据资产的评估问题也成为社会热点问题。目前关于数据资产的研究还不够完善。考虑到无形资产的评估在国内已取得一定的研究成果,因而数据资产作为一种特殊的无形资产,其价值评估可以与普通无形资产价值评估联系起来。孙荣玲等首先提出对无形资产的价值及价值实现的量化方面进行研究,但传统的评估方法比较粗糙;而后陈昌云提出Black-Scholes期权定价模型和EVA方法,并把它引入到对企业整体价值的评估中,模型更精确,但是未考虑到不同企业之间的差距;而后专家学者不断研究探讨,形成了一套较为完善的无形资产评估体系,主要有收益法、市场法、和成本法,但是数据资产的评估标准和要素与这几种方法依然存在冲突,因此,不能将这些方法完全应用到数据资产中去;与此同时,数据资产价值定义不统一性,数据资产价值评估模型或参考模型与系统的数据资产价值评估维度的缺乏以及数据资产的评估缺少一个具体的量化标准,这给研究人员带来了更多困难。
另外,数据评估对于不同类别来说重要性不同,将其模糊地视作一类,分析结果显得有些脱离实际,与社会对数据的实际需求相悖。除此之外,数据资产的评估结构应考虑更多的方面,过去的研究在结构上也存在不足。
技术实现要素:
有鉴于此,本发明的目的是针对过去方法的不足,提出一种新的数据资产的评估方法。
本发明大数据资产评估方法,其特征在于,包括:
一、数据质量评估,包括:
1、数据准确率的计算
首先从数据表中分别抽样得到训练集、检验集和准确率预测集,每次针对训练集中的一个可预测属性f,设定其为类标号,训练得到一个分类器,并通过检验集进行性能检测;然后用此分类器对预测集中的每个元组的该属性f的值进行预测,预测值和实际值一致(对于数值属性,其差异不超出一定的阈值,如标准差)则认为该属性值为正确的,而准确预测的元组比率即为数据表关于该属性的准确率af。对数据表中的每个属性重复这一过程,得到每个属性的准确率aj;
其中j=1、2、…、m,m为可预测属性的个数;
其中,nt为预测集中的元组数,nrj为预测集中被正确分类的元组数;计算这些aj的加权算术平均值得到数据表的综合准确率A,即:
其中,j为被预测属性的编号,wfj为属性j的权重,其值可以根据属性j的取值范围和离散程度来决定,因为属性取值范围越大、离散程度越高,其预测的准确率越低,赋予的权重应越小;权重的计算公式为:
其中,hj为属性j的熵,熵代表了属性取值范围的大小和离散程度的高低,其计算公式为:
其中,v为取值的个数,pf为属性取第f个值的概率;
最后整个数据集的总准确率为:
其中,wti为表i的权重,t为被评估数据集中表的总个数;权重的公式为:
其中,nti为表i的元组数,nfi为整个数据集的属性数,nt为整个数据集的元组数,nf为整个数据集的属性数;
2、数据完整度I的计算
其中,nnull为缺失或为null的数据项个数,nitem为数据项总个数;
3、数据一致度C的计算
此公式以数据集中一个数据库为考察对象,其中,Ci为被评估数据集第i个数据库的一致度;fni为第i个数据库中总属性数,nname为第i个数据库中命名约定不一致的属性数,ncode为第i个数据库中所用数据代码不一致的属性数,nform为第i个数据库中输入字段的格式不一致的属性数,L为被评估数据集中包含的数据库的个数,Wi为第i个数据库的权重;
4、数据时间价值T的计算
其中,tp表示信息发布的时间,tc表示当前的时间,C(tc,tp)表示信息在tc时刻的影响力大小,即tc时刻的时间价值,a代表的是信息的老化率系数,老化率系数a设置为0.1;
5、通过公式评估数据质量
其中,Qi是按照数据内容分类的第i类数据的数据质量因子;
二、数据规模评估,包括:
1、数据属性数的计算
1)数值数据的属性数计算
(1)通过公式计算数值属性A和B的相关系数rA,B,
其中,n是数据元组的个数,ai和bi分别是元组i在A和B上值,和分别是A和B的均值,σA和σB分别是A和B的标准差;
(2)在得到相关系数后,对数值数据的属性数进行压缩,得到各属性的属性数之和;
2)标称、分类数据的属性数计算
(1)通过χ2检验来判断相关性;
其中,oij是联合事件(Ai,Bj)的观测频度,而eij是(Ai,Bj)的期望频度;
其中,n是数据元组的个数,count(A=ai)是A上值为ai的元组个数,count(B=bi)是B上值为bi的元组个数;χ2统计检验假设A和B独立,基于检验水平,具有自由度(R-1)×(C-1);通过上述公式计算χ2的值,再与χ2检验的拒绝域比较,则可判段两个属性的相关性;
根据多次计算检验,得到自相关的情况下χ2=n,故在χ2>10.828的前提下,可将rA,B作为两个属性之间的相关度,公式如下:
其中,R,C是分类变量的类别数;
(2)在得到相关系数后,对数值数据的属性数进行压缩,属性压缩步骤:
①构建相关系数矩阵
其中,rij=为属性fi和fj的相关度,Ri为属性fi与其他属性相关性的总和,
②将R矩阵的行按Ri从大到小的顺序排序,得到
③增加一列f0代表单个属性初始规模基准
④压缩矩阵得到
⑤将对角线上的元素相加就得到压缩后的属性个数
fnc=r′11+r′22+…+r′nn
2、直接统计得到数据表中的数据元组个数;tnj;
3、单位信息量的计算
(1)离散型属性的信息熵计算公式为:
其中,P(xi)是每个属性值出现的概率;
(2)连续型属性的信息熵的计算:
先选择一种离散化方法对其离散化以后,再按离散型属性信息熵的计算公式进行计算;
(3)得到每个属性的信息熵后,求出属性的平均信息熵:
fn为压缩前单个数据表的属性数;
于是得到单个数据表规模的计算公式:
其中,S为某一张数据表的数据规模衡量因子(单位为bit),fnc为此数据表压缩后的数据属性数,tn为此数据表的元组数,为所有属性的平均信息熵;
三、数据内容评估
采用AHP三标度法构造一个比较矩阵B=(bij)n×n,bij为同一层次上元素比较所得标度取值,具体为
用下式计算各元素的重要性排序指数:
记rmax=MAX{ri},rmin=MIN{ri},bm=rmax/rmin,求出判断矩阵C=(cij)n×n:
从而得到
得到判断矩阵后,按以下步骤计算和检验:
(1)用方根法计算权重,公式如下:
计算步骤:①将C的元素按行相乘得一新向量,
②将新向量的每个分量开n次方,
③将所得向量归一化即为权重向量;
(2)计算一致性指标CI
其中,λmax为判断矩阵C的最大特征值;
(3)查找一致性指标RI
(4)计算一致性比例CR
当CR<0.10时,认为判断矩阵的一致性是可以接受的,否则应对判断矩阵作适量修正;由此,得到以内容分类的每类数据的权重;
四、行业价值计算
1、取税收收入最高的行业,将其价值分数定为100;
2、将其他行业的税收与最高的行业税收相除,再乘以100,得到其他行业的行业价值;
五、数据资产价值计算
1、将数据质量因子Qij、数据规模因子Sij以及按内容分类的权重Wi相乘,如果第i类数据包含多张数据表,则先计算单张数据表,再将这几张数据表的结果累加;
2、按内容分类的每类均按上述计算方法进行计算,得到的结果依次累加;
3、将累加的结果与计算得到的行业价值相乘得到数据资产的价值分数V;
价值分数
4、通过价值分数V评估数据资产价值。
本发明的有益效果:
本发明大数据资产评估方法,其为数据资产的评估提供了具体的量化标准,使评判过程更简单明晰,消除了评判者的主观因素影响,使评判结果与实际更相符合。
附图说明
图1为数据资产价值评估总体结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步描述。
本实施例大数据资产评估方法,包括:
一、数据质量评估,包括:
1、数据准确率的计算,数据准确率描述数据是否与其对应的客观实体的特征相一致;
首先从数据表中分别抽样得到训练集、检验集和准确率预测集,每次针对训练集中的一个可预测属性f,设定其为类标号,训练得到一个分类器,并通过检验集进行性能检测;然后用此分类器对预测集中的每个元组的该属性f的值进行预测,预测值和实际值一致,对于数值属性,其差异不超出一定的阈值,则认为该属性值为正确的,而准确预测的元组比率即为数据表关于该属性的准确率af,对数据表中的每个属性重复这一过程,得到每个属性的准确率aj;
其中j=1、2、…、m,m为可预测属性的个数;
其中,nt为预测集中的元组数,nrj为预测集中被正确分类的元组数;其中分类算法可以自行选择(如:决策树归纳C4.5,CART等);
计算这些aj的加权算术平均值得到数据表的综合准确率A,即;
其中,j为被预测属性的编号,wfj为属性j的权重,其值可以根据属性j的取值范围和离散程度来决定,因为属性取值范围越大、离散程度越高,其预测的准确率越低,赋予的权重应越小;权重的计算公式为:
其中,hj为属性j的熵,熵代表了属性取值范围的大小和离散程度的高低,其计算公式为:
其中,v为取值的个数,pf为属性取第f个值的概率;
最后整个数据集的总准确率为:
其中,wti为表i的权重,t为被评估数据集中表的总个数。权重的公式为:
其中,nti为表i的元组数,nfi为整个数据集的属性数,nt为整个数据集的元组数,nf为整个数据集的属性数;
可预测属性:有些属性的取值范围很大且具有一定的随意性,其中有些信息往往涉及到个人的隐私,在涉及大数据交易和分析的应用中一般需要进行脱敏处理,如:姓名、电话号码、住址等;有些则没有实际含义,如:元组ID、一些项目编码等,对这类属性评估其准确性没有必要,称为不可预测属性,其他称为可预测属性;
2、数据完整度I的计算,数据完整度I描述数据是否存在缺失记录或缺失字段,
其中,nnull为缺失或为null的数据项个数,nitem为数据项总个数;
3、数据一致度C的计算,数据一致度描述同一实体的同一属性的值在不同的系统或数据集中是否一致;
此公式以数据集中一个数据库为考察对象,其中,Ci为被评估数据集第i个数据库的一致度;fni为第i个数据库中总属性数,nname为第i个数据库中命名约定不一致的属性数,ncode为第i个数据库中所用数据代码不一致的属性数,nform为第i个数据库中输入字段的格式不一致的属性数,L为被评估数据集中包含的数据库的个数,Wi为第i个数据库的权重;
4、数据时间价值(T)的计算
其中,tp表示信息发布的时间,tc表示当前的时间,C(tc,tp)表示信息在tc时刻的影响力大小,即tc时刻的时间价值,a代表的是信息的老化率系数,老化率系数a设置为0.1;
5、通过公式评估数据质量
其中,Qi是按照数据内容分类的第i类数据的数据质量因子;
二、数据规模评估,包括:
1、数据属性数的计算,数据属性又称字段,大多数时,表的列称为字段,每个字段包含某一专题的信息;
1)数值数据的属性数计算
(1)通过公式计算数值属性A和B的相关系数rAB,
其中,n是数据元组的个数,ai和bi分别是元组i在A和B上值,和分别是A和B的均值,σA和σB分别是A和B的标准差;
(2)在得到相关系数后,对数值数据的属性数进行压缩,得到各属性的属性数之和;
2)标称、分类数据的属性数计算
(1)通过χ2检验来判断相关性;
其中,oij是联合事件(Ai,Bj)的观测频度,而eij是(Ai,Bj)的期望频度;
其中,n是数据元组的个数,count(A=ai)是A上值为ai的元组个数,count(B=bi)是B上值为bi的元组个数;χ2统计检验假设A和B独立,基于检验水平,具有自由度(R-1)×(C-1);通过上述公式计算χ2的值,再与χ2检验的拒绝域比较,则可判段两个属性的相关性;
根据多次计算检验,得到自相关的情况下χ2=n,故在χ2>10.828的前提下,可将rA,B作为两个属性之间的相关度,公式如下:
其中,R,C是分类变量的类别数;
(2)在得到相关系数后,对数值数据的属性数进行压缩,属性压缩步骤:
①构建相关系数矩阵
其中,rij=为属性fi和fj的相关度,Ri为属性fi与其他属性相关性的总和,
②将R矩阵的行按Ri从大到小的顺序排序,得到
③增加一列f0代表单个属性初始规模基准,设为1;
④按以下程序计算属性规模压缩矩阵
得到
⑤将对角线上的元素相加就得到压缩后的属性个数
fnc=r′11+r′22+…+r′nn
2、直接统计得到数据表中的数据元组个数;tnj;二维表中,元组又称记录,表中的每行,即数据库中的每条记录,就是一个元组;
3、单位信息量的计算,单位信息量指数据文件中,同一个属性所包含不同数值的多少;
(1)离散型属性的信息熵计算公式为:
其中,P(xi)是每个属性值出现的概率;
(2)连续型属性的信息熵的计算:
先选择一种离散化方法对其离散化以后,再按离散型属性信息熵的计算公式进行计算;
(3)得到每个属性的信息熵后,求出属性的平均信息熵:
fn为压缩前单个数据表的属性数;
于是得到单个数据表规模的计算公式:
其中,S为某一张数据表的数据规模衡量因子(单位为bit),fnc为此数据表压缩后的数据属性数,tn为此数据表的元组数,为所有属性的平均信息熵;
三、数据内容评估
采用AHP三标度法构造一个比较矩阵B=(bij)n×n,bij为同一层次上元素比较所得标度取值,具体为
用下式计算各元素的重要性排序指数:
记rmax=MAX{ri},rmin=MIN{ri},bm=rmax/rmin,求出判断矩阵c=(cij)n×n:
从而得到
得到判断矩阵后,按以下步骤计算和检验:
(1)用方根法计算权重,公式如下:
计算步骤:①将c的元素按行相乘得一新向量,
②将新向量的每个分量开n次方,
③将所得向量归一化即为权重向量;
(2)计算一致性指标CI
其中,λmax为判断矩阵C的最大特征值;
(3)查找一致性指标RI
(4)计算一致性比例CR
当CR<0.10时,认为判断矩阵的一致性是可以接受的,否则应对判断矩阵作适量修正;由此,得到以内容分类的每类数据的权重;
四、行业价值计算
1、取税收收入最高的行业,将其价值分数定为100;
2、将其他行业的税收与最高的行业税收相除,再乘以100,得到其他行业的行业价值;
五、数据资产价值计算
1、将数据质量因子Qij、数据规模因子Sij以及按内容分类的权重Wi相乘,如果第i类数据包含多张数据表,则先计算单张数据表,再将这几张数据表的结果累加;
2、按内容分类的每类均按上述计算方法进行计算,得到的结果依次累加;
3、将累加的结果与计算得到的行业价值相乘得到数据资产的价值分数V;
价值分数
4、通过价值分数V评估数据资产价值。
本实施例大数据资产评估方法,其为数据资产的评估提供了具体的量化标准,使评判过程更简单明晰,消除了评判者的主观因素影响,使评判结果与实际更相符合。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。