数据价值评估方法、终端、装置及可读存储介质与流程

文档序号:19675883发布日期:2020-01-10 23:19阅读:187来源:国知局
数据价值评估方法、终端、装置及可读存储介质与流程

本发明涉及终端技术领域,尤其涉及一种数据价值评估方法、终端、装置及可读存储介质。



背景技术:

当前越来越多的领域开始使用机器学习技术,机器学习模型的准确性和鲁棒性至关重要,这需要大量优质数据集进行训练。

机器学习模型依赖数据训练而成,优质的数据是保证模型训练成功最重要的基础。模型生成之后仍需要不断地更新以提升模型性能,这也依赖于大量优质训练数据的输入。尤其是通过第三方提供的训练数据集对模型进行更新训练,如果训练数据集质量不高,会导致模型的准确性降低,鲁棒性减弱。目前,对训练数据集进行价值评估没有统一的标准或方法。



技术实现要素:

本发明的主要目的在于提供一种数据价值评估方法、终端、装置及可读存储介质,旨在解决现有因训练数据集质量不高,在利用训练数据集训练模型后,导致模型的准确性降低,鲁棒性减弱的技术问题。

为实现上述目的,本发明提供一种数据价值评估方法,所述的数据价值评估方法包括以下步骤:

基于所述特征数据集以及预测模型生成所述特征数据集对应的预测目标数据集;

基于所述原始目标数据集以及所述预测目标数据集,确定所述特征数据集中的异常数据以及所述异常数据对应的数据价值;

基于所述异常数据对应的数据价值以及预设价值,确定所述待评估样本集的评估结果。

进一步地,在一实施方式中,所述特征数据集包括多个子数据,所述基于所述原始目标数据集以及所述预测目标数据集,确定所述特征数据集中的异常数据以及所述异常数据对应的数据价值的步骤包括:

基于所述原始目标数据集获取子数据对应的第一目标值,基于所述预测目标数据集获取所述子数据对应的第一预测值;

在所述第一目标值与所述第一预测值不匹配时,确定所述子数据为异常数据;

基于所述原始目标数据集以及所述预测目标数据集确定所述异常数据对应的数据价值。

进一步地,在一实施方式中,所述预测模型是分类模型,所述预测目标数据集包括预测值和预测值对应的预测概率,所述基于所述原始目标数据集以及所述预测目标数据集确定所述异常数据对应的数据价值的步骤包括:

基于所述预测目标数据集获取所述异常数据对应的预测概率,并基于所述异常数据对应的预测概率确定所述异常数据对应的数据价值。

进一步地,在一实施方式中,所述预测模型是回归模型,所述预测目标数据集包括预测值,所述基于所述原始目标数据集以及所述预测目标数据集确定所述异常数据对应的数据价值的步骤包括:

基于所述原始目标数据集获取所述异常数据对应的第二目标值,基于所述预测目标数据集获取所述异常数据对应的第二预测值,将所述第二目标值和所述第二预测值相减并求绝对值,得到所述异常数据对应的预测误差;

基于所述预测误差以及所述第二目标值确定所述异常数据对应的数据价值。

进一步地,在一实施方式中,所述异常数据包括多个,所述基于所述异常数据对应的数据价值以及预设价值,确定所述待评估样本集的评估结果的步骤包括:

基于所述各个异常数据对应的数据价值确定所述待评估样本集对应的平均价值;

基于所述平均价值以及所述预设价值,确定所述待评估样本集的评估结果。

进一步地,在一实施方式中,所述基于所述各个异常数据对应的数据价值确定所述待评估样本集对应的平均价值的步骤包括:

累加所述各个异常数据对应的数据价值,得到所述待评估样本集对应的总价值,并基于所述总价值得到所述待评估样本集对应的平均价值。

进一步地,在一实施方式中,所述基于所述平均价值以及所述预设价值,确定所述待评估样本集的评估结果的步骤包括:

在所述平均价值大于或等于所述预设价值时,确定所述待评估样本集的评估结果为评估合格;

在所述平均价值小于所述预设价值时,确定所述待评估样本集的评估结果为评估不合格。

进一步地,在一实施方式中,所述数据价值评估装置包括:

生成模块,用于基于所述特征数据集以及预测模型生成所述特征数据集对应的预测目标数据集;

处理模块,用于基于所述原始目标数据集以及所述预测目标数据集,确定所述特征数据集中的异常数据以及所述异常数据对应的数据价值;

评估模块,用于基于所述异常数据对应的数据价值以及预设价值,确定所述待评估样本集的评估结果。

此外,为实现上述目的,本发明还提供一种终端,所述终端包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的数据价值评估程序,所述数据价值评估程序被所述处理器执行时实现上述任一项所述的数据价值评估方法的步骤。

此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有数据价值评估程序,所述数据价值评估程序被处理器执行时实现上述任一项所述的数据价值评估方法的步骤。

本发明基于所述特征数据集以及预测模型生成所述特征数据集对应的预测目标数据集,而后基于所述原始目标数据集以及所述预测目标数据集,确定所述特征数据集中的异常数据以及所述异常数据对应的数据价值,接下来基于所述异常数据对应的数据价值以及预设价值,确定所述待评估样本集的评估结果。通过确定待评估样本集中的异常数据,并计算异常数据对应的数据价值,进而确定待评估样本集对应的平均价值,实现了对待评估样本集的价值评估。当使用价值评估合格的训练数据集训练模型时,可以提升模型的准确性和鲁棒性。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图;

图2为本发明数据价值评估方法第一实施例的流程示意图;

图3为本发明数据价值评估方法一实施例中价值评估的流程示意图;

图4为本发明数据价值评估方法第二实施例的流程示意图;

图5为本发明数据价值评估装置实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境中终端的结构示意图。

如图1所示,该终端可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,终端还可以包括摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等等。其中,传感器比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示屏的亮度,接近传感器可在移动终端移动到耳边时,关闭显示屏和/或背光。作为运动传感器的一种,姿态传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别移动终端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;当然,终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。

本领域技术人员可以理解,图1中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据价值评估程序。

在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接用户端,与用户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的数据价值评估程序。

在本实施例中,终端包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的数据价值评估程序,其中,处理器1001调用存储器1005中存储的数据价值评估程序时,执行本申请各个实施例提供的数据价值评估方法的步骤。

本发明还提供一种数据价值评估方法,参照图2,图2为本发明数据价值评估方法第一实施例的流程示意图。

本发明实施例提供了数据价值评估方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中,该数据价值评估方法包括:

步骤s10,基于所述特征数据集以及预测模型生成所述特征数据集对应的预测目标数据集;

在本实施例中,预测模型包括分类模型和回归模型,分类模型和回归模型的区别在于输出变量的类型,定量输出称为回归,或者说是连续变量预测;定性输出称为分类,或者说是离散变量预测。分类问题中,输出不仅仅只允许取两个值,可以允许多个值,它是离散的;而在回归问题中,输出可取任意实数,是连续的。

具体地,利用训练样本对初始的预测模型进行训练,得到训练后的预测模型。但是模型生成之后需要不断地更新以提升性能,所以需要进一步选择样本集对预测模型继续训练。为了保证训练后模型的准确性和鲁棒性,故对训练样本进行价值评估,然后再使用评估合格的训练样本对模型进行训练。首先,将待评估样本集作为预测模型的输入,由预测模式输出待评估样本集对应的预测目标数据集。

步骤s20,基于所述原始目标数据集以及所述预测目标数据集,确定所述特征数据集中的异常数据以及所述异常数据对应的数据价值;

在本实施例中,一般情况下分类模型或回归模型对数据预测错误或者误差较大的数据拥有更高价值,因为这表明当前模型并没有覆盖该数据所表示的内容,导致模型失效,无法工作。如果给定的样本集中拥有更多的这种异常数据,那么该样本集对于当前模型的效用越大,能够提升模型性能更多。所以评估异常数据的数据价值就可以算出样本集的数据价值。根据原始目标数据集以及预测目标数据集,确定特征数据集中的异常数据以及异常数据对应的数据价值。

步骤s21,基于所述原始目标数据集获取子数据对应的第一目标值,基于所述预测目标数据集获取所述子数据对应的第一预测值;

在本实施例中,待评估样本集包括多个子数据,每个子数据对应一个目标值,目标值也就是子样本的真实值,所有子样本的目标值构成原始目标数据集。利用预测模型对待评估样本集进行预测,得到预测目标数据集,也就是说,每个子样本对应一个预测值,所有子数据的预测值构成预测目标数据集。

需要说明的是,本发明中的第一目标值泛指特征数据集中任一个子数据对应的目标值;本发明中的第二目标值特指特征数据集中的异常数据对应的目标值。

步骤s22,在所述第一目标值与所述第一预测值不匹配时,确定所述子数据为异常数据;

在本实施例中,目标值是子数据的真实值,预测值是根据预测模型得到的。如果预测模型是分类模型,当目标值与预测值完全相等时,则认为目标值与预测值匹配,同理,当目标值与预测值不相等时,则认为目标值与预测值不匹配;如果预测模型是回归模型,当目标值与预测值的差值在误差范围内时,则认为目标值与预测值匹配,当目标值与预测值的差值不在误差范围内时,则认为目标值与预测值不匹配,其中,误差范围值根据实际情况确定,在本发明中不做限定。当一个子数据的目标值与该子数据的预测值不匹配时,则该子数据确定为异常数据。

步骤s23,基于所述原始目标数据集以及所述预测目标数据集确定所述异常数据对应的数据价值。

在本实施例中,评估异常数据的数据价值就可以算出待评估样本集的数据价值,在确定异常数据后,进一步根据原始目标数据集以及预测目标数据集确定异常数据对应的数据价值。

预测模型的类型包括分类模型和回归模型,如图3所示,对应分类模型而言,待评估样本集输入分类模型后输出预测值和预测值对应的预测概率,而后根据原始目标数据集、预测值和预测概率输出评估结果;对应回归模型而言,待评估样本集输入分类模型后输出预测值,而后根据原始目标数据集和预测概率输出评估结果。

具体地,所述预测模型是分类模型,步骤s23包括:

步骤a,基于所述预测目标数据集获取所述异常数据对应的预测概率,并基于所述异常数据对应的预测概率确定所述异常数据对应的数据价值。

在本实施例中,当预测模型是分类模型时,分类模型在输出预测值的同时输出预测值对应的预测概率,预测概率一般是由分类模型本身在对输入数据进行预测时,伴随预测值附带的一个0-1之间的数值,数值越大,表示预测值的置信度越高,一般预测概率大于等于0.5表示预测结果可信度较高(超过50%的概率),所以这是分类模型本身自带的一个数值信息,在实际应用中,对于一个子数据,通过分类模型其预测为不同结果的概率大小是不一样的,选取其中预测概率最大的结果作为子数据的最终预测值,所以预测值和预测概率在分类模型中是伴生关系的。根据预测目标数据集获取异常数据对应的预测概率,并根据异常数据对应的预测概率,确定异常数据对应的数据价值。

具体地,为了描述方便,定义变量如下:

预测模型:m;

待评估样本集:x,包含n条数据{x1,x2,...xn},每一条数据包含t个数值{xi1,xi2,...xit};

原始目标数据集:y,包含n条数据{y1,y2,...yn};

分类模型的预测目标数据集:y',包括目标预测值{y’1,y’2,...y’n}和预测概率{p1,p2,...pn}。

将原始目标数据集{y1,y2,...yn}与预测目标数据集{y’1,y’2,...y’n}的数据进行比较,确定yi≠yi'的项目,对应的xi即为异常数据,xi对应的预测概率为pi。假设有k个异常数据,所有异常数据对应的预测概率记为0≤k≤n,利用如下公式,计算异常数据的数据价值vi:

0≤i≤k

根据公式计算得到的数据价值vi是一个大于等于0且小于等于1的数,即0≤vi≤1,当预测概率越接近0.5时,异常数据的数据价值接近于0,当预测概率越接近1.0时,则异常数据的数据价值越接近1.0。

进一步地,所述预测模型是回归模型,步骤s23包括:

步骤b,基于所述原始目标数据集获取所述异常数据对应的第二目标值,基于所述预测目标数据集获取所述异常数据对应的第二预测值,将所述第二目标值和所述第二预测值相减并求绝对值,得到所述异常数据对应的预测误差;

步骤c,基于所述预测误差以及所述第二目标值确定所述异常数据对应的数据价值。

在本实施例中,预测模型是回归模型,为了描述方便,定义变量如下:

预测模型:m;

待评估样本集:x,包含n条数据{x1,x2,...xn},每一条数据包含t个数值{xi1,xi2,...xit};

原始目标数据集:y,包含n条数据{y1,y2,...yn};

回归模型的预测目标数据集:y',包括目标预测值{y’1,y’2,...y’n}

将原始目标数据集{y1,y2,...yn}与预测目标数据集{y’1,y’2,...y’n}的数据进行比较,确定yi≠yi'的项目,对应的xi即为异常数据。假设有k个异常数据,分别计算异常数据目标值yi与预测值yi'差值的绝对值也就是预测误差,记为利用如下公式,计算异常数据的数据价值vi:

0≤i≤k

根据公式计算得到的数据价值vi是大于等于0的数,当预测值与目标值接近时,异常数据的数据价值接近于0,反之,预测值与目标值相差越大,则异常数据的数据价值越大。

步骤s30,基于所述原始目标数据集以及所述预测目标数据集确定所述异常数据对应的数据价值。

在本实施例中,计算得到各个异常数据对应的数据价值后,进一步计算待评估样本集对应的总价值,待评估样本集的总价值越大,表示待评估样本集的有效性越高,对于模型的效用越大,反之则越小。进一步再计算待评估样本集对应的平均价值,将平均价值与预设价值进行比较,最终确定待评估样本集的评估结果,其中评估结果包括两种:评估合格和评估不合格。当使用价值评估合格的训练数据集训练模型时,可以提升模型的准确性和鲁棒性。

本实施例提出的数据价值评估方法,基于所述特征数据集以及预测模型生成所述特征数据集对应的预测目标数据集,而后基于所述原始目标数据集以及所述预测目标数据集,确定所述特征数据集中的异常数据以及所述异常数据对应的数据价值,接下来基于所述异常数据对应的数据价值以及预设价值,确定所述待评估样本集的评估结果。通过确定待评估样本集中的异常数据,并计算异常样本对应的数据价值,进而确定待评估样本集对应的平均价值,实现了对待评估样本集的价值评估。当使用价值评估合格的训练数据集训练模型时,可以提升模型的准确性和鲁棒性。

基于第一实施例,参照图4,提出本发明数据价值评估方法的第二实施例,在本实施例中,步骤s30包括:

步骤s31,基于所述各个异常数据对应的数据价值确定所述待评估样本集对应的平均价值;

在本实施例中,根据数据价值计算公式得到异常数据的数据价值后,进一步根据各个异常数据的数据价值确定待评估样本集对应的平均价值,而后确定评估结果。

具体地,步骤s31包括:

步骤d,累加所述各个异常数据对应的数据价值,得到所述待评估样本集对应的总价值,并基于所述总价值得到所述待评估样本集对应的平均价值。

在本实施例中,根据数据价值计算公式得到异常数据的数据价值vi,0≤i≤k,首先计算待评估样本集对应的总价值v,待评估样本集对应的总价值等于累加异常数据对应的数据价值,计算公式如下:

进一步计算待评估样本集对应的平均价值:

步骤s32,基于所述平均价值以及所述预设价值,确定所述待评估样本集的评估结果。

在本实施例中,平均价值与预设价值进行比较,最终确定待评估样本集的评估结果,其中评估结果包括两种:评估合格和评估不合格。预设价值根据实际情况确定,在本发明中不做限定。

具体地,步骤s32包括:

步骤e,在所述平均价值大于或等于所述预设价值时,确定所述待评估样本集的评估结果为评估合格;

步骤f,在所述平均价值小于所述预设价值时,确定所述待评估样本集的评估结果为评估不合格。

在本实施例中,通过确定待评估样本集中的异常数据,并计算异常数据对应的数据价值,进而确定待评估样本集对应的平均价值,将平均价值与预设价值进行比较,当平均价值大于或等于预设价值时,说明待评估样本集数据集的有效性较高,对于模型的效用较大,也就是说利用该样本集进行模型训练可以提升模型的准确性和鲁棒性,此时确定待评估样本集的评估结果为评估合格。反之,当平均价值小于预设价值时,说明待评估样本集数据集的有效性较低,对于模型的效用较小,也就是说利用该样本集进行模型训练会降低模型的准确性以及减弱模型的鲁棒性,此时确定待评估样本集的评估结果为评估不合格,不建议用该样本集进行模型训练。

本实施例提出的数据价值评估方法,基于所述各个异常数据对应的数据价值确定所述待评估样本集对应的平均价值,而后基于所述平均价值以及所述预设价值,确定所述待评估样本集的评估结果。通过计算异常数据对应的数据价值,进而确定待评估样本集对应的平均价值,实现了对待评估样本集的价值评估。

本发明进一步提供一种数据价值评估装置,参照图5,图5为本发明数据价值评估装置实施例的功能模块示意图。

生成模块10,用于基于所述特征数据集以及预测模型生成所述特征数据集对应的预测目标数据集;

处理模块20,用于基于所述原始目标数据集以及所述预测目标数据集,确定所述特征数据集中的异常数据以及所述异常数据对应的数据价值;

评估模块30,用于基于所述异常数据对应的数据价值以及预设价值,确定所述待评估样本集的评估结果。

进一步地,所述处理模块20还用于:

基于所述原始目标数据集获取子数据对应的第一目标值,基于所述预测目标数据集获取所述子数据对应的第一预测值;

在所述第一目标值与所述第一预测值不匹配时,确定所述子数据为异常数据;

基于所述原始目标数据集以及所述预测目标数据集确定所述异常数据对应的数据价值。

进一步地,所述处理模块20还用于:

基于所述预测目标数据集获取所述异常数据对应的预测概率,并基于所述异常数据对应的预测概率确定所述异常数据对应的数据价值。

进一步地,所述处理模块20还用于:

基于所述原始目标数据集获取所述异常数据对应的第二目标值,基于所述预测目标数据集获取所述异常数据对应的第二预测值,将所述第二目标值和所述第二预测值相减并求绝对值,得到所述异常数据对应的预测误差;

基于所述预测误差以及所述第二目标值确定所述异常数据对应的数据价值。

进一步地,所述处理模块20还用于:

基于所述各个异常数据对应的数据价值确定所述待评估样本集对应的平均价值;

基于所述平均价值以及所述预设价值,确定所述待评估样本集的评估结果。

进一步地,所述评估模块30还用于:

累加所述各个异常数据对应的数据价值,得到所述待评估样本集对应的总价值,并基于所述总价值得到所述待评估样本集对应的平均价值。

进一步地,所述评估模块30还用于:

在所述平均价值大于或等于所述预设价值时,确定所述待评估样本集的评估结果为评估合格;

在所述平均价值小于所述预设价值时,确定所述待评估样本集的评估结果为评估不合格。

此外,本发明实施例还提出一种可读存储介质,所述可读存储介质上存储有数据价值评估程序,所述数据价值评估程序被处理器执行时实现上述各个实施例中数据价值评估方法的步骤。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个可读存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台系统设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1