本发明涉及大数据数据处理,尤其涉及一种数据处理方法和装置。
背景技术:
1、自动估值模型(auotomated valuation model,简称avm)是使用数学统计方法结合房产属性数据与交易数据来计算房产价值的估值模型。大部分自动估值模型的核心方法是在同一时间点比较相似房产的价值,从而得出目标房产的评估值。
2、置信度是用来评估模型效果的常用方式,在模型建立后,通常会给定模型结果的置信度,用于判断其结果的可靠程度,可以理解为模型结果的自评价。当银行在进行房产估值同时获取多个估值模型结果时,需要评价各模型结果的准确性。而各个模型由于在建立过程中依赖的数据不同,导致置信度的标准和规则不同,无法在同一个标准上相对客观的评价模型的置信度。
技术实现思路
1、有鉴于此,本发明实施例提供一种数据处理方法和装置,通过建立拟合置信度,以解决在同一标准上对不同模型的置信度的评估问题。
2、为实现上述目的,根据本发明实施例的一个方面,提供了一种数据处理方法,包括:
3、获取训练样本数据;其中,所述训练样本数据包括多个小区的小区数据和分类标签,以及估值模型的当前置信度数据;
4、通过预设维度从所述小区数据和当前置信度数据中提取出多个特征,对所述多个特征做数据相关性分析,以将符合预设条件的特征作为入参特征;
5、确定小区数据和当前置信度数据中与所述入参特征对应的数据,结合所述多个小区的分类标签,对弱学习器进行训练,得到拟合置信度模型;
6、基于所述拟合置信度模型预测待处理小区数据的分类标签,使用与所得分类标签对应的拟合置信度计算方法,得到拟合置信度,将所述拟合置信度作为所述估值模型的最新置信度。
7、可选的,所述获取训练样本数据,包括:
8、接收多个楼盘的信息,使用楼盘融合模型对所述多个楼盘的信息进行融合处理,得到所述多个楼盘的共有小区;其中,楼盘融合模型包括小区通用名和别名的映射关系;
9、查询每个共有小区的第三方价值,对查询结果为存在的目标小区进行分类标注,将所述目标小区的小区数据和分类标签作为训练样本数据。
10、可选的,所述对查询结果为存在的目标小区进行分类标注,包括:
11、将单个目标小区的小区数据输入多个估值模型中,得到每个估值模型对所述单个目标小区估值的小区价值;
12、对于单个小区价值,确定所述单个小区价值和所述单个目标小区的第三方价值的差值,计算所述差值和所述单个小区价值的比值;
13、确定所述比值所处范围,将与所述范围对应的标注类别的值,作为所述单个目标小区在相应估值模型中的分类标签。
14、可选的,所述通过预设维度从所述小区数据和当前置信度数据中提取出多个特征,对所述多个特征做数据相关性分析,以将符合预设条件的特征作为入参特征,包括:
15、分别通过小区特征维度、统计特征维度,从小区数据中提取出多个特征;以及通过估值置信度维度,从当前置信度数据中提取出多个特征;
16、计算所有特征的相关性矩阵,将所述相关性矩阵绘成热力图,确定热力图中相关性大于预设相关性阈值的特征对;
17、确定所述特征对中每个特征的获取容易度,以去除所述特征对中获取容易度相对较小的目标特征。
18、可选的,还包括:
19、响应于预设特殊特征表中存在所述目标特征,保留所述目标特征。
20、可选的,所述确定小区数据和当前置信度数据中与所述入参特征对应的数据,结合所述多个小区的分类标签,对弱学习器进行训练,得到拟合置信度模型,包括:
21、调用梯度计算方法计算每个入参特征的数据的梯度,按照梯度的绝对值从大到小的顺序对入参特征进行排列,得到入参特征序列;
22、从所述入参特征序列中,提取排序靠前的第一预设采样率的入参特征,以生成第一样本集合;
23、从剩余入参特征序列中,随机提取第二预设采样率的入参特征,以生成第二样本集合,并对集合中每个入参特征的数据乘以预设权重系数;其中,预设权重系数为预设数值和第一预设采样率的差值除以第二预设采样率;
24、合并所述第一样本集合和所述第二样本集合,使用合并后的样本集合对弱学习器进行训练,得到新的弱学习器;
25、重复上述随机提取第二预设采样率的入参特征操作,以更新第二样本集合进行迭代训练,直至达到预设迭代次数或达到损失函数的预设收敛值为止,将最后一次训练得到的弱学习器作为拟合置信度模型。
26、可选的,所述待处理小区数据不包括第三方价值。
27、可选的,拟合置信度计算方法为与分类标签对应的基础得分、分类标签概率得分与预设概率的乘积、成交相近得分三者之和;
28、其中,成交相近得分通过计算小区价值与最近成交价的差异,获取与所得分类标签对应的预设差异,根据所得差异与所述预设差异的大小关系确定。
29、为实现上述目的,根据本发明实施例的另一方面,提供了一种数据处理装置,包括:
30、训练样本模块,用于获取训练样本数据;其中,所述训练样本数据包括多个小区的小区数据和分类标签,以及估值模型的当前置信度数据;
31、特征提取模块,用于通过预设维度从所述小区数据和当前置信度数据中提取出多个特征,对所述多个特征做数据相关性分析,以将符合预设条件的特征作为入参特征;
32、模型训练模块,用于确定小区数据和当前置信度数据中与所述入参特征对应的数据,结合所述多个小区的分类标签,对弱学习器进行训练,得到拟合置信度模型;
33、模型预测模块,用于基于所述拟合置信度模型预测待处理小区数据的分类标签,使用与所得分类标签对应的拟合置信度计算方法,得到拟合置信度,将所述拟合置信度作为所述估值模型的最新置信度。
34、可选的,所述训练样本模块,用于:
35、接收多个楼盘的信息,使用楼盘融合模型对所述多个楼盘的信息进行融合处理,得到所述多个楼盘的共有小区;其中,楼盘融合模型包括小区通用名和别名的映射关系;
36、查询每个共有小区的第三方价值,对查询结果为存在的目标小区进行分类标注,将所述目标小区的小区数据和分类标签作为训练样本数据。
37、可选的,所述训练样本模块,用于:
38、将单个目标小区的小区数据输入多个估值模型中,得到每个估值模型对所述单个目标小区估值的小区价值;
39、对于单个小区价值,确定所述单个小区价值和所述单个目标小区的第三方价值的差值,计算所述差值和所述单个小区价值的比值;
40、确定所述比值所处范围,将与所述范围对应的标注类别的值,作为所述单个目标小区在相应估值模型中的分类标签。
41、可选的,所述特征提取模块,用于:
42、分别通过小区特征维度、统计特征维度,从小区数据中提取出多个特征;以及通过估值置信度维度,从当前置信度数据中提取出多个特征;
43、计算所有特征的相关性矩阵,将所述相关性矩阵绘成热力图,确定热力图中相关性大于预设相关性阈值的特征对;
44、确定所述特征对中每个特征的获取容易度,以去除所述特征对中获取容易度相对较小的目标特征。
45、可选的,所述特征提取模块,还用于:
46、响应于预设特殊特征表中存在所述目标特征,保留所述目标特征。
47、可选的,所述模型训练模块,用于:
48、调用梯度计算方法计算每个入参特征的数据的梯度,按照梯度的绝对值从大到小的顺序对入参特征进行排列,得到入参特征序列;
49、从所述入参特征序列中,提取排序靠前的第一预设采样率的入参特征,以生成第一样本集合;
50、从剩余入参特征序列中,随机提取第二预设采样率的入参特征,以生成第二样本集合,并对集合中每个入参特征的数据乘以预设权重系数;其中,预设权重系数为预设数值和第一预设采样率的差值除以第二预设采样率;
51、合并所述第一样本集合和所述第二样本集合,使用合并后的样本集合对弱学习器进行训练,得到新的弱学习器;
52、重复上述随机提取第二预设采样率的入参特征操作,以更新第二样本集合进行迭代训练,直至达到预设迭代次数或达到损失函数的预设收敛值为止,将最后一次训练得到的弱学习器作为拟合置信度模型。
53、可选的,所述待处理小区数据不包括第三方价值。
54、可选的,拟合置信度计算方法为与分类标签对应的基础得分、分类标签概率得分与预设概率的乘积、成交相近得分三者之和;
55、其中,成交相近得分通过计算小区价值与最近成交价的差异,获取与所得分类标签对应的预设差异,根据所得差异与所述预设差异的大小关系确定。
56、为实现上述目的,根据本发明实施例的再一方面,提供了一种数据处理电子设备。
57、本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的数据处理方法。
58、为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现上述任一所述的数据处理方法。
59、为实现上述目的,根据本发明实施例的又一个方面,提供了一种计算程序产品。本发明实施例的一种计算程序产品,包括计算机程序,所述程序被处理器执行时实现本发明实施例提供的数据处理方法。
60、根据本发明所述提供的方案,上述发明中的一个实施例具有如下优点或有益效果:基于机器学习算法,对训练样本数据进行多维度特征提取,结合小区的分类标签,以构建拟合置信度模型,实现在同一标准上对不同房价自动估值模型的置信度的评估,相比原有置信度结果更加客观公正,以此更新每个房价自动估值模型的置信度,以便后续对不同房价自动估值模型进行比较和运用。
61、上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。