本申请涉及数据处理,尤其涉及一种数据处理方法、装置、设备和存储介质。
背景技术:
1、随着计算机的发展,进行数据处理的现象越来越多,例如,进行信用风险评估时,就需要进行相应的数据处理,比如使用多个数据源中的多维数据(比如数据源中的各个特征)对被评估对象(企业、个人)进行评定处理。用于评估的多维数据越丰富越能全面客观地综合评价,但往往存在数据来源多样且数据维度相似高的问题,不仅带来评估偏见,而且容易造成评估效果不稳定,数据成本高、维护难度大。因此对于数据源中的特征的选择显得尤为重要,但目前是通过人工进行选择的,进而导致进行数据处理的智能程度低,进而导致进行数据处理的效率低。
技术实现思路
1、本申请的主要目的在于提供一种数据处理方法、装置、设备和存储介质,旨在解决如何提高数据处理的效率的技术问题。
2、为实现上述目的,本申请提供一种数据处理方法,所述数据处理方法包括以下步骤:
3、确定待进行测试评估的多组数据源,其中,每组数据源至少包括一个特征,每个特征对应一个数据类别,同一所述数据类别包括至少一个特征;
4、确定多个数据类别内被选中的至少一个目标数据类别,确定每个所述目标数据类别对应的最少特征数;
5、依据每个所述特征的区分度确定每个所述特征对应的特征分数,依据所述特征分数对每个所述特征进行排序,得到特征排序队列;
6、依据所述特征排序队列按照每个所述目标数据类别对应的最少特征数进行特征选择,依据选择的特征构建目标特征集,输出所述目标特征集和所述目标特征集内特征对应的目标数据源。
7、可选地,依据每个所述特征的区分度确定每个所述特征对应的特征分数的步骤,包括:
8、计算每个所述特征对应的区分度,并对各所述区分度进行归一化处理,得到第一分数;
9、依据所述第一分数确定每个所述特征对应的特征分数。
10、可选地,依据所述第一分数确定每个所述特征对应的特征分数的步骤,包括:
11、构建多个特征组,并配置每个所述特征组的优先级,依据所述优先级确定每个所述特征组的特征组分数;
12、遍历每个所述特征,将遍历的特征与多个所述特征组进行匹配;
13、若存在多个与遍历的特征匹配的特征组,则依据确定匹配的多个特征组中优先级最高的特征组,将遍历的特征分组至优先级最高的特征组;
14、依据每个所述特征对应的特征组的特征组分数确定第二分数,依据所述第一分数和所述第二分数确定每个所述特征对应的特征分数。
15、可选地,特征组包括以下至少一项:
16、特征组一,同一数据源的多个特征具有相同数据类别;
17、特征组二,不同数据源的多个特征具有相同数据类别;
18、特征组三,同一数据源具有不同数据类别的特征;
19、特征组四,数据源和/或数据类别下只有一个特征。
20、可选地,依据所述第一分数和所述第二分数确定每个所述特征对应的特征分数的步骤,包括:
21、对于每个特征组,确定归属于同一特征组的特征的数量;
22、若归属于同一特征组的特征的数量为一个,则设置所述特征对应的第三分数为预设的区间极大值;
23、若归属于同一特征组的特征的数量为多个,则对所述特征组内的多个特征进行相似度计算,得到特征相似度,依据所述特征相似度确定所述特征对应的第三分数;
24、依据所述第一分数、所述第二分数和所述第三分数确定每个所述特征对应的特征分数。
25、可选地,依据所述特征相似度确定所述特征对应的第三分数的步骤,包括:
26、若存在两个所述特征的特征相似度大于预设相似度阈值,将大于预设相似度阈值的特征相似度对应的两个所述特征作为关联特征;
27、进行两个所述关联特征的区分度比较,将区分度大的关联特征对应的第三分数设置为预设的区间极大值,将区分度小的关联特征对应的第三分数设置为预设的区间极小值,将所述特征组内除所述关联特征之外的其他特征对应的第三分数设置为区间极大值。
28、可选地,依据所述第一分数、所述第二分数和所述第三分数确定每个所述特征对应的特征分数的步骤,包括:
29、对每个所述特征对应的第一分数、第二分数和第三分数进行加权计算,得到特征分数。
30、此外,为实现上述目的,本申请还提供一种数据处理装置,数据处理装置包括:
31、数据源模块,用于确定待进行测试评估的多组数据源,其中,每组数据源至少包括一个特征,每个特征对应一个数据类别,同一所述数据类别包括至少一个特征;
32、确定模块,用于确定多个数据类别内被选中的至少一个目标数据类别,确定每个所述目标数据类别对应的最少特征数;
33、排序模块,用于依据每个所述特征的区分度确定每个所述特征对应的特征分数,依据所述特征分数对每个所述特征进行排序,得到特征排序队列;
34、输出模块,用于依据所述特征排序队列按照每个所述目标数据类别对应的最少特征数进行特征选择,依据选择的特征构建目标特征集,输出所述目标特征集和所述目标特征集内特征对应的目标数据源。
35、本申请还提供一种数据处理设备,所述数据处理设备为实体设备,所述数据处理设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述数据处理方法的程序,所述数据处理方法的程序被处理器执行时可实现如上述的数据处理方法的步骤。
36、本申请还提供一种可读存储介质,所述可读存储介质为所述计算机可读存储介质,所述计算机可读存储介质上存储有实现数据处理方法的程序,所述实现数据处理方法的程序被处理器执行以实现如上述数据处理方法的步骤。
37、本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的数据处理方法的步骤。
38、本申请的技术方案是通过在测试评估的多组数据源内确定被选中的至少一个目标数据类别,以及每个目标数据类别对应的最少特征数,并依据每个特征的区分度确定特征分数,再依据特征分数对特征进行排序,得到特征排序队列,依据特征排序队列按照每个目标数据类别对应的最少特征数进行特征选择,依据选择的特征构建目标特征集,输出目标特征集和目标特征集内特征对应的目标数据源。从而通过在进行特征选择时,增加数据类别的考虑,避免仅仅只考虑特征,进而带来的算法偏见。并且通过依据特征区分度和目标数据类别进行特征选择,进而可以避免通过人工进行特征的选择导致进行数据处理的智能程度低的现象发生,实现了特征选择的智能化,并且是对多组数据源中进行特征提取选择的,因此也增加了特征选择的灵活性和场景适应性。相对于人工选择特征处理的方式,明显提高了数据处理的效率。
1.一种数据处理方法,其特征在于,所述数据处理方法包括以下步骤:
2.如权利要求1所述的数据处理方法,其特征在于,所述依据每个所述特征的区分度确定每个所述特征对应的特征分数的步骤,包括:
3.如权利要求2所述的数据处理方法,其特征在于,所述依据所述第一分数确定每个所述特征对应的特征分数的步骤,包括:
4.如权利要求3所述的数据处理方法,其特征在于,所述特征组包括以下至少一项:
5.如权利要求3所述的数据处理方法,其特征在于,所述依据所述第一分数和所述第二分数确定每个所述特征对应的特征分数的步骤,包括:
6.如权利要求5所述的数据处理方法,其特征在于,所述依据所述特征相似度确定所述特征对应的第三分数的步骤,包括:
7.如权利要求5所述的数据处理方法,其特征在于,所述依据所述第一分数、所述第二分数和所述第三分数确定每个所述特征对应的特征分数的步骤,包括:
8.一种数据处理装置,其特征在于,所述数据处理装置包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述计算机可读存储介质上存储有实现数据处理方法的程序,所述实现数据处理方法的程序被处理器执行以实现如权利要求1至7中任一项所述数据处理方法的步骤。