1.一种基于大数据的数据信息脱敏方法,其特征在于,所述方法包括:
在数据从消息中间件消费到第一数据库的过程中,按照第一脱敏策略对预设字段的数据进行脱敏处理,并将脱敏处理后的数据消费落地到所述第一数据库中;
根据数据进入所述第一数据库的入库时间和预设时间段,确定带量纲的待处理数据;
计算所述带量纲的待处理数据中每个字段的统计参数值,并将所述统计参数值存入第二数据库中;
根据所述统计参数值按照第二脱敏策略对所述带量纲的待处理数据进行脱敏,以获取脱敏数据。
2.根据权利要求1所述的方法,其特征在于,所述按照第一脱敏策略对预设字段的数据进行脱敏处理,包括:
根据脱敏需求,对标识性字段进行全掩码处理或选择性掩码处理。
3.根据权利要求1所述的方法,其特征在于,所述第一数据库为hbase数据库,通过hbase的时间戳标识能够识别数据的入库时间;所述第二数据库为mysql数据库。
4.根据权利要求1所述的方法,其特征在于,所述根据所述统计参数值按照第二脱敏策略对所述带量纲的待处理数据进行脱敏,以获取脱敏数据,包括:
利用所述统计参数值对所述所述带量纲的待处理数据进行归一化处理;
对归一化处理后的数据按照预设比例进行缩放时,以获取噪声项;
根据数据的脱敏等级要求将所述噪声项加入到所述带量纲的待处理数据中,以获取脱敏数据。
5.根据权利要求4所述的方法,其特征在于,所述归一化处理,包括:min-max归一化处理和z-score归一化处理;所述统计参数值包括:最大值、最小值、总体平均值和总体标准差。
6.一种基于大数据的数据信息脱敏系统,其特征在于,所述系统包括:
第一脱敏处理单元,用于在数据从消息中间件消费到第一数据库的过程中,按照第一脱敏策略对预设字段的数据进行脱敏处理,并将脱敏处理后的数据消费落地到所述第一数据库中;
带量纲的待处理数据确定单元,用于根据数据进入所述第一数据库的入库时间和预设时间段,确定带量纲的待处理数据;
统计参数值确定单元,用于计算所述带量纲的待处理数据中每个字段的统计参数值,并将所述统计参数值存入第二数据库中;
第二脱敏处理单元,用于根据所述统计参数值按照第二脱敏策略对所述带量纲的待处理数据进行脱敏,以获取脱敏数据。
7.根据权利要求6所述的系统,其特征在于,所述第一脱敏处理单元,按照第一脱敏策略对预设字段的数据进行脱敏处理,包括:
根据脱敏需求,对标识性字段进行全掩码处理或选择性掩码处理。
8.根据权利要求6所述的系统,其特征在于,所述第一数据库为hbase数据库,通过hbase的时间戳标识能够识别数据的入库时间;所述第二数据库为mysql数据库。
9.根据权利要求6所述的系统,其特征在于,所述第二脱敏处理单元,根据所述统计参数值按照第二脱敏策略对所述带量纲的待处理数据进行脱敏,以获取脱敏数据,包括:
利用所述统计参数值对所述所述带量纲的待处理数据进行归一化处理;
对归一化处理后的数据按照预设比例进行缩放时,以获取噪声项;
根据数据的脱敏等级要求将所述噪声项加入到所述带量纲的待处理数据中,以获取脱敏数据。
10.根据权利要求9所述的系统,其特征在于,所述归一化处理,包括:min-max归一化处理和z-score归一化处理;所述统计参数值包括:最大值、最小值、总体平均值和总体标准差。