一种基于大数据的数据信息脱敏方法及系统与流程

文档序号：20702648发布日期：2020-05-12 15:56阅读：来源：国知局

技术特征：

1.一种基于大数据的数据信息脱敏方法，其特征在于，所述方法包括：

在数据从消息中间件消费到第一数据库的过程中，按照第一脱敏策略对预设字段的数据进行脱敏处理，并将脱敏处理后的数据消费落地到所述第一数据库中；

根据数据进入所述第一数据库的入库时间和预设时间段，确定带量纲的待处理数据；

计算所述带量纲的待处理数据中每个字段的统计参数值，并将所述统计参数值存入第二数据库中；

根据所述统计参数值按照第二脱敏策略对所述带量纲的待处理数据进行脱敏，以获取脱敏数据。

2.根据权利要求1所述的方法，其特征在于，所述按照第一脱敏策略对预设字段的数据进行脱敏处理，包括：

根据脱敏需求，对标识性字段进行全掩码处理或选择性掩码处理。

3.根据权利要求1所述的方法，其特征在于，所述第一数据库为hbase数据库，通过hbase的时间戳标识能够识别数据的入库时间；所述第二数据库为mysql数据库。

4.根据权利要求1所述的方法，其特征在于，所述根据所述统计参数值按照第二脱敏策略对所述带量纲的待处理数据进行脱敏，以获取脱敏数据，包括：

利用所述统计参数值对所述所述带量纲的待处理数据进行归一化处理；

对归一化处理后的数据按照预设比例进行缩放时，以获取噪声项；

根据数据的脱敏等级要求将所述噪声项加入到所述带量纲的待处理数据中，以获取脱敏数据。

5.根据权利要求4所述的方法，其特征在于，所述归一化处理，包括:min-max归一化处理和z-score归一化处理；所述统计参数值包括：最大值、最小值、总体平均值和总体标准差。

6.一种基于大数据的数据信息脱敏系统，其特征在于，所述系统包括：

第一脱敏处理单元，用于在数据从消息中间件消费到第一数据库的过程中，按照第一脱敏策略对预设字段的数据进行脱敏处理，并将脱敏处理后的数据消费落地到所述第一数据库中；

带量纲的待处理数据确定单元，用于根据数据进入所述第一数据库的入库时间和预设时间段，确定带量纲的待处理数据；

统计参数值确定单元，用于计算所述带量纲的待处理数据中每个字段的统计参数值，并将所述统计参数值存入第二数据库中；

第二脱敏处理单元，用于根据所述统计参数值按照第二脱敏策略对所述带量纲的待处理数据进行脱敏，以获取脱敏数据。

7.根据权利要求6所述的系统，其特征在于，所述第一脱敏处理单元，按照第一脱敏策略对预设字段的数据进行脱敏处理，包括：

根据脱敏需求，对标识性字段进行全掩码处理或选择性掩码处理。

8.根据权利要求6所述的系统，其特征在于，所述第一数据库为hbase数据库，通过hbase的时间戳标识能够识别数据的入库时间；所述第二数据库为mysql数据库。

9.根据权利要求6所述的系统，其特征在于，所述第二脱敏处理单元，根据所述统计参数值按照第二脱敏策略对所述带量纲的待处理数据进行脱敏，以获取脱敏数据，包括：

利用所述统计参数值对所述所述带量纲的待处理数据进行归一化处理；

对归一化处理后的数据按照预设比例进行缩放时，以获取噪声项；

根据数据的脱敏等级要求将所述噪声项加入到所述带量纲的待处理数据中，以获取脱敏数据。

10.根据权利要求9所述的系统，其特征在于，所述归一化处理，包括:min-max归一化处理和z-score归一化处理；所述统计参数值包括：最大值、最小值、总体平均值和总体标准差。

技术总结
本发明公开了一种基于大数据的数据信息脱敏方法及系统，包括：在数据从消息中间件消费到第一数据库的过程中，按照第一脱敏策略对预设字段的数据进行脱敏处理，并将脱敏处理后的数据消费落地到所述第一数据库中；根据数据进入所述第一数据库的入库时间和预设时间段，确定带量纲的待处理数据；计算所述带量纲的待处理数据中每个字段的统计参数值，并将所述统计参数值存入第二数据库中；根据所述统计参数值按照第二脱敏策略对所述带量纲的待处理数据进行脱敏，以获取脱敏数据。本发明的脱敏方法提升了数据的安全性，相对以往对数值数据进行简单加减固定数或随机值的脱敏方法，更能保证脱敏后的数据在后续使用中的准确性。

技术研发人员：李宜谦;任钦正;孙少平;张学军;鲁龙;宋颖;陈晓敏
受保护的技术使用者：航天信息股份有限公司
技术研发日：2019.12.17
技术公布日：2020.05.12

完整全部详细技术资料下载

当前第2页1 2