一种大数据脱敏方法与流程

文档序号:15258036发布日期:2018-08-24 20:58阅读:7360来源:国知局

本发明涉及一种大数据脱敏方法,具体涉及一种大数据脱敏方法。



背景技术:

现有技术下,为了保障数据使用过程中的安全,一般采用数据脱敏的方法,对敏感数据进行脱敏,但是已有的方法都是针对数据库进行脱敏,具体的过程如下:

1、基于规则的方式识别数据库中的敏感数据和敏感字段;

2、采用遮挡、替换、随机变换、加密的方式对敏感数据进行脱敏;

3、记录数据脱敏的日志,以供用户查询脱敏任务的执行情况。

随着数据隐私保护越来越重要,政府和企业都采用了数据库脱敏的方式来保障数据的安全,但是仍然存在以下问题:

1、数据资源有结构化、半结构化和非结构化的数据类型,目前,大多数据研究都只针对结构化的数据库数据,如何对图片、文件和多媒体(视频、音频)进行敏感数据脱敏仍然处于探索阶段,没有成熟的方法和流程。

2、已有的敏感数据识别大都是基于规则发现和人工定义的方法,基于规则发现的方法可以有效识别符合规则定义的敏感数据,但是会遗漏掉大量无规则的敏感数据,降低敏感数据识别的准确率;另一方面基于人工定义的方式在数据量比较大的情况下,会增加用户的负担,降低系统的可用性与易用性。

3、现有的数据脱敏仅仅考虑了单个节点敏感数据的识别,忽略了多级部门的敏感数据脱敏及监管的问题。

4、数据拥有者和政府如何对数据脱敏的过程进行监控,分析脱敏日志,实时审计,监测异常行为,及时防止敏感数据泄露,是大部分数据脱敏系统并未考虑的问题,却是亟待解决的问题。

因此,大数据领域亟需一种安全、高效的大数据脱敏方法,既可以实现各种数据类型的敏感数据精准识别与数据脱敏,保障数据的可用性,又可以保证数据脱敏性能的同时,实现敏感数据的多级安全管理。



技术实现要素:

本发明所要解决的技术问题是需要在高效的进行大数据脱敏时,还能够对数据内的异常数据进行判断分离删除,保证存储数据的准确、安全,目的在于提供一种大数据脱敏方法,解决上述的问题。

本发明通过下述技术方案实现:

一种大数据脱敏方法,其特征在于,所述方法包括如下步骤:

s1:在数据采集后将采集的数据进行检测,通过预先输入数据库的特征码与采集的数据进行的特征码进行比对,将采集数据的特征码与数据库内预存的特征码一致的数据进行列出;s2:将列出的数据进行的预存特征码进行删除,并保留数据的其他数据源代码,将处理后的数据与原数据进行数据对比,将对比结果输出至外部设备;s3:通过外部设备进行反馈,并根据反馈结果进行下一步操作,若反馈结果为终止,则停止对处理后的数据进行脱敏,直接将处理后的数据发送至数据库内进行存储,若反馈结果需要进行脱敏,进入步骤s4;s4:将处理后的数据中加入数据变形码,将处理后的数据进行变形,将变形后的数据发送至数据库内进行存储。在目前的大数据脱敏方法中,通常重点都在脱敏上,但是目前的技术对数据脱敏程度还是较低,若使用比较复杂的脱敏技术,则会造成原本数据的杂余数据量增多,增大存储量的难度。目前,数据内部的木马程序增多,并且无关数据字符也有很多,这样进行存储,在加上脱敏所需要的代码对存储模块的要求很高,对此,本申请文件将对采集的数据进行一侧筛检,利用数据库预先存储的特征码进行对比,在对比一致后,能够将有该类特征码的数据进行查验出来,并将该部分特征码进行删除,并处理后的数据发送至外部设置,由人工进行判断是否进行存储,而这些特征码则可以采用木马数据库内的木马特征、杂余数据特征等信息进行判断。若需要则继续脱敏,若不需要进行脱敏则直接就可以进行存储,这样能够将数据字节压缩,保证数据安全和完整的前提下,能够有效的进行数据量的存储,还能够根据用户的要求,进行脱敏操作。

进一步地,所述数据变形码采用分段结构,在采集数据中任意一个字节位置加入一段掩码字节,通过掩码字节对目标数据代码进行掩藏。通过分段结构的数据变形,能够加入多段的掩码字节,保证数据安全进行脱敏。

进一步地,所述外部设备采用pc机、笔记本电脑、平板电脑、手机中任意一种。采用多种外部设备进行结果输出的接收,能够让用户在第一时间获取输出结果的信息,进行及时的处理。

进一步地,所述数据库对数据进行种类分类,所述数据库数据溢出后将最早存储的数据内容进行覆盖。为了避免出现数据库内的最新数据遗失的情况,采用这种覆盖式数据式的存储方式,能够有效避免最新产生的数据遗失。而较早的数据内容能够通过移动硬盘进行导出,节省存储空间。

本发明与现有技术相比,具有如下的优点和有益效果:

1、本发明一种大数据脱敏方法,能够在数据脱敏前,对数据情况进行判断,避免出现木马数据影响数据库;

2、本发明一种大数据脱敏方法,设置的外部设备,能够让用户在第一时间获取数据信息,能够及时进行判断;

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。

实施例

本发明一种大数据脱敏方法,其特征在于,所述方法包括如下步骤:

s1:在数据采集后将采集的数据进行检测,通过预先输入数据库的特征码与采集的数据进行的特征码进行比对,将采集数据的特征码与数据库内预存的特征码一致的数据进行列出;s2:将列出的数据进行的预存特征码进行删除,并保留数据的其他数据源代码,将处理后的数据与原数据进行数据对比,将对比结果输出至外部设备;s3:通过外部设备进行反馈,并根据反馈结果进行下一步操作,若反馈结果为终止,则停止对处理后的数据进行脱敏,直接将处理后的数据发送至数据库内进行存储,若反馈结果需要进行脱敏,进入步骤s4;s4:将处理后的数据中加入数据变形码,将处理后的数据进行变形,将变形后的数据发送至数据库内进行存储。在目前的大数据脱敏方法中,通常重点都在脱敏上,但是目前的技术对数据脱敏程度还是较低,若使用比较复杂的脱敏技术,则会造成原本数据的杂余数据量增多,增大存储量的难度。目前,数据内部的木马程序增多,并且无关数据字符也有很多,这样进行存储,在加上脱敏所需要的代码对存储模块的要求很高,对此,本申请文件将对采集的数据进行一侧筛检,利用数据库预先存储的特征码进行对比,在对比一致后,能够将有该类特征码的数据进行查验出来,并将该部分特征码进行删除,并处理后的数据发送至外部设置,由人工进行判断是否进行存储,而这些特征码则可以采用木马数据库内的木马特征、杂余数据特征等信息进行判断。若需要则继续脱敏,若不需要进行脱敏则直接就可以进行存储,这样能够将数据字节压缩,保证数据安全和完整的前提下,能够有效的进行数据量的存储,还能够根据用户的要求,进行脱敏操作。

所述数据变形码采用分段结构,在采集数据中任意一个字节位置加入一段掩码字节,通过掩码字节对目标数据代码进行掩藏。通过分段结构的数据变形,能够加入多段的掩码字节,保证数据安全进行脱敏。所述外部设备采用pc机、笔记本电脑、平板电脑、手机中任意一种。采用多种外部设备进行结果输出的接收,能够让用户在第一时间获取输出结果的信息,进行及时的处理。

所述数据库对数据进行种类分类,所述数据库数据溢出后将最早存储的数据内容进行覆盖。为了避免出现数据库内的最新数据遗失的情况,采用这种覆盖式数据式的存储方式,能够有效避免最新产生的数据遗失。而较早的数据内容能够通过移动硬盘进行导出,节省存储空间。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1