数据文件可定制化脱敏方法和系统与流程

文档序号:11262118阅读:507来源:国知局
数据文件可定制化脱敏方法和系统与流程

本发明属于信息安全领域,涉及一种对数据型文件中的敏感信息脱敏保护技术,具体地说是一种数据文件可定制化脱敏方法和系统。



背景技术:

近年来伴随着互联网的高速发展,互联网同个人生活的联系也越来越密切。这不仅给用户带来了生活上的遍历,使人们能够随时随地的进行浏览网页、查询问题、购买商品等操作,同时也使用户产生了大量的有关个人隐私的行为数据,这些数据由于政府监管、商业目的或是研究的需要将会发布或提供给第三方使用。这些发布或共享的数据中包括用户的敏感信息,如果数据拥有者直接将这些数据发布或共享,会造成大量的个人隐私泄露,给用户、涉事单位和社会带来恶劣的影响;同时如果数据拥有者使用不当的方式对敏感数据进行任意处理,可能会使数据使用者对数据进行错误的分析,从而使数据使用者做出错误的决策,造成巨大的经济损失。

为了防止在数据发布和共享时泄露隐私信息,目前为止已经提出了采用匿名化的方式对数据进行保护。据不完全统计,目前关于数据发布和共享时的数据安全的发明文献有以下几个。

1.社交网络数据发布的混合随机化隐私保护方法:此发明将现有的k-匿名法和随机化的方法结合,能够阻止采用结构背景知识的重定位攻击,满足社交网络用户对隐私安全的需求。

2.基于频率的轨迹抑制数据发布隐私保护的系统及其方法:此发明根据数据发布隐私保护系统,采用特定的轨迹局部抑制法进行匿名处理。

3.一种优化的社交网络图数据发布隐私保护方法:此发明根据提出的数据发布隐私保护方法对社交网络发布的数据进行隐私保护处理。

4.一种数据发布方法及装置:此发明根据已知类别的属性将待发布数据进行聚类处理后得到待发布数据的属性的类别,然后根据不同属性的类别对所对应的发布方法来发布待发布数据,从而可以为待发布数据的发布提供隐私保护。

以上发明,数据使用人员操作的数据是源数据,而且将处理后的数据直接发布或共享给第三方,不能满足当攻击者为系统内部数据使用人员时的数据保护需求,同时也不能满足数据使用人员对向不同等级的第三方进行共享的数据进行不同程度的保护的需求。



技术实现要素:

本发明的技术任务是针对上述现有技术的不足,为了实现数据使用人员在不同数据使用场景中的敏感数据的安全,同时保证即使内部数据使用人员对原始数据不进行任何操作,也不能获得一些敏感度极高的数据,提供了一种数据文件可定制化脱敏方法和系统。

为了实现上述目标,本发明采取如下技术方案。

1、数据文件可定制化脱敏系统,其特征在于:系统包括敏感信息设置单元(1),解析器(2),格式转换器(3),数据处理单元(4),脱敏规则定制单元(5);

敏感信息设置单元(1):用于系统操作人员对新接收的数据文件进行初始化脱敏设置,设置针对该数据文件默认情况下需要保护的子节点及该子节点相应的脱敏方法名;

解析器(2):用于解析xml文件,得到代表此xml文件的文档对象;

格式转换器(3):用于将数据提供人员提供的数据文件格式转换为xml文件格式,同时由数据使用人员选择是否对输出的文件进行格式转换;

数据处理单元(4):用于保存脱敏函数,验证默认配置文件的完整性,获取代表xml文件的文档对象和临时脱敏配置文件,并根据临时脱敏配置文件中保存的脱敏规则修改文档对象,最终将文档对象中内容写回xml文件;

脱敏规则定制单元(5):用于显示该xml文件的默认配置文件,同时用于数据使用人员设置临时脱敏配置文件。

2、所述敏感信息设置单元用于系统操作人员对新接收的数据文件进行初始化脱敏设置,然后将设置信息保存在默认配置文件中;敏感信息设置单元将该默认配置文件中内容序列化为字符串后,将字符串按设定散列算法进行计算,然后将该xml文件名和该散列字符串保存在存储系统中的散列值记录文件中。

3、所述数据处理单元读取存储系统中数据使用人员选择的xml文件的默认配置文件,如果不存在该默认配置文件,则发出警告提示该xml文件未初始化设置;否则将默认配置文件进行完整性验证。

4、所述数据处理单元用于得到代表xml文件的文档对象和临时脱敏配置文件,并根据临时脱敏配置文件中的内容,生成路径,并按照路径对文档对象中的敏感数据进行修改,最后将文档对象内容写回xml文件。其中临时脱敏配置文件中保存着数据使用人员的设置信息和系统操作人员设置的默认配置信息。

5、所述脱敏规则定制单元用于读取并显示默认配置文件中的内容,同时用于数据使用人员设置临时脱敏配置文件。其中,数据使用人员不可以通过脱敏规则定制单元对系统操作人员的默认配置信息进行修改。

6、所述格式转换器用于将数据提供人员提供的非xml文件格式的数据文件转换为xml文件格式,同时将数据处理单元处理后的xml文件转换为数据使用人员选择的数据格式。

7、数据文件可定制化脱敏系统,敏感信息设置单元(1),解析器(2),格式转换器(3),数据处理单元(4),脱敏规则定制单元(5);(2)与(4)相连,(3)与(4)相连,(4)与(5)相连。

8、数据文件可定制化脱敏方法,其特征在于方法包括两个阶段。

(1)初始化设置阶段:

第一步:数据提供人员提交数据文件,格式转换器判断此数据文件是否为xml文件格式,如果为xml文件格式,则直接将数据文件存入存储系统中;否则,格式转换器将此数据文件转换为xml文件格式后将数据文件存入存储系统中;

第二步:系统操作人员对新接收的数据文件进行初始化脱敏设置;

系统操作人员操作敏感信息设置单元,设置默认情况下需要保护的子节点以及该子节点相应的脱敏方法名。敏感信息设置单元将设置信息保存在存储系统中的默认配置文件中;敏感信息设置单元将默认配置文件中内容序列化为字符串后,将字符串按设定散列算法计算,然后将该xml文件名和该散列字符串保存在存储系统中的散列值记录文件中。

(2)数据操作阶段:数据使用人员选择要操作的xml文件,设为s,脱敏系统从存储系统中读取该xml文件s,并针对此xml文件s做以下操作:

步骤1:数据处理单元读取存储系统中文件s的默认配置文件,如果不存在默认配置文件,则发出警告提示xml文件s未初始化设置;否则将默认配置文件中内容序列化为字符串后,将字符串按设定散列算法计算,然后在存储系统中的散列值记录文件中按照xml文件s的文件名查找并取出对应的散列值,将两个散列值进行比较,验证完整性,如果二者不相同则验证不通过,提示错误,如果二者完全一致则继续;

步骤2:解析器解析xml文件s,得到代表xml文件s的文档对象,即document对象,设为w;

步骤3:脱敏规则定制单元读取存储系统中的文件s的默认配置文件,并显示默认配置文件中所有的父节点、子节点、脱敏状态及对应的可选脱敏函数,同时将脱敏状态标记为“是”的字段显示为需要脱敏并不可取消状态,通过脱敏规则定制单元进行设置,将设置结果保存在临时脱敏配置文件中,并转至步骤4继续执行;

步骤4:数据处理单元判断临时脱敏配置文件中是否还有下一行数据,如果存在下一行数据,转至步骤5继续执行;如果不存在下一行数据,转至步骤7继续执行;

步骤5:设此行是第i行,取得临时脱敏配置文件中第i行的脱敏状态并定义为t,如果t为“否”,则直接转至步骤4继续执行;否则,取出临时脱敏配置文件中第i行的脱敏函数f,然后取出临时脱敏配置文件中第i行的父节点定义为a,子节点定义为b,根据a和b得到节点路径d=“/a/b”,在文档对象w中取得节点路径d所对应的子节点集d(具体方法专业人员均可编程实现,在此不赘述),转至步骤6继续执行;

步骤6:判断子节点集d中是否存在下一个子节点,如果存在,取出该子节点并定义为s,取出子节点s的数据m,使用脱敏函数f对m进行脱敏处理得到m,即m=f(m),用m替换子节点s中的数据值m,并转至步骤6继续执行;如果数据集d中不存在下一个子节点,则转至步骤4继续执行;

步骤7:将脱敏的文档对象w内容写回xml文件s,删除文档对象w,将xml文件提交给格式转换器;

步骤8:格式转换器获取数据使用人员需要的输出文件格式,格式转换器将xml文件s转换为对应的文件格式后输出数据文件。

本发明是一种数据文件可定制化脱敏方法和系统。与现有技术相比具有以下突出的优点。

1.系统操作人员可以针对每个xml文件设置特殊的默认配置文件,保证了对每个xml文件内容的不同保护。

2.在不改变xml文件对应的默认配置文件的情况下,数据使用人员可以对xml文件进行定制化脱敏设置,满足了数据使用人员在不同数据使用场景下的数据安全需求。

3.对于用户和开发人员来说,对业务数据操作不需要考虑对数据的脱敏处理,所有的脱敏操作对应用层开发人员和用户是透明的。

附图说明

图1是本发明数据文件可定制化脱敏方法和系统的结构图。

图2是本发明脱敏系统对数据使用人员选择的xml文件进行脱敏处理的流程图。

图3是本发明中默认配置文件的存储格式示例图。

图4是本发明中临时脱敏配置文件的存储格式示例图。

图5是本发明中散列值记录文件的存储格式示例图。

具体实施方式

下面将结合附图对本发明做进一步的详细说明。图1是系统的结构图,主要包括数据处理单元,敏感信息设置单元,解析器,格式转换器和脱敏规则定制单元,其中默认配置文件存储在存储系统中。图2是脱敏系统对数据使用人员选择的xml文件进行脱敏处理的流程图,具体步骤通过以下数据操作阶段的步骤实现;图3是默认配置文件的存储格式示例图,用于存储系统操作人员设置的默认配置信息。图4是临时脱敏配置文件的存储格式示例图,用于数据处理单元判断xml文件中节点数据是否是敏感数据。图5是散列值记录文件的存储格式示例图,用于存储xml文件名和按照设定散列算法对该xml文件对应的默认配置文件进行散列计算得到的散列值。

初始化设置阶段。

第一步:数据提供人员提交数据文件,格式转换器判断此数据文件是否为xml文件格式,如果为xml文件格式,则直接将数据文件存入存储系统中;否则,格式转换器将此数据文件转换为xml文件格式后将数据文件存入存储系统中。

第二步:系统操作人员对新接收的数据文件进行初始化脱敏设置,系统操作人员操作敏感信息设置单元,设置默认情况下需要保护的子节点以及该子节点相应的脱敏方法名。将设置信息保存在存储系统中该xml文件的默认配置文件中。

第三步:敏感信息设置单元将默认配置文件中内容序列化为字符串后,将字符串按设定散列算法计算,然后将该xml文件名和该散列字符串保存在存储系统中的散列值记录文件中。

数据操作阶段。

第一步:数据使用人员选择要操作的xml文件,设为s,脱敏系统从存储系统中读取该xml文件s。

第二步:数据处理单元读取存储系统中xml文件s的默认配置文件,如果不存在默认配置文件,则发出警告提示xml文件s未初始化设置;否则将默认配置文件中内容序列化为字符串后,将字符串按设定散列算法计算。

第三步:数据处理单元在存储系统中的散列值记录文件中按照s的文件名查找并取出对应的散列值,将两个散列值进行比较,验证完整性,如果二者不相同则验证不通过,提示错误,如果二者完全一致则继续。

第四步:解析器解析xml文件s,得到代表此xml文件s的文档对象w,即document对象,设为w。

第五步:脱敏规则定制单元读取存储系统中的xml文件的默认配置文件,并显示默认配置文件中所有的父节点、子节点、脱敏状态及对应的可选脱敏函数,同时将脱敏状态标记为“是”的节点显示为脱敏并不可取消状态。

第六步:数据使用人员通过脱敏规则定制单元设置,将设置结果保存在临时脱敏配置文件中。

第七步:数据处理单元判断临时脱敏配置文件是否还有下一行数据,如果存在下一行数据,转至第八步继续执行;否则转至第十步继续执行。

第八步:设临时脱敏配置文件中此行是第i行,取得第i行的脱敏状态并定义为t,如果t为“否”,则直接转至第七步继续执行;否则,取出第i行的脱敏函数f,然后取出第i行的父节点定义为a,子节点定义为b,根据a和b得到节点路径d=“/a/b”,在文档对象w中取得节点路径d所对应的子节点集d(具体方法专业人员均可编程实现,在此不赘述),转至第九步继续执行。

第九步:判断子节点集d中是否存在下一个子节点,如果存在,取出该子节点并定义为s,取出子节点s的数据m,使用脱敏函数f对m进行脱敏处理得到m,即m=f(m),用m替换子节点s中的数据值m,并转至第九步继续执行;如果数据集d中不存在下一个子节点,则转至第七步继续执行。

第十步:数据处理单元将脱敏的文档对象w内容写回xml文件s,删除文档对象w,并xml文件提交给格式转换器。

第十一步:格式转换器获取数据使用人员需要输出的文件格式,格式转换器将xml文件s转换为对应的文件格式后输出数据文件。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1