一种数据敏感性识别方法及装置与流程

文档序号：14249851阅读：231来源：国知局

本发明涉及数据处理技术领域，特别是涉及一种数据敏感性识别方法及装置。

背景技术：

商业银行的应用系统数据量巨大，其中存在非常多的敏感数据。然而，商业银行在部署开发环境、测试环境、演练环境等环境时通常是以生产数据为基础，因此需要进行大规模的数据脱敏处理才能保证数据安全。其中，数据脱敏的核心即为敏感数据的识别，识别其可能存在敏感性的数据，以指导制定合适的脱敏策略并展开脱敏处理。

目前行业在进行数据脱敏处理时，往往凭经验进行敏感性识别，敏感数据分类制定比较随意，缺乏统一的判定规则；敏感性分级一般只考虑单一敏感数据泄漏可能造成的损失，这样制定出的数据脱敏策略往往会不准确，仍存在敏感数据泄漏的风险。

技术实现要素：

针对于上述问题，本发明提供一种数据敏感性识别方法及装置，实现了能够指导制定合适的脱敏策略，提高敏感数据安全性的目的。

为了实现上述目的，根据本发明的第一方面，提供了一种数据敏感性识别方法，该方法包括：

获取数据源中的敏感数据，对所述敏感数据进行分类得到敏感数据类别；

依据预设的泄漏损失特征，对所述敏感数据类别进行分级处理得到敏感数据级别组；

对所述敏感数据级别组进行风险计算，得到所述敏感数据的整体风险值。

优选地，该方法还包括：

根据所述敏感数据类别确定具有关联性的敏感数据类别集合，获取所述具有关联性的敏感数据类别集合中的数据列，按照预设记录规则记录所述数据列的关联性信息。

优选地，所述获取数据源中的敏感数据，对所述敏感数据进行分类得到敏感数据类别，包括：

获取数据源中的敏感数据；

当所述敏感数据包含数据结构信息时，根据所述数据结构信息和预设敏感类别中数据结构信息，对所述敏感数据进行分类得到敏感数据类别；

当所述敏感数据包含数据实例信息时，根据所述数据实例信息和预设敏感类别中数据实例信息，对所述敏感数据进行分类得到敏感数据类别。

优选地，该方法还包括：

对每一类的所述敏感数据类别进行分类，得到所述敏感数据类别对应的敏感子类别。

优选地，所述对所述敏感数据级别组进行风险计算，得到所述敏感数据的整体风险值，包括：

为每个所述敏感数据类别进行初始化泄漏损失特征值设定，并为每个敏感数据级别组设定初始化定位精度特征值；

依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值；

依据所述初始化泄漏损失特征值，计算得到所述每个敏感数据级别组的叠加泄漏损失特征值；

判断得到各个敏感数据级别组之间的关联关系类别，依据所述关联关系类别计算合并风险值；

根据所述合并风险值对所述敏感数据级别组进行风险值计算，得到所述敏感数据的整体风险值。

根据本发明的第二方面，提供了一种数据敏感性识别装置，该装置包括：

分类模块，用于获取数据源中的敏感数据，对所述敏感数据进行分类得到敏感数据类别；

分级模块，用于依据预设的泄漏损失特征，对所述敏感数据类别进行分级处理得到敏感数据级别组；

计算模块，用于对所述敏感数据级别组进行风险计算，得到所述敏感数据的整体风险值。

优选地，该方法还包括：

关联记录模块，用于根据所述敏感数据类别确定具有关联性的敏感数据类别集合，获取所述具有关联性的敏感数据类别集合中的数据列，按照预设记录规则记录所述数据列的关联性信息。

优选地，所述分类模块包括：

获取单元，用于获取数据源中的敏感数据；

第一分类单元，用于当所述敏感数据包含数据结构信息时，根据所述数据结构信息和预设敏感类别中数据结构信息，对所述敏感数据进行分类得到敏感数据类别；

第二分类单元，用于当所述敏感数据包含数据实例信息时，根据所述数据实例信息和预设敏感类别中数据实例信息，对所述敏感数据进行分类得到敏感数据类别。

优选地，其特征在于，所述分类模块还包括：

子分类单元，用于对每一类的所述敏感数据类别进行分类，得到所述敏感数据类别对应的敏感子类别。

优选地，其特征在于，所述计算模块包括：

第一设定单元，用于为每个所述敏感数据类别进行初始化泄漏损失特征值设定，并为每个敏感数据级别组设定初始化定位精度特征值；

第二设定单元，用于依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值；

第一计算单元，用于依据所述初始化泄漏损失特征值，计算得到所述每个敏感数据级别组的叠加泄漏损失特征值；

第二计算单元，用于判断得到各个敏感数据级别组之间的关联关系类别，依据所述关联关系类别计算合并风险值；

第三计算单元，用于根据所述合并风险值对所述敏感数据级别组进行风险值计算，得到所述敏感数据的整体风险值。

相较于现有技术，本发明对敏感数据分类主要依据数据本身的结构特征或者数据实例特征进行了敏感数据类别的确定，相比于传统的凭借主观经验进行分类，更具有统一的分类规则，使得对敏感数据的分类更加准确；然后基于设定的泄露损失特征值对分类的数据进行了风险关联关系的叠加风险特征的放大，可以识别出因为敏感数据叠加后而放大风险的情况，使得敏感分级更加准确。同时，本发明还确定了具有关联性的敏感数据类别集合，能够自动判断潜在的数据表间关联，可以用来配置保持脱敏结果一致性关系的脱敏策略。因此，本发明通过进行对敏感数据更准的分类和分级处理以及关联关系的分析，能够指导对敏感数据制定合适的脱敏策略，提高敏感数据的安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例一提供的一种数据敏感性识别方法的流程示意图；

图2为本发明实施例二提供的一种敏感数据级别组模型示意图；

图3为本发明实施例二对应的图1中所示s13步骤中的获取敏感数据整体风险值方法的流程示意图；

图4为本发明实施例三提供的一种数据敏感性识别装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有设定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

实施例一

参见图1为本发明实施例一提供的一种数据敏感性识别方法，其特征在于，该方法包括以下步骤：

s11、获取数据源中的敏感数据，对所述敏感数据进行分类得到敏感数据类别；

需要说明的是，因为敏感类别是敏感性分类的核心，其包含了泄漏危害特征相同的数据列。在现有的敏感类别分类过程中往往是依靠人们的主观经验进行分类的，而本发明主要是依靠数据结构信息或者数据实例信息时进行分类的。即该过程为：

获取数据源中的敏感数据；

当所述敏感数据包含数据结构信息时，根据所述数据结构信息和预设敏感类别中数据结构信息，对所述敏感数据进行分类得到敏感数据类别；

当所述敏感数据包含数据实例信息时，根据所述数据实例信息和预设敏感类别中数据实例信息，对所述敏感数据进行分类得到敏感数据类别。

举例说明，描述数据列的结构信息，可从数据源的数据结构相关文档、ddl等中获取。该信息是进行敏感类别分类的第一要素，如数据列名为“客户号”且具有特定长度的数据列，可判定敏感类别为“内部身份id”；数据列名包含“明细”且列名包含“交易金额”的数据列，可判定为敏感类别为“明细金额”等。

数据列所包含的具体数据，可从数据源的数据表实例中获取。该信息是进行敏感类别分类的第二要素，如抽样抽取实例数据绝大部分符合身份证特征的数据列，可判定敏感类别为“外部身份id”；抽样抽取实例数据绝大部分为2-3个中文字符，且首字大部分在姓氏码表中的数据列，可判定敏感类别为“个人姓名”。

同时在本发明实施例中还可以增加敏感子类别来进行敏感类别的二级分类，即包括：

对每一类的所述敏感数据类别进行分类，得到所述敏感数据类别对应的敏感子类别。

可以理解的是，敏感子类别将表述相同含义的数据列进行抽象合并，如由于开发中缺乏统一的数据模型规范，导致数据源中可能存在名为“行号”及“机构号”的数据列，但两者实际代表相同的含义，因此可以用名为“行号”的敏感子类别来将两个数据列统一起来。

s12、依据预设的泄漏损失特征，对所述敏感数据类别进行分级处理得到敏感数据级别组；

s13、对所述敏感数据级别组进行风险计算，得到所述敏感数据的整体风险值。

需要说明的是，将敏感数据进行分类后，需要依据泄漏损失特征也可以结合定位精度进行分级。也就是某些敏感数据类别之间具有类似的泄漏损失特征，这样的可以进一步分为同一组，得到了敏感数据级别组。然后根据各个敏感数据类别的初始化赋值和各个敏感数据级别组的初始化赋值，计算得到敏感数据级别组之间的合并风险值，然后根据该合并风险值计算得到敏感数据的整体风险值。

后续，针对不同的场景可以根据敏感数据的整体风险进行对应的数据脱敏策略的设置，比如当整体风险值较高时，可以通过设置该敏感数据的访问权限，例如只有特定的某些人可以进行访问，来提高敏感数据的安全性。

同时，本发明的实施例中的数据敏感性识别方法还包括：

需要说明的是，当确定了具有关联性的敏感数据类别集合a后，可以检查每个识别出敏感类别的源数据列，如果其在敏感子类别a中，可以按照预设的表格记录其所属数据表的关联信息，可以获得与该关联信息进行关联的其他数据表，这样可以自动判断潜在的数据表间的关联，最终指导配置具有关联性的脱敏策略。

通过本发明实施例一公开的技术方案，对敏感数据分类主要依据数据本身的结构特征或者数据实例特征进行了敏感数据类别的确定，相比于传统的凭借主观经验进行分类，更具有统一的分类规则，使得对敏感数据的分类更加准确；然后基于设定的泄露损失特征值对分类的数据进行了风险关联关系的叠加风险特征的放大，可以识别出因为敏感数据叠加后而放大风险的情况，使得敏感分级更加准确。同时，本发明还确定了具有关联性的敏感数据类别集合，能够自动判断潜在的数据表间关联，可以用来配置保持脱敏结果一致性关系的脱敏策略。因此，本发明通过进行对敏感数据更准的分类和分级处理以及关联关系的分析，能够指导对敏感数据制定合适的脱敏策略，提高敏感数据的安全性。

实施例二

参照本发明实施例一和图1中所描述的s11到s13步骤的具体过程，首先要对获取的敏感数据进行分类，主要是根据数据结构信息和数据实例信息对该敏感数据进行分类的，为了分类的详细化，可以进行二级分类即获得敏感子类别。

举例说明，参见表1-1为某商业银行主要的敏感类别及敏感子类别表。

表1-1主要的敏感类别及敏感子类别表

基于表1-1，根据不同商业银行内部数据格式的具体要求，按表1-2格式记录每一类敏感类别及敏感子类别的数据结果特征，例如数据列名、数据列类型等数据结构的信息；及数据实例特征即该数据列包含的数据实例信息。

表1-2敏感类别分类特征表

如上表1-2所示，以“内部身份id”敏感类别为例，后两列记录了“客户号”及“行号”两个敏感子类别的数据结构特征及数据实例特征的文字描述，这些信息可用于数据列的敏感分类。

通过数据源原始信息中包含的两种信息来进行敏感性分类：

数据结构信息：描述数据列的结构信息，可从数据源的数据结构相关文档、ddl等中获取。该信息是进行敏感类别分类的第一要素，如列名为“客户号”且具有特定长度的数据列，可判定敏感类别为“内部身份id”(敏感子类别为“客户号”)；表名包含“明细”且列名包含“交易金额”的数据列，可判定为敏感类别为“明细金额”(敏感子类别为“交易金额”)等。

数据实例信息：数据列所包含的具体数据，可从数据源的数据表实例中获取。该信息是进行敏感类别分类的第二要素，如抽样抽取实例数据绝大部分符合身份证特征的数据列，可判定敏感类别为“外部身份id”(敏感子类别为“身份证号”)；抽样抽取实例数据绝大部分为2-3个中文字符，且首字大部分在姓氏码表(参见第四章中介绍)中的数据列，可判定敏感类别为“个人姓名”(敏感子类别要结合数据结构信息进一步判断)。

确定了数据列的敏感类别，就隐含了是否包含敏感性数据，如果敏感类别为空，则说明其不包含敏感信息。

在获得了敏感数据类别后，需要进行分级处理，也就是将具有相同或类似的泄漏损失特征，对敏感数据类别进行分级处理，得到敏感数据级别组。

该泄漏损失特征也可以结合定位特征进行分析，参见图2，根据图2进行具体的举例说明。

在图2中，表1-1中除“备注”以外的14类敏感类别用圆圈进行表示椭圆圈中包含了具备相同定位特征的敏感类别，也就是具有相类似的泄漏损失特征，其定位特征的大小由椭圆圈灰度颜色深浅区分，颜色越深，定位越精确。大方框将14个敏感类别分成两种类型，左边方框中的敏感类别属于“身份”类型，其记录与用户身份相关的信息，右边方框中的敏感类别属于“账户”类型，其记录与账户相关的信息。虚线代表相同类型(相同方框内)敏感类别定位特征的关联，这种关联体现在当虚线两头同时有敏感数据泄露时，其风险比虚线两头敏感数据单独泄露的风险总和还要大，即定位特征的关联关系有放大风险的效果。例如身份证号(“外部身份id”敏感类别)与手机号(“联系方式”敏感类别)同时泄露比两者单独泄露的风险要大。实线代表不同类型(不同方框内)敏感类别定位特征的关联，这种关联体现在当实线两头同时有敏感数据泄露时，其风险比实线两头敏感数据单独丢失的风险总和还要大，并且风险放大程度要高于虚线(“身份”类型及“账户”类型之间的“定位”特征关联关系的放大风险效果大于“身份”类型或“账户”类型内部的“定位”特征关联关系)。

也就是在进行分级后，可以更加明显地表述出敏感类别分级的客观特征：

对单一敏感类别来说，泄露造成的损失不同；

泄露更多的敏感类别风险更大；

所有敏感类别可归到身份及账户类型中，身份类型或账户类型内部敏感类别的定位精度不同(即定位身份或者账户的精确程度不同)，不同定位精度的敏感类别同时泄露时，上述条目中定义的泄漏损失值简单叠加，并且定位精度越高，风险越高；

身份类型和账户类型中同时泄露了定位精度较高的敏感类别后，风险会高于上述3条条目中的定义，例如，身份与账户的关联信息同时泄露时，风险会大幅放大，并且定位精度越高，风险越高。

参见图3，在图1中的步骤s13所述对所述敏感数据级别组进行风险计算，得到所述敏感数据的整体风险值，包括：

s131、为每个所述敏感数据类别进行初始化泄漏损失特征值设定，并为每个敏感数据级别组设定初始化定位精度特征值；

s132、依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值；

s133、依据所述初始化泄漏损失特征值，计算得到所述每个敏感数据级别组的叠加泄漏损失特征值；

s134、判断得到各个敏感数据级别组之间的关联关系类别，依据所述关联关系类别计算合并风险值；

s135、根据所述合并风险值对所述敏感数据级别组进行风险值计算，得到所述敏感数据的整体风险值。

举例说明，仍参见图2，s131步骤为图2中每个圆圈即每个敏感数据类别，初始化泄露损失特征值，可参考此排序从高到低：身份鉴别信息、账户鉴别信息、外部账户id、外部身份id、个人姓名、企业名称、联系方式、地址信息、个人财产信息、企业财产信息、内部身份id、存量金额、明细金额、内部账户id。为每个椭圆圈(即每个敏感数据级别组)初始化定位精度特征值(≧1)，可参考此排序从高到低：深蓝色椭圆圈、浅蓝色椭圆圈、白色椭圆圈。

依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值；

对敏感级别组中的每个敏感类别，将属于相同椭圆圈的泄露损失特征值进行叠加，得到每个椭圆圈的叠加泄露损失特征值b。如敏感级别组包括外部身份id及内部身份id，其初始化泄露损失特征值分别为a1和a2，则对应的椭圆圈的叠加泄露损失特征值b＝a1+a2。

判断得到各个敏感数据级别组之间的关联关系类别，依据所述关联关系类别计算合并风险值，在图2中虚线为第一类关联关系，实线为第二类关联关系。用定位精度特征值放大叠加泄露损失特征值：假设两个椭圆圈的叠加泄露损失特征值分别为b1和b2，定位精度特征值分别为c1和c2，如果其存在虚线关联，则合并风险为(max(c1，c2))*(b1+b2)；如果其存在实线关联，则合并风险为c1*c2*(b1+b2)。

然后按照先实线后虚线的优先级迭代处理每条实线及虚线，迭代计算出最终整体风险值p。需要说明的是，上一次的合并风险值为下一次进行风险计算时的初始值，以此类推直至完成整个风险值的计算。

对应的，本实施例还包括：

需要说明的是，首先，定义具有关联性的敏感数据类别集合a。由于在本发明实施例中已经确定了敏感数据类别，参见表1-1，对于商业银行来说，通常情况a包含了表1-1中的前6类敏感类别，即内部身份id、外部身份id、个人姓名、企业名称、外部账户id及内部账户id。同时，对某些商业银行来说，除前6类敏感类别以外，其他的敏感子类别也可能具备关联性，如手机号、邮箱地址等敏感子类别，也加入a中，根据各个商业银行的不同规则进行灵活设置。

然后，检查每个被识别出敏感类别的源数据列，如过其敏感数据类别在a中，则按预设格式参见表1-3记录其所属数据表的关联性信息。

表1-3数据表关联性标记表

上表1-3中，记录的是数据源的数据表。“关联关系1-n”列按以下方式记录：数据表中列可能形成的与外表关联的情况。->左边是源数据的数据列名，->右边是前面步骤识别出的敏感子类别，p1或i1等标记说明其为该表主键第一列或某一索引第一列。

最后，对表1-3的“关联关系1-n”列进行梳理，找出不同数据表中->右边的敏感子类别相同的记录，则这些数据表间存在敏感性数据关联，关联的数据列为->左边的源数据列名。

可以获得与该关联信息进行关联的其他数据表，这样可以自动判断潜在的数据表间的关联，最终指导配置具有关联性的脱敏策略。

在本发明实施例二中，对敏感数据分类主要依据数据本身的结构特征或者数据实例特征进行了敏感数据类别的确定，相比于传统的凭借主观经验进行分类，更具有统一的分类规则，使得对敏感数据的分类更加准确；然后基于设定的泄露损失特征值和定位特征值对分类的数据进行了风险关联关系的叠加风险特征的放大，可以识别出因为敏感数据叠加后而放大风险的情况，使得敏感分级更加准确。然后通过计算获得脱敏数据整体的风险值，可以结合具体场景对该整体风险值进行管理和应用。同时，本发明还确定了具有关联性的敏感数据类别集合，能够自动判断潜在的数据表间关联，可以用来配置保持脱敏结果一致性关系的脱敏策略。因此，本发明通过进行对敏感数据更准的分类和分级处理以及关联关系的分析，能够指导对敏感数据制定合适的脱敏策略，提高敏感数据的安全性。

实施例三

与本发明实施例一和实施例二所公开的数据敏感性识别方法相对应，本发明的实施例三还提供了一种数据敏感性识别装置，参见图4，该装置包括：

分类模块1，用于获取数据源中的敏感数据，对所述敏感数据进行分类得到敏感数据类别；

分级模块2，用于依据预设的泄漏损失特征，对所述敏感数据类别进行分级处理得到敏感数据级别组；

计算模块3，用于对所述敏感数据级别组进行风险计算，得到所述敏感数据的整体风险值。

对应的，该方法还包括：

关联记录模块4，用于根据所述敏感数据类别确定具有关联性的敏感数据类别集合，获取所述具有关联性的敏感数据类别集合中的数据列，按照预设记录规则记录所述数据列的关联性信息。

具体的，所述分类模块1包括：

获取单元，用于获取数据源中的敏感数据；

对应的，所述分类模块1还包括：

子分类单元，用于对每一类的所述敏感数据类别进行分类，得到所述敏感数据类别对应的敏感子类别。

具体的，所述计算模块3包括：

第一设定单元，用于为每个所述敏感数据类别进行初始化泄漏损失特征值设定，并为每个敏感数据级别组设定初始化定位精度特征值；

第二设定单元，用于依据所述初始化泄漏损失特征值设定所述每个敏感数据级别组的泄漏损失特征值；

第一计算单元，用于依据所述初始化泄漏损失特征值，计算得到所述每个敏感数据级别组的叠加泄漏损失特征值；

第二计算单元，用于判断得到各个敏感数据级别组之间的关联关系类别，依据所述关联关系类别计算合并风险值；

第三计算单元，用于根据所述合并风险值对所述敏感数据级别组进行风险值计算，得到所述敏感数据的整体风险值。

在本发明的实施例三中，对敏感数据分类主要依据数据本身的结构特征或者数据实例特征进行了敏感数据类别的确定，相比于传统的凭借主观经验进行分类，更具有统一的分类规则，使得对敏感数据的分类更加准确；然后基于设定的泄露损失特征值对分类的数据进行了风险关联关系的叠加风险特征的放大，可以识别出因为敏感数据叠加后而放大风险的情况，使得敏感分级更加准确。同时，本发明还确定了具有关联性的敏感数据类别集合，能够自动判断潜在的数据表间关联，可以用来配置保持脱敏结果一致性关系的脱敏策略。因此，本发明通过进行对敏感数据更准的分类和分级处理以及关联关系的分析，能够指导对敏感数据制定合适的脱敏策略，提高敏感数据的安全性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周期律;焦伟;侯军;蔡仕志;杨启龙;牛晔
技术所有人：中国农业银行股份有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。