一种基于数据映射的数据泄漏溯源判定方法及系统与流程

文档序号：17641694发布日期：2019-05-11 00:43阅读：341来源：国知局

本发明涉及信息安全领域，具体涉及一种基于数据映射的数据泄漏溯源判定方法及系统。

背景技术：

随着大数据时代的来临，机器学习等数据分析技术的进步和提升,数据所含有的内在价值使得人们对数据交易和自由流转的需求越发迫切。然而在实现数据交易与流转之前，亟需解决的一大顾虑与难关，是在数据泄露发生时，数据的原始所有方如何才能将责任划清界限并使正当权益得到维护。

数据溯源的难题是，数据交付时将作为一个数据集交付，而流通并泄露后得到的可能仅仅是其一个子集。即数据集是可分割的，无法被捆绑打包并作为一个整体做上标记。而若是对其中的每一条目做上标记，则将遇到另一困难，就是标记的隐蔽性和抗移除性，若添加的数据易于辨别且无关紧要，则数据流通时该标记完全可能被移除。

另外，数据溯源中的另一问题，是泄露的数据与最初交付的原始数据集之间可以存在一定的差异。比如，当如下一些操作并非大规模发生、或仅对重要性较低的部分发生时，可以不对数据的使用价值产生显著影响：增，向数据中添加一些的数据，这里指的是添加整条数据；删，删除数据中部分数据；改，修改数据中的某些字段或者增删某些字段。

技术实现要素：

针对上述技术问题，本发明提供一种基于数据映射的数据泄漏溯源判定方法及系统。

本发明解决上述技术问题的技术方案如下：一种基于数据映射的数据泄漏溯源判定方法，包括：

步骤1、抽取原始数据集的子集作为交付数据集；

步骤2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象；

步骤3、根据所述交付数据集中所有数据的数据标记的数量，建立所述交付对象的识别标签；

步骤4、将待溯源数据集中的每一条数据，与所述原始数据集进行匹配，得到由所述原始数据集中匹配成功的数据构成的匹配数据集；

步骤5、统计所述匹配数据集中所有数据的数据标记的分布，结合所述识别标签，判定所述待溯源数据集所指向的交付对象。

为实现上述发明目的，本发明还提供一种基于数据映射的数据泄漏溯源判定系统，包括：

抽取模块，用于抽取原始数据集的子集作为交付数据集；

标记模块，用于对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象；

建立模块，用于根据所述交付数据集中所有数据的数据标记的数量，建立所述交付对象的识别标签；

匹配模块，用于将待溯源数据集中的每一条数据，与所述原始数据集进行匹配，得到由所述原始数据集中匹配成功的数据构成的匹配数据集；

判定模块，用于统计所述匹配数据集中所有数据的数据标记的分布，结合所述识别标签，判定所述待溯源数据集所指向的交付对象。

本发明的有益效果是：在不改变原始数据集的情况下，通过将不同的原始数据集抽取的子集进行数据标记后分发给不同的用户，并针对不同交付对象的交付数据集中的数据标记的数量统计关系建立了对应的识别标签，在发现数据泄露后的追责阶段，可以根据泄露的数据对应的识别标签找到具体的数据持有用户。

附图说明

图1为本发明实施例提供的一种基于数据映射的数据泄漏溯源判定方法的流程图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明实施例提供的一种基于数据映射的数据泄漏溯源判定方法的流程图，如图1所示，该方法包括：

s1、抽取原始数据集的子集作为交付数据集；

具体的，可以按照一定的抽取规则从数据集的随机均匀抽取，该规则包含但不限于随机抽样。

s2、对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象；

具体的，数据标记(datalabel)与单条数据单元绑定，用于标识历史交付对象。一条数据标记可以标识一个或多个交付对象，也可以标识空的交付对象(即未曾被交付)。举例来说，数据标记的一种实现方式是使用比特串，使每一位代表一个特定的交付对象，假设比特串的四位分别代表abcd四个交付对象，以“1”代表“交付过”，且0001，0110，0000是某三条数据的数据标记，则这三条数据依次“曾仅交付过d”，“仅交付过bc”，“未曾交付过”。

s3、根据所述交付数据集中所有数据的数据标记的数量，建立所述交付对象的识别标签；

具体的，交付数据集中所有数据的数据标记的数量指的是对“交付给该交付对象的数据集”所记录的、与该交付对象及交付数据集绑定的、该交付数据集中每条数据标记所标识的“交付对象(包含所有历史交付对象)”经统计求和所得数量，由于交付的随机性，每个交付对象的数量统计会存在一定的区别，可据此建立交付对象的识别标签。

在具体实现时应当注意，不同的识别标签之间，应满足一定的区分度，以便在数据匹配部分能够区分判定不同的交付对象。

另外，不同的交付数据集的数据量可以不同；不同的交付数据集之间可以有交集；数据标记以及交付对象识别标签仅由原始数据所有者掌握，不随交付数据集交付；数据标记标识了交付对象，但这种标识并非只能是“个体”与“标识”的一一对应，例如，一个交付对象可以交付多个标识的数据集(一对多)，或者某一集体对象共用一个标识(多对一)，或某一集体对象共用多个标识的交付数据集(多对多)。

s4、将待溯源数据集中的每一条数据，与所述原始数据集进行匹配，得到由原始数据集中匹配成功的数据构成的匹配数据集；

具体的，当原始数据持有者得知数据泄露后，需要对获取的泄露数据进行溯源时，可将泄露数据与原始数据集进行匹配，按照设定的匹配算法得到由原始数据集中匹配成功的数据构成的匹配数据集。

s5、统计所述匹配数据集中所有数据的数据标记的分布，结合所述识别标签，判定所述待溯源数据集所指向的交付对象。

具体的，在得到匹配数据集后，原始数据持有者通过所掌握的数据标记对匹配数据集中所有数据的数据标记的分布进行统计，并将其与所掌握的交付对象的识别标签进行比对，即可对待溯源数据集所指向的交付对象进行判定，从而可对该交付对象进行相应的追责。

本发明本发明实施例提供的一种基于数据映射的数据泄漏溯源判定方法，在不改变原始数据集的情况下，通过将不同的原始数据集抽取的子集进行数据标记后分发给不同的用户，并针对不同交付对象的交付数据集中的数据标记的数量统计关系建立了对应的识别标签，在发现数据泄露后的追责阶段，可以根据泄露的数据对应的识别标签找到具体的数据持有用户。

可选地，在该实施例中，步骤s1具体包括：随机抽取原始数据集的预设比例的数据作为交付数据集。

具体的，子集的抽取规则应满足，其一，抽取子集应具有随机分布性，不应影响数据的统计分布；其二，抽取子集应设定上限，不能超过原始数据量的一定比例，不能为100％(即全部数据)，且该上限值设置得越大，该发明方法的可靠性越低，可在50％左右选择。

可选地，在该实施例中，步骤s3具体包括：

s3.1、按照交付对象分别统计所述交付数据集中所有子集的数据标记的数量；

s3.2、分别计算各个交付对象对应的数据标记的数量与所述交付数据集数据总量的比例；

s3.3、将计算得到的各个比例按照预设顺序排列构成的向量作为所述交付对象的识别标签。

具体的，在该实施例中，交付对象的识别标签(usertag)，即对“交付给该交付对象的数据集”所记录的、与该交付对象及交付数据集绑定的、该交付数据集中每条数据标记所标识的“交付对象(包含所有历史交付对象)”经统计求和所得数量或其占交付数据集总量的比例“按指定顺序”构成的向量。比如，交付给a的数据集共有10万条，其中全部数据标有a的标识，5万条标有b的标识，5万条标有c的标识，5万条标有d的标识，且原始数据集仅交付(或交付过)abcd四个对象，则a的识别标签可以是(10，5，5，5)或(100％，50％，50％，50％)等。

可选地，在该实施例中，步骤s4具体包括：将待溯源数据集中的每一条数据，与所述原始数据集中的各条数据进行相似度计算，将所述原始数据集中与所述待溯源数据集中数据的相似度最大且最大相似度大于预设阈值的数据加入匹配数据集。

具体的，数据在流转的过程中可能会被施以某种程度的修改和变更，所以溯源时需要允许待溯源数据与匹配的原始数据间存在一定程度的差异。具体来说，应定义一相似度计算方法，用以定义两条数据的相似程度；同时应设定一相似度阈值，认为相似度计算结果不在该阈值范围内的两条数据，不能经过“不影响使用价值的修改”而相互得到。

该步骤中涉及的概念及名词定义如下：

相似度计算方法：用于度量两条数据的相似程度。可以是函数，且依函数的不同定义方式，可以是函数值越大越相似，也可以是函数值越接近0越相似。

相似度阈值：若两条数据利用相似度计算方法得到相似度落在该阈值所定范围内，则可认为这两条数据可在“最低限度保留其使用价值”的前提下通过修改相互得到。

其中，相似度计算方法是根据数据集中数据的格式以及分布情况等，对任何允许出现在该数据集中的数据单元a，b定义。且在定义时，若考虑一个数据单元包含多个字段时存在的信息价值密度差异，可赋予不同字段以不同的价值权重，并结合权重定义相似度。

在一个实例中，相似度计算采用函数定义，记为f(a，b)，且输出结果越大表明两条数据越相似，反之则越不相似；相似度阈值方面定义下限为thr。

将待溯源数据集中的数据，与原始数据集中的数据做匹配。该匹配利用初始化模块中定义的相似度计算方法，故允许匹配成功的两条数据间存在一定差异；若数据差异过大，将根据相似度阈值的限制，判定匹配失败。

具体而言，假设待溯源数据集为t，原始数据集为d。对t中的第i条数据ti，遍历d中的每一条数据dk(k＝1，2，...，|d|)，计算f(ti，dk)，并记

其中i＝1，2，...，|t|，即遍历t中的每一条数据。

ri表示“可以认为与ti相似的原始数据中、与ti最相似的数据”。其中“可以认为与ti相似的原始数据”以{d∈d|f(ti，d)≥thr}表示；“与ti最相似的数据”以{d∈d|f(ti，d＝maxk＝1，2，...，|d|f(ti，dk)}表示。

待溯源数据集t中的每一条数据ti，经过如上模糊匹配均得到原始数据集的子集ri，于是即为t在原始数据集d中的匹配数据集，匹配数据集r将进入标记统计模块。

若匹配数据集即没有匹配到任何相似数据，则认为溯源数据集t并不来源于d，可退出溯源流程，或将输入原始数据集d更改为其他数据集再尝试匹配。

可选地，在该实施例中，步骤s5具体包括：

s5.1、按照交付对象分别统计所述匹配数据集中所有数据的数据标记的数量；

s5.2、分别计算各个交付对象对应的数据标记的数量与所述匹配数据集数据总量的比例；

s5.3、将计算得到的各个比例按照预设顺序排列构成的向量作为匹配标签；

s5.4、将所述匹配标签与所述用户标签进行匹配，根据匹配结果判定所述待溯源数据集所指向的交易对象。

具体的，由于匹配数据集r为原始数据集d的子集，故在本地存储中(参考标记存储模块)可获取到每一条数据的数据标记，以及该数据集曾交付过的所有对象的识别标签。识别标签要求，不同的历史交付对象的标签具有一定的区分度。举例而言，假设对象a的标签为(100％，50％，50％，50％)，b的标签为(50％，100％，50％，50％)，若t的匹配集r经标记统计，得到的数据标识比例为(47％，97％，55％，51％)，则可认为数据集t由对象b流出。

应当注意，此处对判定过程的描述只是粗略描述，实际实现时应更细致地考虑统计结果与识别标签的匹配判定，并可使输出结果体现为概率(判定的可信度)。

本发明实施例还提供一种基于数据映射的数据泄漏溯源判定系统，该系统中的各个模块的实现原理已在前述内容中进行了详细阐述，以下不再赘述，该系统包括：

抽取模块，用于抽取原始数据集的子集作为交付数据集；

标记模块，用于对被抽取出的所述交付数据集中的每一条数据进行数据标记以标识交付对象；

建立模块，用于根据所述交付数据集中所有数据的数据标记的数量，建立所述交付对象的识别标签；

匹配模块，用于将待溯源数据集中的每一条数据，与所述原始数据集进行匹配，得到由原始数据集中匹配成功的数据构成的匹配数据集；

判定模块，用于统计所述所述匹配数据集中所有数据的数据标记的分布，结合所述识别标签，判定所述待溯源数据集所指向的交付对象。

可选地，在该实施例中，所述抽取模块，具体用于随机抽取原始数据集的预设比例的数据作为交付数据集。

可选地，在该实施例中，所述建立模块具体包括：

第一统计单元，用于按照交付对象分别统计所述交付数据集中所有子集的数据标记的数量；

第一计算单元，用于分别计算各个交付对象对应的数据标记的数量与所述交付数据集数据总量的比例；

第一排序单元，用于将计算得到的各个比例按照预设顺序排列构成的向量作为所述交付对象的识别标签。

可选地，在该实施例中，所述建立模块具体用于将待溯源数据集中的每一条数据，与所述原始数据集中的各条数据进行相似度计算，将所述原始数据集中与所述待溯源数据集中数据的相似度最大且最大相似度大于预设阈值的数据加入匹配数据集。

可选地，在该实施例中，所述判定模块具体包括：

第二统计单元，用于按照交付对象分别统计所述匹配数据集中所有数据的数据标记的数量；

第二计算单元，用于分别计算各个交付对象对应的数据标记的数量与所述匹配数据集数据总量的比例；

第二排序单元，用于将计算得到的各个比例按照预设顺序排列构成的向量作为匹配标签；

判定单元，用于将所述匹配标签与所述用户标签进行匹配，根据匹配结果判定所述待溯源数据集所指向的交易对象。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：闫炳豪;庄子迪;党美;刘会议
技术所有人：北京三未信安科技发展有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。