本技术涉及信息安全领域,尤其是一种结构化数据集的权属验证方法、处理方法、设备与介质。
背景技术:
1、水印这一概念常见于多媒体版权相关技术领域。例如,将创作者身份信息等用于版权识别的附加数据以人眼可见或人眼不可见的形式嵌入到图像、音视频等多媒体内容文件中,从而确定这些制作内容的版权归属,维护创作者的合法权益。嵌入式水印标记技术广泛应用于非结构化数据的权属确认之中。
2、对于如基于电话号码、身份证号等字段组合而成的结构化数据而言,其不支持在数据中添加嵌入式水印,因此需要采用其他手段进行水印标记。相关技术中,对结构化数据一般采用列水印或行水印的方式进行水印标记。其中列水印是额外的、无实际意义(或者实际意义不大)的数据字段,或者仅仅是在格式上对已有数据添加的装饰标记;行水印则是指在原有的结构化数据基础上合成多组伪造数据混入数据集中,通过这些伪造数据实现对结构化数据的水印标记。列水印的缺陷在于所添加的无实际意义(或者实际意义不大)的数据字段非常易于分辨,在其他人员或者组织(以下以数据集盗用方为例)获取结构化数据后,很容易通过机器手段分辨并剥离列水印,在剥离列水印后,结构化数据的权属便难以得到识别了。行水印的缺陷则在于伪造的结构化数据在格式或内容上与业务数据通常存在显著区别,很难做到完全融入,去除行水印对数据集盗用方而言同样较为容易。数据集盗用方去除水印标记后,便可对结构化数据进行恶意利用,此时难以保证数据集所有方的合法权益。
技术实现思路
1、有鉴于此,本技术实施例提供一种结构化数据集的权属验证方法、处理方法、设备与介质。
2、本技术的一方面提供了一种结构化数据集的权属验证方法,包括以下步骤:
3、获取结构化数据集;所述结构化数据集中包括有多条结构化数据,每条所述结构化数据为业务数据或者水印数据,所述业务数据和所述水印数据满足相同的预定数据格式;
4、从待验证的目标对象处获取所述结构化数据集对应的秘密信息、所述水印数据的比例标签和所述水印数据对应的特定数学性质;所述特定数学性质用于约束通过预设的数学规则、使用所述秘密信息和所述水印数据计算得到的校验值符合预设的数学特征;其中,通过所述预设的数学规则,任一满足所述预定数据格式的数据和所述秘密信息计算得到的校验值符合所述预设的数学特征的概率小于第一阈值;所述比例标签大于所述第一阈值;
5、根据所述秘密信息和所述特定数学性质,从所述结构化数据集中识别出所述水印数据;
6、统计所述水印数据在所述结构化数据集中所占的比例结果,根据所述比例结果和所述比例标签,确定所述目标对象和所述结构化数据集的权属关系。
7、进一步地,在一些实施例中,所述根据所述秘密信息和所述特定数学性质,从所述结构化数据集中识别出所述水印数据,包括:
8、通过所述预设的数学规则,对所述秘密信息和所述结构化数据进行计算,得到第一校验值;
9、根据所述特定数学性质,判断所述第一校验值是否符合所述预设的数学特征;
10、若所述第一校验值符合所述预设的数学特征,将所述结构化数据确定为水印数据。
11、进一步地,在一些实施例中,所述根据所述比例结果和所述比例标签,确定所述目标对象和所述结构化数据集的权属关系,包括:
12、计算所述比例结果和所述比例标签之间的差异值;
13、若所述差异值小于第二阈值,确定所述目标对象为所述结构化数据集的权属所有方。
14、进一步地,在一些实施例中,所述计算所述比例结果和所述比例标签之间的差异值,包括:
15、计算所述比例结果和所述比例标签之间的差值,将所述差值的绝对值确定为差异值;
16、或者,计算所述比例结果和所述比例标签之间的差值,将所述差值的绝对值占所述比例标签的比例确定为差异值。
17、本技术另一方面公开一种结构化数据集的处理方法,包括以下步骤:
18、获取原始数据集和权属标记信息;其中,所述原始数据集用于存储结构化数据,所述结构化数据满足预定数据格式;所述权属标记信息包括秘密信息、比例标签和特定数学性质;所述特定数学性质用于约束通过预设的数学规则、使用所述秘密信息和水印数据计算得到的校验值符合预设的数学特征;其中,通过所述预设的数学规则,任一满足所述预定数据格式的数据和所述秘密信息计算得到的校验值符合所述预设的数学特征的概率小于第一阈值;所述比例标签大于所述第一阈值;
19、根据所述秘密信息和所述特定数学性质,从满足所述预定数据格式的数据中确定水印数据;
20、根据所述原始数据集中包含的业务数据的数量以及所述比例标签,确定需要加入所述原始数据集的水印数据的目标数量;
21、将所述目标数量的所述水印数据添加到所述原始数据集中,得到目标数据集。
22、进一步地,在一些实施例中,获取权属标记信息,包括:
23、获取和所述原始数据集对应的关联信息;所述关联信息用于表征所述原始数据集的权属;
24、根据所述关联信息,生成所述秘密信息。
25、进一步地,在一些实施例中,所述将所述目标数量的所述水印数据添加到所述原始数据集中,得到目标数据集,包括:
26、在所述原始数据集中确定所述目标数量的插入位置;
27、将每个所述水印数据添加到所述原始数据集中的一个插入位置处,得到目标数据集。
28、本技术另一方面公开一种结构化数据集的权属验证装置,包括:
29、第一获取单元,用于获取结构化数据集;所述结构化数据集中包括有多条结构化数据,每条所述结构化数据为业务数据或者水印数据,所述业务数据和所述水印数据满足相同的预定数据格式;
30、第二获取单元,用于从待验证的目标对象处获取所述结构化数据集对应的秘密信息、所述水印数据的比例标签和所述水印数据对应的特定数学性质;所述特定数学性质用于约束通过预设的数学规则、使用所述秘密信息和所述水印数据计算得到的校验值符合预设的数学特征;其中,通过所述预设的数学规则,任一满足所述预定数据格式的数据和所述秘密信息计算得到的校验值符合所述预设的数学特征的概率小于第一阈值;所述比例标签大于所述第一阈值;
31、处理单元,用于根据所述秘密信息和所述特定数学性质,从所述结构化数据集中识别出所述水印数据;
32、统计单元,用于统计所述水印数据在所述结构化数据集中所占的比例结果,根据所述比例结果和所述比例标签,确定所述目标对象和所述结构化数据集的权属关系。
33、本技术另一方面公开一种电子设备,包括处理器以及存储器;
34、所述存储器用于存储程序;
35、所述处理器执行所述程序实现所述的一种结构化数据集的权属验证方法或结构化数据集的处理方法。
36、本技术另一方面公开一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现所述的一种结构化数据集的权属验证方法或结构化数据集的处理方法。
37、本技术的实施例具有如下方面有益效果:本技术一种结构化数据集的权属验证方法、处理方法、设备与介质中,水印数据拥有与业务数据一致的外观,难以被机器或人工手段剥离,能够较好隐藏于结构化数据集的业务数据之中;任何数据集验证方在不向数据集所有方获取秘密信息的前提下均无法分辨水印数据和业务数据,使得本技术水印数据具有较好的安全性,难以被恶意利用。另一方面,本技术基于水印数据与业务数据所形成的比例特征确认结构化数据集的权属,而且引入了秘密信息,相较于直接通过水印数据确认权属的方式更难以被破解,能够较好地保护数据集所有方的合法权益。