本技术涉及数据安全,尤其涉及一种零水印信息的生成方法及装置。
背景技术:
1、零水印作为一种新型的数字水印技术,其原理是在不对原始载体信号(比如原始文本、原始图像)进行任何更改的情况下,将版权信息与特征数据相结合生成零水印信息。相关技术中,在生成针对文本的零水印的过程中,一般会从对文本进行特征提取,采用提取的特征和一些版权信息生成零水印信息。并且为了保证零水印信息的安全性,在零水印信息生成之后会对其进行加密处理。因此传统的零水印信息生成方案中算法比较复杂,导致零水印信息生成效率不高。
技术实现思路
1、本技术示例性的实施方式中提供一种零水印信息的生成方法及装置,用以降低生成零水印信息过程中采用的算法的复杂程度,提升零水印信息的生成效率。
2、第一方面,本技术提供了一种零水印信息的生成方法,包括:
3、根据输入文本包含的多个词语的词向量构建所述输入文本的文本向量;
4、采用离散余弦变换dct算法对所述文本向量进行稀疏化处理,得到所述输入文本对应的目标向量;
5、通过伪随机数生成器构建目标哈达玛矩阵,将所述目标哈达玛矩阵作为测量矩阵对所述目标向量进行压缩感知,得到所述输入文本的零水印信息。
6、在一些实施例中,所述通过伪随机数生成器构建目标哈达玛矩阵,具体包括:
7、采用所述伪随机数生成器基于随机数种子生成随机序列,以及根据哈达玛函数生成原始哈达玛矩阵;
8、根据所述随机序列中每个序列位的取值,对所述原始哈达玛矩阵中的元素进行重新排列得到所述目标哈达玛矩阵。
9、在一些实施例中,所述随机序列包含m个序列位;所述根据所述随机序列中每个序列位的取值,对所述原始哈达玛矩阵中的元素进行重新排列得到所述目标哈达玛矩阵,具体包括:
10、根据所述随机序列中第n个序列位的取值i,将所述原始哈达玛矩阵中第i行的元素作为所述目标哈达玛矩阵中第n行的元素;和/或,
11、根据所述随机序列中第n个序列位的取值i,将所述原始哈达玛矩阵中第i列的元素作为所述目标哈达玛矩阵中第n列的元素;其中,1≤n≤m,1≤i≤m,i≠n。
12、在一些实施例中,在根据输入文本包含的多个词语的词向量构建所述输入文本的文本向量之前,所述方法还包括:
13、对所述输入文本进行分词处理得到所述输入文本包含的多个词语;
14、根据所述输入文本中包含的词语的总数量,以及每个词语在所述输入文本中出现的次数,从所述多个词语中确定至少一个特征词;所述特征词在所述输入文本中出现的次数与所述总数量的比值在预设比值范围内;
15、所述根据输入文本包含的多个词语的词向量构建所述输入文本的文本向量,具体包括:
16、将所述至少一个特征词输入到预先训练好的word2vec模型中,输出每个特征词的词向量;
17、根据所述至少一个特征词的词向量确定所述文本向量。
18、在一些实施例中,所述将所述目标哈达玛矩阵作为测量矩阵对所述目标向量进行压缩感知,得到所述输入文本的零水印信息,具体包括:
19、采用如下公式确定所述零水印信息:
20、
21、其中,所述yk为所述零水印信息,所述为所述目标哈达玛矩阵,所述xk为所述目标向量。
22、在一些实施例中,在得到所述输入文本的零水印信息之后,所述方法还包括:
23、将所述零水印信息和所述随机数种子发送至第三方服务器进行存储。
24、在一些实施例中,在将所述零水印信息和所述随机数种子发送至第三方服务器进行存储之后,所述方法还包括:
25、在判断待检测文本中是否使用所述零水印信息时,基于所述待检测文本对应的待检测文本向量以及所述目标哈达玛矩阵,确定所述待检测文本的待检测零水印信息;
26、计算所述待检测零水印信息与所述第三方服务器中存储的所述零水印信息之间的相似度;
27、当所述相似度大于相似度阈值时,确定所述待检测文本中使用了所述零水印信息。
28、第二方面,本技术提供了一种零水印信息的生成装置,所述装置包括:
29、向量输出单元,用于根据输入文本包含的多个词语的词向量构建所述输入文本的文本向量;
30、压缩感知单元,用于采用离散余弦变换dct算法对所述文本向量进行稀疏化处理,得到所述输入文本对应的目标向量;
31、压缩感知单元,还用于通过伪随机数生成器构建目标哈达玛矩阵,将所述目标哈达玛矩阵作为测量矩阵对所述目标向量进行压缩感知,得到所述输入文本的零水印信息。
32、在一些实施例中,所述压缩感知单元,具体用于:
33、采用所述伪随机数生成器基于随机数种子生成随机序列,以及根据哈达玛函数生成原始哈达玛矩阵;
34、根据所述随机序列中每个序列位的取值,对所述原始哈达玛矩阵中的元素进行重新排列得到所述目标哈达玛矩阵。
35、在一些实施例中,所述随机序列包含m个序列位;所述压缩感知单元,具体用于:
36、根据所述随机序列中第n个序列位的取值i,将所述原始哈达玛矩阵中第i行的元素作为所述目标哈达玛矩阵中第n行的元素;和/或,
37、根据所述随机序列中第n个序列位的取值i,将所述原始哈达玛矩阵中第i列的元素作为所述目标哈达玛矩阵中第n列的元素;其中,1≤n≤m,1≤i≤m,i≠n。
38、在一些实施例中,所述向量输出单元,还用于:
39、对所述输入文本进行分词处理得到所述输入文本包含的多个词语;
40、根据所述输入文本中包含的词语的总数量,以及每个词语在所述输入文本中出现的次数,从所述多个词语中确定至少一个特征词;所述特征词在所述输入文本中出现的次数与所述总数量的比值在预设比值范围内;
41、所述向量输出单元,具体用于:
42、将所述至少一个特征词输入到预先训练好的word2vec模型中,输出每个特征词的词向量;
43、根据所述至少一个特征词的词向量确定所述文本向量。
44、在一些实施例中,所述压缩感知单元,具体用于:
45、采用如下公式确定所述零水印信息:
46、
47、其中,所述yk为所述零水印信息,所述为所述目标哈达玛矩阵,所述xk为所述目标向量。
48、在一些实施例中,所述装置还包括通信单元,用于:
49、将所述零水印信息和所述随机数种子发送至第三方服务器进行存储。
50、在一些实施例中,所述装置还包括检测单元,用于:
51、在判断待检测文本中是否使用所述零水印信息时,基于所述待检测文本对应的待检测文本向量以及所述目标哈达玛矩阵,确定所述待检测文本的待检测零水印信息;
52、计算所述待检测零水印信息与所述第三方服务器中存储的所述零水印信息之间的相似度;
53、当所述相似度大于相似度阈值时,确定所述待检测文本中使用了所述零水印信息。
54、第三方面,提供了一种电子设备,所述电子设备包括控制器和存储器。存储器用于存储计算机执行指令,控制器执行存储器中的计算机执行指令以利用控制器中的硬件资源执行第一方面任一种可能实现的方法的操作步骤。
55、第四方面,提供一种计算机可读存储介质,计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面的方法。
56、本技术提出在生成文本的零水印信息时,首先将文本进行向量化表示,进一步地通过压缩感知算法对文本向量进行将为采样,不仅可以提取文本的全局特征,而且相较于传统提取全局特征的方案还可以有效降低零水印信息占用的存储空间。另外,在进行压缩感知时,采用基于伪随机数生成器生成的矩阵作为测量矩阵,使得测量矩阵具有随机性起到加密的作用,因此在输出零水印信息之后无需再次进行加密。相较于传统的零水印信息的生成方案,本技术的方案有效降低了算法的复杂度。