一种基于非对称加密的文本零知识水印检测方法

文档序号：6380101阅读：158来源：国知局

专利名称：一种基于非对称加密的文本零知识水印检测方法
技术领域：
本发明涉及针对文本文档进行版权保护的信息安全领域，尤指一种基于非对称加密的文本零知识水印检测方法。
背景技术：
数字水印技术的应用范围越来越广，尤其是在版权保护和泄密追踪方面的应用越来越多，数字水印技术的研究不应该只关注它的鲁棒性、隐蔽性和嵌入容量，更应该关注它的安全性。传统的水印检测检测方法，检测时检测者或验证者必须出示密钥才能检测水印，这很可能导致与水印相关信息的泄露，欺骗的验证者会利用这些信息来攻击水印。因此数字水印安全性的问题就显得非常重要。数字水印的安全性不能完全依赖于算法本身。密码学中的零知识证明思想可以为数字水印的安全性提供重要的技术保障。

零知识水印检测技术是把密码学上的零知识证明与数字水印技术结合起来，在对数字水印检测的同时而不泄露水印的相关信息，使得攻击者难以利用水印检测时的信息来修改、伪造或移去水印，进而提高水印的安全性。零知识水印检测协议由密钥生成、水印生成、水印嵌入、水印检测这4种算法构成。密钥生成算法生成一对水印的嵌入和检测密钥。水印生成算法生成满足一定性质的水印数据。水印嵌入算法在水印嵌入密钥的控制下，将水印嵌入隐藏到数字载体中。水印检测算法在水印检测密钥的控制下，检测水印是否存在。
本发明涉及水印生成算法，文本特征的特征词条作为水印生成算法的输入参数。文本特征提取方法，采用基于特征权值的方法提取特征词条。传统文本特征提取方法采用TFIDF文本权值衡量方法，主要用于特征权值的计算。TFIDF方法特征权值可以用词条的频率乘以逆文档频率来表示，即
Wik=TFXIDF
其中，TF表示词频，即该词条在某一文本中的频率，能够表示某一个文档的能力；IDF表示反文档频率，能够表示某一类文档的区分能力。然而TFIDF方法存在一定的问题，即TFIDF算法没有有效的反映词条t在不同类别中出现的频率情况，进而不能有效的反映该词条的类与类的区分能力。因此必须要有一个新的权值来衡量词条出现频率最高的前两个类别中的文档数之差。这个差值越大，说明该词条t越能够代表出现频率最高的类别的特征。水印信息生成后，需要借助于一定的文本数字水印方法把该水印嵌入文本中。目前文本水印嵌入方法有很多种，但嵌入的水印对鲁棒性、抵抗格式攻击和统计攻击能力都有缺陷，需要一种新的水印嵌入方法，以提高水印的隐蔽性、鲁棒性和嵌入容量。由于传统的水印算法在检测时，检测者或验证者必须出示密钥才能检测水印，这很可能导致与水印相关信息的泄露，欺骗的验证者会利用这些信息来攻击水印；并且现有的针对图像的零知识水印检测方案也会泄漏相关值，所以不是零知识的，不适合作为版权证明方案。

发明内容
本发明提出一种基于非对称加密的文本零知识水印检测方法，在水印检测时不暴露任何有关水印的信息且能够检测出水印信息来，解决数字水印技术一直存在的安全性较低的问题。为解决以上技术问题，本发明采用如下技术方案
一种基于非对称加密的文本零知识水印检测方法，所述方法包括文本特征提取算法、水印产生算法、水印嵌入方法和基于非对称加密的零知识水印检测协议四个部分，所述方法利用改进的文本特征提取算法得到具有鲁棒性的文本特征Lw ；LW与作者版权信息A —起进行数字化表示，利用水印产生算法得到水印信息W ;水印嵌入算法把W嵌入到原始文本D 中；检测、验证时采用基于非对称加密的文本零知识水印检测协议。
所述文本特征提取算法，文本特征提取算法利用改进的特征加权方法计算特征权值，其公式为
W，ik=TFXIDFXCd ^ _ (E1-E2)
—
Il
其中，η表示包含词条t的文档数，其中整个文档库中包含词条t的文档数最多的一类为E1,包含词条t的文档数第二多的一类为E2 ；
TF表示词频，即该词条在某一文本中的频率，能够表示某一个文档的能力；IDF表示反文档频率，能够表示某一类文档的区分能力；(E1-E2)表示包含词条t文档数最多的类别与包含词条t文档数第二多的类别之差。Cd越大，表示这个加权的结果值就大，因而该词条就能很好的代表包含t最多的文档数的类的特征，也就是说词条t的类别特征表达能力越强。利用改进后的公式能够从文本中提取出更能代表文本特征词条出来，即鲁棒特征词条Lw。
水印广生算法
把作者版权信息A和提取的文本鲁棒特征Lw进行数字化表示，然后利用水印产生算法产生水印信息W，步骤如下
(O利用ASCII编码对提取的鲁棒特征Lw和作者版权信息A = {time, author. . . }进行数字化，生成D=^1DyDi...)；
(2)利用logistic混沛映射函数生成混沛序列S=IS1S2.. . Si. . . }, logistic混沛映射函数的初值为D= (D1D2. . . Di. . . },参数为μ ；
(3)利用定义的阈值T产生混沌序列SHS1S2.. . Si. . . }的二值化序列W=Iff1W2... Wi...}，其中 Wi e [O, I]，即水印信息。
水印嵌入算法采用联合文本格式和同义词替换的数字水印算法，在原始文本文档的不同地方不同层次嵌入多重水印信息。
基于非对称加密的零知识水印检测协议所述检测协议步骤如下
定义W :水印信号，D :载体文本，Dw:水印载体，Lw:文本特征。
验证者和证明者之间执行下面的协议
(4)证明者产生一个随机数R，然后根据非对称加密函数H计算H(R，W)和H(R，Lw)，并且把H (R, W)、H (R, Lw)发送给验证者；(5)验证者根据掷硬币规则选择b=0或1，并把b的值发送给证明者；
(6)如果b=0，证明者公开非对称加密函数H和随机数R，验证者根据公开的非对称加密函数H和随机数R计算H(R，Dw)，然后根据用:足之)^用足AJ是否成立来验证H(R，Lw)的值是否正确，如果不正确则停止协议；
如果b=l，证明者把(WXLw)发送给验证者；验证者根据非对称加密算法对乘法具有同态性的原理，即H(R，Lw) XH(R, ff) =H(R1WXLw)来验证(WXLw)是否正确，如果不正确则停止
协议；如果正确，则验证者根据线性相关来计算Γ = -W，如果Τ> ε，ε为阈值，则说明水
η
印信息W和Lw相关，即检测出了水印信息；
(7)根据需要的置信度选择迭代次数k，证明者和验证者重复k次执行(4)到(6)，如果每次的检验都通过，验证者就相信证明者的声明，认为Dw中确实存在证明者的版权水印，如·果任何一次检验失败，则验证者不接受证明者的证明，认为证明者是一个欺骗者。本发明的有益效果
(1)利用改进的文本特征提取算法提取的文本特征降低了对特征维数的敏感度，能够有效的提取出具有鲁棒性的文本特征来，该特征能够有效的区别于其他类别的文本；
(2)经混沌映射函数产生的水印信息与原始文本具有很大的相关性，这便于水印信息的检测，可以有效防止伪造水印等攻击；
(3 )采用联合文本格式和同义词替换的数字水印算法，在原始文本文档的不同地方不同层次嵌入多重水印信息，嵌入的水印具有较强的隐蔽性、鲁棒性和嵌入容量，且能够抵抗格式攻击、统计攻击；
(4)文本零知识水印检测方法利用非对称加密算法对乘法具有同态性的原理，用来验证证明者和验证者之间传递数据的正确性，而又不用透露该数据的具体信息，保证了传递数据的安全，使得验证者在验证水印过程中所掌握的有关水印信息的知识为零；一个欺骗的证明者能够欺骗成功的概率最大为1/2，如果双方执行协议k次，那么这个欺骗的证明者
成功欺骗的概率为y。

图I为零知识水印检测方案操作流程。图2为水印信息生成过程示意图。图3为文本特征提取过程中两种加权方法在KNN分类算法下的宏Fl值比较。
具体实施例方式下面结合附图对本发明所提出的一种基于非对称加密的文本零知识水印检测方法进行详细说明。本实施例包括文本特征提取算法、水印产生算法、水印嵌入方法和基于非对称加密的零知识水印检测协议四个部分，所述方法各个部分的关系如图I所示。文本鲁棒特征Lw提取
测试使用的中文语料库来自复旦大学计算机系国际数据库中心，我们选取了其中10，000篇文档，其中训练文集5，000篇，包括5个类别，每个类别1，000篇；测试集5，000篇，包括5个类别，每个类别1，000篇。宏Fl (maFl)值可以很好的衡量分类精度，计算方法如下
权利要求
1.一种基于非对称加密的文本零知识水印检测方法，所述方法包括文本特征提取算法、水印产生算法、水印嵌入方法和基于非对称加密的零知识水印检测协议四个部分，所述方法利用改进的文本特征提取算法得到具有鲁棒性的文本特征Lw ；LW与作者版权信息A —起进行数字化表示，利用水印产生算法得到水印信息W ;水印嵌入算法把W嵌入到原始文本D中；检测、验证时采用基于非对称加密的文本零知识水印检测协议。
2.如权利要求I所述一种基于非对称加密的文本零知识水印检测方法，所述方法包括文本特征提取算法，其特征在于，所述文本特征提取算法，利用改进的特征加权方法计算特征权值，其公式为
3.如权利要求I所述一种基于非对称加密的文本零知识水印检测方法，所述方法包括水印产生算法，其特征在于，把作者版权信息A和提取的文本鲁棒特征Lw进行数字化表示，然后利用水印产生算法产生水印信息W，步骤如下 (O利用ASCII编码对提取的鲁棒特征Lw和作者版权信息A = {time, author. . . }进行数字化，生成D=^1DyDi...)； (2)利用logistic混沛映射函数生成混沛序列S=IS1S2.. . Si. . . }, logistic混沛映射函数的初值为D= (D1D2. . . Di. . . },参数为μ ； (3)利用定义的阈值T产生混沌序列SHS1S2.. . Si. . . }的二值化序列W=Iff1W2... Wi...}，其中 Wi e [O, I]，即水印信息。
4.如权利要求I所述一种基于非对称加密的文本零知识水印检测方法，所述方法包括水印嵌入算法，其特征在于，采用联合文本格式和同义词替换的数字水印算法，在原始文本文档的不同地方不同层次嵌入多重水印信息。
5.如权利要求I所述一种基于非对称加密的文本零知识水印检测方法，所述方法包括基于非对称加密的零知识水印检测协议，其特征在于，所述检测协议，其实现步骤如下定义W :水印信号，D :载体文本，Dw :水印载体，Lw :文本特征；验证者和证明者之间执行下面的协议 (4)证明者产生一个随机数R，然后根据非对称加密函数H计算H(R，W)和H(R，Lw)，并且把H (R, W)、H (R, Lw)发送给验证者； (5)验证者根据掷硬币规则选择b=0或1，并把b的值发送给证明者； (6)如果b=0，证明者公开非对称加密函数H和随机数R，验证者根据公开的非对称加密函数H和随机数R计算H(R，Dw)，然后根据//(A\ ) C= H(JU)'.')是否成立来验证H (R，Lw)的值是否正确，如果不正确则停止协议；如果b=l，证明者把(WXLw)发送给验证者；验证者根据非对称加密算法对乘法具有同态性的原理，即H(R，Lw) XH(R, ff) =H(R1WXLw)来验证(WXLw)是否正确，如果不正确则停止协议^卩果正确’则验证者根据线性相关来计算^^工&^^如果!'〉^ ε为阈值，则说明水 //印信息W和Lw相关，即检测出了水印信息； (7)根据需要的置信度选择迭代次数k，证明者和验证者重复k次执行(4)到(6)，如果每次的检验都通过，验证者就相信证明者的声明，认为Dw中确实存在证明者的版权水印，如果任何一次检验失败，则验证者不接受证明者的证明，认为证明者是一个欺骗者。
全文摘要
本发明提出了一种基于非对称加密的文本零知识水印检测方法，包括文本特征提取算法、水印产生算法、水印嵌入方法和零知识水印检测协议四个部分。本发明改进的文本特征提取算法提取的文本特征经混沌映射函数产生的水印信息与原始文本具有很大的相关性，便于水印信息的检测，可以有效防止伪造水印攻击。另外，利用非对称加密算法对乘法具有同态性的原理，用来验证证明者和验证者之间传递数据的正确性，而又不用透露该数据的具体信息，保证了传递数据的安全，使得验证者在验证水印过程中所掌握的有关水印信息的知识为零。本发明为文本内容认证与版权保护提供了新的关键技术。
文档编号G06F21/16GK102890760SQ20121042484
公开日2013年1月23日申请日期2012年10月30日优先权日2012年10月30日
发明者付章杰, 孙星明申请人:南京信息工程大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：付章杰;孙星明
技术所有人：南京信息工程大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。