一种用于生成作品指纹的方法与设备与流程

文档序号:13703695阅读:167来源:国知局

本申请涉及通信领域,尤其涉及一种用于生成作品指纹的技术。



背景技术:

随着互联网的普及和数字化技术的发展,网上交易与传播的电子书、图片等数字内容越来越多,由于数字化内容很容易被复制和传播,网络传播的数字内容存在大量的盗版和侵权问题。传统的版权保护方式已不能满足数字内容版权保护的需要。于是,人们提出一种新的技术:数字版权保护技术。

常用的数字版权保护技术主要有数字水印技术。数字水印技术是在数字内容中嵌入隐藏的标记,这种标记通常是与著作权相关的信息。一旦发生盗版或侵权,即可通过检测隐藏在数字作品中的水印判断是否为盗版或侵权作品。然而,当用户拿到数字作品的拷贝时,可通过检测工具或者一定方法找到嵌入的内容,并对嵌入的水印进行消除处理。一旦嵌入的水印被消除,就无法对盗版或者侵权作品进行识别,其可靠性不高。再一方面,数字水印技术无法防止手打族等的非法传播,对于通过手打方式展现的文字作品无法识别其是否为盗版或侵权作品。



技术实现要素:

本申请的一个目的是提供一种用于生成作品指纹的方法与设备。

根据本申请的一个方面,提供了一种用于生成作品指纹的方法,其中,该方法包括:获取目标文字作品;根据预定的抽取规则,从所述目标文字作品中抽取特征文字;根据所述特征文字,生成所述目标文字作品的指纹。

根据本申请的另一个方面,提供了一种包括指令的计算机可读介质,所述指令在被执行时使得系统进行如上所述方法的操作。

根据本申请的另一个方面,提供了一种用于生成作品指纹的设备,其中,该设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上所述的方法。

与现有技术相比,本申请获取目标文字作品,根据预定的抽取规则从所述目标文字作品中抽取特征文字,根据所述特征文字生成所述目标文字作品的指纹,本申请通过生成所述目标文字作品特有的指纹,可将所述指纹用于识别盗版复制件、识别抄袭作品等应用,可靠性较高。进一步地,本申请中所述抽取规则包括多种,因此更具有灵活性,可有效预防制作盗版者的规避盗版检测行为。进一步地,本申请基于所述目标文字作品的指纹在作品指纹库中进行匹配查询,可以提高效率,节约系统资源。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1示出根据本申请一个方面的一种用于生成作品指纹的方法流程图;

图2示出根据本申请另一个方面的一种用于生成作品指纹的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本申请作进一步详细描述。

在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

本申请所指设备1包括但不限于用户设备、网络设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备包括但不限于任何一种可与用户进行人机交互的电子产品,例如智能手机、平板电脑、笔记本电脑等,所述电子产品可以采用任意操作系统,如android操作系统、ios操作系统、windows操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(asic)、可编程逻辑器件(pld)、现场可编程门阵列(fpga)、数字信号处理器(dsp)、嵌入式设备等。所述网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云;在此,云由基于云计算(cloudcomputing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络(adhoc网络)等。优选地,所述设备1还可以是运行于所述用户设备、网络设备、或用户设备与网络设备、网络设备、触摸终端或网络设备与触摸终端通过网络相集成所构成的设备上的程序。

当然,本领域技术人员应能理解上述设备1仅为举例,其他现有的或今后可能出现的设备1如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。

图1示出根据本申请一个方面的一种用于生成作品指纹的方法流程图,其中,该方法包括步骤s11、步骤s12和步骤s13。

具体地,步骤s11中,设备1获取目标文字作品;步骤s12中,设备1根据预定的抽取规则,从所述目标文字作品中抽取特征文字;步骤s13中,设备1根据所述特征文字,生成所述目标文字作品的指纹。

例如,所述目标文字作品包括以文字形式表达内容的作品,包括但不限于小说、教科书、人物传记、论文等文字作品。设备1根据预定的抽取规则从所述目标文字作品中抽取特征文字,并根据所述特征文字生成所述目标文字作品特有的指纹。假设作品a为所述目标文字作品的复制件,若根据同样的抽取规则从作品a中抽取特征文字,并根据特征文字生成作品a的指纹;因为作品a与所述目标文字作品的内容完全相同,抽取规则相同,所生成的作品a的指纹与所述目标文字作品的指纹也相同;因此,所生成的指纹可用于检测文字作品的盗版复制件。

优选地,所述抽取规则包括以下至少任一项:从所述目标文字作品中按指定间隔抽取所述特征文字;从所述目标文字作品中每个段落的指定位置抽取所述特征文字;从所述目标文字作品中每个标题的指定位置抽取所述特征文字。

例如,假设将指定间隔设为m字,对应的抽取规则即为从所述目标文字作品中每隔m字抽取所述特征文字。假设将指定位置设为每个段落的段首或段尾,对应的抽取规则即为从所述目标文字作品中每个段落的段首或段尾抽取所述特征文字;假设将指定位置设为每个段落的第c个字,对应的抽取规则即为抽取所述目标文字作品中每个段落的第c个字作为所述特征文字。假设将指定位置设为每个标题的第一个字或最后一个字,对应的抽取规则即为抽取所述目标文字作品中每个标题的第一个字或最后一个字作为所述特征文字。

优选地,所述步骤s12包括以下至少任一项:设备1确定所述目标文字作品的总字数,根据所述目标文字作品的总字数确定所述指定间隔,从所述目标文字作品中每隔所述指定间隔抽取所述特征文字;设备1确定所述目标文字作品的总字数,根据所述目标文字作品的总字数确定所述每个段落的指定位置,从所述目标文字作品中所述每个段落的指定位置抽取所述特征文字;设备1确定所述目标文字作品的总字数,根据所述目标文字作品的总字数确定所述每个标题的指定位置,从所述目标文字作品中所述每个标题的指定位置抽取所述特征文字。

例如,假设将指定间隔设为m字,从所述目标文字作品中每隔m字抽取所述特征文字,若所述目标文字作品的总字数为n字,可根据所述目标文字作品的总字数n字确定所述指定间隔m字。在一个实施例中,如果总字数n越大,则指定间隔m也越大。在另一个实施例中,可以根据计算公式确定m的值,例如m=n/x。

再例如,可根据所述目标文字作品的总字数确定每个段落的指定位置,然后从所述目标文字作品中每个段落的指定位置抽取所述特征文字。或者,可根据所述目标文字作品的总字数确定每个标题的指定位置,然后从所述目标文字作品中每个标题的指定位置抽取所述特征文字。

优选地,所述步骤s12包括以下至少任一项:设备1确定所述目标文字作品的类型,根据所述目标文字作品的类型确定所述指定间隔,从所述目标文字作品中每隔所述指定间隔抽取所述特征文字;设备1确定所述目标文字作品的类型,根据所述目标文字作品的类型确定所述每个段落的指定位置,从所述目标文字作品中所述每个段落的指定位置抽取所述特征文字;设备1确定所述目标文字作品的类型,根据所述目标文字作品的类型确定所述每个标题的指定位置,从所述目标文字作品中所述每个标题的指定位置抽取所述特征文字。

例如,假设将指定间隔设为m字,从所述目标文字作品中每隔m字抽取所述特征文字;所述目标文字作品的类型包括但不限于小说、教科书、人物传记、论文等,可根据所述目标文字作品的类型确定所述指定间隔m字。

再例如,可根据所述目标文字作品的类型确定每个段落的指定位置,然后从所述目标文字作品中每个段落的指定位置抽取所述特征文字。或者,可根据所述目标文字作品的类型确定每个标题的指定位置,然后从所述目标文字作品中每个标题的指定位置抽取所述特征文字。

优选地,所述抽取规则包括从所述目标文字作品中按指定间隔抽取所述特征文字,其中,所述指定间隔包括第一指定间隔和第二指定间隔;其中,所述从所述目标文字作品中按指定间隔抽取所述特征文字,包括:从所述目标文字作品中每隔第一指定间隔抽取第一特征文字,从所述目标文字作品中每隔第二指定间隔抽取第二特征文字;根据所述第一特征文字及所述第二特征文字组成所述特征文字。

例如,假设将第一指定间隔设为m1字,将第二指定间隔设为m2字,从所述目标文字作品中每隔m1字抽取所述第一特征文字,从所述目标文字作品总每隔m2字抽取所述第二特征文字,所述特征文字由所述第一特征文字和所述第二特征文字组成。

优选地,所述方法还包括:设备1确定所述目标文字作品的第一部分所对应的所述第一指定间隔;确定所述目标文字作品的第二部分所对应的所述第二指定间隔;从所述目标文字作品的第一部分中每隔第一指定间隔抽取第一特征文字,从所述目标文字作品的第二部分中每隔第二指定间隔抽取第二特征文字。

例如,接上例,所述第一部分可以包括所述目标文字作品的重点章节(如小说的精彩部分),所述第二部分可以包括所述目标文字作品的次要章节,在确定所述第一指定间隔m1字和所述第二指定间隔m2字时,可以将所述第一指定间隔m1设为较小的值,将所述第二指定间隔m2设为较大的值,以增加所述第一特征文字在所述特征文字中的比重。

优选地,步骤s12中,设备1根据第一抽取规则,从所述目标文字作品中抽取第三特征文字;根据第二抽取规则,从所述目标文字作品中抽取第四特征文字;步骤s13中,设备1根据所述第三特征文字,生成所述目标文字作品的第一指纹;根据所述第四特征文字,生成所述目标文字作品的第二指纹;根据所述第一指纹及所述第二指纹组成所述目标文字作品的指纹。

在一个实施例中,所述第一抽取规则可以是从所述目标文字作品中每隔m字抽取所述第三特征文字,根据所述第三特征文字生成所述第一指纹,所述第二抽取规则可以是从所述目标文字作品中每个段落的指定位置抽取所述第四特征文字,根据所述第四特征文字生成所述第二指纹,所述目标文字作品的指纹由所述第一指纹和所述第二指纹组成。

在另一个实施例中,所述第一抽取规则可以是从所述目标文字作品中每个段落的指定位置抽取所述第三特征文字,根据所述第三特征文字生成所述第一指纹,所述第二抽取规则可以是从所述目标文字作品中每个标题的指定位置抽取所述第四特征文字,根据所述第四特征文字生成所述第二指纹,所述目标文字作品的指纹由所述第一指纹和所述第二指纹组成。

在又一个实施例中,所述第一抽取规则可以是从所述目标文字作品中每隔m1字抽取所述第三特征文字,根据所述第三特征文字生成所述第一指纹,所述第二抽取规则可以是从所述目标文字作品中每隔m2字抽取所述第四特征文字,根据所述第四特征文字生成所述第二指纹,所述目标文字作品的指纹由所述第一指纹和所述第二指纹组成。

优选地,所述第一抽取规则或所述第二抽取规则包括从所述目标文字作品中按指定间隔抽取所述特征文字,其中,所述指定间隔包括第三指定间隔和第四指定间隔;

其中,所述从所述目标文字作品中按指定间隔抽取所述特征文字,包括:从所述目标文字作品中每隔第三指定间隔抽取第三一特征文字或第四一特征文字,从所述目标文字作品中每隔第四指定间隔抽取第三二特征文字或第四二特征文字;根据所述第三一特征文字及所述第三二特征文字组成所述第三特征文字,或者,根据所述第四一特征文字及所述第四二特征文字组成所述第四特征文字。

在一个实施例中,所述第一抽取规则可以包括:从所述目标文字作品中每隔第三指定间隔抽取第三一特征文字,从所述目标文字作品中每隔第四指定间隔抽取第三二特征文字;根据所述第三一特征文字及所述第三二特征文字组成所述第三特征文字。

在另一个实施例中,所述第二抽取规则可以包括:从所述目标文字作品中每隔第三指定间隔抽取第四一特征文字,从所述目标文字作品中每隔第四指定间隔抽取第四二特征文字;根据所述第四一特征文字及所述第四二特征文字组成所述第四特征文字。

优选地,所述第一抽取规则或所述第二抽取规则包括从所述目标文字作品中每个段落的指定位置抽取所述特征文字,其中,所述指定位置包括第一指定位置和第二指定位置;

其中,所述从所述目标文字作品中每个段落的指定位置抽取所述特征文字,包括:从所述目标文字作品中每个段落的第一指定位置抽取第三三特征文字或第四三特征文字,从所述目标文字作品中每个段落的第二指定位置抽取第三四特征文字或第四四特征文字;根据所述第三三特征文字及所述第三四特征文字组成所述第三特征文字,或者,根据所述第四三特征文字及所述第四四特征文字组成所述第四特征文字。

在一个实施例中,所述第一抽取规则可以包括:从所述目标文字作品中每个段落的第一指定位置抽取第三三特征文字,从所述目标文字作品中每个段落的第二指定位置抽取第三四特征文字;根据所述第三三特征文字及所述第三四特征文字组成所述第三特征文字。

在另一个实施例中,所述第二抽取规则可以包括:从所述目标文字作品中每个段落的第一指定位置抽取第四三特征文字,从所述目标文字作品中每个段落的第二指定位置抽取第四四特征文字;根据所述第四三特征文字及所述第四四特征文字组成所述第四特征文字。

优选地,所述第一抽取规则或所述第二抽取规则包括从所述目标文字作品中每个标题的指定位置抽取所述特征文字,其中,所述指定位置包括第三指定位置和第四指定位置;

其中,所述从所述目标文字作品中每个标题的指定位置抽取所述特征文字,包括:从所述目标文字作品中每个标题的第三指定位置抽取第三五特征文字或第四五特征文字,从所述目标文字作品中每个标题的第四指定位置抽取第三六特征文字或第四六特征文字;根据所述第三五特征文字及所述第三六特征文字组成所述第三特征文字,或者,根据所述第四五特征文字及所述第四六特征文字组成所述第四特征文字。

在一个实施例中,所述第一抽取规则可以包括:从所述目标文字作品中每个标题的第三指定位置抽取第三五特征文字,从所述目标文字作品中每个标题的第四指定位置抽取第三六特征文字;根据所述第三五特征文字及所述第三六特征文字组成所述第三特征文字。

在另一个实施例中,所述第二抽取规则可以包括:从所述目标文字作品中每个标题的第三指定位置抽取第四五特征文字,从所述目标文字作品中每个标题的第四指定位置抽取第四六特征文字;根据所述第四五特征文字及所述第四六特征文字组成所述第四特征文字。

在步骤s13中,设备1根据所述特征文字,生成所述目标文字作品的指纹。

例如,根据所述特征文字(文本)生成指纹的算法包括但不限于k-shingle算法、simhash算法、minhash算法等。

其中,关于k-shingle算法,shingle在英文中表示相互覆盖的瓦片。对于一段文本,分词向量为[w1,w2,w3,w4,…wn],设k=3,那么该文本的shingle向量(指纹)表示为[(w1,w2,w3),(w2,w3,w4),(w3,w4,w5),……(wn-2,wn-1,wn)]。

关于simhash算法,simhash是google用来处理海量文本去重的算法,同时也是一种基于lsh(localitysensitivehashing,局部敏感哈希)的算法。lsh(局部敏感哈希)可以将相似的字符串hash得到相似的hash值,使得相似项会比不相似项更可能的hash到一个桶中,hash到同一个桶中的文档间成为候选对。这样就可以以接近线性的时间去解决相似性判断和去重问题。simhash算法通过计算每个特征文字的哈希值,并最终合并成一个特征值即指纹。经过simhash算法生成的指纹是一个f位的二进制字符串,如一个32位的指纹,‘101001111100011010100011011011’。

优选地,如图2所示,所述方法还包括步骤s14’和步骤s15’;步骤s14’中,设备1基于所述目标文字作品的指纹在作品指纹库进行匹配查询;步骤s15’中,设备1若查询获得与所述指纹相匹配的匹配指纹,确定所述匹配指纹对应的作品与所述目标文字作品相似。

例如,若采用k-shingle算法生成指纹,可通过计算两个指纹(shingle向量)的相似度(jarccard系数)来进行匹配查询。

若采用simhash算法生成指纹,经过simhash算法生成的指纹是一个f位的二进制字符串,对于两个指纹的f位0-1字符串,simhash算法采用汉明距离(hammingdistance)来计算两个指纹之间的相似度。

优选地,所述匹配指纹与所述指纹的匹配度高于预定匹配阈值。

例如,若所述匹配指纹与所述指纹的相似度越高,则匹配度越高。在此可以设定一个预定匹配阈值,当所述匹配指纹与所述指纹的匹配度高于所述预定匹配阈值,则确定所述匹配指纹对应的作品与所述目标文字作品相似。

优选地,所述方法还包括:设备1若未查询获得与所述指纹相匹配的匹配指纹,从所述目标文字作品中抽取新的特征文字;根据所述新的特征文字,生成所述目标文字作品对应的新指纹;基于所述新指纹在所述作品指纹库进行匹配查询;若查询获得与所述新指纹相匹配的新匹配指纹,确定所述新匹配指纹对应的作品与所述目标文字作品相似。

例如,若根据第一抽取规则从所述目标文字作品中抽取特征文字,并据此生成所述指纹,若在作品指纹库中未查询获得与所述指纹相匹配的匹配指纹,则可根据第二抽取规则从所述目标文字作品中抽取新的特征文字,并据此生成新指纹,然后基于所述新指纹在所述作品指纹库进行匹配查询。本实施例通过两次抽取的方式,避免因抽取规则方面的差错导致匹配查询出错,从而可实现更精准的匹配查询。

根据本申请的另一个方面,提供了一种包括指令的计算机可读介质,所述指令在被执行时使得系统进行如上所述方法的操作。

根据本申请的另一个方面,提供了一种用于生成作品指纹的设备,其中,该设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上所述的方法。

与现有技术相比,本申请获取目标文字作品,根据预定的抽取规则从所述目标文字作品中抽取特征文字,根据所述特征文字生成所述目标文字作品的指纹,本申请通过生成所述目标文字作品特有的指纹,可将所述指纹用于识别盗版复制件、识别抄袭作品等应用,可靠性较高。进一步地,本申请中所述抽取规则包括多种,因此更具有灵活性,可有效预防制作盗版者的规避盗版检测行为。进一步地,本申请基于所述目标文字作品的指纹在作品指纹库中进行匹配查询,可以提高效率,节约系统资源。

需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。

另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。

通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、rf、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。

作为示例而非限制,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(ram,dram,sram);以及非易失性存储器,诸如闪存、各种只读存储器(rom,prom,eprom,eeprom)、磁性和铁磁/铁电存储器(mram,feram);以及磁性和光学存储设备(硬盘、磁带、cd、dvd);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1