一种文字作品的追踪方法和装置的制作方法

文档序号:6427762阅读:195来源:国知局
专利名称:一种文字作品的追踪方法和装置的制作方法
技术领域
本申请涉及计算机网络技术领域,特别是涉及ー种文字作品的追踪方法和装置。
背景技术
在互联网快速发展的同时,数字化技术也在高速发展,这使得各类信息的数字化程度越来越高。数字化信息以其易复制性、高效性、易传输性极大地促进了人类社会的发展。然而正是由于数字化信息的易复制性,使得各类盗版及侵权行为频频发生,如对数字化信息随意进行篡改、拷贝、未经授权非法使用等。这种行为严重损害了消费者、版权所有者的合法利益,极度挫伤了内容创造者及版权所有者创作的积极性。因此,需要ー种快速有效的版权保护技术来保护数字媒体的版权,对网络上流传的数字文字作品的非法拷贝进行识别和追踪,从而保护版权所有者和内容创造者的合法权利。 数字版权技术目前主要流行的方法有两种以数据加密和防拷贝为核心的数字版权管理(Digital Rights Management, DRM)技术和数字水印技术。其中,数字水印技术是在数字产品中嵌入隐藏的标记,这种标记通常不可见,一般需要通过专用的检测工具才能提取。数字水印技术嵌入的内容通常是销售商或发行商在数字产品拷贝中嵌入与购买者身份相关的唯一性信息,当发现非法拷贝后,销售商通过检测嵌入的指纹来识别非法拷贝的来源。现有技术中,有ー种将数字水印技术应用于主动的版权追踪系统的方法,它的目的是找到网络上流传的数字产品非法拷贝的分发者,而不是对那些展现非法拷贝的盗版网站进行打击;它对通过手打等水印消隐的非法拷贝没有识别和追踪能力,可靠性不高。

发明内容
为解决上述技术问题,本申请实施例提供ー种文字作品的追踪方法和装置,可以及时准确地对网络流传的文字作品的非法拷贝进行识别和追踪,可靠性高、易于实现,技术方案如下ー种文字作品的追踪方法,包括获取从未授权网站的地址下载的待识别的文字作品;生成所述待识别的文字作品的数字指纹;将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹;当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库;对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进打追踪。优选的,所述方法进ー步包括
利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索弓I,生成文字作品索引库;所述文字作品索引库保存有文字作品与网页地址的对应关系;从所述文字作品索引库中读取文字作品,当根据所述文字作品与网页地址的对应关系判定所述文字作品为从未授权网站的地址下载的文字作品吋,将所述文字作品作为待识别的文字作品。优选的,所述对所述匹配结果库中的所述未授权网站的地址中的被判定为非法拷贝的文字作品定期进行追踪具体包括从所述匹配结果库中提取所述未授权网站的地址信息;查询所述未授权网站中的被判定为非法拷贝的文字作品内容是否存在,如果所述文字作品内容不存在,则更新所述匹配结果库中的信息,将匹配结果库中的所述未授权网 站的地址信息删除;如果所述文字作品存在,则向所述未授权网站发送侵权警告信息。优选的,所述方法进ー步包括为文字作品母本库中的每一部文字作品生成对应的数字指紋。优选的,所述为文字作品母本库中的每一部文字作品生成对应的数字指纹具体包括从所述文字作品母本库中读取一部文字作品;从划分方式集合中选取所有划分方式作为预设的划分方式;将所述文字作品按照预设的划分方式划分为至少ー个文字作品単元;提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征;保存所述文字作品中的所有文字作品单元的指纹特征,生成所述文字作品的数字指紋。优选的,所述生成所述待识别的文字作品的数字指纹具体包括从划分方式集合中选取至少ー种划分方式作为预设的划分方式;将所述待识别的文字作品按照预设的划分方式划分为至少ー个文字作品単元;提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征;保存所述待识别的文字作品中至少ー个文字作品单元的指纹特征,生成所述待识别的文字作品的数字指紋。优选的,所述提取每ー个所述文字作品単元中的文字特征信息作为该文字作品单元的指纹特征具体包括将所述文字作品単元中的所有文字转化为对应的拼音;提取每ー个文字对应的拼音的首字母,按照首字母对所述文字作品単元中的所有文字进行分类,统计每ー类首字母所包括的文字的字数;分别计算每ー类首字母所包括的文字的字数占所述文字作品単元中的所有文字的字数的比例,得到每ー类首字母对应的比例;将所述每ー类字母对应的比例组合成字符串,生成该文字作品単元的指纹特征。优选的,所述划分方式集合包括
将文字作品整体作为ー个文字作品单元进行划分;和/或将文字作品的每ー个章节作为ー个文字作品单元进行划分;和/或
将文字作品的每ー个段落作为ー个文字作品单元进行划分。优选的,所述方法进ー步包括向所述匹配结果库中的未授权网站发送侵权警告信息。优选的,所述方法进ー步包括读取所述匹配结果库中的未授权网站的地址信息和被判定为非法拷贝的文字作品的信息并显示。本申请还公开了ー种文字作品的追踪装置,包括待识别文字作品获取单元,用于获取从未授权网站的地址下载的待识别的文字作品;待识别文字作品数字指纹生成単元,用于生成所述待识别的文字作品的数字指纹;数字指纹比对単元,用于将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹;匹配単元,用于当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库;追踪单元,用于对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进行追踪。优选的,所述装置进ー步包括文本索引库建立単元,用于利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索引,生成文字作品索引库;所述文字作品索弓I库保存有文字作品与网页地址的对应关系。优选的,所述装置进ー步包括母本指纹库建立単元,用于为文字作品母本库中的每一部文字作品生成对应的数字指紋,建立母本指纹库。本申请实施例的有益效果是本申请实施例提供的文字作品的追踪方法和装置,通过提取从未授权网址下载的待识别的文字作品的数字指紋,将所述待识别文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别文字作品的数字指纹与母本指纹库中的数字指纹的相似度值,当相似度值小于设定阈值时判定所述待识别的文字作品属于非法拷贝,将判定为非法拷贝的文字作品及其网址信息保存至匹配结果库中,并对所述匹配结果库中的网页地址中被判定为非法拷贝的文字作品定期进行追踪,从而实现了对盗版文字作品的识别和追踪。本申请提供的方法的目的不是跟踪和识别文字作品非法拷贝的分发者,而是追踪和识别所有展现非法拷贝的盗版网站,追踪范围更广;提取文字作品本身的特征信息作为数字指纹,当网络上的拷贝和母本数字指纹的相似度值在ー定的范围内都认为该拷贝为非法拷贝,可靠性高。另ー方面,本申请提供的方法采用多颗粒度的数字指紋,即不仅把整个文字作品作为ー个颗粒提取指纹,也把文字作品的每一章节、每一段落作为颗粒提取指紋,并将得到的指纹录入到指纹母本库中。在判断网络上流传的文字作品是否为非法拷贝时,首先提取其指纹特征,然后与母本指纹库进行查询比对,这样不仅可以准确地识别网页中的作品是否为非法的拷贝,还能更及时更全面的识别和跟踪在网络上流传的非法拷贝具体对文字作品的哪一部分进行了非法拷贝,精确度高。


为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的ー些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。 图I为本申请实施例文字作品追踪的方法示意图;图2为本申请实施例母本指纹库的建立流程图;图3为本申请实施例指纹特征提取示意图;图4为本申请实施例建立文字作品索引库的示意图;图5为本申请实施例网络爬虫抓取方法流程图;图6为本申请实施例生成待识别文字作品的数字指纹的方法示意图;图7为本申请实施例指纹对比示意图;图8为本申请另ー实施例文字作品识别示意图;图9为本申请实施例对文字作品进彳丁追踪的流程图;图10为本申请实施例文字作品追踪装置示意图。
具体实施例方式本申请公开了ー种文字作品的追踪方法。为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。本申请提供的文字作品的追踪方法,适用于所有以文字形式表达内容的作品,包括文学作品、历史著作、回忆录、教科书等形式的文字作品。图I为本申请实施例文字作品追踪的方法示意图,如图I所示,本申请实施例提供的方法包括以下步骤步骤S101,获取从未授权网站的地址下载的待识别的文字作品。步骤S102,生成所述待识别的文字作品的数字指紋。步骤S103,将所述待识别文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹。步骤S104,当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库。步骤S105,对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进行追踪。下面结合附图对本申请提供的方法进行详细的说明。在本申请提供的实施例中,在步骤SlOl前,还可以包括预先建立母本指纹库的步骤,即为所述文字作品母本库中的每一部文字作品生成对应的数字指紋。
參见图2,为本申请实施例母本指纹库的建立流程图。所述为所述文字作品母本库中的每一部文字作品生成对应的数字指纹具体可以包括步骤S201,从所述文字作品母本库中读取一部文字作品。文字作品母本库为预先设立的保存授权文字作品的数据库。文字作品母本库保存有所有授权的、正版的文字作品,母本指纹库存储有文字作品母本库中的所有文字作品的数字指紋。通过将待识别的文字作品的数字指纹与母本指纹库中的数字指纹进行比对,当得到的相似度值小于设定阈值时,即可判断待识别的文字作品是否属于盗版文字作品。步骤S202,从划分方式集合中选取所有划分方式作为预设的划分方式,将所述文字作品按照预设的划分方式划分为至少ー个文字作品単元。在母本指纹库的建立过程中,从划分方式集合中选取所有划分方式作为预设的划分方式。具体的,划分方式集合可以只包括一种划分方式,划分方式集合也可以是多种划分方式的集合。在本申请提供的实施例中,划分方式集合可以包括将文字作品整体当作ー个文字作品単元进行划分的方式,也可以包括将文字作品的每ー个章节作为ー个文字作品单元进行划分的方式,也可以包括将文字作品的每ー个段落作为ー个文字作品単元进行划分的方式。具体的,划分方式集合可以包括上述划分方式的ー种或多种,本申请对此不做限定。当然,除了本申请实施例提供的按章节、段落的划分方式外,还可以按其他方式对文字作品进行划分,由此得到的划分方式也都包括在划分方式集合内。本领域技术人员在不付出创造性劳动下得到的其他实现方式都属于本申请的保护范围。—种优选的实施方式时,划分方式集合包括上述所有划分方式,在建立母本指纹库的过程中,将划分方式集合中的所有划分方式作为预设的划分方式对文字作品进行划分。进ー步的,将根据所有划分方式得到的各种指纹特征都保存在母本指纹库中。当然,本申请不限制按照哪ー种方式对文字作品母本库中的文字作品単元进行划分,也不限制对按照所述划分方式得到的文字作品単元的指纹特征进行保存。步骤S203,提取每一个所述文字作品単元中的文字特征信息作为该文字作品単元的指纹特征。參见图3,为本申请实施例指纹特征提取示意图。在步骤S203中,提取每一个所述文字作品単元中的文字特征信息作为该文字作品単元的指纹特征具体可以包括
步骤S203A,将所述文字作品单元中的所有文字转化为对应的拼音。步骤S203B,提取每ー个文字对应拼音的首字母,按照首字母对所述文字作品単元中的所有文字进行分类,统计每ー类首字母所包括的文字的字数。步骤S203C,分别计算每ー类首字母所包括的文字的字数占所述文字作品単元中的所有文字的字数的比例,得到每ー类首字母对应的比例。步骤S203D,将所述每ー类首字母对应的比例组合成字符串,生成该文字作品単元的指纹特征。以下面的文字为例,进ー步描述指纹特征提取过程。如表I所示,将表I所示文字视为文字作品的ー个单元,提取表I所示文字的指纹特征。表I
“斗之力,三段!,,望着测验魔石碑上面闪亮得甚至有些刺眼的五个大字,少
年面无表情,唇角有着一抹自嘲,紧握的手掌,因为大力,而导致略微尖锐的指甲深深的刺进了掌心之中,带来ー阵阵钻心的疼痛...上述文字作品単元的指纹特征提取过程即为在步骤S203A中,将所述文字作品单元中的所有文字转化为对应的拼音。如表2所示表 2
dou zhi Ii san duan wang zhe ce yan mo shi bei shang mian snan liang de shen zhi you xie ci yan de wu ge da zi shao nian mian wu biao qing chun jiao you zhe yi mo zi chao jin wo de shou zhang yin wei da Ii er dao zhi Iue wei jian rui de zhi jia shen shen de ci jin Ie zhang xin zhi zhong dai Iai yi zhen zhen zuan xin de teng tong在步骤S203B中,提取每ー个文字对应的拼音的首字母,按照首字母对所述文字作品単元中的所有文字进行分类,统计每ー类首字母所包括的文字的字数。(I),提取每ー个文字对应的拼音的首字母。Dzlsdwzcymsbsmsldszyxcydwgdzsnmwbqcjyzymzcjwdszywdledzljrdzjssdcjlzxzzdlyzzzxdtt(2),按照首字母对所述文字作品単元中的所有文字进行分类,统计每ー类首字母所包括的文字的字数。如表3所示表权利要求
1.一种文字作品的追踪方法,其特征在于,所述方法包括 获取从未授权网站的地址下载的待识别的文字作品; 生成所述待识别的文字作品的数字指纹; 将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹; 当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库; 对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进行追踪。
2.根据权利要求I所述的方法,其特征在于,所述方法进一步包括 利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索引,生成文字作品索引库;所述文字作品索引库保存有文字作品与网页地址的对应关系; 从所述文字作品索引库中读取文字作品,当根据所述文字作品与网页地址的对应关系判定所述文字作品为从未授权网站的地址下载的文字作品时,将所述文字作品作为待识别的文字作品。
3.根据权利要求I所述的方法,其特征在于,所述对所述匹配结果库中的所述未授权网站的地址中的被判定为非法拷贝的文字作品定期进行追踪具体包括 从所述匹配结果库中提取所述未授权网站的地址信息; 查询所述未授权网站中的被判定为非法拷贝的文字作品是否存在,如果所述文字作品不存在,则更新所述匹配结果库中的信息,将匹配结果库中的所述未授权网站的地址信息删除;如果所述文字作品存在,则向所述未授权网站发送侵权警告信息。
4.根据权利要求I所述的方法,其特征在于,所述方法进一步包括 为文字作品母本库中的每一部文字作品生成对应的数字指纹。
5.根据权利要求4所述的方法,其特征在于,所述为文字作品母本库中的每一部文字作品生成对应的数字指纹具体包括 从所述文字作品母本库中读取一部文字作品; 从划分方式集合中选取所有划分方式作为预设的划分方式; 将所述文字作品按照预设的划分方式划分为至少一个文字作品单元; 提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征; 保存所述文字作品中的所有文字作品单元的指纹特征,生成所述文字作品的数字指纹。
6.根据权利要求I所述的方法,其特征在于,所述生成所述待识别的文字作品的数字指纹具体包括 从划分方式集合中选取至少一种划分方式作为预设的划分方式; 将所述待识别的文字作品按照预设的划分方式划分为至少一个文字作品单元; 提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征;保存所述待识别的文字作品中至少一个文字作品单元的指纹特征,生成所述待识别的文字作品的数字指纹。
7.根据权利要求5或6所述的方法,其特征在于,所述提取每一个所述文字作品单元中的文字特征信息作为该文字作品单元的指纹特征具体包括 将所述文字作品单元中的所有文字转化为对应的拼音; 提取每一个文字对应的拼音的首字母,按照首字母对所述文字作品单元中的所有文字进行分类,统计每一类首字母所包括的文字的字数; 分别计算每一类首字母所包括的文字的字数占所述文字作品单元中的所有文字的字数的比例,得到每一类首字母对应的比例; 将所述每一类字母对应的比例组合成字符串,生成该文字作品单元的指纹特征。
8.根据权利要求5或6所述的方法,其特征在于,所述划分方式集合包括 将文字作品整体作为一个文字作品单元进行划分; 和/或 将文字作品的每一个章节作为一个文字作品单元进行划分; 和/或 将文字作品的每一个段落作为一个文字作品单元进行划分。
9.根据权利要求I所述的方法,其特征在于,所述方法进一步包括 向所述匹配结果库中的未授权网站发送侵权警告信息。
10.根据权利要求I所述的方法,其特征在于,所述方法进一步包括 读取所述匹配结果库中的未授权网站的地址信息和被判定为非法拷贝的文字作品的信息并显示。
11.一种文字作品的追踪装置,其特征在于,所述装置包括待识别文字作品获取单元,用于获取从未授权网站的地址下载的待识别的文字作品;待识别文字作品数字指纹生成单元,用于生成所述待识别的文字作品的数字指纹;数字指纹比对单元,用于将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹;匹配单元,用于当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库; 追踪单元,用于对所述匹配结果库中的所述未授权网站中的被判定为非法拷贝的文字作品定期进行追踪。
12.根据权利要求11所述的装置,其特征在于,所述装置进一步包括 文本索引库建立单元,用于利用网络爬虫工具抓取相关的网页地址,从所述网页地址下载文字作品,建立所述文字作品的文本索弓I,生成文字作品索引库;所述文字作品索引库保存有文字作品与网页地址的对应关系。
13.根据权利要求11所述的装置,其特征在于,所述装置进一步包括 母本指纹库建立单元,用于为文字作品母本库中的每一部文字作品生成对应的数字指纹,建立母本指纹库。
全文摘要
本申请提供一种文字作品的追踪方法,包括获取从未授权网站的地址下载的待识别的文字作品;生成所述待识别的文字作品的数字指纹;将所述待识别的文字作品的数字指纹与预存在母本指纹库中的所有数字指纹进行比对,分别得到待识别的文字作品的数字指纹与母本指纹库中的数字指纹的相似度值;所述母本指纹库存储有文字作品母本库中的所有文字作品的数字指纹;当有至少一条相似度值小于设定阈值时,则判定所述待识别的文字作品属于非法拷贝,保存所述被判定为非法拷贝的文字作品的信息及所述未授权网站的地址信息至匹配结果库;对所述匹配结果库中的所述未授权网站的地址中被判定为非法拷贝的文字作品定期进行追踪。本申请的方法可靠性高,易于实现。
文档编号G06F21/16GK102855423SQ20111018440
公开日2013年1月2日 申请日期2011年6月29日 优先权日2011年6月29日
发明者郑达*, 陆坚 申请人:盛乐信息技术(上海)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1