一种网络小说内容近似度比对方法

文档序号:6363203阅读:460来源:国知局
专利名称:一种网络小说内容近似度比对方法
技术领域
本发明涉及一种内容近似度比对方法,更具体地,涉及一种针对网络小说的内容近似度比对方法。
背景技术
随着互联网技术的飞速发展,互联网上的各种数字内容越来越多,呈爆炸性增长趋势,包括各种内容的页面、学术论文、网络小说、学生作业等等,面对如此众多的数字内容,实现内容自动查重(近似度比对)是一项非常重要的技术,通过查重可以实现搜索引擎内容的重复检索、发表内容的抄袭检测、入库内容的非重复录入、有关研究内容的查新等。查重技术源于复制检测技术。复制检测,就是判断一个文件的内容是否抄袭、剽窃或者复制于另外一个或多个文件。剽窃不仅仅意味着原封不动地照搬,还包括对原作的移位变换、同义词替换以及改变说法重述等方式。查重技术从原理上分为两类:基于语法的方法(基于Shingle的方法)和基于语义的方法(基于Term的方法)。其中:Shingle是指文档中若干个连续出现的单词,这种方法从文档中选取一系列Shingle后统计相同的Shingle数目或者比率,作为判断文本相似度的依据。基于Term的方法采用单个词条作为计算的基本单元,而不考虑词条出现的位置和顺序.其中最著名的就是1-Match方法,选取IDF值(inverse document frequency,逆文本频率)较高的词条排序后构成为文档的特征向量值,特征向量值相似的文档被视为内容近似。其他基于Term的方法也大都采用SVM(Support Vector Machine,支持向量机)模型,利用TF/IDF(Term Frequency,词条频率)值进行文档关键词的提取,并将关键词作为文档的特征向量,通过计算文档间的近似度来进行近似度的检测。当前已有针对网页内容和学术论文的近似度比对方法,针对页面的近似度比对的重点在于整个页面内容和格式的重复,学术论文查重的重点在于核心内容和方法的重复抄袭。但是网络小说有不同于网页和学术论文的特点,而且现有的针对网页和学术论文的直接处理方法计算量大,处理速度慢。因此,针对当前蓬勃发展的网络小说这一新内容形式,为了保护作者利益,亟需一种针对网络小说的处理更快速的近似度比对方法。

发明内容
针对上述问题,本发明提供了一种网络小说内容近似度比对方法,包括:预处理步骤:对待比对网络小说进行预处理,提取关键词,将关键词进行同义词替换,以形成规范化网络小说;特征指纹提取步骤:将待比对网络小说中的拆分为多组临近有序词,并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹;以及特征指纹比对步骤:将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较,以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。
本发明的优点是:(I)针对网络小说的特点进行近似度比对;(2)近似度比对方法通过针对性的步骤,避免了方法复杂度大引起的效率不高问题,又避免了针对性不强引起的漏查问题;(3)本发明的方法具有自学习能力,通过学习机制,积累知识,提高查重准确度。


图1为本发明的网络小说内容近似度比对方法的流程图。
具体实施例方式网络小说内容的本身的特殊性,是具有特殊的章节,特定人物,特定的时间和空间,以及这三个方面的彼此结合,构成了一个网络小说的自身特征。因此,本发明的方法的近似度比对主要针对:⑴重要章节的完全重复;⑵核心人物的情节重复;⑶时间空间的映射转换。如图1所示,本发明首先对待比对网络小说进行预处理,然后进行特征提取,与特征比对库中存储的现有网络小说的特征进行比对,从而确定待比对网络小说与现有网络小说的近似度。下面详述本发明的近似度比对方法。1.预处理:I)同义词替换优选地,在对待比对网络小说预处理之前,先去除网络小说的非内容信息,例如格式信息、版本信息等。网络小说预处理同义词特征库(WIS)是网络小说中同义词特征的集合。这里,同义词包括等价关系、包含关系和相关关系。等价关系就是通过增加同义词来提高获取网络小说内容的回应率(recall)。如:“计算机”、“电脑”、“computer”是等价关系,在比对过程中,不管这三个词的任何一个,通过等价关系处理都可以把其它两个等价词加入词中。这里用“equal (“计算机”)={“电脑”,“computer” } ”表示“计算机”的等价关系集合。包含关系就是词含义的包容。如:“计算机”包含“微机”、“小型机”、“中型机”、“大型机”、“并行机”等。包含关系的引入也是为了提高网络小说内容的回应率(recall)。当系统进行“计算机”关键词处理时,发现有“计算机”包含关系词的内容,那么系统也会认为此内容满足比对要求。这里用“include( “计算机”)={ “微机”,“小型机”,“中型机”,“大型机”,“并行机” } ”表示“计算机”的包含关系集合。相关关系是指词之间的关联性,在这里主要是指与主题词的相关信息。如:主题词“计算机”和“信息处理”、“数据管理”、“数据分析”等具有相关关系。词之间的相关关系定义与所涉及的领域有密切的联系。这里用“interrelate ( “计算机”)={ “信息处理”,“数据管理”,“数据分析” } ”表示“计算机”的相关关系集合。WIS为关键词集合(Keyword_Set)、等价关系集合(Equal_Set)、包含关系集合(Include_Set)、相关关系集合(interrelate_Set)的四元组,即:WIS =〈Keyword—Set,Equal—Set,Include—Set,Interrelate—Set〉例如:
WIS =〈{//关键词集合“计算机”,“电脑”,“computer”,“微机”,“小型机”,“中型机”,“大型机”,“并行机”,“信息处理”,“数据管理”,“数据分析”,“IBM微机”,“Compaq微机”,“Digital微机”,“Dell
微机”,“王勇”,“老王”,“王市长”
权利要求
1.一种网络小说内容近似度比对方法,其特征在于,包括: 预处理步骤:对待比对网络小说进行预处理,提取关键词,将关键词进行同义词替换,以形成规范化网络小说; 特征指纹提取步骤:将待比对网络小说中的拆分为多组临近有序词,并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹;以及 特征指纹比对步骤:将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较,以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。
2.根据权利要求1所述的网络小说内容近似度比对方法,其特征在于,还包括: 第一类型特征向量提取步骤:将待比对网络小说以词条进行分解,去除出现的高频词和低频词,然后按照出现频率进行排序,以形成第一类型特征向量; 第一类型特征向量比对步骤:将所述第一类型特征向量与特征比对库中存储的现有网络小说的第一类型特征向量相比较,以两者的词条相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。
3.根据权利要求1所述的网络小说内容近似度比对方法,其特征在于,还包括: 第二类型特征向量提取步骤:将待比对网络小说进行概念抽取,并与其位置信息一起构成第二类型特征向量; 第二类型特征向量比对步 骤:将所述第二类型特征向量与特征比对库中存储的现有网络小说的第二类型特征向量相比较,以两者的近似度来确定待比对网络小说与现有网络小说的近似度。
4.根据权利要求1至3中任意一项所述的网络小说内容近似度比对方法,其特征在于,所述预处理步骤进一步包括: 设定待比对网络小说的关键词; 提取所述关键词的等价关系集合和包含关系集合,所述关键词设定为根关键词,其包含关系集合中的关键词设定为叶子关键词; 替换步骤:在所述待比对网络小说中,用所述关键词替换其等价关系集合和包含关系集合中的全部元素关键词,以形成规范化网络小说。
5.根据权利要求4所述的网络小说内容近似度比对方法,其特征在于,在所述替换步骤中:先对叶子关键词进行替换,然后对根关键词进行替换。
6.根据权利要求1所述的网络小说内容近似度比对方法,其特征在于,进一步包括:如果该待比对网络小说与特征比对库中的网络小说的近似度低于一阈值,则将该待比对网络小说的特征指纹增量加入到该特征比对库中。
7.根据权利要求2所述的网络小说内容近似度比对方法,其特征在于,进一步包括:如果该待比对网络小说与特征比对库中的网络小说的近似度低于一阈值,则将该待比对网络小说的第一类型特征向量加入到该特征比对库中。
8.根据权利要求3所述的网络小说内容近似度比对方法,其特征在于,进一步包括:如果该待比对网络小说与特征比对库中的网络小说的近似度低于一阈值,则将该待比对网络小说的第二类型特征向量加入到该特征比对库中。
9.根据权利要求4所述的网络小说内容近似度比对方法,其特征在于,所述预处理步骤还包括:去除待比 对网络小说的非内容信息,包括格式信息和版本信息。
全文摘要
一种网络小说内容近似度比对方法,包括预处理步骤对待比对网络小说进行预处理,提取关键词,将关键词进行同义词替换,以形成规范化网络小说;特征指纹提取步骤将待比对网络小说中的拆分为多组临近有序词,并对每一组临近有序词进行哈希运算形成的哈希表作为特征指纹;以及特征指纹比对步骤将所述特征指纹与特征比对库中存储的现有网络小说的特征指纹相比较,以两者的特征指纹相同的数目或比率来确定待比对网络小说与现有网络小说的近似度。本发明的方法用于网络小说的近似度比对,通过预处理避免了方法复杂度大引起的效率不高,又避免了针对性不强引起的漏查,且具有自学习能力,提高了查重准确度。
文档编号G06F17/30GK103207864SQ201210011329
公开日2013年7月17日 申请日期2012年1月13日 优先权日2012年1月13日
发明者刘瑞虹, 姜波 申请人:北京中文在线数字出版股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1