文档的同本识别方法及装置的制造方法

文档序号:8299194阅读:133来源:国知局
文档的同本识别方法及装置的制造方法
【技术领域】
[0001]本发明涉及互联网技术领域,特别是涉及文档的同本识别方法及装置。
【背景技术】
[0002]随着网络技术的飞速发展,越来越多的作者在互联网上发表文学作品。有些作者在连载的过程中,因为更换网站发表或其他原因,将作品名进行修改后继续连载,也有一些网站将其他网站已发表的作品的书名或者章节目录稍微修改后重新发表,而实际上这些作品的文档正文部分的内容都是一样的。然而用户按照常规的搜索方法搜索更名前的作品时,通常无法搜索到更名后的这本作品的文档,即使是能够搜索到更名后的文档,但浏览器无法知道这些文档其实是同一个作品,因此就无法为用户优先提供高质量的版本,从而影响用户的阅读体验。因此,亟需在海量的互联网文学作品中,识别出属于同一作品的文档(简称同本识别),以便于进一步分类管理。但申请人进行研宄后发现,目前现有技术中尚无对互联网中的文学作品进行同本识别的方法。

【发明内容】

[0003]有鉴于此,本发明实施例提供了文档的同本识别方法及装置,以解决现有技术尚无法对互联网中的文学作品进行同本识别的问题。
[0004]为了解决上述技术问题,本发明实施例公开了如下技术方案:
[0005]一方面,提供了一种文档的同本识别方法,其特征在于,所述方法包括:
[0006]根据待识别文档的章节目录计算所述文档对应的simhash ;
[0007]根据所述simhash对所述文档进行分组;
[0008]对所述分组后的文档进行同本判定以识别出属于同本的文档。
[0009]可选的,所述根据待识别文档的章节目录计算所述文档对应的simhash包括:
[0010]预设用于计算所述simhash的章节目录序号;
[0011]根据所述序号对应的章节目录计算所述文档的simhash。
[0012]可选的,如果目标文档的章节目录的最大序号小于所述预设的章节目录序号,则以所述最大序号对应的章节目录计算所述目标文档的simhash。
[0013]可选的,所述根据所述simhash对所述文档进行分组包括:
[0014]判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限,如果是,则将对应的所述文档划分到同一相似集合中;或者
[0015]判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同,如果是,则将对应的所述文档划分到同一相似集合中;
[0016]判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档,如果是,则将对应的所述不同章节目录序号的相似集合进行并,直至不同章节目录序号的任意相似集合之间不包含任何相同文档,则同一相似集合中的文档即属于同一组。
[0017]可选的,对所述分组后的文档进行同本判定以识别出属于同本的文档包括:
[0018]对同一组内的文档进行同本判定以获得同本文档集合;
[0019]对所述同本文档集合之间进行同本合并以获得属于同本的文档。
[0020]可选的,所述对同一组内的文档进行同本判定以获得同本文档集合包括:
[0021]判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限,如果是,则将对应的文档划分到同一个同本文档集合中。
[0022]可选的,所述对同一组内的文档进行同本判定以获得同本文档集合包括:
[0023]判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件,如果是,则将对应的文档划分到同一个同本文档集合中,或者
[0024]判断同一组内的文档对应的章节目录之间是否满足预设的第二匹配条件,如果是,则将对应的文档划分到同一个同本文档集合中。
[0025]可选的,所述对所述同本文档集合之间进行同本合并以获得属于同本的文档包括:
[0026]判断任意同本文档集合之间是否包含任何相同文档,如果是,则将对应的同本文档集合合并,直至任意同本文档集合之间都不包含任何相同文档,则属于同一同本文档集合的文档即为同本的文档。
[0027]另一方面,提供了一种文档的同本识别装置,所述装置包括:
[0028]计算单元,用于根据待识别文档的章节目录计算所述文档对应的simhash ;
[0029]分组单元,用于根据所述simhash对所述文档进行分组;
[0030]识别单元,用于对所述分组单元分组后的文档进行同本判定以识别出属于同本的文档。
[0031]可选的,所述计算单元用于预设所述simhash的章节目录序号,并根据所述序号对应的章节目录计算所述文档的simhash。
[0032]可选的,所述计算单元用于当目标文档的章节目录的最大序号小于所述预设的章节目录序号时,则以所述最大序号对应的章节目录计算所述目标文档的simhash。
[0033]可选的,所述分组单元包括:
[0034]判断分组子单元,用于判断同一章节目录序号对应的simhash之间的海明距离是否小于预设的第一门限,如果是,则将对应的所述文档划分到同一相似集合中;或者用于判断同一章节目录序号对应的simhash之间在预设位上的值是否对应相同,如果是,则将对应的所述文档划分到同一相似集合中;
[0035]分组合并子单元,用于判断不同章节目录序号的对应的相似集合之间是否包含任何相同文档,如果是,则将对应的所述不同章节目录序号的相似集合进行并,直至不同章节目录序号的任意相似集合之间不包含任何相同文档,则同一相似集合中的文档即属于同一组。
[0036]可选的,所述识别单元包括:
[0037]同本判定子单元,用于对同一组内的文档进行同本判定以获得同本文档集合;
[0038]同本合并子单元,用于对所述同本文档集合之间进行同本合并以获得属于同本的文档。
[0039]可选的,所述同本判定子单元用于判断同一组内的文档对应的simhash之间的海明距离是否小于预设的第二门限,如果是,则将对应的文档划分到同一个同本文档集合中。
[0040]可选的,所述同本判定子单元用于判断同一组内的文档对应的文档名之间是否满足预设的第一匹配条件,如果是,则将对应的文档划分到同一个同本文档集合中,或者
[0041]用于判断同一组内的文档对应的章节目录之间是否满足预设的第二匹配条件,如果是,则将对应的文档划分到同一个同本文档集合中。
[0042]可选的,所述同本合并子单元用于判断任意同本文档集合之间是否包含任何相同文档,如果是,则将对应的同本文档集合合并,直至任意同本文档集合之间都不包含任何相同文档,则属于同一同本文档集合的文档即为同本的文档。
[0043]本发明实施例提供的文档的同本识别方法及装置,根据待识别文档的章节目录计算所述文档对应的simhash,并根据所述simhash对所述文档进行分组,再对所述分组后的文档进行同本判定以识别出属于同本的文档。该技术方案避免采用文档的正文数据进行同本判定,而是利用文档的章节目录对应的simhash来反映文档正文之间的相似程度,既缩小了计算的规模,同时也具有很高的准确性。并且根据simhash对文档分组后再进行同本判定,也能进一步减小对大量的文档之间进行比较运算的运算量。本方案能在海量的互联网文档中,识别出属于同一实质内容的文档,为后续对文档进行分类管理及质量排序等应用功能提供了技术支持。
【附图说明】
[0044]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1