文章重复度的检测方法、装置及计算设备与流程

文档序号:11155619阅读:815来源:国知局
文章重复度的检测方法、装置及计算设备与制造工艺

本发明涉及互联网领域,特别是涉及一种对文章的重复度进行检测的方法、装置及计算设备。



背景技术:

目前很多网站发布的资讯文章中有很多是用户或者公司投稿提供的推广软文,经常会出现一稿多投的情况,而网站在发布资讯的时候,需要优先考虑资讯内容是否独家原创(即要发布的资讯内容是否已被其它网站收录),因为搜索引擎更愿意收录及在搜索结果中优先展示独家原创的资讯内容,以提高用户的搜索体验。

对于搜索引擎来说,如果网站缺乏独家原创的内容或者发布的大部分内容相对于搜索引擎来说是重复的话,则其会对网站进行降权,降低对网站的评分,从而减少网站内容在搜索引擎中的曝光展示量。所以网站在发布文章时,需要识别该文章是否被其它多个网站收录。

由此,需要一种能够对文章被其它网站收录的重复度进行检测的方案。



技术实现要素:

本发明的主要目的在于提供一种文章重复度的检测方法、装置及计算设备,其可以准确地检测出待检测文章被其它网站收录的重复度。

根据本发明的一个方面,提供了一种文章重复度的检测方法,包括:对待检测文章进行切分,以得到多个切片;对多个切片中至少部分切片执行搜索操作,以得到对应于部分切片中每个切片的搜索结果;计算每个切片和与其对应的搜索结果之间的相似度;根据计算得到的相似度来确定待检测文章的重复度。

由此,对于待检测的文章,可以对其切片进行搜索,以计算切片的相似度,然后根据多个切片的相似度就可以推算得到文章的重复度。

优选地,计算每个切片和与其对应的搜索结果之间的相似度的步骤可以包括:对切片进行分词,以得到第一分词结果;对结果页面中的匹配内容进行分词,以得到第二分词结果;分别计算第一分词结果和第二分词结果的词频,以得到第一词频向量和第二词频向量;根据余弦相似性计算第一词频向量和第二词频向量的相似度,作为切片和与其对应的搜索结果之间的相似度。

由此,可以利用余弦相似性来计算切片和结果页面之间的相似度。

优选地,根据计算得到的相似度来确定文章的重复度的步骤可以包括:计算相似度大于第一预定阈值的个数占总的相似度的个数的比值,比值为待检测文章的重复度。

优选地,对多个切片中至少部分切片执行搜索操作的步骤可以包括:使用搜索引擎分别对多个切片中至少部分切片在数据库中进行搜索。

由此,可以利用搜索引擎(一个或多个)在相应的数据库中来爬取搜索结果。

优选地,在所述多个切片的数量大于第二预定阈值时,对多个切片中部分切片执行搜索操作,在所述多个切片的数量小于第二预定阈值时,对多个切片中每个切片执行搜索操作。

由此,在对待检测文章切分得到的切片数量较多时,可以选取一部分切片来进行搜索。

优选地,该方法还可以包括:提取待检测文章中的关键词;根据关键词在切片中的出现情况,为至少部分切片中的每个切片赋予权重。

由此,还可以预先获取待检测文章中的关键词,然后根据关键词在切片中出现的情况,为切片赋予相应的权重。这样,可以提高文章重复度检测的准确度。

根据本发明的另一个方面,还提供了一种文章重复度的检测装置,包括:切分单元,用于对待检测文章进行切分,以得到多个切片;搜索单元,用于对多个切片中至少部分切片执行搜索操作,以得到对应于部分切片中每个切片的搜索结果;相似度计算单元,用于计算每个切片和与其对应的搜索结果之间的相似度;重复度确定单元,用于根据计算得到的相似度来确定待检测文章的重复度。

优选地,切分单元可以包括:第一分词模块,用于对切片进行分词,以得到第一分词结果;第二分词模块,用于对搜索结果中的匹配内容进行分词,以得到第二分词结果;词频计算模块,用于分别计算第一分词结果和第二分词结果的词频,以得到第一词频向量和第二词频向量,相似度计算单元根据余弦相似性计算第一词频向量和第二词频向量的相似度,作为切片和与其对应的结果页面之间的相似度。

优选地,重复度确定单元可以计算相似度大于第一预定阈值的个数占总的相似度的个数的比值,比值为待检测文章的重复度。

优选地,搜索单元可以使用搜索引擎分别对多个切片中至少部分切片在数据库中进行搜索。

优选地,在多个切片的数量大于第二预定阈值时,搜索单元对多个切片中部分切片执行搜索操作,在多个切片的数量小于第二预定阈值时,搜索单元对多个切片中每个切片执行搜索操作。

优选地,该检测装置还可以包括:关键词提取单元,用于提取待检测文章中的关键词;权重赋予单元,用于根据关键词在切片中的出现情况,为至少部分切片中的每个切片赋予权重。

根据本发明的另一个方面,还提供了一种计算设备,包括:网络接口,网络接口使得计算设备能够经由一个或多个网络通信;存储器,通过网络接口加载的网络资源缓存在存储器中;以及处理器,与网络接口和存储器相连接,处理器配置为执行以下操作:对待检测文章进行切分,以得到多个切片;对多个切片中至少部分切片执行搜索操作,以得到对应于部分切片中每个切片的搜索结果,其中,搜索结果包括一个或多个结果页面;计算每个切片和与其对应的每个结果页面之间的相似度;根据计算得到的相似度来确定待检测文章的重复度。

综上,本发明的文章重复度的检测方法、装置及计算设备通过对待检测文章切分,计算多个切片的相似度,根据计算得到的多个切片的相似度来确定待检测文章的重复度。这样,根据计算得到的重复度就可以确定待检测文章在互联网上的传播度,从而可以确定该文章是否还具有发布价值。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。

图1是示出了根据本发明一实施例的计算设备的结构框图。

图2是示出了根据本发明一实施例的文章重复度的检测方法的示意性流程图。

图3是示出了使用切片进行搜索时的效果示意图。

图4是示出了根据本发明一实施例的文章重复度的检测装置的结构框图。

图5是示出了相似度计算单元可以包括的子模块的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

如前所述,对于搜索引擎来说,如果网站缺乏原创独家的内容或者发布的大部分内容相对于搜索引擎来说是重复的话,则其会对网站进行降权,降低对网站的评分,从而减少网站内容在搜索引擎中的曝光展示量。所以网站在发布内容时,需要识别内容被搜索引擎收录的情况(例如是否被收录、被收录的次数),以确定发布的内容是否相对于搜索引擎独家原创。

针对于此,本发明提出了一种能够检测文章重复度的方案。其中,本文述及的“重复度”是用来表征文章在互联网上的传播度。例如,假设文章A仅被有限几个网站收录,则可以认为文章A的重复度较低,具有发布价值;假设文章A已被很多网站收录,则可以认为文章A的重复度较高,已不具备发布价值。

下面将参照图1至图5来具体地描述本发明的实施例。

图1是示出了根据本发明一实施例的计算设备100的结构框图。计算设备100的部件包括但不限于网络接口110、存储器120以及一个或多个处理器130。处理器130与网络接口110和存储器120相连接。在本发明的一个实施例中,计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本发明范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。

计算设备100优选地可以是任何类型的移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备。

网络接口110使得计算设备100能够经由一个或多个网络通信。这些网络的示例包括局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。网络接口110可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口等等。

通过网络接口110访问到的网络数据缓存在存储器120中。存储器120可包括存储文件形式或其他形式的内容的任何类型的存储设备中的一个或多个,包括磁硬盘驱动器、固态硬驱、半导体存储设备、闪存,或者能够存储程序指令或数字信息的任何其他计算机可读可写存储介质。

处理器130能够读取存储器120中缓存的网络数据,并配置为确定待检测文章的重复度。

其中,处理器130确定文章重复度的具体过程可以参见图2。图2是示出了根据本发明一实施例的文章重复度的检查方法的流程图。

参见图2,确定文章重复度的过程可以开始于步骤S210,对待检测文章进行切分,以得到多个切片。这里,可以采取多种方式对待检测文章进行切分,例如可以根据标点符号对待检测文章进行切分,也可以根据语义对待检测文章进行切分,具体可以有多种实现方式,这里不再赘述。

在步骤S220,对多个切片中至少部分切片执行搜索操作,以得到对应于部分切片中每个切片的搜索结果。

在步骤S210中对待检测文章进行切分得到的多个切片的数量大于预定阈值时(为了便于区分,这里可以称为第二预定阈值,具体的数值大小可以根据实际情况设定),可以从多个切片中选取部分切片(例如可以随机选取一半切片)来参与搜索。在基于步骤S210得到的多个切片的数量小于第二预定阈值时,可以选取全部的切片参与搜索。

这里可以使用搜索引擎(如谷歌、百度、搜狗、好搜等)对切片执行搜索操作。在对切片进行搜索时,可以使用搜索引擎对整个切片进行搜索,也可以先对切片进行分词,然后根据分词结果进行搜索。例如,假设对待检测文章进行切分得到的一个切片为“内容付费的本质是制造封闭与稀缺性”,可以将整个切片“内容付费的本质是制造封闭与稀缺性”作为关键词使用搜索引擎进行搜索,也可以对个切片“内容付费的本质是制造封闭与稀缺性”进行分词,得到多个关键词“内容付费”、“本质”、“制造封闭”、“稀缺性”,然后使用分词得到的多个关键词进行搜索。

对切片执行搜索操作得到的搜索结果可能是多个,也可能是零个或有限数量个。因此,可以取预定数量个(具体数值可以根据需要设定)搜索结果来参与步骤S230中的相似度计算。其中,在步骤S220得到的搜索结果的个数不足预定数量时,可以将搜索出来的全部搜索结果参与步骤S230中的相似度计算。

在步骤S230,计算每个切片和与其对应的搜索结果之间的相似度。

这里可以根据余弦相似性来计算切片和与其对应的搜索结果之间的相似度。具体地,可以分别对切片和搜索结果中的匹配内容进行分词,以得到第一分词结果和第二分词结果。

其中,搜索结果中的匹配内容是与切片相对应的内容。例如,在使用搜索引擎对切片进行搜索时,显示在搜索结果页中的搜索结果通常包含标题、标题下面的内容以及网址,其中,标题下面的内容一般就是与搜索词(即本文中的切片)相类似的内容,因此在使用搜索引擎对切片进行搜索时,可以直接将搜索结果中标题下方的内容作为匹配内容。这样,无需再进入搜索结果页面,将搜索结果页面中的内容与切片进行对比,以得到匹配内容。

作为一个示例,假设对待检测文章进行切分得到的一个切片为“虽然网上联系多次但是我只和绰号大曲的昌荣学弟见过一面”,使用搜索引擎以该切片为搜索词进行搜索时得到的结果页面如图3所示,对于第一个搜索结果或第二个搜索结果,标题栏下面放的划横线部分的内容就可以作为切片的匹配内容。

在得到的了第一分词结果和第二分词结果后,就可以分别计算第一分词结果和第二分词结果的词频,以得到第一词频向量和第二词频向量。

然后根据余弦相似性计算第一词频向量和所述第二词频向量的相似度,作为切片和与其对应的结果页面之间的相似度。

其中,利用余弦相似性计算相似度的具体过程为本领域技术人员所公知,这里不再赘述。

在步骤S240,根据计算得到的相似度确定待检测文章的重复度。

这里可以计算相似度大于第一预定阈值的个数占总的相似度的个数的比值,该比值就可以作为待检测文章的重复度。

具体地,对于基于步骤S230计算得到的切片和与其对应的搜索结果之间的相似度,在计算得到的相似度的值大于第一预定阈值时,可以认为该切片和该搜索结果相似。这样,可以统计相似的个数占总的计算的相似度的个数的比值,即为待检测文章的重复度。

针对计算得到的文章重复度,可以制定评分标准,例如可以根据重复度的大小分为推荐使用(重复度≤20%),建议修改(60%>重复度≥40%)以及废弃(重复度≥60%)。

作为本发明的一个可选实施例,在执行步骤S210之前,还可以提取待检测文章中的关键词(可以是一个或多个),根据关键词在切片中的出现情况(出现的关键词的个数、频率等等),为至少部分切片中的每个切片赋予权重。

在计算切片和与其对应的搜索结果之间的相似度时,可以根据切片的权重值的大小,选取相应数量的搜索结果参与相似度的计算。例如,对于权重高的切片,在对其进行搜索时(步骤S220),可以选取排名靠前的较多数量的搜索结果参与相似度的计算,对于权重较低的切片,在对其进行搜索时,可以选取排名靠前的较少数量的搜索结果参与相似度的计算。

图4示出了根据本发明一实施例的文章重复度的检测装置400的功能框图。检测装置400的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现,例如通过图1所示的计算设备100中的一个或多个处理器130来实现。本领域技术人员可以理解的是,图4所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。

参见图4,检测装置400包括切分单元410、搜索单元420、相似度计算单元430以及重复度确定单元440。

切分单元410用于对待检测文章进行切分,以得到多个切片。搜索单元420用于对多个切片中至少部分切片执行搜索操作,以得到对应于部分切片中每个切片的搜索结果,其中,搜索结果包括一个或多个结果页面。

其中,搜索单元420可以使用搜索引擎分别对所述多个切片中至少部分切片在数据库中进行搜索。在多个切片的数量大于第二预定阈值时,搜索单元420可以对多个切片中部分切片执行搜索操作,在多个切片的数量小于第二预定阈值时,搜索单元420可以对多个切片中每个切片执行搜索操作。

相似度计算单元430用于计算每个切片和与其对应的每个结果页面之间的相似度。重复度确定单元440用于根据计算得到的相似度来确定待检测文章的重复度。这里,重复度确定单元440可以计算相似度大于第一预定阈值的个数占总的相似度的个数的比值,该比值就可以作为待检测文章的重复度。

图5示出了相似度计算单元430可以具有的功能模块的示意性方框图。

参见图5,相似度计算单元430可以包括第一分词模块4310、第二分词模块4320、词频计算模块4330以及相似度计算模块4340。

第一分词模块4310用于对切片进行分词,以得到第一分词结果。第二分词模块4320用于对结果页面中的匹配内容进行分词,以得到第二分词结果。词频计算模块4330用于分别计算第一分词结果和第二分词结果的词频,以得到第一词频向量和第二词频向量。相似度计算模块4340用于根据余弦相似性计算第一词频向量和第二词频向量的相似度,作为切片和与其对应的结果页面之间的相似度。

回到图4,检测装置400还可以包括关键词提取单元450和权重赋予单元460。

其中,关键词提取单元450用于提取待检测文章中的关键词(一个或多个)。权重赋予单元460用于根据关键词在切片中的出现情况(关键词出现的个数、频率等等),为至少部分切片中的每个切片赋予权重。

相似度计算单元430在计算切片和与其对应的搜索结果之间的相似度时,可以根据切片的权重值的大小,选取相应数量的搜索结果参与相似度的计算。例如,对于权重高的切片,在搜索单元420对其进行搜索时,可以选取排名靠前的较多数量的搜索结果参与相似度的计算,对于权重较低的切片,在对其进行搜索时,可以选取排名靠前的较少数量的搜索结果参与相似度的计算。

上文中已经参考附图详细描述了根据本发明的文章重复度的检测方法、装置及计算设备。

综上,基于本发明可以实现以下有益效果:文章原创度的快速检测,而无需进入搜索引擎搜索结果页面进行人工对比;搜索引擎更愿意收录及在搜索结果中优先展示原创独家的数据内容,通过该方案可以筛选出相对于搜索引擎原创独家的内容,提高搜索引擎对网站的评分,增大网站内容的曝光展示量;提高优质内容的利用率,提高网站内容的整体质量,提高网站的SEO;文章原创度的评分标准,提供给运营参考是否还有发布的价值;给用户提供了优质稀缺的内容,提升用户对网站的认知度价值。

此外,根据本发明的方法还可以实现为一种计算机程序,该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。

附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1