网页解析中网页正文重复内容的识别方法及装置与流程

文档序号:12748025阅读:219来源:国知局
网页解析中网页正文重复内容的识别方法及装置与流程

本发明涉及网页解析技术领域,具体而言,涉及一种网页解析中网页正文重复内容的识别方法及装置。



背景技术:

页面解析,例如,Html页面解析,是互联网数据挖掘技术中的重要环节。通过Html页面解析在网页页面中准确地抽取出各种特征,是后续数据挖掘中其它任务的前提。其中,网页正文是网页页面特征中重要的特征。由于网页格式千变万化,导致抽取网页正文非常困难。通常,相关技术是通过合并网页中文本段落来抽取网页正文,然而带有评论的网站具有一个明显的特点,即每一条评论内容中都带有指向正文的节点,如果通过上述网页正文的抽取方法,抽取网页正文的结果是:正文+(评论1+正文)+(评论2+正文)+…+(评论n+正文)+…,即抽取的网页正文中含有大量重复的正文内容。然而,由于无法识别网页正文中是否含有重复内容,在后续数据挖掘的其它任务中,直接调用网页正文的抽取结果进行分析处理,导致后续其它任务输出结果会一系列的出错。

针对相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题,目前尚未提出有效的解决方案。



技术实现要素:

本发明的主要目的在于提供一种网页解析中网页正文重复内容的识别方法及装置,以解决相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题。

为了实现上述目的,根据本发明的一个方面,提供了一种网页解析中网页正文重复内容的识别方法。该方法包括:获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本;按照第一预设条件将待处理文本分割为多个分割语句;确定多个分割语句中的多个待处理语句,其中,多个分割语句中内容相同的语句为同一个待处理语句;获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率;以及根据多个第一频率识别网页解析中网页正文的重复内容。

进一步地,根据多个第一频率识别网页解析中网页正文的重复内容包括:分别判断多个第一频率是否大于第一预设频率;获取大于第一预设频率的第一频率;以及将 大于第一预设频率的第一频率对应的待处理语句作为网页解析中网页正文的重复内容。

进一步地,获取多个第一频率包括:分别计算多个分割语句的哈希值;以及分别统计每个待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到多个第一频率。

进一步地,按照第一预设条件将待处理文本分割为多个分割语句包括:对待处理文本进行细粒度切分得到多个细粒度语句,确定多个分割语句中的多个待处理语句包括:确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,根据多个第一频率识别网页解析中网页正文的重复内容还包括:获取多个待处理细粒度语句的频率中的最大频率;以及根据多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别网页解析中网页正文的重复内容。

进一步地,按照第一预设条件将待处理文本分割为多个分割语句包括:对待处理文本进行细粒度切分得到多个细粒度语句,确定多个分割语句中的多个待处理语句包括:确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,根据多个第一频率识别网页解析中网页正文的重复内容还包括:分别判断多个待处理细粒度语句的频率是否大于第二预设频率;获取大于第二预设频率的待处理细粒度语句的频率;以及根据大于第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别网页解析中网页正文的重复内容。

为了实现上述目的,根据本发明的另一方面,提供了一种网页解析中网页正文重复内容的识别装置。该装置包括:第一获取单元,用于获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本;分割单元,用于按照第一预设条件将待处理文本分割为多个分割语句;确定单元,用于确定多个分割语句中的多个待处理语句,其中,多个分割语句中内容相同的语句为同一个待处理语句;第二获取单元,用于获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率;以及识别单元,用于根据多个第一频率识别网页解析中网页正文的重复内容。

进一步地,识别单元包括:第一判断模块,用于分别判断多个第一频率是否大于第一预设频率;第一获取模块,用于获取大于第一预设频率的第一频率;以及第一确定模块,用于将大于第一预设频率的第一频率对应的待处理语句作为网页解析中网页正文的重复内容。

进一步地,第二获取单元包括:计算模块,用于分别计算多个分割语句的哈希值;以及统计模块,用于分别统计每个待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到多个第一频率。

进一步地,分割单元还包括:第一切分模块,用于对待处理文本进行细粒度切分得到多个细粒度语句,确定单元还包括:第二确定模块,用于确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,第二获取单元还包括:第二获取模块,用于获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,识别单元还包括:第三获取模块,用于获取多个待处理细粒度语句的频率中的最大频率;以及第一识别模块,用于根据多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别网页解析中网页正文的重复内容。

进一步地,分割单元还包括:第二切分模块,用于对待处理文本进行细粒度切分得到多个细粒度语句,确定单元还包括:第三确定模块,用于确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,第二获取单元还包括:第三获取模块,用于获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,识别单元还包括:第二判断模块,用于分别判断多个待处理细粒度语句的频率是否大于第二预设频率;第四获取模块,用于获取大于第二预设频率的待处理细粒度语句的频率;以及第二识别模块,用于根据大于第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别网页解析中网页正文的重复内容。

在本发明实施例中,由于通过获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率,根据多个第一频率识别网页解析中网页正文的重复内容,解决了相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题,达到了能够识别出网页页面解析过程中网页正文是否含有重复内容的效果。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1是根据本发明实施例的网页解析中网页正文重复内容的识别方法的流程图;以及

图2是根据本发明实施例的网页解析中网页正文重复内容的识别装置的示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明的实施例,提供了一种网页解析中网页正文重复内容的识别方法。

图1是根据本发明实施例的网页解析中网页正文重复内容的识别方法的流程图。如图1所示,该方法包括以下步骤:

步骤S101,获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本。

步骤S102,按照第一预设条件将待处理文本分割为多个分割语句。

将上述获取的待处理文本按照预设条件分割为多个分割语句。其中,该第一预设条件可以为特定的符号,例如,句号,逗号或者换行符等等,即按照待处理文本中某一特定符号将待处理文本分割为多个分割语句。

步骤S103,确定多个分割语句中的多个待处理语句。

将多个分割语句中内容相同的语句视为同一个待处理语句,确定多个分割语句中的多个待处理语句。

例如,待处理文本中包括:A,B,C,E,A,C,F等多个分割语句,将多个分割语句中内容相同的语句视为同一个待处理语句,即将重复出现的A视为同一待处理语句,将重复出现的C视为同一个待处理语句。确定多个分割语句中的多个待处理语 句,即确定出A,B,C,E,F等多个待处理语句。

步骤S104,获取多个第一频率。

具体地,在上述步骤S104中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率。例如,待处理语句A在待处理文本中出现的频率为0.15,那么0.15即为待处理语句A在待处理文本中的第一频率。待处理语句B在待处理文本中出现的频率为0.35,那么0.35即为待处理语句B在待处理文本中的第一频率。

步骤S105,根据多个第一频率识别网页解析中网页正文的重复内容。

通过获取到的多个第一频率识别出网页解析中网页正文的重复内容有多种方式,例如,将多个第一频率中最大的频率对应的待处理语句视为网页解析中网页正文的重复内容,也可以将多个第一频率中超过某一阈值的频率对应的待处理语句视为网页解析中网页正文的重复内容。通过以上步骤,根据待处理语句在待处理文本中的频率来识别待处理文本中(即网页解析中网页正文)的重复内容,实现了能够识别出网页页面解析过程中网页正文是否含有重复内容,为后续网页正文的分析工作提前做好准备。

本发明实施例提供的网页解析中网页正文重复内容的识别方法,通过获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本;按照第一预设条件将待处理文本分割为多个待处理语句;获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率;以及根据多个第一频率识别网页解析中网页正文的重复内容,解决了相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题,达到了能够识别出网页页面解析过程中网页正文是否含有重复内容的效果,为后续网页正文的分析工作提前做好准备。

优选地,为了快速的识别网页解析中网页正文的重复内容,在本发明实施例提供的网页解析中网页正文重复内容的识别方法中,根据多个第一频率识别网页解析中网页正文的重复内容,还可以通过以下步骤实现:分别判断多个第一频率是否大于第一预设频率;获取大于第一预设频率的第一频率;以及将大于第一预设频率的第一频率对应的待处理语句作为网页解析中网页正文的重复内容。

通过以上步骤,快速的识别出网页解析中网页正文的重复内容,达到了提升识别出网页解析中网页正文的重复内容的效率。

可选地,为了提升获取多个第一频率的准确性,在本发明实施例提供的网页解析中网页正文重复内容的识别方法中,上述的获取多个第一频率,还可以通过以下步骤实现:分别计算多个分割语句的哈希值;以及分别统计每个待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到多个第一频率。

通过以上步骤,将每个待处理语句的哈希值在多个分割语句的哈希值中出现的频率分别作为多个第一频率,保证了确定多个第一频率的准确性。在根据多个第一频率识别网页解析中网页正文的重复内容中,即根据多个待处理语句对应的哈希值出现的频率识别网页解析中网页正文的重复内容。

优选地,在本发明实施例提供的网页解析中网页正文重复内容的识别方法中,上述的按照第一预设条件将待处理文本分割为多个待处理语句,还可以通过以下步骤实现:对待处理文本进行细粒度切分得到多个细粒度语句,确定多个分割语句中的多个待处理语句包括:确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,根据多个第一频率识别网页解析中网页正文的重复内容还包括:获取多个待处理细粒度语句的频率中的最大频率;以及根据多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别网页解析中网页正文的重复内容。

可选地,在本发明实施例提供的网页解析中网页正文重复内容的识别方法中,上述的按照第一预设条件将待处理文本分割为多个待处理语句,还可以通过以下步骤实现:对待处理文本进行细粒度切分得到多个细粒度语句,确定多个分割语句中的多个待处理语句包括:确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,根据多个第一频率识别网页解析中网页正文的重复内容还包括:分别判断多个待处理细粒度语句的频率是否大于第二预设频率;获取大于第二预设频率的待处理细粒度语句的频率;以及根据大于第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别网页解析中网页正文的重复内容。

具体地,设A,B,C,D,E,F……分别代表某一个待处理语句,多个待处理语句对应的文本可以表示成ABCDE……,而包含重复内容的待处理文本中则可以表示成ABCDABCEABCFABCGABC……,其中,ABC是网页正文的原文内容。D,E,F……是回复原文内容的评论。假设网页正文内容和非网页正文的内容都是由这样的细粒度组合而成,采用细粒度组合的处理方法,将待处理文本切分为多个细粒度语句,如,A,B,C,D,E……。统计分割后的多个细粒度语句在待处理文本中出现的频率。例如,“我早上吃了面包。吃了鸡蛋。还吃了香肠。真是丰盛。我早上吃了面包。吃了鸡蛋。还吃了香肠。真是羡慕……”,采用以句号进行分割的方式,进行分割后,得到:我早上吃了面包。吃了鸡蛋。还吃了香肠等多个语句。统计以句号分割后的多个语句在待处理文本中出现的频率,根据分割后的多个语句在待处理文本中出现的频率识别 网页解析中网页正文的重复内容。

识别网页解析中网页正文的重复内容,可以通过以下步骤实现:确定多个第二频率中的最大频率,然后确定多个第二频率中的最大频率对应的细粒度语句,如确定出ABC为最大频率对应的细粒度语句。根据ABC识别网页解析中网页正文的重复内容。即识别出ABC为网页解析中网页正文的重复内容。

识别网页解析中网页正文的重复内容,还可以通过以下步骤实现:分别判断多个第二频率是否大于第二预设频率,获取大于第二预设频率的第二频率,如确定ABC在待处理文本中出现的频率大于第二预设频率,根据ABC识别网页解析中网页正文的重复内容。即识别出ABC为网页解析中网页正文的重复内容。

需要说明的是,本发明实施例提供的网页解析中网页正文重复内容的识别方法可以用于识别网页解析过程中网页正文中原文内容的重复段落,也可以用于识别网页解析过程中网页正文中原文内容的全文重复。

另外,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本发明实施例还提供了一种网页解析中网页正文重复内容的识别装置,需要说明的是,本发明实施例的网页解析中网页正文重复内容的识别装置可以用于执行本发明实施例所提供的用于网页解析中网页正文重复内容的识别方法。以下对本发明实施例提供的网页解析中网页正文重复内容的识别装置进行介绍。

图2是根据本发明实施例的网页解析中网页正文重复内容的识别装置的示意图。如图2所示,该装置包括:第一获取单元10、分割单元20、确定单元30、第二获取单元40和识别单元50。

第一获取单元10,用于获取待处理文本,其中,待处理文本为网页页面解析中网页正文的文本。

分割单元20,用于按照第一预设条件将待处理文本分割为多个分割语句。

确定单元30,用于确定多个分割语句中的多个待处理语句,其中,多个分割语句中内容相同的语句为同一个待处理语句。

第二获取单元40,用于获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率。

识别单元50,用于根据多个第一频率识别网页解析中网页正文的重复内容。

本发明实施例提供的网页解析中网页正文重复内容的识别装置,由于通过第二获取单元40获取多个第一频率,其中,多个第一频率分别为多个待处理语句在待处理文本中出现的频率,识别单元50根据多个第一频率识别网页解析中网页正文的重复内容,解决了相关技术中网页页面解析过程中无法识别网页正文是否含有重复内容的问题,达到了能够识别出网页页面解析过程中网页正文是否含有重复内容的效果。

优选地,在本发明实施例提供的网页解析中网页正文重复内容的识别装置中,识别单元50包括:第一判断模块,用于分别判断多个第一频率是否大于第一预设频率;第一获取模块,用于获取大于第一预设频率的第一频率;以及第一确定模块,用于将大于第一预设频率的第一频率对应的待处理语句作为网页解析中网页正文的重复内容。

可选地,为了提升获取多个第一频率的准确率,在本发明实施例提供的网页解析中网页正文重复内容的识别装置中,第二获取单元40还包括:计算模块,用于分别计算多个分割语句的哈希值;以及统计模块,用于分别统计每个待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到多个第一频率。

优选地,在本发明实施例提供的网页解析中网页正文重复内容的识别装置中,分割单元20还包括:第一切分模块,用于对待处理文本进行细粒度切分得到多个细粒度语句,确定单元30还包括:第二确定模块,用于确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,第二获取单元40还包括:第二获取模块,用于获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,识别单元50还包括:第三获取模块,用于获取多个待处理细粒度语句的频率中的最大频率;以及第一识别模块,用于根据多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别网页解析中网页正文的重复内容。

可选地,在本发明实施例提供的网页解析中网页正文重复内容的识别装置中,分割单元20还包括:第二切分模块,用于对待处理文本进行细粒度切分得到多个细粒度语句,确定单元30还包括:第三确定模块,用于确定多个细粒度语句中多个待处理细粒度语句,其中,多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,第二获取单元40还包括:第三获取模块,用于获取多个待处理细粒度语句的频率,其中,多个待处理细粒度语句的频率为多个待处理细粒度语句在待处理文本出现的频率,识别单元50还包括:第二判断模块,用于分别判断多个待处理细粒度语句的频率是否大于第二预设频率;第四获取模块,用于获取大于第二预设频率的待处理细粒度语句的频率;以及第二识别模块,用于根据大于第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别网页解析中网页正文的重复内容。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系 列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1