网页解析中网页正文重复内容的识别方法及装置与流程

文档序号:12748025阅读:来源:国知局

技术特征:

1.一种网页解析中网页正文重复内容的识别方法,其特征在于,包括:

获取待处理文本,其中,所述待处理文本为网页页面解析中网页正文的文本;

按照第一预设条件将所述待处理文本分割为多个分割语句;

确定所述多个分割语句中的多个待处理语句,其中,所述多个分割语句中内容相同的语句为同一个待处理语句;

获取多个第一频率,其中,所述多个第一频率分别为所述多个待处理语句在所述待处理文本中出现的频率;以及

根据所述多个第一频率识别所述网页解析中网页正文的重复内容。

2.根据权利要求1所述的方法,其特征在于,根据所述多个第一频率识别所述网页解析中网页正文的重复内容包括:

分别判断所述多个第一频率是否大于第一预设频率;

获取大于所述第一预设频率的第一频率;以及

将大于所述第一预设频率的第一频率对应的待处理语句作为所述网页解析中网页正文的重复内容。

3.根据权利要求1所述的方法,其特征在于,获取多个第一频率包括:

分别计算所述多个分割语句的哈希值;以及

分别统计每个所述待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到所述多个第一频率。

4.根据权利要求1所述的方法,其特征在于,

按照第一预设条件将所述待处理文本分割为多个分割语句包括:对所述待处理文本进行细粒度切分得到多个细粒度语句,

确定所述多个分割语句中的多个待处理语句包括:确定所述多个细粒度语句中多个待处理细粒度语句,其中,所述多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,

获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,所述多个待处理细粒度语句的频率为所述多个待处理细粒度语句在所述待处理文本出现的频率,

根据所述多个第一频率识别所述网页解析中网页正文的重复内容还包括:获取所述多个待处理细粒度语句的频率中的最大频率;以及

根据所述多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别所述网页解析中网页正文的重复内容。

5.根据权利要求1所述的方法,其特征在于,

按照第一预设条件将所述待处理文本分割为多个分割语句包括:对所述待处理文本进行细粒度切分得到多个细粒度语句,

确定所述多个分割语句中的多个待处理语句包括:确定所述多个细粒度语句中多个待处理细粒度语句,其中,所述多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,

获取多个第一频率包括:获取多个待处理细粒度语句的频率,其中,所述多个待处理细粒度语句的频率为所述多个待处理细粒度语句在所述待处理文本出现的频率,

根据所述多个第一频率识别所述网页解析中网页正文的重复内容还包括:分别判断所述多个待处理细粒度语句的频率是否大于第二预设频率;

获取大于所述第二预设频率的待处理细粒度语句的频率;以及

根据大于所述第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别所述网页解析中网页正文的重复内容。

6.一种网页解析中网页正文重复内容的识别装置,其特征在于,包括:

第一获取单元,用于获取待处理文本,其中,所述待处理文本为网页页面解析中网页正文的文本;

分割单元,用于按照第一预设条件将所述待处理文本分割为多个分割语句;

确定单元,用于确定所述多个分割语句中的多个待处理语句,其中,所述多个分割语句中内容相同的语句为同一个待处理语句;

第二获取单元,用于获取多个第一频率,其中,所述多个第一频率分别为所述多个待处理语句在所述待处理文本中出现的频率;以及

识别单元,用于根据所述多个第一频率识别所述网页解析中网页正文的重复内容。

7.根据权利要求6所述的装置,其特征在于,所述识别单元包括:

第一判断模块,用于分别判断所述多个第一频率是否大于第一预设频率;

第一获取模块,用于获取大于所述第一预设频率的第一频率;以及

第一确定模块,用于将大于所述第一预设频率的第一频率对应的待处理语句作为所述网页解析中网页正文的重复内容。

8.根据权利要求6所述的装置,其特征在于,所述第二获取单元包括:

计算模块,用于分别计算所述多个分割语句的哈希值;以及

统计模块,用于分别统计每个所述待处理语句的哈希值在多个分割语句的哈希值中出现的频率,得到所述多个第一频率。

9.根据权利要求6所述的装置,其特征在于,

所述分割单元还包括:第一切分模块,用于对所述待处理文本进行细粒度切分得到多个细粒度语句,

所述确定单元还包括:第二确定模块,用于确定所述多个细粒度语句中多个待处理细粒度语句,其中,所述多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,

所述第二获取单元还包括:第二获取模块,用于获取多个待处理细粒度语句的频率,其中,所述多个待处理细粒度语句的频率为所述多个待处理细粒度语句在所述待处理文本出现的频率,

所述识别单元还包括:第三获取模块,用于获取所述多个待处理细粒度语句的频率中的最大频率;以及第一识别模块,用于根据所述多个待处理细粒度语句的频率中的最大频率对应的细粒度语句识别所述网页解析中网页正文的重复内容。

10.根据权利要求6所述的装置,其特征在于,

所述分割单元还包括:第二切分模块,用于对所述待处理文本进行细粒度切分得到多个细粒度语句,

所述确定单元还包括:第三确定模块,用于确定所述多个细粒度语句中多个待处理细粒度语句,其中,所述多个细粒度语句中内容相同的语句为同一个待处理细粒度语句,

所述第二获取单元还包括:第三获取模块,用于获取多个待处理细粒度语句的频率,其中,所述多个待处理细粒度语句的频率为所述多个待处理细粒度语句 在所述待处理文本出现的频率,

所述识别单元还包括:第二判断模块,用于分别判断所述多个待处理细粒度语句的频率是否大于第二预设频率;第四获取模块,用于获取大于所述第二预设频率的待处理细粒度语句的频率;以及第二识别模块,用于根据大于所述第二预设频率的待处理细粒度语句的频率对应的待处理细粒度语句识别所述网页解析中网页正文的重复内容。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1