网站转载数量的统计方法及装置与流程

文档序号:12464734阅读:来源:国知局

技术特征:

1.一种网站转载数量的统计方法,其特征在于,包括:

利用爬虫爬取原创文章的转载体,得到所述原创文章的第一网站转载结果,其中,所述原创文章为在目标网站上首发的文章;

获取所述原创文章的属性信息,其中,所述属性信息包括标题信息和/或关键词信息;

根据获取的所述属性信息利用搜索引擎搜索所述原创文章的转载体,得到所述原创文章的第二网站转载结果;

合并所述原创文章的所述第一网站转载结果及所述第二网站转载结果。

2.根据权利要求1所述的方法,其特征在于,合并所述原创文章的所述第一网站转载结果及所述第二网站转载结果包括:

删除所述原创文章的所述第二网站转载结果中与所述第一网站转载结果中的重复部分;

将删除了所述重复部分的第二网站转载结果叠加到所述第一网站转载结果中。

3.根据权利要求1所述的方法,其特征在于,根据获取的所述属性信息利用搜索引擎搜索所述原创文章的转载体,得到所述原创文章的第二网站转载结果包括:

根据获取的所述属性信息利用搜索引擎搜索所述原创文章的转载体;

对所述原创文章与其转载体进行相似度分析;

根据相似度分析结果确定所述原创文章的第二网站转载结果。

4.根据权利要求3所述的方法,其特征在于,根据相似度分析结果确定所述原创文章的第二网站转载结果包括:

根据所述相似度分析结果确定出与所述原创文章的相似度大于相似度阈值的转载体;

判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间;

在判断结果为与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间晚于所述原创文章的首发时间的情况下,确定该转载体属于所述原创文章的 第二网站转载结果。

5.根据权利要求4所述的方法,其特征在于,在判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间之前,所述方法还包括:

检测与所述原创文章的相似度大于所述相似度阈值的转载体是否有文章来源标识,

其中,在检测结果为与所述原创文章的相似度大于所述相似度阈值的转载体没有所述文章来源标识的情况下,判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间。

6.一种网站转载数量的统计装置,其特征在于,包括:

爬取单元,用于利用爬虫爬取原创文章的转载体,得到所述原创文章的第一网站转载结果,其中,所述原创文章为在目标网站上首发的文章;

获取单元,用于获取所述原创文章的属性信息,其中,所述属性信息包括标题信息和/或关键词信息;

搜索单元,用于根据获取的所述属性信息利用搜索引擎搜索所述原创文章的转载体,得到所述原创文章的第二网站转载结果;

合并单元,用于合并所述原创文章的所述第一网站转载结果及所述第二网站转载结果。

7.根据权利要求6所述的装置,其特征在于,所述合并单元包括:

删除模块,用于删除所述原创文章的所述第二网站转载结果中与所述第一网站转载结果中的重复部分;

叠加模块,用于将删除了所述重复部分的第二网站转载结果叠加到所述第一网站转载结果中。

8.根据权利要求6所述的装置,其特征在于,所述搜索单元包括:

搜索模块,用于根据获取的所述属性信息利用搜索引擎搜索所述原创文章的转载体;

分析模块,用于对所述原创文章与其转载体进行相似度分析;

确定模块,用于根据相似度分析结果确定所述原创文章的第二网站转载结果。

9.根据权利要求8所述的装置,其特征在于,所述确定模块包括:

第一确定子模块,用于根据所述相似度分析结果确定出与所述原创文章的相似度大于相似度阈值的转载体;

判断子模块,用于判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间;

第二确定子模块,用于在判断结果为与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间晚于所述原创文章的首发时间的情况下,确定该转载体属于所述原创文章的第二网站转载结果。

10.根据权利要求9所述的装置,其特征在于,所述确定模块还包括:

检测子模块,用于在判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间之前,检测与所述原创文章的相似度大于所述相似度阈值的转载体是否有文章来源标识,

其中,所述判断子模块还用于在检测结果为与所述原创文章的相似度大于所述相似度阈值的转载体没有所述文章来源标识的情况下,判断与所述原创文章的相似度大于所述相似度阈值的转载体的发布时间是否晚于所述原创文章的首发时间。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1