一种对互联网数据进行采集的方法与流程

文档序号:12465066阅读:来源:国知局

技术特征:

1.一种对互联网数据进行采集的方法,其特征在于,其实现过程为:

首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;

web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;

web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;

web爬虫把抽取到的数据写入数据库中;

设计数据处理模块,通过该数据处理模块对数据库中的数据进行处理。

2.根据权利要求1所述的一种对互联网数据进行采集的方法,其特征在于,Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。

3.根据权利要求1所述的一种对互联网数据进行采集的方法,其特征在于,数据处理模块对数据进行处理的过程包括:

链接过滤,判断当前链接是否在已经抓取过的链接集合里;

数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;

数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。

4.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。

5.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,数据排重通过以下算法实现:输入一个N维向量V,输出一个C位的二进制签名S;初始化一个C维向量Q为零,C位的二进制签名S为零;对向量V中的每一个特征用Hash算法得到一个C位的散列值H;若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重;若Q的第i个元素大于0,则S的第i位为l否则为0;返回签名S;通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。

6.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1