1.一种对互联网数据进行采集的方法,其特征在于,其实现过程为:
首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;
web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;
web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;
web爬虫把抽取到的数据写入数据库中;
设计数据处理模块,通过该数据处理模块对数据库中的数据进行处理。
2.根据权利要求1所述的一种对互联网数据进行采集的方法,其特征在于,Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。
3.根据权利要求1所述的一种对互联网数据进行采集的方法,其特征在于,数据处理模块对数据进行处理的过程包括:
链接过滤,判断当前链接是否在已经抓取过的链接集合里;
数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;
数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。
4.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。
5.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,数据排重通过以下算法实现:输入一个N维向量V,输出一个C位的二进制签名S;初始化一个C维向量Q为零,C位的二进制签名S为零;对向量V中的每一个特征用Hash算法得到一个C位的散列值H;若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重;若Q的第i个元素大于0,则S的第i位为l否则为0;返回签名S;通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。
6.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。