一种对互联网数据进行采集的方法与流程

文档序号：12465066阅读：来源：国知局

技术特征：

1.一种对互联网数据进行采集的方法，其特征在于，其实现过程为：

首先爬取url队列，为web爬虫提供需要抽取数据的网站url地址，即将需要抽取数据的网站url存入爬取url队列中；

web爬虫从爬取url队列中获取需要抽取数据的网站的url信息；

web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息；

web爬虫把抽取到的数据写入数据库中；

设计数据处理模块，通过该数据处理模块对数据库中的数据进行处理。

2.根据权利要求1所述的一种对互联网数据进行采集的方法，其特征在于，Web爬虫依据用户事前配置好的规则进行数据采集工作，该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。

3.根据权利要求1所述的一种对互联网数据进行采集的方法，其特征在于，数据处理模块对数据进行处理的过程包括：

链接过滤，判断当前链接是否在已经抓取过的链接集合里；

数据排重，排重即排除掉重复项，网页排重通过比较两个页面之间的相似度来排除重复项；

数据整合，将采集到的数据通过关键字建立对应关系，即关键字之间的匹配。

4.根据权利要求3所述的一种对互联网数据进行采集的方法，其特征在于，链接过滤的具体实现过程为：对于每一个抓取过的url，通过i个hash函数计算，得到i个值，然后与一个bit数组的i个位置的元素相互对应，在判断某个url是否被抓取过时，首先用i个hash函数对该url计算得到i个值，再查询大型的bit数组内的i个位置的值，若全为1说明已经被抓取过，否则为未抓取过。

5.根据权利要求3所述的一种对互联网数据进行采集的方法，其特征在于，数据排重通过以下算法实现：输入一个N维向量V，输出一个C位的二进制签名S；初始化一个C维向量Q为零，C位的二进制签名S为零；对向量V中的每一个特征用Hash算法得到一个C位的散列值H；若H第i位是1，则Q的第i个元素加该元素的权重，否则，减去该元素的权重；若Q的第i个元素大于0，则S的第i位为l否则为0；返回签名S；通过计算并判断两个签名的海明距离，小于3则可认为相似度比较高。

6.根据权利要求3所述的一种对互联网数据进行采集的方法，其特征在于，数据整合就是将处理后的网页内容用一组关键字进行描述，这些关键字可以使用该网页使用频率最高的若干个词汇，经过关键字处理后进行匹配达到数据整合的目的。

完整全部详细技术资料下载

当前第2页1 2 3