一种匹配度高的互联网数据采集方法与流程

文档序号:17477403发布日期:2019-04-20 06:13阅读:276来源:国知局

本发明涉及计算机应用技术领域,具体地说是一种实用性强、对互联网数据进行采集的方法。



背景技术:

互联网网页数据采集就是一个获取互联网网页内容的过程,一般通过网络爬虫抓取,但是现有的抓取过程中经常会出现重复抓取相同url、抓取后的数据重复、抓取数据之间匹配度不高的情况,基于此,现提供一种匹配度高的互联网数据采集方法,通过分析从网页中抽取出用户需要的数据内容,并对抽取出来的数据内容通过内容和格式的转换和加工处理,存储用以满足用户的需求。



技术实现要素:

本发明的技术任务是针对以上不足之处,提供一种实用性强、匹配度高的互联网数据采集方法。

一种匹配度高的互联网数据采集方法,其实现过程为:首先爬取url列表,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url列表中;web爬虫从爬取url列表中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的关键字信息;web爬虫把抽取到的数据写入数据库中;设计数据分析和比对模块,通过该数据分析和比对模块对数据库中的数据进行处理。

web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。

数据分析和比对模块对数据进行处理的过程包括:链接过滤,判断当前链接是否在已经抓取过的链接集合里;数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。

链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。

数据排重通过以下算法实现:输入一个n维向量v,输出一个c位的二进制签名s;初始化一个c维向量q为零,c位的二进制签名s为零;对向量v中的每一个特征用hash算法得到一个c位的散列值h;若h第i位是1,则q的第i个元素加该元素的权重,否则,减去该元素的权重;若q的第i个元素大于0,则s的第i位为l否则为0;返回签名s;通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。

数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。

本发明的一种匹配度高的互联网数据采集方法,具有以下优点:本发明提供的一种匹配度高的互联网数据采集方法,在正常爬取网络数据时,通过链接过滤、数据排重和整合的数据处理方式,将数据进行处理,剔除重复的数据,避免重复抓取,数据相互之间整合匹配度高,从而更好的满足用户需求,实用性强,适用范围广泛,易于推广。

具体实施方式

一种匹配度高的互联网数据采集方法,其实现过程为:首先爬取url列表,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url列表中;web爬虫从爬取url列表中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的关键字信息;web爬虫把抽取到的数据写入数据库中;设计数据分析和比对模块,通过该数据分析和比对模块对数据库中的数据进行处理。

web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解析规则以及内容抽取规则。

数据分析和比对模块对数据进行处理的过程包括:链接过滤,判断当前链接是否在已经抓取过的链接集合里;数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重复项;数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。

链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取过,否则为未抓取过。

数据排重通过以下算法实现:输入一个n维向量v,输出一个c位的二进制签名s;初始化一个c维向量q为零,c位的二进制签名s为零;对向量v中的每一个特征用hash算法得到一个c位的散列值h;若h第i位是1,则q的第i个元素加该元素的权重,否则,减去该元素的权重;若q的第i个元素大于0,则s的第i位为l否则为0;返回签名s;通过计算并判断两个签名的海明距离,小于3则可认为相似度比较高。

数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。

上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种匹配度高的互联网数据采集方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。



技术特征:

技术总结
本发明公开了一种匹配度高的互联网数据采集方法,其实现过程为:首先爬取url列表,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url列表中;web爬虫从爬取url列表中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的关键字信息;web爬虫把抽取到的数据写入数据库中;设计数据处理模块,通过该数据分析和比对模块对数据库中的数据进行处理。该匹配度高的互联网数据采集方法与现有技术相比,通过链接过滤、数据排重和整合的数据处理方式,将数据进行处理,剔除重复的数据,避免重复抓取,数据相互之间整合匹配度高,从而更好的满足用户需求,实用性强,适用范围广泛,易于推广。

技术研发人员:韩金花
受保护的技术使用者:河南大瑞物联网科技有限公司
技术研发日:2018.11.26
技术公布日:2019.04.19
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1