一种大规模网络数据实时爬取系统的制作方法

文档序号:11864861阅读:389来源:国知局
一种大规模网络数据实时爬取系统的制作方法与工艺

本发明涉及大数据云计算技术领域,特别涉及一种大规模网络数据实时爬取系统。



背景技术:

随着互联网的迅速发展和日益普及,网络信息平台所能提供的内容越发丰富多彩,用户在搜索所需信息时面临搜索难度增加及信息筛选所需消耗的大量时间和精力也随之而来。搜索引擎的出现解决了海量信息检索的难题。搜索引擎通过爬虫进行资源的搜集。网络爬虫通过网络连接进行网页文档的爬取和收集,即从预先给定的URL入手,利用H1vrP协议爬取所需的HTML文档,并分析这些HTML文档中所包含的超链接,再次抓取未访问的链接及其包含的资源。如此反复直至没有新的URL。

但是由于移动互联网的迅猛发展,现在新的网页内容呈现爆发式增长,传统的爬取系统已经无法满足大规模网络数据爬取的需求。



技术实现要素:

因此,有必要提供一种能够实时爬取大规模网络数据的的大规模网络数据实时爬取系统。

一种大规模网络数据实时爬取系统,其包括如下模块:

初始化种子优化模块,用于录入网站种子链接;通过元搜索的方式,将最优的结果反馈给用户;挖掘链接与主题关系度靠前的链接;定期将符合条件的网页链接加入到种子集合中,作为初始种子的集合;

整合模块,用于对HTML的网页文档进行获取,并对文本中的信息进行标注;

网页超链接信息整合模块,用于对网页的超链接的描述数据进行保存的,如果有2个页面A和B,如果A的超链接指向了B,则默认的认为B里的信息内容比A的信息内容质量高,同时如果用户查询信息的时候同时指向了A和B2个超链接,则默认为A和B的信息质量相同;

网页相关度计算模块,用于通过具体的数值来分析主题相关度,用具体的数值信息来表示相关度的信息;

超链接重要度计算模块,用于将计算出来的数值信息作为判定相关度的一个依据,也是通过具体的数值来量化分析;如果当前页面所包含的链接数目达到了一定的数值,表示这个页面有若干个链接,如果包含的数目达到了预设数值表示所包含的主题资源符合了预设要求。

在本发明所述的大规模网络数据实时爬取系统中,所述网页相关度计算模块包括:

单次遍历单元,用于输入网页页面文中的字符串,定义为m-scontent;循环查找,条件是找到相应的标记符,标记符定义为delimiters;搜索函数截取位置1,搜索函数定义为Find();搜索函数截取位置2,使用同一个搜索函数;截取位置1、2并输出到字符串,字符串定义为dest;遍历结束,输出字符串;

重复单元,用于重复执行单次遍历单元,直到把信息的挖掘点挖掘出来,并通过纯文本分类汇聚算法提取信息挖掘点挖掘出的特征向量关键词;在挖掘出的信息获取主题相关度的算法用空间向量模型表示。

在本发明所述的大规模网络数据实时爬取系统中,

空间向量模型表示如下:

首先分析网页页面的文本信息,这里定义α=(w1,w2,…wn),i=l,2,...n,

对关键词出现的次数进行统计,把出现频率最高的关键词定位标准,这里把频率定义为xi,构建一个向量xiwi,并定义页面主题的向量β=(x1w1,x2w2,…xnwn),i=1,2,...n,;则两个向量的余弦函数就能够反应出关键词所出现的频率,相关度具体公式如下:

其中两个向量的夹角越大,表示频率越小,表明与主题的相关度越小;夹角越小表示出现的频率越大,说明与主题的相关度更高;

设置当前网页与主题相关度的阈值;大于阈值表示与主题相关,否则与主题不相关,对于与主题相关的网页进行分类保存,提交到数据库建立索引数据。

在本发明所述的大规模网络数据实时爬取系统中,设置当前网页与主题相关度的阈值包括:

定期随机采样,获得预设数量的原始网页页面文档,并通过人工分析网页的相关性,并计算准确率;

对准确率进行反复统计,如果预测次数统计的准确率波动小于预设误差值,则降低阈值用于提高爬虫覆盖率;如果预测次数统计的准确率波动大于或等于预设误差值,则提高阈值用于提高爬虫的准确率;

重复执行对准确率进行反复统计直至获得想要的阈值。

在本发明所述的大规模网络数据实时爬取系统中,超链接重要度计算模块包括:

对页面重要度的计算公式如下:

pu=w1*cos<α,β>+w2*Hub(u),其中Hub(u)表示网页的链接重要度,CL(u)表示搜索到的连接数定位,其最大值用Cmax表示;页面相关度的权值用m1表示,页面链接度的权值用m2表示;m1和m2满足以下条件0<m1,m2<l且m1+m2=l。

在本发明所述的大规模网络数据实时爬取系统中,所述整合模块还包括:

对HTML的网页文档进行获取并分析是否为视频HTML,如是,继续判断URL是否属于可运行爬行域名,不属于可运行爬行域名直接终止,属于可运行爬行域名则获取URL的域名,并获取与该域名相对应的视频解析类;判断视频解析类是否为空,为空则结束,不为空继续判断是否为视频HTML的播放地址,不是播放地址则结束,是播放地址则从URL和内容中得到视频真实下载地址列表,在视频真实下载地址列表不为空时,返回视频真实下载地址列表并结束;不为视频HTML时,并对文本中的信息进行标注并挑战到网页超链接信息整合模块。

实施本发明提供的大规模网络数据实时爬取系统与现有技术相比具有以下有益效果:通过设置网页相关度计算模块用具体的数值来分析主题相关度,用具体的数值信息来表示相关度的信息;通过超链接重要度计算模块将计算出来的数值信息作为判定相关度的一个依据,也是通过具体的数值来量化分析;如果当前页面所包含的链接数目达到了一定的数值,表示这个页面有若干个链接,如果包含的数目达到了预设数值表示所包含的主题资源符合了预设要求,能够在海量的大数据中获得想要的网络数据,并通过设置整合模块对HTML的网页文档进行获取并分析是否为视频HTML,能够区分普通网页和视频网页,是的爬取的效率更高。

附图说明

图1是本发明实施例的大规模网络数据实时爬取系统结构框图。

图2是图1中网页相关度计算模块的结构框图。

具体实施方式

如图1、2所示,一种大规模网络数据实时爬取系统,其包括如下模块:

初始化种子优化模块,用于录入网站种子链接;通过元搜索的方式,将最优的结果反馈给用户;挖掘链接与主题关系度靠前的链接;定期将符合条件的网页链接加入到种子集合中,作为初始种子的集合。

可选地,初始化种子优化模块中,设置最大优先级队列,在最大优先级队列所维护的集合set中,集合中每个元素对应一个优先级key。通过最大优选级队列支持如下流程:

插入队列Insert(set,e,key):将优选级为key的元素e插入到set中;

最高级队列Max(set):返回集合set中优先级最高的元素;

提取队列Ext(set):返回集合set中优选级最高的元素,并将其从set中删除;

递增队列(set,e,key):将集合set中元素e的优选级设置为key。

通过本实施例,可以通过最大堆实现,具有很高的效率。

整合模块,用于对HTML的网页文档进行获取,并对文本中的信息进行标注。

网页超链接信息整合模块,用于对网页的超链接的描述数据进行保存的,如果有2个页面A和B,如果A的超链接指向了B,则默认的认为B里的信息内容比A的信息内容质量高,同时如果用户查询信息的时候同时指向了A和B2个超链接,则默认为A和B的信息质量相同。

网页相关度计算模块,用于通过具体的数值来分析主题相关度,用具体的数值信息来表示相关度的信息。

超链接重要度计算模块,用于将计算出来的数值信息作为判定相关度的一个依据,也是通过具体的数值来量化分析;如果当前页面所包含的链接数目达到了一定的数值,表示这个页面有若干个链接,如果包含的数目达到了预设数值表示所包含的主题资源符合了预设要求。

在本发明所述的大规模网络数据实时爬取系统中,所述网页相关度计算模块包括:

单次遍历单元,用于输入网页页面文中的字符串,定义为m-scontent;循环查找,条件是找到相应的标记符,标记符定义为delimiters;搜索函数截取位置1,搜索函数定义为Find();搜索函数截取位置2,使用同一个搜索函数;截取位置1、2并输出到字符串,字符串定义为dest;遍历结束,输出字符串。

重复单元,用于重复执行单次遍历单元,直到把信息的挖掘点挖掘出来,并通过纯文本分类汇聚算法提取信息挖掘点挖掘出的特征向量关键词;在挖掘出的信息获取主题相关度的算法用空间向量模型表示。

在本发明所述的大规模网络数据实时爬取系统中,

空间向量模型表示如下:

首先分析网页页面的文本信息,这里定义α=(w1,w2,…wn),i=l,2,...n,

对关键词出现的次数进行统计,把出现频率最高的关键词定位标准,这里把频率定义为xi,构建一个向量xiwi,并定义页面主题的向量β=(x1w1,x2w2,…xnwn),i=1,2,...n,;则两个向量的余弦函数就能够反应出关键词所出现的频率,相关度具体公式如下:

其中两个向量的夹角越大,表示频率越小,表明与主题的相关度越小;夹角越小表示出现的频率越大,说明与主题的相关度更高。

设置当前网页与主题相关度的阈值;大于阈值表示与主题相关,否则与主题不相关,对于与主题相关的网页进行分类保存,提交到数据库建立索引数据。

在本发明所述的大规模网络数据实时爬取系统中,设置当前网页与主题相关度的阈值包括:

定期随机采样,获得预设数量的原始网页页面文档,并通过人工分析网页的相关性,并计算准确率。

对准确率进行反复统计,如果预测次数统计的准确率波动小于预设误差值,则降低阈值用于提高爬虫覆盖率;如果预测次数统计的准确率波动大于或等于预设误差值,则提高阈值用于提高爬虫的准确率。

重复执行对准确率进行反复统计直至获得想要的阈值。

在本发明所述的大规模网络数据实时爬取系统中,超链接重要度计算模块包括:

对页面重要度的计算公式如下:

pu=w1*cos<α,β>+w2*Hub(u),其中Hub(u)表示网页的链接重要度,CL(u)表示搜索到的连接数定位,其最大值用Cmax表示;页面相关度的权值用m1表示,页面链接度的权值用m2表示;m1和m2满足以下条件0<m1,m2<l且m1+m2=l。

在本发明所述的大规模网络数据实时爬取系统中,所述整合模块还包括:

对HTML的网页文档进行获取并分析是否为视频HTML,如是,继续判断URL是否属于可运行爬行域名,不属于可运行爬行域名直接终止,属于可运行爬行域名则获取URL的域名,并获取与该域名相对应的视频解析类;判断视频解析类是否为空,为空则结束,不为空继续判断是否为视频HTML的播放地址,不是播放地址则结束,是播放地址则从URL和内容中得到视频真实下载地址列表,在视频真实下载地址列表不为空时,返回视频真实下载地址列表并结束;不为视频HTML时,并对文本中的信息进行标注并挑战到网页超链接信息整合模块。

实施本发明提供的大规模网络数据实时爬取系统与现有技术相比具有以下有益效果:通过设置网页相关度计算模块用具体的数值来分析主题相关度,用具体的数值信息来表示相关度的信息;通过超链接重要度计算模块将计算出来的数值信息作为判定相关度的一个依据,也是通过具体的数值来量化分析;如果当前页面所包含的链接数目达到了一定的数值,表示这个页面有若干个链接,如果包含的数目达到了预设数值表示所包含的主题资源符合了预设要求,能够在海量的大数据中获得想要的网络数据,并通过设置整合模块对HTML的网页文档进行获取并分析是否为视频HTML,能够区分普通网页和视频网页,是的爬取的效率更高。

可以理解的是,对于本领域的普通技术人员来说,可以根据本发明的技术构思做出其它各种相应的改变与变形,而所有这些改变与变形都应属于本发明权利要求的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1