一种主题网络爬虫系统的设计方法

文档序号:6575703阅读:353来源:国知局
专利名称:一种主题网络爬虫系统的设计方法
技术领域
本发明专利涉及网络数据采集系统设计方法,尤其涉及一种主题网络爬虫系统的设计方法。
背景技术
当今的世界是信息的世界,但随着网络的迅猛发展,网络信息呈几何级数增长。因此如 何在浩瀚如海的信息空间里快速査找并获取自己需要或感兴趣的信息已成为信息时代最根本 的问题之一。目前的搜索引擎大多数是面向全部信息的,可以称之为综合性搜索引擎,但随着信 息多元化的发展,这种适用于所有用户的综合性搜索引擎显然已经不能满足特定用户更加深 入的查询要求,他们对信息的需求往往是针对某些受限领域和面向特定主题的,同时综合性搜 索引擎的信息召回率和精确率都是比较低的。针对这种情况,我们需要一个分类精确、数据全 面、更新及时的面向主题的搜索引擎,而网络爬虫作为搜索引擎的核心部分,其搜索策略很 大程度地影响了搜索引擎的性能。普通爬虫是按照IP地址搜索策略或预先设定的广度优先策 略、深度优先策略或这两种策略相结合的方式爬行网页。通常这几种爬行方式的特点是爬虫 只按深度爬行网页, 一般很少关注网页的内容,当爬行到给定的深度时便停止工作。所以它 从网络上搜集到的信息比较全面,正是因为如此其爬行速度较慢,而且搜索结果冗余信息过 多、搜索结果杂乱无章,相当一部分内容与检索人需要的信息的相关度差距较大。为进一步提 .、.高搜索结果的内容相关度,从而增加搜索结果的准确性,提出了"最佳优先搜索"的策略。

发明内容
发明目的本发明的目的是针对现有爬虫搜索技术的搜索结果相关度差距较大,爬行速 度较慢的不足,提出一种基于最佳优先搜索策略的主题网络爬虫系统的设计方法。最佳优先
搜索策略是根据搜索关键词及其它相关信息,推测用户搜索时的隐含条件,预测候选URL与 目标网页的相似度,或与主题的相关性,并选取评价最好的一个或几个URL进行抓取,进一 步限制搜索结果的范围。
为实现本发明的目的所釆用的技术方案,本设计方法包括以下步骤
1、 建立主题词库,确立搜索主题,为每个主题确立不同权值;
2、 设定阈值,对爬取网页进行过滤,剔除主题相关度低于设定阈值的网页;3、 计算网页重要程度,确定网页的访问顺序;
4、 为方便主题爬虫处理链接和计算主题相关度,建立4个URL队列待分析的URL队 列Waiting queue、 IH在分析的URL队列Running queue、分析完成的URL队列Completed queue、错误或抛弃的URL队歹(J Exceptions queue。
其中上述步骤1建立主题词库,确立搜索主题,为每个主题确立不同权值,得到本方法 的主题词库,其步骤包括
(1) 、给定一个跟主题信息主题有关的网页集合,该网页集合来自建立的专业网站数据 库,具有有代表性和全面概括性,由程序自动将这些网页里面共同的特征进行提取,并根据 频率确定权值;
(2) 、采用手工的方法(主要是通过咨询相关领域专家获取)设置一组关于主题信息的关 键词并分配权值。
其中上述步骤2对爬取网页进行过滤,剔除主题相关度低于设定阈值的网页,其实现方 法采用向量空间模型算法(Vector Space Model, VSM)计算网页主题相关度,实现网页过滤。
其中上述步骤3计算网页重要程度,确定网页的访问顺序,其实现方法应用超链接分 析算法来判断URL的重要性,从而得到网页的重要程度。
本发明的有益效果是由于本设计方法的主题爬虫是按照最佳优先的爬行策略爬^1网页。 主题爬虫有一个网页分类器,当爬虫从网络上抓取到新网页时,在爬行之前都要进行主题相 关度分析,通过分析将优先爬行与初始种子网页相关度最高的网页,而与初始种子网页不相 关或着相关度不大的网页则被抛弃。按照本发明方法构建的主题网络爬虫系统与普通网络爬 虫系统相比,其显著优点是爬虫的工作量大大减少、爬行的速度大大加快,爬行的准确率 和全面率大大提高,从而其搜索结果更加令用户满意。研究表明,这样的调整可以将无关网
页数量降低30% 90% 。


图l是本发明系统结构图2是URL状态流程图。
具体实施例方式
如图1所示,本发明方法所构建的网络爬虫系统主要包含管理界面1、爬行数据库2、主题词库3、主题确定器4、网页分类器5、网页选择器6及Web Crawkr主程序7。主题确 定器4是主题爬虫工作的基础,网页分类器5负责学习抓取目标的特点,计算网页的关联度, 并过滤网页。网页选择器6负责计算网页的重要程度,并由此动态决定网页的访问顺序。 下面对本设计方法作详细说明
步骤(1):建立主题词库,确立搜索主题,为每个主题确立不同权值。权值的设置通常 采用两种方法特征提取和手工设置。特征提取是指给定一个跟主题有关的网页集合,由程 序自动将这些网页里面共同的特征进行提取,并根据频率确定权值,为此我们建立了一个专 业网站数据库,该数据库包含国内与主题信息相关的网站域名和IP列表,为了确保搜索信息 的权威性、准确性,该数据库采用手工维护;手工设置是指采用手工的方法(主要是通过咨询 相关领域专家获取)设置一组关于主题信息的关键词并分配权值。
步骤(2):设定阈值,对爬取网页进行过滤,剔除主题相关度较低的网页(小于设定的 阈值),这样就不会在下一步爬行中处理该页面中的链接。因为一个页面的主题相关度如果很 低,说明该网页很可能只是偶尔出现个别关键词,其主题可能和査询主题关系很小,因此处理其 中的链接的意义很小。普通爬虫是根据设定的搜索深度,对所有链接进行处理,结果返回了大量 无用的网页,大大增加了工作量。这是主题爬虫和普通爬虫的根本区别之一。
主题相关度的计算采用向量空间模型算法(Vector Space Model, VSM),在向量空间模型
中,每篇文档都表示为特征空间中一个等长的n维向量(A,^,…,6;。), w为词表的大小,", 为词表中第i个关键词在该文档中的权重。文档被映射为向量空间中的一个点。主题r用"维 向量(A,^,…,仁)表示,从而文档与主题的匹配问题转化为向量空间中矢量的计算。本方法采 用TF-IDF权重法计算文本向量的特征权重,该方法的基本思想是某一个关键词在一篇文献 中频繁出现,则在与其主题相似的文献中,关键词的出现次数也会很多,反之亦然。由此, 词频TF被选作为特征空间坐标系的重要测度,用于体现同类文本的特点此外,考虑单词区 别不同类别的能力,发现单词出现的的文本频数越小,其区别不同类别的能力就越大,由此 引入逆文本频度IDF的慨念.以TF与IDF的乘积作为权重的测度。
在本方法中看作由关键词组成的向量6=(叫,^,一,60, %为关键词^在文档《中的权重。
那么有<formula>formula see original document page 5</formula>其中《为关键词(在文档《中出现的次数,也称作词频(Term Frequency,简称TF)。 iV为
训练文档的总数。#;指全部爬行文档集合中包含关键词。的文档的总数。/(《被称作关键词《 的反比文档频率(Inverse Document Frequency,简称IDF)。对于文档中未出现过的关键词,它 的特征权重取为为0。
由于网页采用了半结构化的HTML语言,包含了丰富的结构信息,在抽取网页的主题内 容时应加以利用。通常应当对位于〈Head〉、 <Title>、 〈Met^以及〈ahref— >等标记之内的关 键词加以重视,对其赋予不同的权重评测系数。但通过大量实际操作,发现在诸多网页标记 中最能够反映网页内容的通常并不是的^Title〉或者〈MetaW司的文字,而是々href:>与< / 0>之间的超链文字。因为许多网页在制作时其〈Title〉的生成并没有考虑网页本身所包括的内 容,有的是由网页制作工具自动生成(比如为Indexl, Index2等),有的是作者赋以与主题无关 的Title,还有的是为了提升在搜索引擎结果中的排名,而故意欺骗Spider,这种现象在〈Met^ 标记尤为常见。针对以上情况,设一个函数F(x)代表第x个关键字应赋予的权重,所以对于 关键词在网页中的权重修改如下
^"乂xlog(iV/《)xF(/) 其中根据经验设定函数Ff/卩的取值情况为-
柳=
3,0关键字在超链文字中 2.0关键字在Head/Title/HI/H2中 1,6 关键字在Meta中 其他情况
为了抵消由篇幅引起对权重的影响,需要将^/进行向量归一化处理,TFIDF的归一化计 算公式如下
<formula>formula see original document page 6</formula>
用待判定文档特征向量《和主题中心向量《两个向量夹角的余弦表示页面的主题相关度s/w , ) = cos < , c/, >=
J(S",:)(2X)
指定一个阈值s,当^m(《,Os时就可以认为该页面和主题是比较相关的,s的取值需
要根据经验和实际要求确定,如果想获得较多的贞面,可以把s设小一点,要获得较少的页 面可以把s设的大一点。
步骤(3):计算网页重要程度,确定网页的访问顺序。把价值高的网页排到前面,以便其 更容易地被选中。本方法主要讨论应用改进的超链接分析算法来判断URL的重要性。 一般计 算URL的重要性(PageRank)的公式
其中T,,T2…ln是指向网页P的其他网页,d是界于(O, l)区间的一个衰减系数,C(Tn) 是网页T(n)中指向外部的链接数目。在公式(l)的基础上通过简单的迭代算法可以求出PR(R) 的值。但上述公式只考虑网页之间的关系,而没有考虑网页本身内容对PR(R)的影响,所以 对其进行了修正
/(P) =/i (尸)+/丄(尸) (2)
IR(P)是公式(1)中的PR(P), 1L(P)是指向P的URL的重要性。同时根据公式(l)也可以看 出公式(2)中主干部分PR(P)的计算也存在一定不足例如一篇原本PR值较高的重要论文,如 果增加了几个指向其参考文献的超链接(Hyperlink),其PR值将大大降低,因为公式(l)直 接判定JD指出的超链接都是负因子,这显然不合理。所以要在此基础上对其再次进行修正-
尸i (尸)=(i - of) + ^CPi (7;) £氛)+…+尸草。)£ /(rj)
其中fOnk)是网页Tn的所有m个超链中第k个超链接对网页Tn的影响因子。它的取值分为几 种情况如果P中的超链接所指的网页在内容上与P相关,贝ljH的f(T。k)取正值(如取l)。如果 H与P内容无关,此时并不能简单地令f(Tnk)取负值,因为至少存在两种H与P内容无关的情形-如果H是指向广告等的超链,fOnk)取负值;如果H是指向首页等的超链,则可以忽略其作用, 令f(Tnk)为O。
步骤(4):为方便主题爬虫处理链接和计算主题相关度,建立4个URL队列待分析的URL队列Waiting queue、正在分析的URL队列Running queue、分析完成的URL队列Completed queue、错误或抛弃的URL队列Exceptions queue。
当主题爬虫起动后,将所处理页面中的URL加到Waiting queue,当处理一个URL时,如 果该URL为错误、抛弃类型或主题相关度的计算小于阈值则将其放入Exceptionsqueue中,否 则处理完该URL后将其放入Completed queue中,再从Waiting queue中取一新的URL进行处理。 每处理一个新的URL时先将其与Completed queue和Exceptions queue中的URL进行比较,如果 该URL己在这两个队列中则放弃该URL,再取一新的URL,以此循环,图2说明了这些状态的 上述关系。
权利要求
1、一种主题网络爬虫系统的设计方法,其特征在于本设计方法包括以下步骤(1)、建立主题词库,确立搜索主题,为每个主题确立不同权值;(2)、设定阈值,对爬取网页进行过滤,剔除主题相关度低于设定阈值的网页;(3)、计算网页重要程度,确定网页的访问顺序;(4)、为方便主题爬虫处理链接和计算主题相关度,建立4个URL队列待分析的URL队列Waiting queue、正在分析的URL队列Running queue、分析完成的URL队列Completedqueue、错误或抛弃的URL队列Exceptions queue。
2、 根据权利要求1所述的一种主题网络爬虫系统的设计方法,其特征在于步骤(1) 建立主题词库,确立搜索主题,为每个主题确立不同权值,得到本方法的主题词库,其步骤 包括-1) 、给定一个跟主题信息主题有关的网页集合,该网页集合来自建立的专业网站数据库, 具有有代表性和全面概括性,由程序自动将这些网页里面共同的特征进行提取,并根据频率 确定权值;2) 、手工设置一组关于主题信息的关键词并分配权值。
3、 根据权利要求1所述的一种主题网络爬虫系统的设计方法,其特征在于步骤2对爬 取网页进行过滤,剔除主题相关度低于设定阈值的网页,其实现方法采用向量空间模型算法(Vector Space Model, VSM)计算网页主题相关度,实现网页过滤。
4、 根据权利要求1所述的一种主题网络爬虫系统的设计方法,其特征在于步骤3计算 网页重要程度,确定网页的访问顺序,其实现方法应用超链接分析算法来判断URL的重要 性,从而得到网页的重要程度。
全文摘要
本发明公开了一种面向主题网络爬虫系统设计方法,该方法基于“最佳优先搜索策略”,主要包括以下步骤(1)建立主题词库;(2)对爬取网页进行过滤,剔除主题相关度较低的网页(小于设定的阈值);(3)计算网页重要程度,确定网页的访问顺序;(4)建立4个URL队列待分析的URL队列Waiting queue、正在分析的URL队列Running queue、分析完成的URL队列Completed queue、错误或抛弃的URL队列Exceptions queue。通过本发明所述设计方法,大大减少了爬虫的工作量,提高了爬行结果的准确率和全面率。
文档编号G06F17/30GK101630327SQ20091009483
公开日2010年1月20日 申请日期2009年8月14日 优先权日2009年8月14日
发明者何庆华, 张云伟, 斌 汪 申请人:昆明理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1