一种基于url字符串信息学习的主题爬虫系统的实现方法

文档序号:6365691阅读:140来源:国知局
专利名称:一种基于url字符串信息学习的主题爬虫系统的实现方法
技术领域
本发明属于数据挖掘和搜索引擎技术领域,特别涉及一种基于URL字符串信息学习的主题爬虫系统的实现方法。
背景技术
随着互联网的信息量飞速增长以及人们对搜索引擎的要求越来越高,传统搜索引擎的局限性,如覆盖率低、时效性差、结果不准确、返回不相关的结果太多等缺点逐渐体现。为解决这些问题,研究人员提出垂直搜索引擎,专注与某个特定领域的内容捜索。其中,主题爬虫系统是垂直搜索引擎的核心部分,其主要目标是在有限的时间与网络带宽限制下尽可能多地采集与某个指定主题相关的高质量网页,忽略与指定主题无关或一些低质量的网页。主题爬虫系统要解决的主要问题有主题是否定义的明确;主题相关的URL是否被优先抓取;怎样去判断ー个未知URL的主题相关性;主题网页是否都被抓取,有没有数据丢失。目前存在的主题爬虫采用的爬行策略主要有基于文本内容的爬行策略,基于链接的爬行策略和基于分类的爬行策略。基于文本内容的爬行策略,在主题相关网页附近爬行时表现出较好的性能,但当离主题相关网页较远时容易迷失爬行方向,很难反映Web的整体情況。基于链接的爬行策略,在通用爬虫中有很好的指导效果,更适合发现权威网页,但不适合发现主题资源,而且其计算量一般都很大,导致更新周期较长,严重影响了爬行器的爬行效率。基于分类的爬虫,比较明确的定位用户查询串的主题信息,也可以将爬虫限定在特定类别的页面可以更为准确的提取用户查询主题,相似度计算也更方便。但不能反映Web的整体结构,存在计算复杂度较高,阈值不易确定等副作用。

发明内容
本发明的目的在于针对现有方法存在的上述问题,提出在挖掘URL字符串信息的同时结合网页内容分析和链接分析来提高主题爬虫的整体性能。在计算主题相关度的时候,结合了 URL字符串信息、网页内容、锚信息去计算目标URL的主题相关度,同时还采用机器的自主学习对URL字符串所携帯的信息进行学习,从而使URL主题相关度的计算更精确。另外,提出了基于文本内容分析和链接分析相结合的爬行策略,在防止爬虫只在局部最优的同时,还避免了较高的计算复杂度。本发明解决其技术问题的技术方案是
本发明是基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度,采用机器学习对URL字符串携帯的信息不断学习,动态的更新主题相关向量,利用内容分析和链接分析相结合的爬虫策略。其具体步骤为
步骤I—选择种子URL
依据给定的主题,结合机器学习和人工选择,选定与主题相关的K个网页的URL作为种子URL,网页下载器从选定的种子URL开始下载网页。步骤2—分析下载页面网页分析器对下载的网页内容和链接进行分析,提取网页的URL字符串信息、网页内容、锚信息。步骤3 —主题相关度计算
根据URL字符串信息、网页内容、锚信息进行主题相关度计算。步骤4—过滤不相关网页
根据主题相关度,把低于主题相关度某个阀值的URL过滤掉。步骤5—URL字符串信息学习
URL字符串信息学习的基本过程是,先从给定网页的URL中得到ー个训练数据集。URL字符串信息学习部分利用选取的学习算法对已经下载的网页URL字符串信息进行学习,得到一个主题知识库,主题知识库去指导URL主题相关度的计算,URL主题相关度的值再反馈给URL字符串信息学习部分从而去指导URL字符串信息的学习,经过URL字符串信息学习后,再去更新主题知识库,以便进一步学习,改进系统的性能。步骤6—确定待下载的URL队列
采用内容分析与链接分析相结合的爬虫策略,得出ー个待下载的具有优先级的URL队列。本发明具有的有益效果是
I、本发明通过URL字符串信息、网页内容、锚信息去计算目标URL的主题相关度,提高了 URL相关度计算的准确性。2、本发明通过对URL字符串信息不断学习动态的改变主题相关向量,提高了主题相关向量判断的准确性。3、本发明采用的内容分析和链接分析相结合的爬虫策略在减少计算复杂度的同时,能爬取更多的与主题相关的网页。4、本发明可用于垂直搜索引擎的爬虫系统中,也可以用于网页的自动分类中。


图I是本发明主题爬虫系统的总体框架图。图2是本发明URL字符串信息学习的原理图。
具体实施例方式下面结合附图和具体实施应用过程对本发明进一步说明
參照图I执行步骤来说明本发明的实施过程
步骤I—选择种子URL
依据给定的主题,结合机器学习和人工选择,选定与主题相关的K个网页的URL作为种子URL,网页下载器从种子URL开始下载网页。步骤2—分析下载页面
网页分析器对下载的网页内容和链接进行分析,提取网页的URL字符串信息、网页内容、锚信息。步骤3 —主题相关度计算
I)相关度计算模型主题相关度计算模型采用空间向量模型如下
= ............................... ........................ (I)
其中wU表示特征向量在文本中的权重值,wi.r表示特征向量i在主题特征库中的权值,N代表主题的特征向量,SiM(PjlM)表示文本4与给定主题向量的相关度。常用的计算
文本权重值Wu 算法是TF-IDF。其中TF部分表明了一个词组在给定链接上下文中出现的
次数,IDF则使是在页面中出现次数很多的词组权值下降。链接上下文中没有出现的词组在向量中的对应元素其权值为O。2)主题向量的建立 主题向量关系到网页主题相关度判断的准确性,直接决定了ー个主题网络爬虫的爬行效果。主题向量是通过分析权威和中心主题资源,抽取出该领域比较有代表性的关键词组成ー个向量。主题特征词的设置结合了手工设置和机器学习两种方法,根据需求建立了两个主题向量,ー个是计算内容和锚的相关度时需要的特征向量,另ー个是计算URL字符串相关度时需要的特征向量。在建立第一个特征向量的时候我们结合了上面两种方法的优缺点,在基于机器学习的基础上再进行人工选取从而确定主题特征词和其权值。第二个特征向量的建立是人工分析一些主题相关的网页得到一个初始的特征向量,再经过机器学习并不断地更新特征向量里的特征词和对应的权值。 3)目标URL主题相关度计算
3)目标URL主题相关度计算
根据I)中的相关度计算模型以及URL字符串信息、网页内容、锚信息对目标URL进行相关度计算。计算如式(2)
Score(URL) = aScore(URL- i>areniC<mien£) + fiScore(anchor) + mScore(url) (2)
Ml 中 Scom(JJRL- pamniCcmi紐 )、Score{anchor)、Sccfre(url)分别表示父网页、锚信
息、URL字符串的主题相关度,相关度的计算使用上面的空间向量模型, 、声、 是各部分所占的分数比例,O;、多、》满足a +彡+ = I。步骤4ー过滤不相关网页
根据步骤3计算出的URL主题相关度,主题过滤器把主题相关度低于阈值的URL都过滤掉。步骤5—URL字符串信息学习
URL学习器是学习URL字符串信息,不断更新主题相关向量。由图2来说明URL字符串信息学习的基本过程是,先从给定网页的ー些URL中得到ー个训练数据集。URL字符串信息学习部分利用选取的学习算法对URL字符串信息进行学习,得到一个主题知识库,主题知识库去指导URL主题相关度的计算,URL主题相关度的值再反馈给URL字符串信息学习部分从而去指导URL字符串信息的学习,经过URL字符串信息学习后,再去更新主题知识库,以便进一步学习,改进系统的性能。URL字符串信息学习详细过程I)训练数据取100个网页,这些网页中有与主题相关的权威网页和中心网页,也有与主题不相关的ー些网页,对这100个网页的URL进行训练,得出两个样本URL,样本ー是与主题相关的URL集合,样本2是与主题不相关的URL集合。2)数据处理对样本中的URL进行分割提取处理。URL分割提取处理过程为把URL分割成ー个个的关键词语,去掉那些不含信息的词语,得到能够反馈一些信息的词语。例如对URL http://sports, sina. com. cn/nba/ 进行分词后有 http、sports、sina、com、cn、nba,去掉不含信息的词语http、com、cn后得到sports、sina, nba这些能反馈信息的词语。对上面的样本I和样本2中的URL进行分割提取处理之后得到一系列的词语,样本I中得到的是与主题相关词语,给每个词语ー个权重,形成ー个主题相关性词库,样本2 中得到的是与主题不相关的词语,给他们初始权重为0,形成一个主题无关性词库。另外再 建个学习词库,用来记录URL字符串信息学习得来的与主题相关词和该词出现次数。3) URL相关度反馈学习对URL进行上面的分割提取处理,得到一些词语,并给
Stow(KSi)的值作为权重传给这些词语。其具体的过程如下
(I)当<mm (阈值)时把这些词组加入主题无关性词库,同时更改这些词语的权重值,得到更新的权重
New( Wj) = 0.5 X old (Wi) +0.5 x Score (URL)(3)
(2 )当ScoreiimL) > max (阈值)时把URL相关度值Sc綱{URL)传递给这些词语作为权
重。对这些词语的处理如下
①如果主题无关性词库有该词语,则不处理并丢弃该词语。②如果主题无关性词库没有该词语,主题相关性词库里有,学习词库里没有,则更新主题相关性词库中该词语的权重,得到更新后的权重
i\few( Wj) = 0.5 X old (Wi) + 0.5 X Score (URL)(4 )
③如果主题无关性词库没有该词语且学习词库和主题相关性词库都没有该词语,首先把该词加入学习词库,并记录该词语出现次数为1,然后把该词语加入主题相关性词库,并
把它的权重值的4作为该词语的新权重加入主题相关词库。得到该词的权重
他=—Score (URL )(5 )
η
④如果学习词库和主题相关性词库都有,首先查看学习词库中该词出现的次数m,并把该词出现的次数加I。当W > 时,得到更新的权重
New(,) = 0.5 X aid (Wi )+0,5x Score (URL)(6)
当时,得到更新的权重
Newiwi J =+0.5X 扣ぺ)Score(URL) (7 )其中式⑷(5) (6) (7)中的OW(Wi)是主题相关性词库中原有权重,Score(UML)是URL传递给词i的权重,AfeW(Wi)是该词语更新后的权重。上面式(5)和式(7)中的η是自己定
义的阀值。式(5)和式(7)中\Sco rs(JJRL)和^Scors(URL)处理是为了减少误判,
只有当学习词库中通过学习得到的词语达到η次的时候才充分判定它和主题相关,从而按式(6)中的方法去更新权重值,这样使学习得到的结果更精确。4)主题知识库更新
为了使学习得到的结果更好,让主题相关性词库中尽量不包含与主题不相关的词语,主题无关性词库不包含与主题相关的词语。定时的对主题知识库进行处理,对主题相关性词库,分析主题相关性词库中每个词语的权重值,把权重值小于s (阈值)的词语从该词库中移除,这样进一歩降低了把主题不相关的词语误判为主题相关词语的概率。对主题无关性词库,统计每个词语的权重,按其权重值的大小进行排名,把排名靠前的按ー个比例H(阈值)删除,这样可以减少把那些主题相关词语误判为与主题不相关词语概率。步骤6—主题爬虫的爬行策略
爬行策略处理器指定ー个内容分析与链接分析相结合的爬虫策略,具体过程如下
I)首先根据URL字符串信息、网页内容、锚信息去计算ー个URL的主题相关度得到一
个相关度值%,滤除相关度值小于ー个给定阈值的URL。2)创建ー个队列List,记录已经访问过的来自不同主机的URL的主机名。3)当一个网页向外引出的与主题相关网页数大于ー个阈值时,给它该网页URL
一个奖励分数4)当一个网页主机名不在List队列中,就给该网页URL —个奖励分数A1,并把该网页的主机名加入List队列。5)当一个网页的主机名与父网页的主机名不同,再给该网页URL —个奖励分数6)由上面I一5中我们得到ー个URL的最終的得分为
权利要求
1.一种基于URL字符串信息学习的主题爬虫系统的实现方法,其特征在于基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度,采用机器学习对URL字符串携带的信息不断学习,动态的更新主题相关向量,利用内容分析和链接分析相结合的爬虫策略;其具体步骤为 步骤I.选择种子URL :依据给定的主题,结合机器学习和人工选择,选定与主题相关的K个网页的URL作为种子URL,网页下载器从选定的种子URL开始下载网页; 步骤2.分析下载页面网页分析器对下载的网页内容和链接进行分析,提取网页的URL字符串信息、网页内容、锚信息; 步骤3.主题相关度计算根据URL字符串信息、网页内容、锚信息进行主题相关度计算; 步骤4.过滤不相关网页根据主题相关度,把低于主题相关度某个阀值的URL过滤掉; 步骤5. URL字符串信息学习URL字符串信息学习的基本过程是,先从给定网页的URL中得到一个训练数据集;URL字符串信息学习部分利用选取的学习算法对已经下载的网页URL字符串信息进行学习,得到一个主题知识库,主题知识库去指导URL主题相关度的计算,URL主题相关度的值再反馈给URL字符串信息学习部分从而去指导URL字符串信息的学习,经过URL字符串信息学习后,再去更新主题知识库,以便进一步学习,改进系统的性能;步骤6.确定待下载的URL队列采用内容分析与链接分析相结合的爬虫策略,得出一个待下载的具有优先级的URL队列。
2.根据权利要求I所述的一种基于URL字符串信息学习的主题爬虫系统的实现方法,其特征在于提取分析网页的URL字符串信息、网页内容、锚信息,URL相关度计算综合了URL字符串信息、网页内容、锚信息,使URL主题相关的计算更精确。
3.根据权利要求I所述的一种基于URL字符串信息学习的主题爬虫系统的实现方法,其特征在于在步骤2分析下载页面过程中,对URL所携带的信息不断学习,动态的更新主题相关向量,用于更好地指导主题相关度的计算。
4.根据权利要求I所述的一种基于URL字符串信息学习的主题爬虫系统的实现方法,其特征在于在步骤6确定待下载的具有优先级的URL队列过程中,利用内容分析和链接分析相结合的爬虫策略,内容分析得出URL的主题相关度,再通过链接分析调整URL的下载优先级,最后得出一个待下载的具有优先级的URL队列。
全文摘要
本发明公开一种基于URL字符串信息学习的主题爬虫系统的实现方法,首先,改进了传统的主题爬虫的相关度判断方法,提出了基于URL字符串信息、网页内容、锚信息去判断目标URL与主题相关度的方法,并采用机器学习对URL字符串携带的信息不断学习,动态的更新主题相关向量,提高了目标URL主题相关度判断的准确性。最后,在不增加计算复杂度的同时,利用内容分析和链接分析相结合的爬虫策略,防止了主题爬虫陷入局部最优,提高了爬虫爬取时的全局性,改善了爬虫的效率。本发明可以用于垂直搜索引擎中爬虫模块用于爬取特定领域的网页。
文档编号G06F17/30GK102662954SQ20121005290
公开日2012年9月12日 申请日期2012年3月2日 优先权日2012年3月2日
发明者万健, 任祖杰, 徐向华, 殷昱煜, 胡昔祥 申请人:杭州电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1