一种筛选网页上链接的方法和装置的制作方法

文档序号:6461103阅读:148来源:国知局

专利名称::一种筛选网页上链接的方法和装置的制作方法
技术领域
:本发明涉及通信领域,尤其涉及一种搜索过滤的方法和装置。
背景技术
:随着信息网络的发展,大量的电子数据通过信息网络存储和发送,信息网络已成为信息获取的主要方式。搜索引擎是一种从海量的数据信息中寻找满足某种需要的信息的重要工具,在现代信息获取应用中,发挥着约来越重要的作用。网络爬虫是搜索引擎系统的一个重要组成部分,它起着分析网页、获取链接以及下载网页的作用。网页链接中存在着很多对于某种搜索目无用的链接,如何过滤掉这些无用链接,是提高网络爬虫运行效率的关键技术,特别是在垂直搜索领域,这种技术尤其显得至关重要。现有技术中,网络爬虫对搜索中无用链接的过滤的方式主要有两种(l)采用人工设定过滤规则进行过滤的方式;(2)采用内容过滤方式。釆用人工设定过滤规则进行过滤的方式在一定程度上能够达到过滤的效果,但这种方式工作量大、不灵活,如网站进行了改动,过滤规则设置也必须进行改动。采用内容过滤的方式必须将网页的内容下载分析,这一定程度上加重了网络爬虫的工作量以及后台分析的工作量,降低了搜索效率。
发明内容本发明实施方式公开了一种筛选网页上链接的方法和一种筛选网页上链接的装置。本发明实施方式^^开的一种篩选网页上链接的方法,包括从搜索任务网站的首页及部分相关页面中提取链接;拆分所述链接为域名部分和相对路径部分;对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。本发明实施方式公开的一种筛选网页上链接的的装置,包括链接提取模块,用于从搜索任务网站的首页及部分页面中提取链接;链接拆分模块,用于拆分所述链接为域名部分和相对路径部分;智能分析模块,用于对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;链接特征筛选模块,与所述智能分析模块相连,用于根据所述智能分析模块对所述相对路径的智能分析结果,提取与搜索任务网站相关链接的特征表达式,和/或过滤与搜索任务网站无关的链接的特征表达式。本发明实施方式通过提取与搜索任务网站相关的链接,过滤与搜索任务网站无关的链接,实现了网络爬虫工作效率的提高。图1为本发明一个实施方式提供的一种筛选网页上链接的方法示意图;图2为本发明另一实施方式提供的介绍网页特征的提:f又和与搜索任务无关链^J妄的过滤方法的示意图3为本发明再一个实施方式公开的一种筛选网页上链接的装置结构图;图4为网站类别辨别决策树示意图。具体实施例方式为了使本发明的目的、技术方案和优点更加清楚,下面将结合实施方式对本发明做进一步地详细描述。本发明实施方式对网页链接进行特征提取,对网页上的链接进行筛选,提取有价值信息的链接,过滤无用的链接,从而达到过滤链接的目的从而提高网络爬虫的工作效率和搜索准确度。本发明一个实施方式提供了一种筛选网页上链"f妄的方法,如图1所示,包括步骤步骤101、从搜索任务网站的首页及部分相关页面中提取链接;本步骤中,链接的提取可以通过链接提取算法实现。这里的部分相关页面指的是首页中包含的链接所对应的页面。还可以预先总结各种网站类型的规则,并下载所述搜索任务网站的首页及部分相关页面内容,根据首页和部分相关页面内容,以及各种网站类型的规则,判断所述搜索任务网站所属的网站类型。网站类型的规则,反映了网页中链接的布局、有价值信息链接的特征数据和特征的表达形式。然后根据搜索任务网站的网站类型提取链接,这样提高了提取链接的效率。步骤102、拆分所述链接为域名部分和相对路径部分;本步骤中,还可以首先过滤掉域名和所述搜索任务网站的域名不同的链接,这些链接,可视为和搜索任务网站直接不相关的。步骤103、对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;本步骤中,智能分析可以使用各种统计、聚类算法,其作用是把多个链接相对路径进行分类或分组,便于后面步骤把符合一个筛选规则的组提取出来或过滤掉。我们将在后来的例子中详细介绍具体筛选规则和过程。这里我们举例如下的智能分析方法首先、以域名和搜索任务网站的域名相同的每个链接的相对路径为一行,组成一个链接矩阵;其次、将链接矩阵转换为数值矩阵,将最长的那个链4妄的长度作为矩阵的行宽,不足的补0;然后、通过智能算法,格式化数值矩阵为模糊矩阵,计算模糊矩阵各行之间的相似度。根据所述相似度,将所述模糊矩阵的行分组。由于模糊矩阵和数值矩阵、链接矩阵都是行对应的,这就间接实现了将数值矩阵的行和链接矩阵的行按不同类别分组。步骤104、根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。本步骤中,聚类的结果实现了把矩阵分组,可以根据分组的行数目,判断分组所对应的链接是否为与所述搜索任务网站相关链接。在网络爬虫的使用中,可以仅执行提取与所述搜索任务网站相关链接的特征表达式的功能,这些特征表达式对应有用的链4矣,网络爬虫利用这些链接继续工作。为了使本实施方式所公开的技术方案更加清晰,本发明另一实施方式将通过举例,详细介绍网页特征的提取和与搜索任务无关链接的过滤方法,如图2所示,主要包括以下步骤步骤201、总结各种网站类型的规则。由于不同类型网站的链接特征存在着不同的表达形式,在链接特征提取时,不同类型网站,需采用不同策略。表1显示了网站链接特征提取时,不同类型网站的链接特征提取的指导策略。表l<table>tableseeoriginaldocumentpage8</column></row><table><table>tableseeoriginaldocumentpage9</column></row><table>表1中所示,链接特征表达式可以是连续的字符形式,或符合某种规则的形式,这样每个特征可以以特征表达式的形式表示。针对表1提到的不同类型网站的链接特征的指导策略,表2显示了不同类型网站的链接特征规则实例。表2<table>tableseeoriginaldocumentpage9</column></row><table>因此,我们在网站链接特征提取前可以首先判断网站的类型,以获得网站链接特征提取的指导策略。各种不同的网站类型,如BBS论坛网站、博客网站、新闻门户网站、企业网站和其他类型网站,都有其特定的组成规则,如含有某些标志性的字符、含有某种特定的组成内容等。本步骤中,我们利用如数据挖掘、机器学习等算法,总结出各种类型网站的规则。在后续步骤中,网络爬虫将利用网站类型规则判断任务网站所属的类型,从而获得链接特征提取的指导策略。本步骤具体过程描述如下a)收集各种类型网站的网页若干作为^L器学习的训练素材。b)通过分析大量的各种类型的网页,抽取网页的内容属性特征,并用属性标识表示,如表3所示的属性标识与属性特征对应表。这样,一种网站的网页就可以用一个或多个属性标识的组合表示了。表3<table>tableseeoriginaldocumentpage9</column></row><table><table>tableseeoriginaldocumentpage10</column></row><table>C)采用^L器学习算法或者数据挖掘的分类算法,如神经网络算法、决策树分类算法等,来学习收集到的训练素材,从而得到表述某种网站类型的指导规则,该规则可由内容属性特征来表示,具体可由代表属性特征的属性表示组合来表示,例3口if(4and4and4。)then(该网站属于新闻网站类型);该表达式表示如果一个网站同时具备4、4、^Q三个属性表示所对应的属性特征,即根据表3所示,该网站同时具有导航条信息长度、主体内容文本长度和含有相关链接等三个特征,则该网站属于新闻类型的网站。这里我们通过决策树举例获得的规则列表,如图4所示。q表示新闻网站类型;C2表示论坛网站类型;C3表示博客网站类型;C4表示其他类型;提取的规则如下q规则if"=1and4=1and4o=l)then(人if(4i=〗and4=〗:)thenCiC^见则if(^=l油d4=1)thenC2if(4=1and4t=l)the11C2C3MJ'j:if(4=!)thenC3if(4=1)thenC:,C,规则if"=land4=1and爿|0喝thenC4if(4=land4=0and4=0)thenC4if(4=0and4=0andand4=0)thenC4if"=0and4=0and4=0andandJ,-0and4=0)thenC4这里,l表示包含该特征,O表示不包含该特征。步骤202、下载搜索任务网站的首页及部分页面内容,利用步骤l的网站类型的判断规则,判断该搜索任务网站所属的类型。本步骤中,首先对照表3提取网页的属性特征,然后利用步骤l得到的网站类型规则,判断出任务网站类型。步骤203、根据搜索任务网站的类型,通过链接4是取算法,从搜索任务网站的首页及部分页面中提耳又所有链接。本步骤中,链接提取算法可以采用正则表达式或者字符特征匹配的方法。一个网页页面中可能出现链"^的地方主要有以下几处1、<BASEhref=URL>,表示基URL,在HTML中,路径信息经常通过URL来指定,相对URL根据基URL来决定;2、〈Ahref=URL、这是最常用的链接格式,用于链接到另一个WEB页面或链接到同一页面的其他地方;3、<LINKhref=URL>,用于链接WEB页面使用到的CSS样式表地址或者javascript页面地址;4、<FRAMEsrc=URL>,在框架页面中用于链接框架所指向的页面地址;5、<IFRAMEsrc=URL>,IFRAME是框架的一种形式,它与FRAME不同的是,IFRAME可以嵌在网页中的任意部分。如果采用字符特征匹配算法,就是去找字符串"href,和"src"后面的链接;如果采用正则表示式,我们构造正则表达式<.*(src|href)\s*=\s*[\'T](<uri>[A'\">\s]+)。通过这个正则表达式我们就可以获得网页中所有《连接。步骤204、拆分链接为域名部分和相对路径部分。步骤205、过滤掉域名和搜索任务网站的域名不同的《连接。步骤206、对相对路径进行统计聚类,提取与搜索任务网站相关的链接的特征表达式,过滤与搜索任务网站无关链接。这里,与之搜索任务网站无关的链接一般为与有用链接相关度很低的垃圾信息链接。本步骤中,将域名与搜索任务的域名相同的链接的相对路径部分组成一个链接矩阵,利用其对应的编码,如ASCII编码、Unicode编码等,转换为数值矩阵。这里以ASCII编码为例,介绍转换的过程。如一个网页上,网页中含有多个链接,各链接的字符型相对路径组成一个矩阵,如表4所示表4/ads.phpaid=ikan/forum-75-1.htm1/forum-49-1.htm1/forum-50-1.htm1/thread-1522650-1-1.htm1/thread-2612846-2-3.htm1/thread-3713846-4-6.html根据ASCII对应十进制数值,转换为如表5所示的数值头巨阵,将最长的那个链接的长度作为矩阵的行宽,不足的补o。其中,《到^分别表示矩阵第一行到第七行。表5《z74797100461121041126397105100611051079711000000000471021111141171094555534549461041161091080000000047102111114117109455257454946104116109108000000004710211111411710945534845494610411610910800000000471161041141019710045495350505453484549454946104116109108471161041141019710045505449505652544550455146104116109108471161041141019710045515549515652544552455446104116109108对于该数值矩阵,用智能算法将A、&…^归纳成几个类别,这些类别就是我们要提取的网站链接特征类别。分析这个矩阵的智能算法可以是统计学上的归纳算法、人工智能中的算法如遗传算法,以及数据挖4屈中的聚类算法。这里我们采用数据挖掘中模糊聚类算法来举例说明,主要步骤如下a)将该矩阵进行"规格化",转换为模糊矩阵,以便进4亍聚类。"规格化,,方法很多,如权重法、最值法等。这里举例"最值法"进行转换,公式如下<formula>formulaseeoriginaldocumentpage13</formula>其中表示第i行的第j个元素,转化后的矩阵如下表6所示:表6《《《0.420.870.890.4110.9310.560.870.9^0.890.540.^0.960.870.98000000000.400.870.950.9710.930.380.470.450380.420.390.890.990.930.92000000000.400,870.950.9710.930.380.440.490380.420.39O.粉0.990.930.92000000000.400.870.950.9710.930.380.450.410380.420.390.890.990.930.92000000000.4110.900.980.870.840.860390,420.460.430.430.470.46tt410.390.420.390.420.400.9010.940.930.4110.900.980.87O.斜0.860.390.430.470.420.430.480.450.470.390.430.390.440.400.9010.9+0.930.4110.900.980.870.840.860.390.440.470.420.440.480.450.470.390.450.390.470.400.9010.940.93b)利用相似系数法对上述模糊矩阵进行聚类,相似系数法的公式也有很多种,如数量积法、夹角余旋、指数相关法、贴近度等。这里举例夹角余旋/>式,7〉式如下〃iX二A:=lE《、E其中,表示行i和行j的相似关系;x,^表示第i行中的第k个元素;x,表示第j行中的第k个元素。c)通过步骤b)计算后,我们可以得到各行之间的相似度,结果如表7所示'表7x5Z710.7340.7350.7320.7170.7200.7190.73410.9990.9990,7290.7320.731z30.7350.99910.9990.7300.7330.7310,7320.9990.99910.7290.7320.730I50.7170,7290.7300.7291O.卿0.99914<table>tableseeoriginaldocumentpage15</column></row><table>根据表7的相似度结果以及等价闭包关系,我们得出聚类的结果为三个类S2:I2X3JT4d)根据矩阵的规模,设置一个类别元素个数的阈值来区分哪些类别为有价值信息链接的特征类别、哪些类别为与搜索任务网站无关链接的特征类别。这里,可以设定的阈值为一个区间,范围可为Ox0.4,mx0.6),式中m式矩阵的行数。这个例子中我们阈值为(2.8,4.2)。由此可得出,S的元素个数为l不在阈值区间范围内,判定为与搜索任务网站无关链接的特征类别;&和&的元素都为3并且在阈值区间范围内,判定为有价值信息链4^类别。另夕卜,本步骤中,也可以根据已经判断出的搜索任务网站的类型进行判断。如,如果一种类型网站的有价值信息链接的特征数目为2-3个,那么,本例中A自成一类,可以判断为无价值链接的特征。据网站的类型,利用步骤201中提出的不同类型网站的链接特征提取的指导策略,综合前面步骤的处理结果,对搜索任务网站可以得出如下判别结论1、网站类型为BBS"i仑坛网站;2、有〗介值信息链接特征/forum-和/thread-;3、与搜索任务网站无关链接特征/ads.php。本实施方式中,网络爬虫通过步骤206得到的过滤后的网站链接特征,开始了整个网站的爬行任务。这样,利用链接特征来过滤无用链接,提高工作效率和搜索准确度。1本发明再一个实施方式公开了一种筛选网页上链接的装置,如图3所示,包括链接提取模块301、链接拆分模块302、智能分析模块303和链接特征筛选模块304。其中链接提取模块301,用孚从搜索任务网站的首页及部分页面中提取链接。链接拆分模块302,,用于拆分所述链接为域名部分和相对路径部分。智能分析模块303,用于对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析,/这里,智能分析可以使用多种算法,如人工智能算法、统计学算法或聚类算法。链接特征蒋选4莫块304,与智能分析模块303相连,用于根据所述智能分析模块303对所述相对路径的智能分析结果,提取与搜索任务网站相关链接的特征表达式,和/或过滤与搜索任务网站无关的链接的特征表达式。链接特征筛选模块304提取得与搜索任务网站相关链接的特征表达式,经过把这些特征表达式还原成链接,网络爬虫就可以利用这些链接继续工作。而过滤掉与搜索任务网站无关的链接的特征表达式,在网络爬虫继续工作之前消除无用的链接,提高爬虫的工作效率。优选地,该装置还可以包含过滤模块305,用于过滤掉域名和所述搜索任务网站的域名不同的链接,这一模块在对提取的链接进行处理时,过滤掉明显不相关的链接信息,起辅助作用。优选地,该装置还可以包含网站类型规则库306、下载模块307、网站类型判断模块308。其中网站类型规则库306,用于存储预先总结的各种网站类型的规则。这些规则是利用如数据挖掘、机器学习等算法,通过分析大量的网站网页总结出来的。由于不同类型网站的链接特征具有不同的表达形式,如表1所示。因此在提取网站链接特征前要先判断网站所属的类型以获得表1所示的指导策略。下载模块307,用于下载搜索任务网站的首页及部分页面内容。网站类型判断模块308,与网站类型规则库306和下栽模块307相连,用于根据下载模块307下载的搜索任务网站的首页及部分页面内容,通过查询网站类型规则库306,判断搜索任务网站所属的类型。这样,链接提^Mt块301,还用于根据所述搜索任务网站的网站类型,提取链接。因为,知道了搜索任务网站所属的类型之后,链接提取模块301还可以根据网站类型从网站类型规则库306获取该网站类型的规则,这些规则反映了搜索任务网站的网页上的链接所处位置、形式等信息。链接提取模块301利用这些信息,可以提高提取链接的效率。优选地,该装置的链接特征筛选模块304可以包括组合模块3041、转换模块3042、分组模块3043和筛选子模块3044,其中组合模块3041,用于以域名和搜索任务网站的域名相同的每个链接的相对i各径为一4亍,组成一个链4妄矩阵。转换模块3042,用于将所述链接矩阵转换为数值矩阵,将最长的那个链接的长度作为矩阵的行宽,不足的补0。分组模块3043,用于通过智能算法,将所述数值矩阵的行按不同类别分组。筛选子模块3044,根据所述分组的行数目,判断分组所对应的链接是否为与所述搜索任务网站相关链接,提取与搜索任务网站相关链接的特征表达式,和/或过滤与搜索任务网站无关的链接的特征表达式。这里,数据矩阵和链接矩阵的每一行都是对应的,其每个分组的行也对应链接矩阵中的相应链接,当判断分组为和搜索任务网站相关的组时,筛选子模块3044就可以根据这种简单对应关系,提取与搜索任务网站相关链接的特征表达式。这样,通过对网页链接进行域名部分和相对路径部分,首先过滤掉域名和搜索任务网站的域名不同的链接,然后通过对相对路径的智能分析,以获得网站链接的特征,从而达到过滤掉与搜索网站无关信息链接,如垃圾信息链接,提高网络爬虫的工作效率和搜索准确度的目的。综上所述,本发明实施方式提出的技术方案,通过对网页链接进行特征提取,过滤对搜索无用的连接,很大程度上提高网络爬虫在搜索引擎领域特别是垂直搜索领域的工作效率和搜索准确度,降低人工工作量,改善系统的灵活性。在各种类型的网站,如BBS网站、博客网站、新闻网站等有广泛的应用潜力。以上所述,仅为本发明实施方式,是本发明思想的具体展示,并不限制本发明。对本领域技术人员而言,凡是在本发明的精神和原则之内,对本发明任何更改、变化、等同替换等,都包含在本发明的保护范围之内。权利要求1、一种筛选网页上链接的方法,其特征在于,包括从搜索任务网站的首页及部分相关页面中提取链接;拆分所述链接为域名部分和相对路径部分;对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。2、根据权利要求l所述的方法,其特征在于,还包括过滤掉域名和所述搜索任务网站的域名不同的链接。3、根据权利要求1或2所述的方法,其特征在于,还包括预先总结各种网站类型的规则;下载所述搜索任务网站的首页及部分相关页面内容,根据所述各种网站类型的规则,判断所述搜索任务网站所属的网站类型;所述从搜索任务网站的首页及部分相关页面中提取链接的步骤具体为根据所述搜索任务网站的网站类型,提取链接。4、根据权利要求l所述的方法,其特征在于,所述对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析的步骤具体为以所述域名和4叟索任务网站的域名相同的每个链接的相对路径为一行,组成一个链接矩阵;将所述链接矩阵转换为数值矩阵;通过智能算法,将所述数值矩阵的行按不同类别分组。5、根据权利要求4所述的方法,其特征在于,所述智能算法为统计学的归纳算法、人工智能中的遗传算法、数据挖掘中的聚类算法中的一种。6、根据权利要求4或5所述的方法,其特征在于,还包括根据所述分组的行数目,判断分组所对应的链接是否为与所述搜索任务网站相关链4矣。7、根据权利要求4或5所述的方法,其特征在于,通过智能算法,将所述凄史值矩阵的行按不同类别分组的步骤具体为格式化所述数值矩阵为模糊矩阵;获取所述模糊矩阵各行之间的相似度;才艮据所述相似度,将所述模糊矩阵的行分组。8、一种筛选网页上链接的的装置,其特征在于,包括链接提取模块,用于从搜索任务网站的首页及部分页面中提取链接;链接拆分模块,用于拆分所述链接为域名部分和相对路径部分;智能分析模块,用于对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;链接特征筛选模块,与所述智能分析模块相连,用于根据所述智能分析沖莫块对所述相对路径的智能分析结果,提^^与搜索任务网站相关链接的特征表达式,和/或过滤与搜索任务网站无关的链接的特征表达式。9、根据权利要求8所述的装置,其特征在于,还包括过滤模块,用于过滤掉域名和所述搜索任务网站的域名不同的链接。10、根据权利要求8或9所述的装置,其特征在于,还包括网站类型规则库,用于存储预先总结的各种网站类型的规则;下载模块,用于下载所述搜索任务网站的首页及部分页面内容;网站类型判断模块,与网站类型规则库和下载模块相连,用于根据下载模块下载的搜索任务网站的首页及部分页面内容,通过查询网站类型规则库,判断所述搜索任务网站所属的类型;所述链接提取才莫块,还用于根据所述搜索任务网站的网站类型,提取链接。11、根据权利要求8或9所述的装置,其特征在于,所述链接特征筛选模块包括组合模块,用于以所述域名和搜索任务网站的域名相同的每个链接的相对5$4圣为一行,组成一个链接矩阵;转换模块,用于将所述链接矩阵转换为数值矩阵;分组冲莫块,用于通过智能算法,将所述数值矩阵的行按不同类别分组;筛选子模块,根据所述分组的行数目,判断分组所对应的链接是否为与所述搜索任务网站相关链接,提取与搜索任务网站相关链接的特征表达式,和/或过滤与搜索任务网站无关的链接的特征表达式。全文摘要本发明实施方式提供了一种筛选网页上链接的方法,包括从搜索任务网站的首页及部分页面中提取链接;拆分所述链接为域名部分和相对路径部分;对域名和搜索任务网站的域名相同的链接的相对路径进行智能分析;根据所述智能分析的结果,提取与所述搜索任务网站相关链接的特征表达式,和/或过滤与所述搜索任务网站无关链接的特征表达式。此外本发明实施方式还提供了一种筛选网页上链接的的装置。本发明实施方式通过提取与搜索任务网站相关的链接,过滤与搜索任务网站无关的链接,实现了网络爬虫工作效率的提高。文档编号G06F17/30GK101650715SQ20081007157公开日2010年2月17日申请日期2008年8月12日优先权日2008年8月12日发明者吴鸿伟,达腾,奋陈申请人:厦门市美亚柏科信息股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1