搜索引擎中的模式分类方法

文档序号:6586433阅读:177来源:国知局

专利名称::搜索引擎中的模式分类方法
技术领域
:本发明属于互联网
技术领域
,具体地说,是涉及一种为实现网页精确划分而设计的搜索引擎的模式分类方法。
背景技术
:在现今的电子科技时代,搜索引擎是网络中不可缺少的重要工具,搜索引擎工具的准确性关系到日常学习、生活、工作等方方面面面。模式分析方法结合人工智能、机器学习和统计学习理论是搜素引擎对海量数据的基本分类方法的技术基础。模式分析方法作为人工智能和机器学习的重要分支,广泛应用于工业专家系统、生物遗传信息学、宇宙学、天文学和机器人技术等领域,特别是在冯诺伊曼架构的计算机的计算速度已经不再是主要矛盾的今天。但是,目前的模式分析方法其自身无法学习的缺陷已经变成了制约该架构机器发展的主要问题,人们开始重新从人工智能和机器学习中发掘可能。支持向量机是一种使用在某个高维特征空间中线性函数的假设空间的学习系统,作为近年来被广泛应用的模式分析算法,无论在实际应用和理论研究中都取得了比传统模式分析方法更好的效果和更强的统计理论支持。核函数广泛应用于支持向量机、模式识别和机器学习中,并延伸形成了一门独立的学科——核方法。核方法作为实现非线性映射的重要途径,是支持向量机得到广泛应用和取得良好效果的关键所在。目前,被广泛应用于数据挖掘与模式识别领域的重要核为高斯核。搜索引擎的体系架构如图l所示,主要由搜索器、索引器、检索器和用户接口组成。其中,搜索器(spider):俗称网络蜘蛛或网络爬虫,是一个自动收集网页的系统程序,其功能是日夜不停地在互联网中漫游,搜集信息;索引器是理解搜索器所搜索的信息,由分析索引系统程序对收集回来的网页进行分析,提取相关的网页信息,进而根据一定的相关度算法进行大量的复杂计算与分类,得到每一个网页针对页面内容及超链接中每一个关键词的相关度,然后利用这些相关信息建立网页索引数据库;检索器是根据用户的查询在索引数据库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制;用户接口其作用是接收用户的查询条件,显示查询结果,并提供用户相关性反馈机制。搜索引擎的主要指标之一是准确率。准确率是个复杂的概念,一方面表示了搜索引擎对搜索结果的排序能力,另一方面体现了搜索引擎对垃圾网页的抗干扰能力,它有赖于索引器对网页信息数据的模式分类的准确性。采用高斯核的支持向量机分类法是索引器对大量的网页信息数据进行分析计算的模式分类方法,也是目前搜索引擎中应用于索引器的普遍方法。对于传统的基于支持向量机的模式分类方法的搜索引擎,其模式分类的核心部件是高斯核,其核函数为K(x,y)=e^(-||X-y||72o2)。由于高斯核函数特征空间的无限维特点,理论上任何模式分类的任务都可以由高斯核函数来完成。但由于高斯核函数可调参数的唯一性,对于在搜索引擎中的实际训练中,该参数极易出现"过学习"的问题,即对于某个搜索关键字,搜索引擎可以精确地完成查找任务,而对于其他非"标准"的搜索关键字反而无能为力。实际上,这两种关键字应当指向同一类内容。因此,搜索结果的准确率并没有得到有力保证。
发明内容本发明为了解决传统的搜索引擎采用基于高斯核的支持向量机作为模式分类方法来对网页进行搜索分类所易出现的"过学习"问题,提供了一种以采用加权多宽度高斯核的支持向量机为分类模型的模式分类方法,应用于搜索引擎中,以提高搜索引擎的泛化能力和可调能力,使得网页搜索的准确率得以提高。为了解决上述技术问题,本发明采用以下技术方案予以实现—种搜索引擎中的模式分类方法,所述搜索引擎采用支持向量机的模式分类方法对经过爬虫程序转化后的网页特征数据集进行模式分类,以划分各种网页;在所述支持向量机中采用的核函数为加权多宽度高斯核函数,其公式为K(x,y)=[exp(-||x-y||2/2o2)+R]dVi20,d20,deiV其中,o、R、d为可调参数。进一步的,在所述加权多宽度高斯核函数中,参数o的最优值利用半径间隔误差界和拟牛顿优化算法来获得,具体步骤如下a、为参数R、d赋值;b、为参数C、o赋初始值,其中,C为惩罚因子,且大于零;c、通过最优化基于加权多宽度高斯核的半径间隔误差界来获得最小超球体的半径r,即<formula>formulaseeoriginaldocumentpage5</formula>s丄^>01=1,d、利用标准的支持向量机算法求出初始化条件下的最优解(a*,b*),即max—:^I]I^,乃","乂0,J》+Z",s.t.=0户i5<formula>formulaseeoriginaldocumentpage5</formula>其中,1为训练样本的个数,W-Z"PVO6=>0-Z",力O0A)构造超平面为(w.x)+b=O,得到决策函数为f(x)=sgn((w.x)+b);e、运用拟牛顿算法对参数C、o进行更新,即最优化如下问题(C,cr)=argr^in5(0;*,6*,C,i,c/,(T)其中,B=+丄;52=m/W+2CZ^.;《』■为松弛变量,可预先设定;f、根据设定的迭代次数以及更新的参数C、o,重复执行步骤c、d、e;g、获得参数Q的最优值。优选的,在所述步骤a中,优选为参数d赋大于等于2的值;为参数R赋大于零的值。又进一步的,在所述步骤b中,o的初始值可以利用梯度下降法或者交叉验证法来获得。再进一步的,在所述步骤d中,可以具体利用SMO等适合计算机运算的算法来求解初始化条件下的最优解(a*,b*)。优选的,所述支持向量机优选采用非线性软间隔支持向量分类机。更进一步的,在所述步骤f中,迭代次数的设定遵循参数d取值越大、迭代次数越少的规律,以确保合适的运算时间。优选的,所述d等于2,迭代次数设定为4050次。与现有技术相比,本发明的优点和积极效果是本发明的搜索引擎模式分类方法以支持向量机为基础,通过采用加权多宽度高斯核作为支持向量机中的核函数,来对网页信息进行分析与分类,从而改善了普通高斯核函数参数唯一、可调性差、容易出现"过学习"问题等缺陷,提高了搜索引擎的泛化能力和可调能力,为搜索引擎快速搜索匹配网页提供了更可靠的保障。结合附图阅读本发明实施方式的详细描述后,本发明的其他特点和优点将变得更加清楚。图1是搜索引擎的体系架构图;图2是采用多参数模型选择方法来确定加权多宽度高斯核函数中的各参数的流程框图。具体实施例方式下面结合附图对本发明的具体实施方式进行详细地描述。搜索引擎之所以应用如此广泛,一方面是由于采用统计学习理论强有力支持的支持向量机算法进行网页分类,另一方面莫过于核方法的应用。核方法拓展了机器学习的核技巧与Mercer定理,利用再生核希尔伯特空间理论,核函数的定义被大大扩大,为核函数的构造提供了可能。针对高斯核函数的广泛应用性和可调参数唯一、不能区分样本特征权重的缺陷,本发明提出了一种加权多宽度高斯核函数,其实质为结合高斯核函数和多项式衍生核函数来构成新的核函数。将其应用于支持向量机,并作为一种全新的模式分类方法应用于搜索引擎,利用其多参数可调的特性,可以显著提高搜索引擎的网页搜索分类能力。此外,本发明还进一步针对加权多宽度高斯核中的各个参数,借鉴半径间隔误差界和拟牛6顿优化算法模型提出了一种适用于加权多宽度高斯核函数参数确定的模型选择算法,以提高搜索结果的准确率。下面通过一个具体的实施例来详细阐述所述搜索引擎中的模式分类方法的具体设计过程。实施例一,本实施例针对支持向量机的模式分类方法中常用的高斯核函数的局限性,提出了一种更为一般性的加权多宽度高斯核函数,其公式如下k(x,y)=[exp(-IIx-yII2/2o2)+R]dV/20,o^0,c/eTV其中,o、R、d为三个可调的参数。首先,对加权多宽度高斯核函数的合法性进行证明本实施例所采用的支持向量机,是在小样本即采取小批量数据的基础上能够实现自我学习的一种统计理论,其出发点是立足于有限样本的假设。以模式分类为例,给定1个样本的训练集T={Xj,yj}GRn,yjG{1,-1}vy,则基于软间隔最优化支持向量机原始最优化问题如下1w,wz户is.t.y」((w.Xj)+b)>Hj,j=1,,1《j>0,j=1,,1其中,(w,b)为支持向量机的超平面,w为权重向量,b为偏移量,C>0为惩罚因子,"为松弛变量。转化为对偶问题如下1///max—7Z!>A"'"/X'.气)+1>户i0《aj《C,j=1,.,1(1)其中,=!>,6=>;y-S力(x,x,)构造超平面为(w.x)+b=O,得到决策函数为f(x)=sgn((w.x)+b)。高斯核函数的宽度o2定义了该核函数的泛化规模,直接影响着核机器,如支持向量机SVM的泛化性能。而高斯核函数的可调参数的唯一也反映了其对样本特征权重的一视同仁,这直接造成了对样本的错误估计和使用高斯核函数可调参数的局限性。普通高斯核函数的公式如下k(x,y)=exp(-||x-y||2/2o2)针对普通高斯核函数的局限性,本实施例提出了一种利用不同宽度来反映样本特征的不同重要性,并进一步结合权重来增加高斯核函数的可调性的设计思想。基于该设计思想,本实施例提出了如下的加权多宽度高斯核函数k(x,y)=[e邓(-||x-y||2/202)+R]dVi》0,"0,"eTV。由核的再生性理论,当且仅当所述加权多宽度高斯核函数满足有限半正定函数定义时,一定存在一个相应的空间FK。在Fk空间中,k(x,y)=〈小(x),小(y)〉,其中小是7作用于函数k的两个自变量的一个特征映射,该空间FK就是函数k的再生核希尔伯特空间。由于空间FK的无限维的特点,因此描绘出对应于高斯核和加权多宽度高斯核的特征空间是困难的。但是,借助于再生希尔伯特空间理论,其特征空间中的元素可以通过空间中的映射函数来表示,即x4,==[exp(-IIx-.||2/2<72)+W丫而函数之间的内积如下所示<Z"^"',),SA—,)〉=S,、),=iy=i(=i户i由此证明本实施例所提出的加权多宽度高斯核函数是核方法中定义的合法核,并可以应用于支持向量机。通过二项式定理把加权多宽度高斯核函数展开如下at(x,力=[exp(-IIx-yII2/2c72)+A]、w^0,d>0,"W=f[exP(—IIx"I|2/2ct2)]W4PVexp(一,?112)^=0乂^乂d/V、I=W+Zi"exp(」s=i、^2o"2(2)由式(2)可以看出加权多宽度高斯核函数的加权性质体现在W"上,即共有d个不同的权重系数分配在d个高斯核函数上,参数R将控制d个不同高斯核函数的相对权重;d个高斯核函数由统一的宽度02变为可变宽度二通过线性组合d个多宽度的高斯核函数组成加权多宽度高斯核函数。其中,常量因子Rd进一步提供加权多宽度高斯核函数特征空间中元素之间距离的可分性,相当于距离的线性平移放大。根据式(2),当R=0,d#0时,加权多宽度高斯核函数退化为高斯核函数,其形式为;c(x,>;)=eXp(-l|x—《||2)F^7,参数d将进一步縮小高斯核函数的宽度;当R#O,d=1时,加权多宽度高斯核函数退化为高斯核函数的形式k(x,y)二e邓(-llx-yll72o"+R,但是附加了一个线性平移量R,其作用如上所述,即拉大样本数据在其特征空间中的距离;当R>O,d>0时,即为加权多宽度高斯核函数的等价表达形式。在提出的加权多宽度高斯核函数的基础上,本实施例又进一步提出了一种针对于8新核的借鉴半径间隔误差界和拟牛顿优化算法模型来对新核中的各参数进行确定的多参数模型选择算法。首先,引入半径间隔误差界定义5=(,+^)(l|w||2+2ct^)<formula>formulaseeoriginaldocumentpage9</formula>其中,r为特征空间中包含所有训练样本的最小超球体的半径。引入加权多宽度高斯核函数时有k(x,x)=(l+R)d,r可以通过最优化以下问题解出<formula>formulaseeoriginaldocumentpage9</formula>下面结合图2给出多参数模型选择算法的具体工作流程S201、为加权多宽度高斯核函数中的参数R、d赋值;参数R、d必须事先确定,其中,参数R最好赋大于零的值,比如R二1;参数d—般要求至少为2,以保证在所述加权多宽度高斯核函数中至少包括2个不同的高斯核函数;S202、为参数C、Q赋初始值;其中,C可以取大于零的任意值,比如C=0.6;o的选取可以利用梯度下降法或者交叉验证法获得;S203、设定迭代次数N;迭代次数N的设定可以遵循参数d取值越大、迭代次数N越少的规律,以确保合适的程序运算时间;因为d的取值越大,参与运算的高斯核函数越多,执行一轮运算所需的时间就越长,为了使程序运行的时间不至于太漫长,应该尽量减小迭代次数N;但是,太少的迭代次数又会影响参数。的优化性,因此,应该在参数d和迭代次数N之间权衡,选择一组合适的值;实验证明若将d设置为2,则迭代次数N在40次至50次之间取值,即可在较短的程序运算时间内获得较为理想的c值;S204、通过最优化基于加权多宽度高斯核的半径间隔误差界来获得最小超球体的半径r,即通过公式(4)来计算半径r;S205、利用标准的支持向量机算法如SMO算法求出初始化条件下的最优解(a*,b",即通过公式(1)计算。*、1/,并由此获得=2>;6=_^-2>^y(x,,)构造超平产i,,面为(w.x)+b=O,得到决策函数为f(x)=sgn((w.x)+b);S206、利用计算获得(a*,b*)以及设定的R、d参数值和本轮运行到此获得的C、o参数值,运用拟牛顿算法来对参数C、o进行更新,即最优化如下问题(C,<T)=argin,6*,C,i,d,cr)其中,B如公式(3),即B=BA,A=r2+丄;52=v/w+2CZ(;《』为松弛变量,<formula>formulaseeoriginaldocumentpage9</formula>可预先设定;由于在ln9空间中参数的正约束条件可以被消除,从而使最优化问题变为无约束的极值问题,以下推导出加权多宽度高斯核函数应用以上算法所需要的所有梯度在ln9空间内,B的梯度定义如下51n《'辨2辨1其中,9i为所求的第i个参数,则朋i一1c2,消除约束条件得到无约束梯度d"丄M^W+C^]^=era—丄"7g"2—2其中,eT为单位向量,q为1X1矩阵,且=y山k(xi,xj);=-£/,A母xP(」,/)+矿exp(-11'/11)^Vf朋S[eXp(-|^i||2/2o"2)+/Tf▽=5"'W-^-iJ=12cr4cr3/3/3/令^=0,^"=0,^=0,l^=0,组成方程组,以获得更新后的参数c、o5C3(73crS207、判断是否到达设定的迭代次数N,若未到达,则返回步骤S204继续执行;否则,执行步骤S208;S208、获得参数o的最优值,由此便确定出了最终的加权多宽度高斯核函数公式。将获得的加权多宽度高斯核函数用于支持向量机,并将基于所述支持向量机的模式分类方法用于搜索引擎中的索引器,对经过爬虫程序转化后的网页特征数据集进行模式分类,以确定分类曲面,完成对网页信息的分析与分类。为了验证本实施例所提出的加权多宽度高斯核应用在基于支持向量机的模式分类方法中能够比传统的采用高斯核的支持向量机进行模式分类具有一定的优越性,本实施例将基于两种核函数的支持向量机应用于搜索引擎中,进行网页信息的分析与分类,通过实验进行对比。实验中,设置高斯核函数的参数o2=l,加权多宽度高斯核函数的参数o2=1,R=l,d=2,支持向量机选择非线性软间隔支持向量分类机,数据集如表1所述,均为线性不可分,实验结果如表2所示。表1、数据集描述<table>tableseeoriginaldocumentpage11</column></row><table>其中,UCI为美国Irvine大学机器学习数据库。表2、高斯核函数法和加权多宽度高斯核函数法的性能比较(准确率)<table>tableseeoriginaldocumentpage11</column></row><table>综合表1和表2可以看出当训练样本数量远大于测试样本数量时(Irisset),高斯核函数法和加权多宽度高斯核函数法的性能在给定相同方差参数时是相同的;当在实际应用时,即训练样本数量远小于测试样本数量时(DataSetX),在数据集DataSet1、2和3中可以发现加权多宽度高斯核函数法较传统的高斯核函数法具有一定的优越性。应当指出的是,以上所述仅是本发明的一种优选实施方式而已,对于本
技术领域
的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。权利要求一种搜索引擎中的模式分类方法,其特征在于所述搜索引擎采用支持向量机的模式分类方法对经过爬虫程序转化后的网页特征数据集进行模式分类,以划分各种网页;在所述支持向量机中采用的核函数为加权多宽度高斯核函数,其公式为κ(x,y)=[exp(-||x-y||2/2σ2)+R]d<mrow><mo>&ForAll;</mo><mi>R</mi><mo>&GreaterEqual;</mo><mn>0</mn><mo>,</mo><mi>d</mi><mo>&GreaterEqual;</mo><mn>0</mn><mo>,</mo><mi>d</mi><mo>&Element;</mo><mi>N</mi></mrow>其中,σ、R、d为可调参数。2.根据权利要求1所述的搜索引擎中的模式分类方法,其特征在于在所述加权多宽度高斯核函数中,参数o的最优值利用半径间隔误差界和拟牛顿优化算法来获得。3.根据权利要求2所述的搜索引擎中的模式分类方法,其特征在于利用所述半径间隔误差界和拟牛顿优化算法来确定所述参数o的过程如下a、为参数R、d赋值;b、为参数C、。赋初始值,其中,C为惩罚因子,且大于零;c、通过最优化基于加权多宽度高斯核的半径间隔误差界来获得最小超球体的半径r,即,=max((l+(之s丄ZA=1Pi>0/=i,d、利用标准的支持向量机算法求出初始化条件下的最优解(a*,b*),即max—^ZI^^",","A)+Z"'ff^y=/=/s丄=00<aj<C,j=1,,1其中,1为训练样本的个数,w=I>,>V06=>o-I>A",,)构造超平面为.产',户1)(w.x)+b=O,得到决策函数为f(x)=sgn((w.x)+b);e、运用拟牛顿算法对参数C、o进行更新,即最优化如下问题(C,cr)=argmin,6*,C,i,<i,cr)其中,B=;Jg,=一+丄,52=m/w+2C^X.,;j为松弛变量;C户if、根据设定的迭代次数以及更新的参数C、o,重复执行步骤c、d、e;g、获得参数o的最优值。4.根据权利要求3所述的搜索引擎中的模式分类方法,其特征在于在所述步骤a中,为参数d赋大于等于2的值。5.根据权利要求3或4所述的搜索引擎中的模式分类方法,其特征在于在所述步骤a中,为参数R赋大于零的值。6.根据权利要求3所述的搜索引擎中的模式分类方法,其特征在于在所述步骤b中,o的初始值利用梯度下降法或者交叉验证法获得。7.根据权利要求3所述的搜索引擎中的模式分类方法,其特征在于在所述步骤d中,利用SM0算法求解初始化条件下的最优解(a*,b*)。8.根据权利要求3所述的搜索引擎中的模式分类方法,其特征在于所述支持向量机为非线性软间隔支持向量分类机。9.根据权利要求3或4所述的搜索引擎中的模式分类方法,其特征在于在所述步骤f中,迭代次数的设定遵循参数d值越大、迭代次数越少的规律。10.根据权利要求9所述的搜索引擎中的模式分类方法,其特征在于所述d等于2,迭代次数设定为4050次。全文摘要本发明公开了一种搜索引擎中的模式分类方法,所述搜索引擎采用支持向量机的模式分类方法对经过爬虫程序转化后的网页特征数据集进行模式分类,以划分各种网页;在所述支持向量机中采用的核函数为加权多宽度高斯核函数,其公式为κ(x,y)=[exp(-||x-y||2/2σ2)+R]dd≥0,d∈N;其中,σ、R、d为可调参数。本发明的搜索引擎模式分类方法以支持向量机为基础,通过采用加权多宽度高斯核作为支持向量机中的核函数,来对网页信息进行分析与分类,从而改善了普通高斯核函数参数唯一、可调性差、容易出现“过学习”问题等缺陷,提高了搜索引擎的泛化能力和可调能力,为搜索引擎快速搜索匹配网页提供了更可靠的保障。文档编号G06F17/30GK101789000SQ200910260279公开日2010年7月28日申请日期2009年12月28日优先权日2009年12月28日发明者谢晓梦申请人:青岛朗讯科技通讯设备有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1