一种基于混合算法的网页分类方法和装置与流程

文档序号:12271381阅读:来源:国知局

技术特征:

1.一种基于混合算法的网页分类方法,其特征在于,包括:

步骤a,搜索待分类网页,对所述待分类网页进行处理得到网页数据;

步骤b,对所述网页数据进行处理,用向量空间模型将所述网页数据转换为文本表示,计算词条项的权值并将所述待分类网页的特征向量转化成数值形式;

步骤c,利用数值形式的所述特征向量作为训练数据,建立SVM的分类模型,并利用SVM分类器对所述待分类网页的所述特征向量进行分类;

步骤d,将所述SVM分类器输出的符合分类条件的所述特征向量输送至朴素贝叶斯分类器当中进行分类;

步骤e,利用所述朴素贝叶斯分类器对所述待分类网页的所述特征向量进行分类。

2.如权利要求1所述的网页分类方法,其特征在于,所述步骤c包括:

步骤c1,利用数值形式的所述特征向量作为训练数据,确定分类公式,建立SVM的分类模型;

步骤c2,利用所述SVM分类器的所述分类公式对所述待分类网页的所述特征向量进行计算,确认所述特征向量是否使所述分类公式成立,从而将所述特征向量分为两类。

3.如权利要求1或2所述的网页分类方法,其特征在于,所述步骤e包括:

步骤e1,从所述SVM分类器输出的所述特征向量中选择一部分作为训练样本,确定所述训练样本中每个特征向量对应的特征属性,以及每个特征向量对应的所述待分类网页的类别;

步骤e2,统计所述训练样本中所述待分类网页各个类别出现的频率以及各类别下各个特征属性的条件概率估计;

步骤e3,对所述SVM分类器输出的所述待分类网页中的所述特征属性进行分析,计算该待分类网页属于各个类别的类别概率;

步骤e4,确定所述待分类网页的类别概率中数值最大的类别概率,该类别概率对应的类别为所述待分类网页的类别。

4.如权利要求3所述的网页分类方法,其特征在于,所述步骤e3中,所述待分类网页的类别概率的计算公式为:

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>|</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>C</mi> <mo>&times;</mo> <munderover> <mi>&Pi;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>a</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow>

其中,x为待分类网页的特征向量,i为类别的序号,j为特征属性的序号,m为特征属性的总数,C为常数,yi为第i个类别,aj为第j个特征属性,P(yi)为第i个类别出现的频率,P(aj|yi)为第i个类别中第j个特征数学的条件概率估计,P(yi|x)为待分类网页的类别概率。

5.如权利要求1或2所述的网页分类方法,其特征在于,所述网页数据为半结构化数据。

6.如权利要求1或2所述的网页分类方法,其特征在于,所述步骤b中,所述词条项的权值计算公式为:

<mrow> <msub> <mi>&omega;</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>tf</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <mi>log</mi> <mrow> <mo>(</mo> <mi>N</mi> <mo>/</mo> <msub> <mi>n</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <msqrt> <mrow> <mi>&Sigma;</mi> <msup> <mrow> <mo>(</mo> <msub> <mi>tf</mi> <mi>i</mi> </msub> <mo>(</mo> <mi>d</mi> <mo>)</mo> <mo>&times;</mo> <mi>log</mi> <mo>(</mo> <mrow> <mi>N</mi> <mo>/</mo> <msub> <mi>n</mi> <mi>i</mi> </msub> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> </mfrac> </mrow>

其中,ωi(d)为第i个词条项在文本d中的权值,ωi(d)为第i个词条项在文本d中出现的词频,N为所有文本的数目,ni为出现了第i个词条项的文本的数目。

7.如权利要求1或2所述的网页分类方法,其特征在于,所述步骤c中,SVM的分类模型的核函数为RBF核函数。

8.一种与上述任一权利要求所述的网页分类方法对应的基于混合算法的网页分类装置,其特征在于,包括:

网页处理单元,搜索待分类网页,对所述待分类网页进行处理得到网页数据;

数据转换单元,对所述网页数据进行处理,用向量空间模型将所述网页数据转换为文本表示,计算词条项的权值并将所述待分类网页的特征向量转化成数值形式;

SVM分类单元,利用数值形式的所述特征向量作为训练数据,建立SVM的分类模型,并利用SVM分类器对所述待分类网页的所述特征向量进行分类;

数据输送单元,将所述SVM分类器输出的符合分类条件的所述特征向量输送至朴素贝叶斯分类器当中进行分类;

贝叶斯分类单元,利用所述朴素贝叶斯分类器对所述待分类网页的所述特征向量进行分类。

9.如权利要求8所述的网页分类装置,其特征在于,所述SVM分类单元包括:

模型建立模块,利用数值形式的所述特征向量作为训练数据,确定分类公式,建立SVM的分类模型;

模型分类模块,利用所述SVM分类器的所述分类公式对所述待分类网页的特征向量进行计算,确认所述特征向量是否使所述分类公式成立,从而将所述特征向量分为两类。

10.如权利要求8或9所述的网页分类装置,其特征在于,所述贝叶斯分类单元包括:

特征确定模块,从所述SVM分类器输出的所述特征向量中选择一部分作为训练样本,确定所述训练样本中每个特征向量对应的特征属性,以及每个特征向量对应的所述待分类网页的类别;

概率统计模块,统计所述训练样本中所述待分类网页各个类别出现的频率以及各类别下各个特征属性的条件概率估计;

概率计算模块,对所述SVM分类器输出的所述待分类网页中的所述特征属性进行分析,计算该待分类网页属于各个类别的类别概率;

类别确定模块,确定所述待分类网页的类别概率中数值最大的类别概率,该类别概率对应的类别为所述待分类网页的类别。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1