中文文本自动分类用的特征降维方法

文档序号:6378440阅读:264来源:国知局
专利名称:中文文本自动分类用的特征降维方法
技术领域
中文文本自动分类用的特征降维方法属于中文文本自动分类技术领域,尤其涉及各种基于汉字串作为特征的中文文本自动分类技术领域。
背景技术
计算机网络和电子技术的发展,彻底改变了人们的工作、生活和获取信息的方式。人类的绝大部分信息已经放在网上。现在的问题是如果有效地组织和管理这些海量的信息,如何使用户方便有效地访问到想要的信息。文本自动分类(TC)技术为解决这些问题提供了一个有效的途径。它以计算机作为工具,应用机器学习技术,使计算机能够对自然语言电子文本按照预定的类型集合进行自动分类。
从二十世纪八十年代末九十年代初开始,基于统计的机器学习方法被引入到文本自动分类中,提出了许多具有实用价值的分类器和分类模型。例如基于概率模型(ProbabilisticModel)的贝叶斯分类器(Bayesian Classifier),基于规则(Rule)的决策树/决策规则(DecisionTree/Decision Rule Classifier)分类器,基于类描述的线性分类器(Profile-Based LinearClassifier),基于人类分类经验的K最近邻分类器(K-Nearest Neighbor),基于最优超平面的支持向量机(Support Vector Machine,简称SVM),通过对多个分类方法进行组合的分类器委员会(Classifier Committee)等。
为了使计算机能够识别自然语言文本,需要先对文本进行描述。向量空间模型(VectorSpace Model,简称VSM)是被广泛采用的方法。它将文本描述为向量。向量的元素为文本中出现的特征(例如字、字串、词等)。所有潜在的文本向量组成一个高维向量空量,所有特征组成原始特征集。在一种自然语言中,作为特征的字串或词等数量非常巨大(通常以万为单位)。因此,在VSM模型中,高维问题是一个巨大障碍。它不仅影响分类效率,而且会带来大量的噪声和严重的数据稀疏,降低分类准确率。因此,在机器学习之前,应该先进行降维操作,即从原特征集中删除那些对分类没有作用或作用不大的特征。
在TC中用于降维的方法可以分为两类特征选择(Term Selection)和特征抽取(TermExtraction)。特征选择通过构造一个统计量来度量特征对文本分类作用的大小,以选择那些重要的特征。常用的统计量有特征频率(Term Frequency,简称TF),文档频率(DocumentFrequency,简称DF),特征频率-逆文档频率(Term Frequency-Inverse Document Frequency,简称TF-DF),信息增益(Information Gain,简称IG),互信息(Mutual Information,简称MI),信息熵(Entropy),Chi-分布权重(Chi-Square,简称Chi)等。这些统计量都是根据特征的一般统计特性来构造的,它反映了特征分类能力的一般规律。当基于大规模的训练集时,统计量能够较准确地刻划特征某方面的统计特性,通常能够取得较好的降维效果,例如Chi方法。当训练集规模较小时,这些统计量的度量能力会下降,而且,它们对不同特征的统计性能也存在不同程度的扭曲。另外,统计量关心的是特征对分类作用的一般规律,对某个具体特征来说会不准确,因为它们不关心特征的具体结构和语法功能,即特征的意义。
特征抽取也称为重参数化(Reparametrization)。由于自然语言表达的灵活性,使得原始特征空间的各维之间不是完全正交的。特征抽取通过坐标空间变换,力图构建一个各维正交的特征空间。然后在该正交空间中选择作用最大的特征子集,构造一个全新的低维正交空间作为原始特征空间的近似。常用的方法有特征聚类、主成分分析法、潜在语义标引(LatentSemantic Indexing)等。特征聚类是将作用相同的特征聚合在一起,作为一个新特征。主成分分析法和潜在语义标引都是利用线性代数技术,对原始特征空间进行线性变换,得到新的正交空间。这些方法的计算复杂性很高。而且,由于自然语言目前不能被有效地形式化,这些方法的降维效果并不理想。
分词是中文自然语言处理的一大难题。由于受词典规模、成词标准、分词歧义、未登录词识别等因素影响,在真实环境下中文分词的准确率一直不高。因此,在中文文本分类中,通常采用字串作为特征来描述文本,特别是二元汉字串(以下简称二元串)。实验表明,采用二元串的分类效果要优于一元串、三元串以及分词。但是对于一个文本集,二元串的特征集(数百万)要远远大于词的特征集(数十万),因此在采用二元串作为特征的中文文本分类中,降维的任务更为艰巨。

发明内容
本发明的目的在于提供一种在采用二元串作为特征的中文文本分类中进行降维的方法。
在文本分类中,降维的目标是保留对分类作用大的特征。我们认为,要度量一个特征对分类作用的大小,应该从两个方面考虑一是特征在文本中出现是否能够为决定文本的类型提供足够强的证据(分类能力);二是这个特征是否能够足够好地描述文本的内容(描述能力)。如果这两个条件都满足,那么这个特征对分类的作用是很大的,应该保留。如果只满足第一个条件,即特征的分类能力强,但描述能力弱,那么这个特征不是很好的特征,因为它不能很好地反应文本的内容。它们通常是一些低频特征或偶然出现的特征。过多强调这类特征会使损害分类器的推广能力,引起过学习(Overfitting);如果只满足第二个条件,即特征的描述能力强,但分类能力弱,那这个特征也不是好特征,因为它不能为区别文本提供足够的信息。过多强调这类特征会使分类器欠学习,即不能将两类文本很好地区分开。
由于统计量固有的特点,使得基于某个统计量的特征选择方法在度量特征的重要性时主要强调第一个条件,即特征的分类能力。因此,在采用汉字二元串为特征的中文文本分类中,采用这种方法进行特征选择后得到的特征集中会包含大量的没有实际意义的中、低频特征。虽然这些特征具有较好的分类能力,但是描述能力很弱。它们应该被进一步删除。而有些相邻接的特征,在文本集中表示的是同一个概念,而由于串长的限制被分解为多个二元串。这些特征应该合并在一起,作为一个完整的概念发挥作用。
例如中文句子“我的音乐书”,标引为二元串后为“我的”、“的音”、“音乐”、“乐书”。在这四个二元串中,从字面上,我们或多或少能够理解二元串“我的”、“音乐”、“乐书”的部分含义,但是二元串“的音”却是毫无意义的。但是由于它集中出现在少数文本中,在Chi,IG等具有较好效果的特征选择方法中会得到较大的权值而被保留。二元串“我的”,由于是高频常用特征会得到较小的权值而被删除。这时经过特征选择以后,保留下来的有三个特征“的音”、“音乐”、“乐书”。
理想的降维操作是选用一种特征选择方法删除特征“我的”;对保留的三个特征进行进一步分析,删除特征“的音”,合并“音乐”和“乐书”,生成三元特征“音乐书”。最后得到只有一个特征“音乐书”的特征集。这样,特征数由4降为1,保留的特征也较好地描述了文本的内容。这样做的依据是二元串“的音”中“的”是虚词,虽然“音”具有一定意义,但是由于与“的”相连,它的作用在这里消失了。在中文中,与“的”字相连的二元串中,除了“目的”、“的士”等个别串有实际意义外,绝大多数情况下是没有实际意义的,应该删除。这种二元串我们称为“高度偏差二元串”,即在一个二元串中,一个字是常用字(高频字),另一个字是非常用字(低频字)。而对于特征“音乐”、“乐书”来说,如果在文本集中绝大部分情况下它们都是重叠出现的,我们称它们为“高度重叠二元串”。降维时将相互“高度重叠二元串”合并成一个三元串。
基于上述思想,针对采用二元串的中文文本分类,我们提出了一种新的降维方法首先选用一种特征选择方法对原始特征集进行降维,得到中间特征集;再对中间特征集进行分析,找出“高度重叠二元串”和“高度偏差二元串”;将“高度重叠二元串”合并,将“高度偏差二元串”删除,得到最后用于机器学习的学习特征集。这种降维方法充分利用语言本身特点,在中间特征集的基础上可以进一步大幅度降维,保证选择的特征同时具有较好的分类能力和描述能力,克服了单一采用统计量进行特征选择的不足。
本发明的特征在于,它以计算机作为工具,依次执行以下步骤在学习阶段,含有以下步骤(1).初始化输入大小为N的学习文本集D,M为D的类型数(j=1,...,M);采用特征频度作为统计量,输入低频噪声二元串的阈值;采用Chi特征选择方法,输入二元串的权值阈值;输入δ、σ和k值,其定义及实值范围见下面所述;(2).用公知方法对学习文本集D进行预处理;(3).对学习文本集D分别进行一元、二元、三元串标引,得到一元串原始特征集、二元串原始特征集和三元串原始特征集;根据二元串原始特征集生成各个学习文本d的特征频度向量,它用d表示为d=(tf(T1d),tf(T2d),...,tf(Tnd))n为二元串原始特征集包含的特征总数,tf(Tid)为第i个二元串特征在文本d中的特征频度值(i=1,...,n);(4).对上述二元串原始特征集进行降维,得到二元串中间特征集
(4.1).根据特征频度值,去掉频度小于设定频度阈值的低频噪声二元串;(4.2).根据Chi特征选择方法,去掉权值小于设定的权值阈值的二元串;特征Tk在Cj类中的Chi权值为Chi(Tk,Cj)=N[Pd(Tk,Cj)×Pd(T‾k,C‾j)×Pd(T‾k,Cj)]2Pd(Tk)×Pd(Cj)×Pd(T‾k)×Pd(C‾j),]]>其中,Pd(Tk,Cj)为包含特征Tk的Cj类文本在N中所占的比重;Pd(Tk,Cj)为未包含特征Tk的非Cj类文本在N中所占的比重;Pd(Tk,Cj)为包含特征Tk的非Cj类文本在N中所占的比重;Pd(Tk,Cj)为未包含特征Tk的Cj类文本在N中所占的比重;Pd(Tk)为包含特征Tk的文本在N中所占的比重;Pd(Cj)为Cj类文本在N中所占的比重;Pd(Tk)为未包含特征Tk的文本在N中所占的比重;Pd(Cj)为非Cj类文本在N中所占的比重;特征Tk在学习文本集D中的Chi权重值(取各类型中的最大值)为Chi(Tk)=maxj=1M{Chi(Tk,Cj)};]]>(5).在上述二元串中间特征集中,找出“δ-重叠二元串”和对应的三元串,把“δ-重叠二元串”替换为对应的三元串;设有两个不同的二元串T1(t11t12)和T2(t21t22),若字符t12=t21,则T1(t11t12)和T2(t21t22)是二个不同的重叠二元串,其中,t12=t21表示在两个不同的二元串中都包含同一个字符,t12表示这个字符在第一个二元串T1(t11t12)中处于第二个位置,t21表示这个字符在第二个二元串中处于第一个位置;而t11、t22分别表示两个二元串中其他的字符,若两个不同的重叠二元串T1(t11t12)和T2(t21t22),以及包含它们的三元串T3(t31t32t33),如果在文本集D中,同时满足以下条件|tf(T1)-tf(T2)|max(tf(T1),tf(T2))≤1-δ,]]>|df(T1)-df(T2)|max(df(T1),df(T2))≤1-δ,]]>
min(|tf(T1)-tf(T3)|,|tf(T2)-tf(T3)|)max(tf(T1),tf(T2))≤1-δ,]]>则T1和T2是δ-重叠二元串,其中,T1、T2、T3分别是T1(t11t12)、T2(t21t22)和T3(t31t32t33)的简写,tf(T1)、tf(T2)、tf(T3)分别是T1、T2、T3在文本集D中出现的频度,df(T1)、df(T2)分别为文本集D中包含T1、T2的文本数,δ在
之间,表示T1、T2之间的重叠程度,为预设值,δ=1表示T1、T2在文本集D中是完全重叠的,δ=0表示T1、T2在文本集D中单独出现;(6).在上述二元串中间特征集中找出“σ-偏差二元串”,并删除之,从而得到学习特征集σ-偏差二元串是指在文本集D中,满足以下条件的二元串T(t1t2),此处,t1、t2分别表示不同的字符max{tf(t1),tf(t2)}min{tf(t1),tf(t2)}≥σ,]]>其中,tf(ti)是字符ti在文本集D中出现的频度,从上述一元串原始特征集中统计得出,σ是预置的大于1的实数,表示二元串T(t1t2)中字符t1、t2对分类所起作用的偏差程度,σ值越大,表示t1、t2的分类作用相差越大;(7).根据以上步骤中生成的二元串中间特征集、δ-重叠二元串和对应的三元串,以及σ-偏差二元串,对各学习文本d的二元串特征频度向量进行如下降维操作删除二元串中间特征集中没有的特征;把存在的δ-重叠二元串替换为对应的三元串,频度替换成对应三元串频度的k倍;把存在的σ-偏差二元串删除;(8).以类型为单位,合并降维后的文本特征频度向量,生成各类型的特征频度向量CjCj=(tf(T1j),tf(T2j),...,tf(Tnj)),其中,tf(Tij)为第i个特征在类型Cj中出现的频度;(9).根据预设的特征向量权重计算方法,计算各类型Cj的权重向量并规格化,权重向量Wj为Wj=(w(T1j),w(T2j),...,w(Tnj)),
第i个特征在类型Cj中的特征权重为w(Tij)w(Tij)=log(tf(Tij)+1.0)×log(Ndf(Ti)),]]>其中,df(Ti)为学习文本集D中含有第i个特征的文本数;(10).创建基于类中心向量的线性分类器ff=argmaxj=1M(Wj·Wd),]]>其中,Wd为任意文本d的权重向量,其计算方法同步骤(9)中的类型权重向量,·为向量内积操作;(11).用测试数据,按下述分类阶段的方法进行测试,优化δ、σ、k各参数;在分类阶段,含有以下步骤(12).对待分类文本进行预处理;(13).把待分类文本标引为二元串频度向量;(14).按上述步骤(7)中的操作对待分类文本的二元串频度向量进行降维;(15).按上述步骤(9)中的方法计算待分类文本的权重向量Wd;(16).将步骤(15)中得到的待分类文本权重向量Wd输入上述的分类器进行分类,输出分类结果。
为了评测该方法的降维效果,我们开发设计了一个中文文本自动分类系统。在该系统中采用二元字串作为特征,用Chi方法进行特征选择得到二元串中间特征集,再采用我们发明的降维方法进行降维,最后通过机器学习建立基于类中心向量的线性分类器。实验条件和分类效果如下实验条件一台PIII667Mhz兼容计算机,内存256M,硬盘100G;Visual C++程序语言实现。
实验数据数据共包含已经分好类的71674篇文本,属于财政税收金融价格、大气海洋水文科学、地理学、地质学、电影、数学、中国文学等55类。每篇文本只属于一类。将该文本集按9∶1的比例随机地划分为两部分,分别用于学习和测试。其中,学习集包含64533篇文本,待分类文本集(测试集)包含7141篇文本。对学习集进行汉字串标引,删除频度小于10的稀有字串,生成原始一元串特征集(7519个特征,保留稀有字串),二元串原始特征集(412908个特征)和三元串原始特征集(711937个特征)。采用Chi特征选择方法对二元串原始特征集进行降维,得到二元串中间特征集(70000个特征)。采用我们发明的方法对二元串中间特征集进行进一步的降维,生成不同大小的学习特征集。特征向量的权重计算方法采用tf*idf权重(步骤(9))。
实验结果表1在不同学习特征集上的分类准确率(%)和降维程度(%)。

表1中的分类准确率为

降维程度为

由表1中的分类结果可以看出,用Chi特征选择方法保留了一些噪声特征。通过我们发明的降维方法可以排除这些噪声特征,使得分类准确率有了小量的提高。在Chi降维的基础上,我们的降维方法利用汉字二元串本身的特点(重叠和偏差),能够实现进一步大幅度降维。当降维程度达到27%时,分类准确率仍保持不下降。另外,我们的方法为基于字串特征的文本分类提供了一个新的降维思路。过去的特征选择方法通过构造统计量来实现,强调特征在一般统计意义上的分类能力,没有考虑特征本身的意义,即对文本内容的描述能力。我们的方法利用特征本身的结构特点,强调了特征的描述能力。这是朝着理解特征的方向所作的努力。这两种方法相结合,能够在不损失分类准确率的情况下进一步大幅度提高降维程度。


图1本发明所述方法的程序流程框图。
图2分类阶段程序流程框图。
具体实施例方式
中文文本自动分类用的特征降维方法,包括以下步骤在学习阶段,含有以下步骤(1).确定采用的特征选择方法(统计量)、特征向量权重计算方法及有关参数的值;
(2).对学习文本集进行预处理;(3).对学习文本集分别进行一元、二元、三元串标引(Indexing),得到一元串原始特征集,二元串原始特征集和三元串原始特征集。根据二元串原始特征集,生成各个学习文本的特征频度向量,如公式1所示。
d=(tf(T1d),tf(T2d),...,tf(Tnd))(1)d为任意学习文本;n为二元串原始特征集包含的特征总数;tf(Tid)为第i个二元串特征在文本d中的频度(i=1,...,n)。
(4).根据(1)中确定的特征选择方法对二元串原始特征集进行降维,得到二元串中间特征集。例如根据特征频度值,去掉频度小于10的低频噪声二元串;再采用Chi特征选择方法,去掉权值小于某个阈值的二元串。特征Chi权值的计算方法如公式2所示;Chi(Tk,cj)=N[Pd(Tk,cj)×Pd(Tk‾,cj‾)-Pd(Tk,cj‾)×Pd(Tk‾,cj)]2Pd(Tk)×Pd(cj)×Pd(Tk‾)×Pd(cj‾)]]>Chi(Tk)=maxj=1M{Chi(Tk,cj)}---(2)]]>其中N为学习文本集的大小,Pd(Tk,cj)为包含特征Tk的cj类文本在N中所占的比重,Pd(Tk)为包含特征Tk的文本在N中所占的比重,Pd(Tk,Cj)为包含特征Tk的非Cj类文本在N中所占的比重,M为类型数,其它参数说明与此类似;(5).对二元串中间特征集进行进一步分析,找出“δ-重叠二元串”以及对应的三元串。将“δ-重叠二元串”替换为对应的三元串;(5.1).两个不同的二元串T1(t11t12)和T2(t21t22),如果字符t12=t21,那么我们说T1和T2是重叠的;(5.2).两个不同的重叠二元串T1(t11t12)和T2(t21t22),以及包含它们的三元串T3(t31t32t33),在文本集D中,如果T1、T2、T3同时满足以下条件(a).|tf(T1)-tf(T2)|max(tf(T1),tf(T2))≤1-δ;]]>(b).|df(T1)-df(T2)|max(df(T1),df(T2))≤1-δ;]]>(c).min(|tf(T1)-tf(T3)|,|tf(T2)-tf(T3)|)max(tf(T1),tf(T2))≤1-δ.]]>那么我们称T1和T2是相互“δ-重叠二元串”,T3为它们对应的三元串。其中tf(T1)为T1在文本集D中出现的频度,df(T1)为D中包含了T1的文本数,δ是一个预先设定的实数值,范围在
之间,表示T1和T2之间的重叠程度。当δ=1时,表示T1和T2在文本集中总是连续出现,是完全重叠的;当δ=0时,表示T1和T2在文本集中总是单独出现的,是完全不重叠的;(6).在二元串中间特征集中找出“σ-偏差二元串”。删除“σ-偏差二元串”。经过(5)、(6)处理后,得到学习特征集;(6.1).在文本集D中,如果二元串T(t1t2)、满足以下条件max{tf(t1),tf(t2)}min{tf(t1),tf(t2)}≥σ,]]>那么我们称T是“σ-偏差二元串”。其中tf(ti)是字符ti在D中出现的频度(从一元串原始特征集中统计),σ是预先设定的大于1的实数,表示二元串中字符t1和t2对分类所起作用的偏差程度。σ值越大,表示t1和t2的分类作用相差越大;(6.2).在“σ-偏差二元串”T(t1t2)中,如果tf(t1)>tf(t2),那么我们称t2为T中的主要字符,t1为T中的次要字符;(7).根据(4)生成的二元串中间特征集,(5)生成的“δ-重叠二元串”和对应的三元串,以及(6)生成的“σ-偏差二元串”,对(2)中各学习文本的二元串特征频度向量进行如下降维操作删除在二元串中间特征集中没有的特征;将存在的“δ-重叠二元串,,替换为对应的三元串,频度替换为对应三元串频度的k倍(在我们的实验中为10);将存在的“σ-偏差二元串”删除;(8).以类型为单位,合并降维后的文本特征频度向量,生成各类型的特征频度向量,如公式3所示;Cj=(tf(T1j),tf(T2j),...,tf(Tnj)) (3)其中tf(Tij)为第i个特征在类型Cj中出现的频度;(9).根据(1)中确定的特征向量权重计算方法(例如tf*idf权重),计算各类型的权重向量,并规格化。权重向量如公式4所示;Wj=(w(T1j),w(T2j),...,w(Tnj))(4)w(Tij)为第i个特征在类型Cj中的tf*idf权重,如公式5所示;w(Tij)=log(Tij)+1.0)×log(N/df(Ti)) (5)其中N为学习集的大小;df(Ti)为学习集中含有第i个特征的文本数;(10).创建基于类中心向量的线性分类器,如公式6所示;
f=argmaxj=1M(Wj·Wd)]]>M为类型数;Wd为任意文本d的权重向量;·为向量内积操作;(11).用测试数据,按下述分类阶段的方法进行测试,确定δ、σ、k各参数;分类阶段(12).对待分类文本进行预处理。
(13).将待分类文本标引为二元串频度向量。
(14).根据(7)中的操作对待分类文本的二元串频度向量进行降维;(15).按(9)中的方法计算待分类文本的权重向量,如公式7所示;Wd=(w(T1d),w(T2d),...,w(Tnd))(7)其中w(Tid)为第i个特征在文本d中的tf*idf权重;(16).将(15)中生成的待分类文本权重向量输入(10)中生成的分类器(公式6)进行分类,输出分类结果。
以下举一个实施例实验条件和学习集与“发明内容”部分中列出的实验条件和学习集一致。按照“发明内容”中列出的步骤,执行如下学习阶段(1).决定采用Chi特征选择方法生成二元串中间特征集,采用tf*idf权重计算二元串权重向量,频度阈值设定为10,二元串中间特征集大小设定为70000。
(2).对学习文本进行预处理。
(3).将学习文本集进行字串标引,得到一元串原始特征集、二元串原始特征集、三元串原始特征集。其中频度大于10的二元串原始特征集如表2所示。生成各学习文本的二元串特征频度向量,形式如表6所示。
表2部分二元串原始特征集(按特征汉字编码的逆序排列,下同)


上表中,tf为特征频度,df为学习集中包含特征的文本数。由于篇幅限制,这里只列出48个二元串特征。原始特征集中频度大于10的二元串特征共有412908个。
(4).对频度大小10的二元串原始特征集采用Chi特征选择方法进行降维,生成包含70000个特征的二元串中间特征集,降维程度为83%。这时,表2中的部分二元串原始特征集经Chi降维后如表3所示。
表3Chi降维后的二元串中间特征集(18个特征)

(5).设定δ=0.7,找出“δ-重叠二元串”以及对应的三元串,将二元串中间特征集中的“δ-重叠二元串”替换为对应的三元串。表3所示的部分二元串特征集中包含的“δ-重叠二元串”以及对应的三元串如表4所示。
表4“δ-重叠二元串”及对应的三元串

(6).设定σ=20,找出“σ-偏差二元串”,将二元串中间特征集中的“σ-偏差二元串”删除。表3所示的部分二元串特征集中包含的“σ-偏差二元串”如表5所示。
表5“σ-偏差二元串”及相应的次要字符和主要字符(12个特征)

(7).经过(5)、(6)步操作以后,二元串中间特征集被大幅度降维,生成二元串学习特征集。表3所示的部分二元串中间特征集从18个特征减少为6个特征,如表6所示。
表6二元串学习特征集(6个特征)

(8).根据(4)生成的二元串中间特征集,(5)生成的“δ-重叠二元串”和对应的三元串,以及(6)生成的“σ-偏差二元串”,采用我们的方法对(2)中各学习文本的二元串特征频度向量进行降维操作。降维后的特征频度向量如表8所示。
(9).以类型为单位,合并各文本的二元串特征频度向量,生成各类型的二元串特征频度向量,形式如表8所示。
(10).计算各类型的tf*idf权重向量,将规格化,作为各类型的中心向量,形式如表9所示。
(11).生成“基于类中心的线性分类器”,如公式6所示。
分类阶段例如,输入以下属于“中文文学”类的待分类文本《清诗话续编》诗话丛书。今人郭绍虞编选,富寿荪校点。此书系继丁福保《清诗话》而选编的,故称《清诗话续编》。现存清人诗话著作约有三、四百种,《清诗话》收有43种,此书另收34种,两书相加,可见清代诗论的概貌。关于此书的编选目的及选辑标准,郭绍虞在书前的《序》中指出“清人诗话中,除评述历代作家作品外,亦有专述交游轶事及声韵格律者。本书为提供研究中国古典诗歌理论参考之用,故所选者以评论为主。”书中所收如毛先舒《诗辩坻》、贺贻孙《诗筏》、贺裳《载酒园诗话》、吴乔《围炉诗话》、张谦宜《斋诗谈》、乔亿《剑溪说诗》、赵翼《瓯北诗话》、翁方纲《石洲诗话》、管世铭《读雪山房唐诗序例》、余成教《石园诗话》、潘德舆《养一斋诗话》(附《李杜诗话》)、朱庭珍《筱园诗话》、刘熙载《艺概》等,都有一定的理论价值,其中有多种为历来绝少流传者,具有较高的资料价值。所用底本除《静居绪言》一种为未刊稿外,其余均为原刻本。校点者对原书引诗引文中的脱误多所补正,对其论述中的谬误也都经过考证核实,作出校订,附有校记3000余条。全书共分为4册,上海古籍出版社1983年初版。
分类阶段的操作如下(12).对待分类文本进行预处理。
(13).对待分类文本进行二元串标引,删除二元串中间特征集中没有的特征,生成待分类文本特征频度向量,如表7所示。该向量包含52个特征。
表7待分类文本的二元串特征频度向量


(14).应用我们发明的降维方法对待分类文本二元串特征频度向量进行进一步降维,生成用于最后分类的特征频度向量如表8所示。这时特征数从52个减少为43个。
表8采用我们的降维方法进行降维后的待分类文本二元串特征频度向量

(15).计算待分类文本的tf*idf权重向量,并规格化,如表9所示。
表9待分类文本的tf*idf权重向量


(16).将表9的待分类文本权重向量输入分类器(公式6)进行自动分类。输出结果为“中国文学”类,与文本的实际类型相符,分类正确。
权利要求
1.中文文本自动分类用的特征降维方法,其特征在于,它以计算机作为工具,依次执行以下步骤在学习阶段,含有以下步骤(1).初始化输入大小为N的学习文本集D,M为D的类型数(j=1,...,M);采用特征频度作为统计量,输入低频噪声二元串的阈值;采用Chi特征选择方法,输入二元串的权值阈值;输入δ、σ和k值,其定义及实值范围见下面所述;(2).用公知方法对学习文本集D进行预处理;(3).对学习文本集D分别进行一元、二元、三元串标引,得到一元串原始特征集、二元串原始特征集和三元串原始特征集;根据二元串原始特征集生成各个学习文本d的特征频度向量,它用d表示为d=(tf(T1d),tf(T2d),...,tf(Tnd))n为二元串原始特征集包含的特征总数,tf(Tid)为第i个二元串特征在文本d中的特征频度值(i=1,...,n);(4).对上述二元串原始特征集进行降维,得到二元串中间特征集(4.1).根据特征频度值,去掉频度小于设定频度阈值的低频噪声二元串;(4.2).根据Chi特征选择方法,去掉权值小于设定的权值阈值的二元串;特征Tk在Cj类中的Chi权值为Chi(Tk,Cj)=N[Pd(Tk,Cj)×Pd(T‾k,C‾j)-Pd(Tk,C‾j)×Pd(T‾k,Cj)]2Pd(Tk)×Pd(Cj)×Pd(T‾k)×Pd(C‾j),]]>其中,Pd(Tk,Cj)为包含特征Tk的Cj类文本在N中所占的比重;Pd(Tk,Cj)为未包含特征Tk的非Cj类文本在N中所占的比重;Pd(Tk,Cj)为包含特征Tk的非Cj类文本在N中所占的比重;Pd(Tk,Cj)为未包含特征Tk的Cj类文本在N中所占的比重;Pd(Tk)为包含特征Tk的文本在N中所占的比重;Pd(Cj)为Cj类文本在N中所占的比重;Pd(Tk)为未包含特征Tk的文本在N中所占的比重;Pd(Cj)为非Cj类文本在N中所占的比重;特征Tk在学习文本集D中的Chi权重值(取各类型中的最大值)为Chi(Tk)=maxj=1M{Chi(Tk,Cj)};]]>(5).在上述二元串中间特征集中,找出“δ-重叠二元串”和对应的三元串,把“δ-重叠二元串”替换为对应的三元串;设有两个不同的二元串T1(t11t12)和T2(t21t22),若字符t12=t21,则T1(t11t12)和T2(t21t22)是二个不同的重叠二元串,其中,t12=t21表示在两个不同的二元串中都包含同一个字符,t12表示这个字符在第一个二元串T1(t11t12)中处于第二个位置,t21表示这个字符在第二个二元串中处于第一个位置;而t11、t22分别表示两个二元串中其他的字符,若两个不同的重叠二元串T1(t11t12)和T2(t21t22),以及包含它们的三元串T3(t31t32t33),如果在文本集D中,同时满足以下条件|tf(T1)-tf(T2)|max(tf(T1),tf(T2))≤1-δ,]]>|df(T1)-df(T2)|max(df(T1),df(T2))≤1-δ,]]>min(|tf(T1)-tf(T3)|,|tf(T2)-tf(T3)|)max(tf(T1),tf(T2))≤1-δ,]]>则T1和T2是δ-重叠二元串,其中,T1、T2、T3分别是T1(t11t12)、T2(t21t22)和T3(t31t32t33)的简写,tf(T1)、tf(T2)、tf(T3)分别是T1、T2、T3在文本集D中出现的频度,df(T1)、df(T2)分别为文本集D中包含T1、T2的文本数,δ在
之间,表示T1、T2之间的重叠程度,为预设值,δ=1表示T1、T2在文本集D中是完全重叠的,δ=0表示T1、T2在文本集D中单独出现;(6).在上述二元串中间特征集中找出“σ-偏差二元串”,并删除之,从而得到学习特征集σ-偏差二元串是指在文本集D中,满足以下条件的二元串T(t1t2),此处,t1、t2分别表示不同的字符max{tf(t1),tf(t2)}min{tf(t1),tf(t2)}≥σ,]]>其中,tf(ti)是字符ti在文本集D中出现的频度,从上述一元串原始特征集中统计得出,σ是预置的大于1的实数,表示二元串T(t1t2)中字符t1、t2对分类所起作用的偏差程度,σ值越大,表示t1、t2的分类作用相差越大;(7).根据以上步骤中生成的二元串中间特征集、δ-重叠二元串和对应的三元串,以及σ-偏差二元串,对各学习文本d的二元串特征频度向量进行如下降维操作删除二元串中间特征集中没有的特征;把存在的δ-重叠二元串替换为对应的三元串,频度替换成对应三元串频度的k倍;把存在的σ-偏差二元串删除;(8).以类型为单位,合并降维后的文本特征频度向量,生成各类型的特征频度向量CjCj=(tf(T1j),tf(T2j),...,tf(Tnj)),其中,tf(Tij)为第i个特征在类型Cj中出现的频度;(9).根据预设的特征向量权重计算方法,计算各类型Cj的权重向量并规格化,权重向量Wj为Wj=(w(T1j),w(T2j),...,w(Tnj)),第i个特征在类型Cj中的特征权重为w(Tij)w(Tij)=log(tf(Tij)+1.0)×log(Ndf(Ti)),]]>其中,df(Ti)为学习文本集D中含有第i个特征的文本数;(10).创建基于类中心向量的线性分类器ff=argmaxj=1M(Wj·Wd),]]>其中,Wd为任意文本d的权重向量,其计算方法同步骤(9)中的类型权重向量,·为向量内积操作;(11).用测试数据,按下述分类阶段的方法进行测试,优化δ、σ、k各参数;在分类阶段,含有以下步骤(12).对待分类文本进行预处理;(13).把待分类文本标引为二元串频度向量;(14).按上述步骤(7)中的操作对待分类文本的二元串频度向量进行降维;(15).按上述步骤(9)中的方法计算待分类文本的权重向量Wd;(16).将步骤(15)中得到的待分类文本权重向量Wd输入上述的分类器进行分类,输出分类结果。
全文摘要
中文文本自动分类用的特征降维方法属于中文文本自动分类领域,其特征在于首先选用一种特征选择方法对原始特征集进行降维,得到中间特征集;再对中间特征集进行分析,找出“高度重叠二元串”和“高度偏差二元串”;把高度重叠二元串合并为对应的三元串,把高度偏差二元串删除,得到最后用于机器学习的学习特征集;再由此得到分类器,供分类阶段使用。它充分利用语言本身的特点,在中间特征集的基础上大幅度降维,以保证所选择的特征具有较好的分类能力和描述能力,克服了单一采用统计量进行特征选择的不足。
文档编号G06K9/80GK1558367SQ20041000072
公开日2004年12月29日 申请日期2004年1月16日 优先权日2004年1月16日
发明者孙茂松, 薛德军 申请人:清华大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1