文本主题的分类方法及系统的制作方法

文档序号:9326898阅读:424来源:国知局
文本主题的分类方法及系统的制作方法
【技术领域】
[0001] 本发明涉及文本主题分类技术,特别涉及一种文本主题的分类方法及系统。
【背景技术】
[0002] 随着互联网信息的发展,文本分类需求也日趋增大,文本分类在一定程度上能够 解决网上信息杂乱的现象,能够方便用户准确的定位自己所需的信息。文本分类是将带有 大量标记的训练样本,通过一种分类模型或者函数,将待分类文本映射到指定的类别中。
[0003] 文本分类方法可分为基于规则的分类方法和基于统计的分类方法。其中,基于规 则的分类方法通过对训练集的学习,生成规则库,并将进行优化,最终得到的规则库为规则 分类器。但是,基于规则的分类方法的缺点是,如FOIL算法,分为正例和负例提取规则,采 用信息增益来提取最好的一个属性值来生成规则,而且一次只生成一条规则,在生成规则 以后,将被规则覆盖的训练集删除,继续从生育的训练集中寻找最好的属性值。该方法有效 的减少了冗余的规则,然而每条训练集仅被一条规则覆盖,因此在分类的时候准确率不高, 特别是当训练集较小的时候。还有基于决策树分类的方法,对于默写数据集,当数据集的实 例个数较多时,产生的决策树非常大,分类模型较为复杂。(具体参考文献《基于规则的分 类方法研究》)基于统计的分类方法典型的有朴素贝叶斯分类器,贝叶斯分类方法使用于大 型数据库,并且表现出高准确率和高速度。贝叶斯分类有如下特点:(1)贝叶斯分类并不把 一个对象绝对地指派给某一类,而是通过计算得出属于某一类的概率,具有最大概率的类 便是该对象所属的类;(2) -般情况下在贝叶斯分类中所有的属性都潜在地起作用,即并 不是一个或几个属性决定分类,而是所有的属性都参与分类;(3)贝叶斯分类对象的属性 可以是离散的、连续的,也可以是混合的。贝叶斯定理给出了最小化误差的最优解决方法, 可用于分类和预测。理论上,贝叶斯分类看起来很完美,但在实际中,它并不能直接利用,它 需要知道证据的确切分布概率,而实际上我们并不能确切的给出证据的分布概率。因此在 很多分类方法中都会作出某种假设以逼近贝叶斯定理的要求,使用起来不方便。
[0004] 除此之外,还有基于向量空间模型的分类器、基于实例的分类器和用支持向量机 建立的分类器等。SVM(支持向量机)在解决小样本、非线性及高炜模式识别中表现出其特 有的优势,由于SVM算法不受样本趋于无穷大理论的限制,也适合做大样本集的文本分类, 并且能够推广应用到函数模拟和其他机器学习问题中。但是,SVM由于要选择合适的核函 数,使之训练速度也受样本集的影响,以及选取何种合适的核函数,也是该方法的难题。
[0005] 文本分类还可以按照其数据训练的方法,分为有监督和无监督文本分类方法,其 中有监督的方法有KNN(K最近邻)、神经网络、支持向量机与聚类方法等;其中KNN通过查 询已知类别文本的信息,判断未知文本与已知文本是否属于同一类,通过判断训练文本与 该未知文本距离最近的K个文本,根据这K个文本所属的类别,来判断该未知文本属于哪个 类别。KNN方法计算复杂度低,鲁棒性强,但是,缺点是分类速度较慢,需要计算待分类样本 与训练样本之间的距离,不适合做在线实时分类。
[0006] 无监督的文本方法包括LDA(Latent Dirichlet Allocation,隐含狄利克雷分 布)、无监督聚类等。LDA方法是统计主题模型中的典型算法,文本分类核心问题是提取 文本中的特征,从而分析文本属于何种主题。LDA可以看成一种生成式概率问题。LDA是 Blei (布雷)提出的一种对离散数据集建模的概率增长模型。LDA模型有着突出的优点:首 先LDA模型是全概率生成模型,具有清晰的层次结构;其次LDA模型在主题层与词层都引入 了 Dirichlet (狄利克雷)先验参数,主题参数个数随训练文档数目增加而线性增加,从而 导致过度拟合的问题,因此更适合处理大规模语料库,对中小规模语料库不适用,应用具有 局限性。
[0007] LDA模型具有三层生成式贝叶斯网络结构,如图1所示。其中,α描述隐含主题间 的相对强弱,β反映的是隐含主题自身的概率分布,Θ为文本的相应主题分布概率向量,ζ 表示目标文档的隐含主题在每个词上的概率,w表示文档中的特征词向量,m为文档次序, 且me [1,M],M为文档数目,η为词语次序,且ne [1,NJ,N为词语数目,^表示词语在第 k个主题类型的多项式分布向量,k e [1,K],K为主题类型的数目;101、102、103所示的方 框表示重复抽样,101表示对主题类型抽样,102表示对词语抽样,103表示对文档抽样。贝 叶斯网络基于这样一种前提假设:文档是由若干个隐含主题构成,而这些主题是由文本中 若干个特定词汇构成,忽略文档中的句法结构和词语出现的先后顺序。假设文档集合可以 分成若干隐含主题,而隐含主题又由若干特定词汇构成,这些隐含主题拓扑结构是线性的, 进一步可以利用概率推断算法将每个文档表示为这些隐含主题特定比例的随机混合,且可 将隐含主题看作词的概率分布。LDA属于完全的生成概率模型,具有清晰的层次结构,依次 为文档层、主题层和词层。LDA模型应用于文档集主题建模的符号定义如下:
[0008] (1)词是文本数据的基本单元,是用{1,2,......,V}索引的词表的分项。词表中 的第V个词用一个V维的向量W表示,其中,对于任意μ辛v,wv=l,wu=〇;
[0009] (2)文档是N个词的序列,用d = (W1, w2,......,wn}表示,Wn是序列中的第η个 词;
[0010] (3)文档集是M个文档的集合,表示成D = {山,d2,......,dM}。
[0011] LDA模型由文档集合层的参数(α,β)确定,Nni表示第m篇文档中包含的词语个 数;随机变量Θ服从Dirichlet分布(Θ~Dirichlet (α)),用1*K的列向量表示每个隐 含主题的权重;Z服从Multinomial分布(Ζ~Multionomial ( Θ ));供也服从Dirichlet分 布:(识:1?/*土fei(於).),用K*V的矩阵表示给定主题时词的条件分布。
[0012] LDA概率主题模型生成文本的过程如下:
[0013] 1)对每个主题j,根据Dirichlet分布Dir(β )得到该主题上面的一个单词多项 式分布向量#
[0014] 2)根据泊松分布Possion( ζ )得到文本的单词数目N ;根据Dirichlet分布 Dir(a)得到文本的相应主题分布概率向量Θ ;
[0015] 3)对该文本N个单词中的每一个单词Wn,本步骤中,包含以下子步骤:
[0016] a)从Θ的多项式分布Multionomial ( Θ )随机选择一个主题k ;
[0017] b)从主题k的多项式条件概率分布MWortwwW(梦选择一个单词作为wn。
[0018] 假设包含D个文档的文档集中隐含K个独立的主题,则所给文本中的第i个词汇 W1出现的概率为:
[0020] 潜在变量~=j表示第i个词汇W1曲子第j个隐含主题,p(Wl|Zl= j)是^属 于主题j的概率,P (Z1= j)给出文档d属于主题j的概率。第j个主题表示为词表中V个 词的多项式分布以.'(W k =_/),文本表示成k个隐含主题上的随机混合#Mz,+ =刀。所以 文本d中词汇w发生的概率为:
[0022] 通过EM (期望最大化算法)求最大似然函数:
[0026] 构建并使用LDA模型的关键问题是隐含变量分布的推断,即获得目标文档内部隐 含主题的构成信息(Θ,z)。假若给定模型参数α,β,文档d的随机变量Θ,z和w的联合 分布:
[0028] 上式中,同时存在多个隐含变量,Blei采用变分Bayes(贝叶斯)推理,还有 采用Gibbs(吉布斯)抽样、Laplace(拉普拉斯变换)近似、期望-扩散(Expectation Propagation)等近似推理算法求得待估计参数值。
[0029] 由上可知,由于LDA模型需要通过估算多个隐含变量得到最终文档属于该主题的 概率,所以计算复杂,且通过直接推理求出结果是非常困难的。另外LDA算法虽然能将文本 赋予不同主题的权重,文本本身归属于哪种主题类型,并不是唯一的,因为文本只是属于该 种主题的权重较大,属于另外一种主题的权重较为小而已,并不代表文本属于权重较大的 主题,而不属于权重较小的主题。
[0030] 而且,基于贝叶斯网络的分类方法,假设一个属性值对给定类型的影响独立于其 它属性的值,其基本思想是计算文本属于该类型的该类,它的前提假设使得分类器
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1