一种基于概率单词选择和监督主题模型的文本分类方法

文档序号:6511061阅读:199来源:国知局
一种基于概率单词选择和监督主题模型的文本分类方法
【专利摘要】本发明公开了一种基于概率单词选择和监督主题模型的文本分类方法。包括如下步骤:1)去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表;2)初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;3)根据训练文本的单词列表及其类别迭代更新主题比例矢量、主题单词矩阵、主题单词鉴别度矩阵和回归系数矩阵;4)对于测试文本,统计词频信息,然后利用主题比例矢量、主题单词矩阵、主题单词鉴别度矩阵和回归系数矩阵进行分类。本发明能够最大程度地减轻文本分类时繁杂的预处理过程,可以更加准确地对测试文本进行分类。本发明还能挖掘出主题中单词的鉴别度,以形象化展示文本中单词的重要性。
【专利说明】一种基于概率单词选择和监督主题模型的文本分类方法
【技术领域】
[0001]本发明涉及概率单词选择、监督主题模型,尤其涉及一种基于概率单词选择和监督主题模型的文本分类方法。
【背景技术】
[0002]互联网的出现使得人们获取信息越来越方便。然而,互联网的快速发展所产生的海量数据同样为人们对数据分析、利用带来了巨大的困难。因此,自动地组织,管理和挖掘数据变得越来越重要。因为主题模型的潜在结构的可解释性,如PLSA(ProbabilisticLatent Semantic Analysis)、LDA(Latent Dirichlet Allocation)等,它们广泛地用于挖掘文本的低维表达。主题模型假设文本中所有的单词都是从一个叫做“主题”的多项分布中产生而来,而文本则是由这些主题混合而成。
[0003]传统的LDA是基于BOW (Bag Of Words)的无监督模型,不能很好地利用文本常常伴有的监督信息,如伴随新闻文本的类别信息、伴随电影文本的评分信息等。为了克服LDA在处理伴随有监督信息的文本时的不足,人们提出了 LDA的扩展模型。例如,Blei等人将文本的监督信息看作文本单词的主题结构上的响应,并且以回归的方式将文本的监督信息和文本单词联系了起来。他们称之为监督LDA。监督LDA构造了一个分析伴随有监督信息的文本的框架模型,在分析伴随有评分信息的电影文本上取得了成功。之后,Wang等人将监督LDA扩展到了文本的分类上来。
[0004]和传统的LDA—样,监督LDA同样需要对文本进行大量的繁琐的预处理。不进行预处理或者不当的预处理,都会使得模型面对的文本数据包含冗余的数据,从而影响主题模型的性能。另一方面,忽视主题中单词相对于鉴别信息所体现出来的不一样的重要性(或可做成鉴别度)同样会对主题模型的性能造成影响。最后,直接基于单词而非主题结构的监督模型则不能利用广泛存在的单词多义性。
[0005]针对这些方法的不足,我们提出了一个基于概率单词选择和监督主题模型的文本分类方法,并将其运用在了从http://web.1st.utl.Pt/?acardoso/datasets/下载的新闻文本20neWSgroUpS上。该方法首先为主题中的单词构造了各自不同的鉴别度,这个鉴别度依赖与单词本身和其对应的主题;其次,当每篇文本的单词产生之后,该方法通过以文本单词鉴别度为参数的伯努利分布来对单词进行筛选,筛选后的单词将会以两种不同的权重中的一种参与到文本监督信息的生成;最后,通过在文本中单词新的权重上的回归产生了文本的类别。通过在训练文本上的学习过程,该方法能很好地学习到单词的鉴别度并用于分类测试文本。

【发明内容】

[0006]本发明的目的是克服现有推荐技术的不足,提供一种基于概率单词选择和监督主题模型的文本分类方法。
[0007]基于概率单词选择和监督主题模型的文本分类方法,包括如下步骤:[0008]I)去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表;
[0009]2)初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;
[0010]3)根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;
[0011]4)对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类。
[0012]所述的去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表的步骤包括:
[0013]2.1)去除训练文本中的标点符号,顺序扫描训练文本中的所有单词,每个不同的单词保留一个,最终形成一个大小为V的词汇表,顺序扫描每个训练文本的类别,每个不同的类别保留一个,最终形成一个大小为C的文本类别表;
[0014]2.2)统计训练文本的词频信息,加上训练文本所属的类别信息,得到训练文本TRAIN = {((wd, fd, yd)), d = I,…,DtJ ,其中 Dtr 表示训练文本的数目,wd = {(Wdm), m =1,-,Md,wdm e {I,…,V}}表示训练文本d的所有不同的单词,Md表示训练文本d中不同的单词的个数;fd= {(fdn.)? m = I,…,Md, Ifdm e Z+I表示训练文本d中每个不同的单词出现的频数,Z+表示正整数;yde {I,…,C}表示训练文本d所属的类别。
[0015]所述的初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的步骤包括:
[ [0020]所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的方法是:当算法没有满足终止条件时,反复迭代执行以下步骤:
[ [0027]4.2)对于所有训练文本(wd,fd,yd),d=l,…,Dfe,进行变分推理,并更新有关统计变量 Ntv, Stv, Ed 和 Qd;.[0054](5.9)更新A的每个元素:
[0056](5.10)更新训练文本d的统计期望edm:
[0058](5.11)更新训练文本d的统计方差qdm [0060]所述的步骤4.3)具体是:
[0061]6.1)由式子 V得到 β 的每个
元素;
[0062]6.2)由式子 V 得到 Ψ 的每个元素;
[0063]6.3)用 Newton-Raphson 算法最大化下式:
[0064] [0065]从而求出α,其中, 表示digamma函数;
[0066]6.4)求取η来最大化目标函数F( η):
[0067] [0069]其中,最大化F (η)采用共轭梯度下降或者梯度下降的方法。
[0070]所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵所述的定义的终止条件是:所有文本的似然概率之和的改变量小于给定参数学习似然变化阈值或者已经达到了参数学习最大迭代次数;
[0071]所述的对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类的步骤是:
[0072]8.1)对于测试文本,去除标点符号,统计词频信息,得到测试文本 [0073]8.2)对于每篇测试文本(wt,ft),t=l,…,Dte,进行变分推理,并进行类别预测;
[0074]所述的步骤8.2)具体是:对于所有测试文本的(wt,ft),t=l,…,Dte,执行下述步骤:
[0075](9.1)初始化主题比例变分参数 [0076](9.2)初始化主题分配变分参数[0077](9.3)初始化单词鉴别值变分参数μ = {(μ m),m=l,…,Mj ;
[0078](9.4)初始化已完成迭代次数Uer=O ;
[0079](9.5)对训练文本t中所有不同的单词及其词频(Wtm,ftm),m=l,…,Mt,执行下述步骤:
[0080](e)运用固定点迭代的方法学习单μ m:
[0081] [0082](f)删除旧的ΦΛ对Y的影响:
[0083] [0084](g)更新
[0085] [0087]其中,Ψ表示digamma函数;
[0088](h)更新 Y:
[0089]和现有技术相比,本发明能够最大程度地减轻文本分类时繁杂的预处理过程,可以更加准确地对测试文本进行分类。除此之外,本发明还能挖掘出主题中单词的鉴别度,以形象化展示文本中单词的重要性。
【专利附图】

【附图说明】
[0090]图1是基于概率单词选择和监督主题模型的文本分类方法流程图;
[0091]图2是从20newsgroups学习到的4个主题中单词的鉴别度与单词实际分布的熵比较图。
【具体实施方式】
[0092]基于概率单词选择和监督主题模型的文本分类方法,包括如下步骤:
[0093]I)去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表;
[0094]2)初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;
[0095]3)根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵;
[0096]4)对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类。
[0097]所述的去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表的步骤包括:
[0098]2.1)去除训练文本中的标点符号,顺序扫描训练文本中的所有单词,每个不同的单词保留一个,最终形成一个大小为V的词汇表,顺序扫描每个训练文本的类别,每个不同的类别保留一个,最终形成一个大小为C的文本类别表;[0099]2.2)统计训练文本的词频信息,加上训练文本所属的类别信息,得到训练文本TRAIN= {((wd, fd, yd)),d=l,…,DtJ ,其中 Dtr 表示训练文本的数目,Wd= {(Wdm),m=l,...,Md,WdfflG {I,…,V}}表示训练文本d的所有不同的单词,Md表示训练文本d中不同的单词的个数;fd= KfdJ,m=l,…,Md, fdm e Z+}表示训练文本d中每个不同的单词出现的频数,Z+表示正整数;yde {I,…,C}表示训练文本d所属的类别。
[0100]所述的初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的步骤包括:
[0101]3.1)初始化主题比例矢量a={(ak),k=l,…,K},其中K表示主题的个数;
[0102]3.2)初始化主题单词矩阵 β ={ ( β kv), k=l,..., K, v=l,..., V};
[0103]3.3)初始化主题单词鉴别度矩阵 ¥ = {(¥kv), k=l,..., K, v=l,..., V};
[0104]3.4)初始化回归系数矩阵 Il = Kncv), c=l,…,C,v=l,…,V}。
[0105]所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的方法是:当算法没有满足终止条件时,反复迭代执行以下步骤:
[0106]4.1)置下述统计量的所有元素的值为O:
[0107](4.1.1)主题中单词的个数矩阵 N={ (nkv), k=l,..., K, v=l,..., V};
[0108](4.1.2)主题中显著性单词的数量矩阵S=Kskv),k=l,-,K, v=l,…,V};
[0109](4.1.3)主题比例累积量 A={(ak),k=l,…,K}; [0110](4.1.4)训练文本的统计期望 E={(edm), d=l, Dtrain, m=l,…,Md};
[0111](4.1.5)训练文本的统计方差 Q=Kqdm), d=l,..., Dtr, m=l,...,Md};
[0112]4.2)对于所有训练文本(wd,fd,yd),d=l,…,Dti,进行变分推理,并更新有关统计变量 Ntv, Stv, Ed 和 Qd;
[0113]4.3)用N,S来学习β和Ψ ;用六来学习α ;用E和Q来学习η。
[0114]所述的步骤4.2)具体是:对于所有训练文本的(wd, fd, yd), d=l,..., Dta,执行下述步骤:
[0115](5.1)初始化主题比例变分参数Y = {( Y k), k = I,...,K};
[0116](5.2)初始化主题分配变分参数 Φ = {(<i)mk), m = I,...,Md, k= I,...,K};
[0117](5.3)初始化单词鉴别值变分参数μ = {( μ m), m = I,..., Md};
[0118](5.4)初始化已完成迭代次数iter = O ;
[0119](5.5)对训练文本d中所有不同的单词及其词频(wdm,fdm),m = 1,…,Md,执行下述步骤:
[0120](a)运用固定点迭代的方法学习μ m:
]ogT^V~= Σ φνι'κ logI'-^1".....— + 办,-(£l —€ο)
1 ^rn1 Wkwdm
[0121]Κ_1

^ml — ^mO

+ "m0(l — "m))
[0122] 其中,e I和e ^分别表示峰鉴别值单词的权重和谷鉴别值单词的权重,..[0171]实施例
[0172]从 http: //web, ist.utl.Pt/ ~acardoso/datasets/ 下裁的训练文本20ng-train-alΙ-terms和测试文本20ng-test-all_terms,去掉出现不超过3个单词的文本,得到Dt,=l 1285篇训练文本和Dt,=8571篇测试文本。实验中,主题个数K设置为20,其他实验参数选取如表1:
[0173]表1
[0174]
峰鉴别值单词的权重E1 参数学习似然变化阈值变分推理似然变化阈值0.9 0.0001 0.001谷鉴别值单词的权重eQ 参数学习最大迭代次数变分推理最大迭代次f_O1I_50_20_
[0175]对于训练文本,执行下列步骤:
[0176]I)去除标点符号,统计词频信息及类别信息,并形成大小为73712的单词表和大小为20的类别表;
[0177]2)初始化主题比例矢量α,主题单词矩阵β,主题单词鉴别度矩阵Ψ和回归系数矩阵Π:
[0178](2.1)对于 α,ψ 和 η,a k=0.1, Vkv=0.5, ncv=0,k=l,…,K,c=l,…,C,v=l,...,V;
[0179](2.2)对于 β,先令= ^ + 0.1 X randQ, k=l,…,K,v=l,...,ν,其中 rand函数随机产生O~I之间 的数;然后对β进行归一化处理:
_] ^kv = ,.^ k = I,..K V = I,…,V,

^vi = I Pkvf
[0181]其中示归一化前的元素值;
[0182]3)根据训练文本的单词列表及其类别迭代更新α,β,V和Il:当算法没有满足终止条件时,反复迭代执行以下步骤:
[0183](3.1)置下述统计量的所有元素的值为O:
[0184](a)主题中单词的个数矩阵 N={ (nkv), k=l,..., K, v=l,..., V};
[0185](b)主题中显著性单词的数量矩阵S={ (skv), k=l,..., K, v=l,..., V};
[0186](c)主题比例累积量 A={ (ak), k=l,...,K};
[0187](d)训练文本的统计期望 E=Kedm), d=l,…,Dtrain, m=l,...,Md};
[0188](e)训练文本的统计方差 Q=KqJ,d=l,…,Dtr,m=l,...,Md};
[0189](3.2)对于每篇训练文本(wd, fd,yd),d=l,…,Dta,进行变分推理,并更新有关统计变量Ntv, Stv, Ed和Qd,具体是执行下述步骤:
[0190](a)初始化主题分配变分参数Φ:

I
[0191]cPmk = ψ>πι = t …,Md,k = I,…,if;
[0192](b)初始化单词鉴别值变分参数μ:
[0193]μ m=0.5, m=l,..., Md ;[0194](c)初始化主题比例变分参数Y: [0196](d)初始化已完成迭代次数iter=0 ;
[0197](e)对训练文本d中所有不同的单词及其词频(wdm,fdm),m=l,…,Md,执行下述步骤:
[0198](el)运用固定点迭代的方法学习单词Wdm对应的鉴别值变分参数μπ:
hm0 = Ic=i 9mc exp(e0^CVVdm/dm),M gmc 由以下方式计算:
[0202] [0203](e2)删除旧的ΦΛ对Y的影响:
[0204]Yk=YkUdni, k=l,…,K
[0205](e3)更新(J)mk, k=l,...,K:
[0206]
[0207]其中,Ψ表示digamma函数;
[0208](e4)更新 y:
[0209]k=l,…,K
[0210](f)由训练文本d对应的Y,Φ和μ计算训练文本d的似然概率,如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数,则iter=iter+l,转到步骤(e)继续执行;
[0211 ] (g)更新N的每个元素:
ΣΜ?
?mk fdwA (y^dmf , kλ V ~ I,..、V,

m~ I
[0213]其中,δ(a,b)表示 Kronecker delta 函数,当 a=b 时,δ (a,b) =1 ;而 a # b 时,δ (a,b)=0 ;
[0214](h)更新S的每个元素:[0234]2)对于每篇测试文本(wt,ft),t=l,…,Dte,进行变分推理和类别预测:
[0235](a)初始化主题比例变分参数Y = {( Yk), k=l,...,K};
[0236](b)初始化主题分配变分参数 Φ = {( <i)mk), m=l,..., Mt, k=l,...,K};
[0237](c)初始化单词鉴别值变分参数μ = {(μ m), m=l,..., Mj ;
[0238](d)初始化已完成迭代次数iter=0 ;
[0239](e)对训练文本t中所有不同的单词及其词频(wtm, ftm), m=l,..., Mt,执行下述步骤:
[0240](el)运用固定点迭代的方法学习μ m:
[0241 ][0242](e2)删除旧的ΦΛ对Y的影响:
[0246]其中,Ψ表示digamma函数;
[0247](e4)更新 Y:
[0248]k=l,…,K
[0249](f)由测试文本t对应的Y,Φ和μ计算测试文本t的似然概率,如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数,则iter=iter+l,转到步骤(e)继续执行;
[0250](g)得到测试文本t的统计期望etm:
[0251] [0253]在得到测试文本的预测类别之后,我们将预测结果与测试文本的真实类别用Accuracy, MacroAUC, MicroAUC, MacroFl, MicroFl等5个评价标准进行比对,结果如表2所示。结果表明了本发明良好的预测能力,在总共20个类的数据上,达到了 80%的预测精确度。
[0254]表2 [0256]另外,我们也学习到了主题中单词的鉴别度。表3展示了学习到的4个主题中的前10个高鉴别度的单词。这里,高鉴别度是指鉴别度高于0.9。不难发现,虽然我们对文本数据只做过极其简单地预处理,本发明依然能很好的发现体现主题的高鉴别度的单词。例如,就“atheism”(无神论)而言,本发明挖掘除了能强烈关联这一意味的“jesus”(耶稣)“church”(教堂)“Christianity”(基督教),“hell”(地狱)等等。
[0257]表3
[0258]
I前?ο个高鉴别度的单词
【权利要求】
1.一种基于概率单词选择和监督主题模型的文本分类方法,其特征在于包括如下步骤: 1)去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表; 2)初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵; 3)根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵; 4)对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类。
2.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的去除训练文本中的标点符号,统计词频信息及类别信息,并形成单词表和类别表的步骤包括: 2.1)去除训练文本中的标点符号,顺序扫描训练文本中的所有单词,每个不同的单词保留一个,最终形成一个大小为V的词汇表,顺序扫描每个训练文本的类别,每个不同的类别保留一个,最终形成一个大小为C的文本类别表; 2.2)统计训练文本的词频信息,加上训练文本所属的类别信息,得到训练文本TRAIN= {((wd, fd, yd)),d=l,…,DtJ ,其中 Dtr 表示训练文本的数目,Wd= {(Wdm),m=l,...,Md,WdfflG {I,…,V}}表示训练文本d的所有不同的单词,Md表示训练文本d中不同的单词的个数;fd = KfdmLm=I,…,Md, Ifdm e Z+I表示训练文本d中每个不同的单词出现的频数,Z+表示正整数;yde {I,…,C}表示训练文本d所属的类别。
3.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的初始化主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的步骤包括: 3.1)初始化主题比例矢量a={(ak),k=l,…,K},其中K表示主题的个数;
3.2)初始化主题单词矩阵 β ={(β kv), k=l,..., K, v=l,..., V}; 3.3)初始化主题单词鉴别度矩阵¥= {(¥kv), k=l,..., K, v=l,...,V}; 3.4)初始化回归系数矩阵IT= Kncv),c=l,…,C,v=l,…,V}。
4. 根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵的方法是:当算法没有满足终止条件时,反复迭代执行以下步骤: 4.1)置下述统计量的所有元素的值为O:
(4.1.1)主题中单词的个数矩阵 N={ (nkv), k=l,..., K, v=l,..., V}; (4.1.2)主题中显著性单词的数量矩阵S=Kskv),k=l,-,K, v=l,…,V}; (4.1.3)主题比例累积量A=Kak),k=l,…,K}; (4.1.4)训练文本的统计期望 E=Kedm), d=l,…,Dtrain, m=l,…,MdI ; (4.1.5)训练文本的统计方差Q=Kqdm),d=l,…,Dtr, m=l,…,MdI ; 4.2)对于所有训练文本(wd,fd,yd),d=l,…,Dy进行变分推理,并更新有关统计变量Ntv, Stv, Ed 和 Qd; 4.3)用N,S来学习β和Ψ ;用A来学习α ;用E和Q来学习η。
5.根据权利要求4所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的步骤4.2)具体是:对于所有训练文本的(wd,fd,yd),d=l,…,Dta,执行下述步骤: (5.1)初始化主题比例变分参数Y = {Uk),k=l,…,K};
(5.2)初始化主题分配变分参数 <i) = {(<i)mk), m=l,..., Md, k=l,...,K}; (5.3)初始化单词鉴别值变分参数y={(ym),m=l,..., Md}; (5.4)初始化已完成迭代次数iter=0 ; (5.5)对训练文本d中所有不同的单词及其词频(Wdn^fdffl),m=l,…,Md,执行下述步骤: (a)运用固定点迭代的方法学习μπ: 其中,^ ι和e。分别表示峰鉴别值单词的权重和谷鉴别值单词的权重,"77tl ~ ^jc=I &?nc:9 "mG — Lc=I exp(fo"t7Vi/rfm/cim),而 Snc由以下方式计算: (b)删除旧的ΦΛ对Y的影响:
Yk=YiTcKkfd^k=I,...,K
(C)更新(J)mk: 其中,ψ表示diga_a函数; (d)更新Y:
Yk=Yk+cKkfdm, k=l,...,K (5.6)由训练文本d对应的 ,φ和μ计算训练文本d的似然概率,如果单文本似然概率的改变量大于给定变分推理似然变化阈值且已完成迭代次数iter小于变分推理最大迭代次数,则iter = iter+1,转到步骤(5.5)继续执行; (5.7)更新N的每个元素:
其中,δ (a, b)表不 Kronecker delta 函数,当 a = b 时,δ (a, b) = I ;而 a 古 b 时,δ (a, b) = O ; (5.8)更新S的每个元素:
6.根据权利要求4所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的步骤4.3)具体是: 6.1)由式子/V1 — ^kv/ Σζ>=ι ^kv' > ^ L..Kv= I,…,V 得到 β 的每个元素; 6.2)由式子 Vkv = skv/nkv, k = I,..., K, ν = I,…,V 得到 Ψ 的每个元素; 6.3)用Newton-Raphson算法最大化下式:
7.根据权利要求4所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的根据训练文本的单词列表及其类别迭代更新主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵所述的定义的终止条件是:所有文本的似然概率之和的改变量小于给定参数学习似然变化阈值或者已经达到了参数学习最大迭代次数。
8.根据权利要求1所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的对于测试文本,统计词频信息,然后利用主题比例矢量,主题单词矩阵,主题单词鉴别度矩阵和回归系数矩阵进行分类的步骤是: ` 8.1)对于测试文本,去除标点符号,统计词频信息,得到测试文本TEST = {((wt,ft)),t=1,…,DteJ ,其中Dte表示测试文本的数目,wt = {(wtm),m = I,…,Mt,wtm e {1,…,V}}表示测试文本t的所有不同的单词,Mt表示训练文本t中不同的单词的个数;ft = Kftm),m = I,..., Mt, ftm e Z+}表示训练文本t中每个不同的单词出现的频数; `8.2)对于每篇测试文本(wt,ft),t = 1,…,Dte,进行变分推理,并进行类别预测。
9.根据权利要求8所述的基于概率单词选择和监督主题模型的文本分类方法,其特征在于所述的步骤8.2)具体是:对于所有测试文本的(wt,ft),t = 1,…,Dte,执行下述步骤: (9.1)初始化主题比例变分参数Y = {(Yk),k= I,..., K};(9.2)初始化主题分配变分参数 Φ = {(<i)mk), m = I,..., Mt, k = I,...,K}; (9.3)初始化单词鉴别值变分参数μ = {( μ m), m = I,..., Mj ; (9.4)初始化已完成迭代次数iter = O ; (9.5)对训练文本t中所有不同的单词及其词频(wtm,ftm),m = 1,…,Mt,执行下述步骤: (e)运用固定点迭代的方法学习单μπ:
【文档编号】G06F17/30GK103473309SQ201310410657
【公开日】2013年12月25日 申请日期:2013年9月10日 优先权日:2013年9月10日
【发明者】庄越挺, 吴飞, 高海东 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1