文本主题的分类方法及系统的制作方法_3

文档序号:9326898阅读:来源:国知局
各个主题类型文本的特征向量。
[0079] 对于激励函数f(x),f(a)、f(k)分别为增函数、减函数,主题类型越多,调整后,a 越大,f (a)的值越大,在原来的特征向量上减去的项avgn ^f(X)越大,使得新的特征向量的 方向性越明显,指向性越强。通过种类的变化,调整k的值,可以对整个特征向量进行微调, 使新的特征向量的方向性更加明显,指向性进一步增强。
[0080] 新的各主题类型文本的特征向量的方向性越明显,指向性越增强。当样本文本的 特征向量的方向性越明显时,样本文本的特征越明显;样本文本的特征越明显,越有利于确 定待分类文本的指向,即越有利于提高文本分类的准确性。
[0081] 需要说明的是,在本实施方式中,是依次利用动态对数激励函数为1、
(10)式所示的矩阵进行调整,在实际应用中,既可以单独使用动态对数 激励函数的3种形式中的任何一个对(10)式所示的矩阵进行调整,也可以采用3个形式中 的任意组合对(10)式所示的矩阵进行调整。
[0082] 步骤205,采用余弦相似度计算方法计算待分类文本与新的各主题类型文本的特 征向量的相似度。待分类文本与新的各主题类型文本的特征向量的余弦相似度通过计算待 分类文本与新的各主题类型文本的特征向量的余弦值来获取,一个待分类文本的特征向量 与一个主题类型文本的特征向量的余弦值的计算公式如下
[0084] 其中,TFIDF1J^训练集中的第η个词的逆文本频率,tfidfwn为测试集中第η个词 的逆文本频率,其中,TFIDF wn= TFwn · IDF,tfidfwn= tfwn · IDF。
[0085] 具体地说,在本步骤中,分别计算待分类文本的特征向量与新的各主题类型文本 的特征向量的余弦值,以供根据计算得到的余弦值对待分类文本进行分类。
[0086] 利用余弦相似度计算方法计算待分类文本与新的各主题类型文本的特征向量的 相似度,计算简单,计算效率高,分类速度快且计算准确。利用向量具备的方向性,对文本进 行分类,指向性更强。
[0087] 步骤206,根据待分类文本与新的各主题类型文本的特征向量的相似度,对待分类 文本进行分类。
[0088] 具体而言,本步骤中,将与余弦值最大对应的主题类型确定为待分类文本的主题 类型。由于余弦值越大,待分类文本的特征向量与主题类型文本的特征向量之间的夹角越 小,待分类文本的特征向量越趋向于主题类型文本的特征向量,所以,待分类文本的特征向 量最靠近与余弦值最大对应的主题类型文本的特征向量,即待分类文本的主题类型最接近 与余弦值最大对应的主题类型。
[0089] 以上对文本主题的分类方法进行了介绍,下面进行举例说明:假设步骤203中得 到的每个词在所有主题类别中的词频-逆文本频率矩阵为
在此代表有两类主题类 型Tl和T2,其中,Tl为
?同时假设待分类文本的特征向量test为
,:激励 函数f(x) =1。故原每个词在所有主题类别中的词频-逆文本频率矩阵变为
[0091] 从(14)式训练出新的各个主题类型文本的特征向量ΤΓ、Τ2',其中,ΤΓ为
-
>对比Tl与Τ1',Τ2与Τ2'可以发现,Tl与Τ2的指向性更强。
[0092] 不加入激励函数f (X)时,计算test分别与ΤΙ、T2的夹角余弦值如下:
[0095] 加入激励函数f(x)对T1、T2调整后,计算test分别与ΤΓ、Τ2'的夹角余弦值如 下:
[0098] 对比式(16)~(19)可以看出,加入激励函数后,(19)式的值变小,(18)式的值 变成了负值。待分类文本(test)属于T2与T2',但是,test属于T2'的隶属度更强;由于 (18)式的值变成了负值,方向变为反方向,所以test更疏远不属于的主题类型ΤΓ。这表 明利用动态对数激励函数对提取的各主题类型文本的特征向量中的特征值进行调整,可以 使各种主题类型的文本的特征属性具备更强的指向性,进而,使待分类文本能够更加准确 的分到所属主题类别中。
[0099] 在未对每种主题特征向量经过激励函数调整之前,待分类文本被分类的准确率 较低,但是经过激励函数的调整以后,待分类文本被分类的准确率有了一定的提高,在式 (15-19)中证明经过激励函数调整以后的特征向量有着更强的特征指向性,这就说明了每 种主题类型的特征向量更具有区分性,在进行更多分类,或者是将一主题进行细分类时,如 将游戏这一主题类型,细分为网游、页游、手游时,其特征属性比原先未经激励函数调整之 前的特征属性,更具有区分性,也即每种细分后的主题特征向量之间区别会被增大,所以待 到分类时,能够准确分到所属类别中,所以提高了分类精度。
[0100] 需要说明的是,本实施方式中,采用余弦相似度计算方法计算待分类文本与新的 各主题类型文本的特征向量的相似度,在实际应用时,还可以采用欧氏距离、Tanimoto系 数、对数似然相似度、曼哈顿相似度、Spearman相似度的计算方法计算待分类文本与新的各 主题类型文本的特征向量的相似度。用户可以根据实际情况进行选择,不限于本实施方式 中的余弦相似度计算方法。
[0101] 与现有技术相比,可以利用动态对数激励函数对提取的各主题类型文本的特征向 量中的特征值进行调整,由于向量本身而言是具有方向和长度的,如果特征向量中的各个 元素减去对应的每个词属于每种主题类型的平均概率与函数动态对数激励函数(f( x))的 乘积,该特征向量长度会变短,或者变为反向,如果一个词属于一个主题的隶属度很强,该 特征向量还是这个方向,如果一个词属于一个主题的隶属度弱,该特征向量就变为反方向, 这就使得该特征向量变为指向另外一个主题的向量。由上可知,利用动态对数激励函数对 提取的各主题类型文本的特征向量中的特征值进行调整,具有纠错功能,可以使各种主题 类型的文本的特征属性具备更强的指向性,进而,可以提高文本在分类过程中的准确率和 召回率,使待分类文本能够更加准确的分到所属主题类别中。而且,模型简单,计算效率高, 分类速度快;本方法可以直接利用,避免了近似处理带来的分类错误率;不存在选取函数 的难题,且还可以提高分类的精度。
[0102] 本发明的第二实施方式涉及一种文本主题的分类方法。第二实施方式在第一实 施方式的基础上作了进一步改进,主要区别之处在于:在本发明第二实施方式中,还去除语 料中的停用词,这样,不但可以减少文本分类过程中的计算量,还可以提高文本分类的准确 性。
[0103] 具体地说,本实施方式中的文本主题的分类方法,包含步骤301~307,具体如图3 所示,其中,301、302、304、305、306、307分别与第一实施方式中的步骤201~206分别相似, 在此不再赘述。下面具体介绍步骤303:
[0104] 步骤303,去除停用词。本实施方式中的停用词为文本分类领域的停用词。去除停 用词,一方面,可以减小文本分类的计算量,提高文本分类的效率;另一方面,去除停用词, 可以消除对文本分类的干扰,调高文本分类的准确性。
[0105] 为验证本实施方式中文本主题的分类方法的有效性,本发明的发明人将采用本实 施方式的文本分类方法与现有技术的文本分类方法进行了对比,对比结果如下:
[0106] 表1对比结果
[0108] 从表1可知,本实施方式中的文本主题的分类方法对文本分类的准确率得到了大 幅地提尚。
[0109] 其中,原来特征向量减去包含&^"与f(x)的项相当于就是使特征向量更具有指 向性。比如,某篇娱乐报道新闻经过分词,统计得该新闻共有1005个词,抽取该篇报道中五 个词语,及其TF-IDF值如下:
[0110] 表2词语与TF-IDF值对应表
[0111]
[0112]
[0113] 对特征向量未经激励函数调整,上述词语对应的特征向量如下:
[0114] 表3词语与对应的特征向量表
[0116] 利用余弦定理,计算该新闻与各个类别的余弦值:其中cos Θ _^为该新闻与娱乐 之间的余弦值。
[0117] cos Θ 娱乐=
[0118] (0. 157773675*0. 01829243+0. 004550031*0. 011145566+0. 124624853*0. 0090623 +0. 401784129*0. 072831007+0. 061458979*0. 010587506+ ···)/[((0. 157773675)2+(0. 0045 50031)2+(0, 124624853)
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1