融合关键词学习的支持向量机文本分类增量训练学习方法

文档序号：6369870阅读：307来源：国知局

专利名称：融合关键词学习的支持向量机文本分类增量训练学习方法
技术领域：
本发明属于智能信息处理技术，更进一步是关于文本的分类处理的技术，具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。
相对于传统一次性训练来说，增量训练技术是对其在应用中的进一步发展，正逐步受到更广泛的研究与关注，增量训练方法将传统的一次性集中训练转化为增量式、渐进式的训练学习，克服了一次性训练对内存资源占用大、没有持续训练学习能力等缺点，因而，增量训练学习方法大大扩展了分类模型的能力，提高了训练的灵活性与适应性，以及在实际应用中的学习能力。并且，相比于其它机器学习技术，支持向量机方法具有更良好的扩展性，及一般模型所不具备的优秀的增量学习的能力，这为支持向量机增量训练技术的研究应用提供了巨大的前景。1999年，Nadeem等在“Incremental Learningwith Support Vector Machines.(In Proc.of the Int.Joint Conf.on ArtificialIntelligence(IJCAI)，1999)中采用增量学习方法对两类支持向量机分类进行了研究，在每次增量时将上一次训练获得的支持向量与新增训练文档一起进行训练优化，实验获得了与非增量训练基本相近但略低的分类精度，2001年Cauwenberghs等在“Incremental and Decremental Support Vector MachineLearning，”(Adv.Neural Information Processing Systems，Cambridge MAMIT Press，Vol.13，2001)从理论上分析了进行增量训练时支持向量全局优化的方法，同年，Ralaivola在“Incremental Support Vector Machine Learning”(a Local Approach.In Proceedings of ICANN′01，Springer，2001)中探讨了一种采用径向基函数(RBF)为核函数的支持向量机进行局部增量训练的优化策略，在该研究中仅仅采用新增训练数据周围数据作为工作子集的方法来进行优化训练，避免对全部数据参数的再学习，以上研究的重点都是集中在支持向量重新优化的问题上，是基于SVM本身的增量训练特性的研究。
为达到以上发明目的，本发明采用的技术内容是一种融合关键词学习的支持向量机文本分类增量训练学习方法，包括以下步骤第一、类别关键词的学习与调整。
将增量训练学习分为分类关键词学习与支持向量优化训练两个方面。在获得用于增量训练的文档后，对它们进行文档切分、关键词提取，然后读取以前的关键词集合，进行相应的关键词学习与调整，步骤如下1)若增量训练文档中的关键词tk已存在于原关键词集合中，则将该关键词对应的所出现的训练文档数nk加1；若为新关键词，则将该关键词增加到关键词集合中，并将其相应的所出现的训练文档数置为1。
2)所有用于增量训练文档进行步骤1)的关键词调整完成后，将新增的训练文档数与原总训练文档数相加，作为新的总训练文档数N。
3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算。
第二、支持向量的权重调整关键词的学习完毕后，接下来在进行支持向量的优化调整前还需要进行原支持向量的权重调整。其原因在于经过了关键词的学习后，关键词的倒排文档频率(idf)已发生了变化，而支持向量中的关键词权重是通过tf*idf方式获得，因此，也需要进行调整，具体方法是用新的关键词idf′替换旧的关键词idfwj′=wj*idfj′idfj]]>其中，wj代表关键词tj的权重。
第三、支持向量机优化训练将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量进行合并，重新进行SVM的二次规划优化训练，以获得新的分类模型及新的支持向量集合，用于新的分类处理。
上述第一步中，根据增量训练文档及其关键词调整分类关键词及其特征，该特征包括关键词的倒排文档频率、训练文档总数，其中，相应的关键词倒排文档频率(idf)进行计算的方法可以为idfk=logNnk,]]>也可以采用其它不同形式的倒排文档频率计算方法，该计算式中，N为增加了新增量训练文档数的总训练文档数，nk为调整后的关键词tk的所出现的训练文档数。
该方法还可以通过对分类关键词进行一定形式的特征词提取后，用提取后的特征词进行学习调整及分类处理。
本发明的效果在于通过本方法，使增量训练与一次性训练在分类关键词上保持了一致性，因此也就消除了因关键词的不同或关键词特性的不一致而造成的分类精度上的差异。根据采用本方法所进行的实验也表明本发明所提出的方法在进行文本分类时，达到了与一次性训练相一致的分类精度，而优于不进行关键词学习的方法。
具体实施例方式
下面以实施例的方式并结合附图对本发明作进一步的描述如

图1所示，一种融合关键词学习的支持向量机文本分类增量训练学习方法，包括以下步骤第一、通过计算机及相关软件读入增量训练文档，并对文档进行文档切分处理。
第二、根据文档中的词频特性，提取文档的关键词。
第三、进行关键词的学习与调整，对每篇新的增量训练文档，根据新的增量文档中的关键词更新原关键词集合，步骤如下1)若增量训练文档中的关键词tk已存在于原关键词集合中，则将该关键词对应的所出现的训练文档数nk加1；若为新关键词，则将该关键词增加到关键词集合中，并将其相应的所出现的训练文档数置为1。2)所有用于增量训练文档进行步骤1)的关键词调整完成后，将新增的训练文档数与原总训练文档数相加，作为新的总训练文档数N。3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算，本实施例采取的计算形式为idfk=logNnk,]]>其中，N为增加了新增量训练文档数后的总训练文档数，nk为调整后的关键词tk的所出现的训练文档数。当然，还可以采取其他的计算形式来计算。
第四、据更新后的新的关键词集合，生成新的增量训练文档向量。
第五、支持向量权重调整，从分类模型中读取原支持向量，并根据新的关键词的倒排文档频率(idf)进行支持向量权重的更新。
第六、将增量文档向量与进行了权重更新后的支持向量进行合并，作为新的增量训练文档向量集。
第七、在多类分类处理时，需要进行多类两类的转换；第八、进行两类SVM支持向量优化训练，获得新的分类训练模型。本实施例中实验数据的来源为人民网2001年、2002年新闻分类语料，共一万多篇，分为体育、信息技术、军事、文娱、科教、环保、经济共七大类别，为实验的充分性，分别从中随机抽取2800篇和7700篇分别组成实验数据集1和数据集2；并且，数据在各个类别中均匀分布，通过随机抽取，每个集合内又分为训练集合与测试集合，同时，为了进行增量训练的需要，训练集合部分又随机分别等分成12和9部分，用于增量训练，具体划分情况见表1、表2。
表1实验数据集

表2增量实验训练数据分配

为了验证本发明所提出方法的在实际分类中的效果，分别将本文提出的有关键词学习的增量训练学习与无关键词学习的增量训练以及非增量的一次性训练进行实验比较，为表述方便，将本文提出的具有关键词学习的增量学习方法记为I-SVM-KL(Incremental SVM with Keyword Learning)方法，而无关键词学习的增量训练学习方法，即普通的增量训练方法记作I-SVM，非增量的一次性训练方法记作batch-SVM具体实验数据结果分别见表3、表4，图2、图3分别是上述实验结果的实验数据曲线，其中分类精度为各个类别精度的平均值。
表3数据集1的实验数据结果

表4数据集2的实验结果

由以上数据可以看出，本发明的效果在于1、本发明所提出的融合关键词学习与调整的增量学习方法确实进一步提高了增量训练的性能，大大优于不进行关键词学习而仅仅进行支持向量优化选择的方法。
2、本发明与以前研究者的研究结果相一致，即不进行关键词学习的增量训练学习方法，则只获得了略低的性能，并且，随着增量数据集的增加，其局限性逐渐明显。
3、从实验可以看出，在多数实验数据点，本发明所提出的方法与一次性训练获得了完全相同或基本相同的结果；并且，从二者的实验数据及性能曲线中可以明显看出，本文提出的改进的增量训练方法在分类精度上达到了与一次性训练相一致的效果，实现了一次性训练的增量式实现。
权利要求
1.一种融合关键词学习的支持向量机文本分类增量训练学习方法，其特征在于包括以下步骤第一、类别关键词的学习与调整将增量训练学习分为分类关键词学习与支持向量优化训练两个方面，在获得用于增量训练的文档后，进行文档切分、关键词提取，然后结合以前的关键词集合，进行相应的关键词学习与调整，步骤如下1)若增量训练文档中的关键词tk已存在于原关键词集合中，则将该关键词对应的所出现的训练文档数nk加1；若为新关键词，则将该关键词增加到关键词集合中，并将其相应的所出现的训练文档数置设为1；2)所有用于增量训练的文档进行步骤1)的关键词调整完成后，将新增的训练文档数与原总训练文档数相加，作为新的总训练文档数N；3)对调整后的关键词集合中相应的关键词倒排文档频率(idf)进行重新计算；第二、支持向量的权重调整关键词的学习完毕后，需要对原支持向量进行权重调整，具体方法是用新的关键词idf′替换旧的关键词idfwj′=wj*idfj′idfj]]>其中，wj代表关键词tj的权重；第三、支持向量机优化训练将新增加的增量训练文档向量与调整后的原支持向量集合中的支持向量进行合并，重新进行SVM的二次规划优化训练，以获得新的分类模型及新的支持向量集合，用于新的分类处理。
2.如权利要求1所述的一种融合关键词学习的支持向量机文本分类增量训练学习方法，其特征在于第一步中，根据增量训练文档及其关键词调整分类关键词及其特征，该特征包括关键词的倒排文档频率、训练文档总数，其中，相应的关键词倒排文档频率(idf)进行计算的方法可以为idfk=logNnk,]]>也可以采用其它不同形式的倒排文档频率计算方法，该计算式中，N为增加了新增量训练文档数的总训练文档数，nk为调整后的关键词tk的所出现的训练文档数。
3.如权利要求1、2所述的一种融合关键词学习的支持向量机文本分类增量训练学习方法，其特征在于该方法还可以通过对分类关键词进行一定形式的特征词提取后，用提取后的特征词进行学习调整及分类处理。
全文摘要
本发明属于智能信息处理技术，具体涉及一种融合关键词学习的支持向量机文本分类增量训练学习方法。现有的方法忽略了随着增量训练而应有的文档关键词的学习问题，使得增量训练效果要低于非增量的一次性训练。本发明针对关键词在训练中的重要作用，提出了同步考虑关键词“增量”学习的方法，在增量训练过程中，同时进行分类关键词的学习与调节，从而消除了增量训练相对于一次性训练的不足。本发明所提出的融合关键词学习的增量训练方法可获得与一次性训练相一致的分类精度，优于没有进行关键词学习的方法。
文档编号G06F17/16GK1460947SQ03145419
公开日2003年12月10日申请日期2003年6月13日优先权日2003年6月13日
发明者孙晋文申请人:北京大学计算机科学技术研究所, 北京北大方正技术研究院有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：孙晋文
技术所有人：北京大学计算机科学技术研究所、北京北大方正技术研究院有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。