一种基于特征子空间的新闻分类方法及系统的制作方法_3

文档序号:9304650阅读:来源:国知局
向类别为消极情绪类别。
[0059] 与上述本发明一种基于特征子空间的新闻分类方法实施例1相对应,本发明还提 供了一种基于特征子空间的新闻分类系统实施例1,参考图3,该系统300可以包括如下内 容:
[0060] 子分类器确定单元301,用于将已标注样本的整个特征空间划分为若干个不相交 的特征子空间,并对若干个不相交的特征子空间中各个特征子空间进行训练,得到与各个 特征子空间对应的子分类器;其中,已标注样本为已知情绪倾向类别的样本;
[0061] 标注样本集更新单元302,用于利用训练得到的子分类器对未标注样本进行分类, 得到未标注样本的情绪倾向类别,并将已知情绪倾向类别的未标注样本更新至标注样本集 中;
[0062] 分类单元303,用于利用标注样本集构建情绪倾向分类器,并利用构建的情绪倾向 分类器对待分类新闻的情绪倾向类别进行分类,得到待分类新闻的情绪倾向类别;
[0063] 其中,情绪倾向类别包括积极情绪类别和消极情绪类别。
[0064] 为了验测本发明提供的基于特征子空间的新闻分类方法在新闻分类上的有效性, 本发明使用一定量的已标注样本、未标注样本和测试样本进行训练和测试,其中特征子空 间个数设置为4,每次迭代中每个子分类器挑选出两种情绪倾向类别各2个样本。情绪倾向 类别有两种,分别为:积极、消极。实验中使用的样本是已经标注过的含有情绪倾向标签的 新闻样本,实验所用的已标注正负类样本各10篇,未标注正负类样本各800篇,用于测试的 正负类样本各200篇,整个实验过程中保持不变。
[0065]本发明采用准确率(Acc.),精确率(Pre.)、召回率(Rec.)和F值(F_s)四个评价 标准进行评价,四个评价标准计算公式如下:
[0070] 其中,A表示正确地分配到该类别的文本数;B表示不正确地分配到该类别的文本 数;C表示被该类别不正确拒绝的文本数;D表示正确地分配到其他类别的文本数。
[0071] 表1为进行分类后采用上述四种评价标准得到的测试效果,其中分类方法采用了 两种:正负各10个样本的全监督方法、基于随机特征子空间的半监督分类方法。
[0072]表 1
[0073]
[0074] 从表1所示的数据可以看出,本发明提供的基于特征子空间的新闻分类方法能够 取得不错的效果,准确率达到〇. 88左右。而且使用正负各10个样本进行全监督分类得到 的结果好,这为使用较少已标注样本进行新闻推荐提供了有效的依据,减少了大量的人力、 物力和财力。
[0075] 需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重 点说明的都是与其它实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。 对于系统类实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参 见方法实施例的部分说明即可。
[0076] 以上对本发明所提供的一种基于特征子空间的新闻分类方法及系统进行了详细 介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明 只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和 修饰也落入本发明权利要求的保护范围内。
【主权项】
1. 一种基于特征子空间的新闻分类方法,其特征在于,包括: 将已标注样本的整个特征空间划分为若干个不相交的特征子空间,并对若干个不相交 的特征子空间中各个特征子空间进行训练,得到与所述各个特征子空间对应的子分类器; 其中,所述已标注样本为已知情绪倾向类别的样本; 利用训练得到的子分类器对未标注样本进行分类,得到所述未标注样本的情绪倾向类 另IJ,并将已知情绪倾向类别的所述未标注样本更新至标注样本集中; 利用所述标注样本集构建情绪倾向分类器,并利用构建的情绪倾向分类器对待分类新 闻的情绪倾向类别进行分类,得到所述待分类新闻的情绪倾向类别; 其中,所述情绪倾向类别包括积极情绪类别和消极情绪类别。2.如权利要求1所述的方法,其特征在于,所述将已知情绪倾向类别的所述未标注样 本更新至标注样本集中,包括: 将情绪倾向类别对应的置信度最高的所述未标注样本更新至所述标注样本集中,迭代 上述更新过程直至所有所述未标注样本更新至所述标注样本集中。3. 如权利要求2所述的方法,其特征在于,将相同数量的积极情绪类别的所述未标注 样本和消极情绪类别的所述未标注样本更新至所述标注样本集中。4. 如权利要求1所述的方法,其特征在于,利用机器学习分类算法对所述若干个不相 交的特征子空间中各个特征子空间进行训练,得到与所述各个特征子空间对应的子分类 器。5. 如权利要求4所述的方法,其特征在于,所述机器学习分类算法为朴素贝叶斯分类 算法。6.如权利要求1至5任意一项所述的方法,其特征在于,所述利用构建的情绪倾向分类 器对待分类新闻的情绪倾向类别进行分类,得到所述待分类新闻的情绪倾向类别,包括: 利用构建的情绪倾向分类器对待分类新闻的情绪倾向类别进行分类,得到分类结果; 其中,所述分类结果包括与任一情绪倾向类别对应的后验概率,所述与任一情绪倾向类别 对应的后验概率表示所述待分类新闻含有该情绪倾向类别的后验概率; 判断所述积极情绪类别对应的后验概率是否大于所述消极情绪类别对应的后验概率, 如果是,则判定所述待分类新闻的情绪倾向类别为积极情绪类别,否则,判定所述待分类新 闻的情绪倾向类别为消极情绪类别。7.-种基于特征子空间的新闻分类系统,其特征在于,包括: 子分类器确定单元,用于将已标注样本的整个特征空间划分为若干个不相交的特征子 空间,并对所述若干个不相交的特征子空间中各个特征子空间进行训练,得到与所述各个 特征子空间对应的子分类器;其中,所述已标注样本为已知情绪倾向类别的样本; 标注样本集更新单元,用于利用训练得到的子分类器对未标注样本进行分类,得到所 述未标注样本的情绪倾向类别,并将已知情绪倾向类别的所述未标注样本更新至标注样本 集中; 分类单元,用于利用所述标注样本集构建情绪倾向分类器,并利用构建的情绪倾向分 类器对待分类新闻的情绪倾向类别进行分类,得到所述待分类新闻的情绪倾向类别; 其中,所述情绪倾向类别包括积极情绪类别和消极情绪类别。
【专利摘要】本发明公开了一种基于特征子空间的新闻分类方法及系统,该方法包括:将已标注样本的整个特征空间划分为若干个不相交的特征子空间,并对若干个不相交的特征子空间中各个特征子空间进行训练,得到与各个特征子空间对应的子分类器;利用训练得到的子分类器对未标注样本进行分类,得到未标注样本的情绪倾向类别,并将已知情绪倾向类别的未标注样本更新至标注样本集中;利用标注样本集构建情绪倾向分类器,并利用构建的情绪倾向分类器对待分类新闻的情绪倾向类别进行分类,得到待分类新闻的情绪倾向类别。当获知待分类新闻的情绪倾向类别后,可以将待分类新闻划分到其含有的情绪倾向类别对应的新闻中,从而提高了用户浏览新闻时的体验度。
【IPC分类】G06F17/30
【公开号】CN105022845
【申请号】CN201510530700
【发明人】李寿山, 张栋, 刘欢欢, 周国栋
【申请人】苏州大学张家港工业技术研究院
【公开日】2015年11月4日
【申请日】2015年8月26日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1