一种基于特征子空间的新闻分类方法及系统的制作方法_2

文档序号:9304650阅读:来源:国知局
以分为现实生活中比较常见的积极情绪类别和 消极情绪类别两种,当然,还可以是其它的情绪倾向,比如中立或者抵制等,本发明在此不 做严格限定。本发明以下内容以积极和消极两种情绪类别进行说明。
[0033] 为了使本技术领域的人员更好地理解本发明方案,下面结合附图和【具体实施方式】 对本发明作进一步的详细说明。
[0034] 参考图1,示出了本发明一种基于特征子空间的新闻分类方法实施例1的流程图。 本发明中,将最开始就已知情绪倾向类别的样本称为已标注样本,反之,最开始未知情绪倾 向类别的样本称为未标注样本,基于此,该方法具体可以包括如下步骤:
[0035] 步骤S100、将已标注样本的整个特征空间随机划分为若干个不相交的特征子空 间,并对若干个不相交的特征子空间中各个特征子空间进行训练,得到与各个特征子空间 对应的子分类器;
[0036] 其中,已标注样本的特征空间包括已获知情绪倾向类别的新闻文本所包含的所有 特征。
[0037] 具体地,从已获知情绪倾向类别的新闻中,将所包含的所有特征随机分成多个不 相关的特征集,特征集的维数相同。
[0038] 进一步地,利用机器学习分类算法对若干个不相交的特征子空间中各个特征子空 间进行训练,得到与各个特征子空间对应的子分类器。进一步地,机器学习分类算法为朴素 贝叶斯分类算法。朴素贝叶斯分类方法是基于贝叶斯定理和特征条件独立假设的分类方 法。基于此,以下步骤S101中利用训练得到的子分类器对未标注样本进行分类,得到未标 注样本的情绪倾向类别的具体实现内容,可参照后文针对步骤S200的叙述。
[0039] 步骤S101、利用训练得到的子分类器对未标注样本进行分类,得到未标注样本的 情绪倾向类别,并将已知情绪倾向类别的未标注样本更新至标注样本集中,实现对标注样 本集中已标注样本的自动扩充;
[0040] 具体地,在步骤S102构建最终的情绪倾向分类器之前,需要在步骤S101中使用预 先采集的少量已标注样本实现对大量未标注样本的自动标注,即使用基于已标注样本的特 征子空间训练得到的各个子分类器来对未标注样本进行分类、标注及更新。其中,采集的新 闻数量也可以预先设定,即采用预设数量的新闻,已获知情绪倾向类别的预设数量要远少 于未获知情绪倾向类别的新闻预设数量,例如已获知情绪倾向类别的新闻数量可以是10, 未获知情绪倾向类别的新闻数量可以是800。在本实施例中预设数量可以依据不同应用场 景设定不同取值,对此本实施例不加以限制。
[0041] 其中,自动标注是基于随机特征子空间的半监督分类方法实现的,用于判定大量 未标注新闻中含有某种情绪的倾向。需要说明的是,自动标注的过程是一个迭代过程,迭代 结束的条件是所有未获知情绪倾向类别的样本(即未标注样本)全部加入到标注样本集 中。需要注意的是,每次迭代时,在构建整个特征空间时,已获知情绪倾向类别的新闻,不仅 包括预设数量的已获知情绪倾向类别的新闻,还包括挑选出用于更新标注样本集的新闻。
[0042] 进一步地,本发明中,将情绪倾向类别对应的置信度最高的未标注样本更新至标 注样本集中,迭代上述更新过程直至所有未标注样本更新至标注样本集中。更进一步地,将 相同数量的积极情绪类别的未标注样本和消极情绪类别的未标注样本更新至标注样本集 中。
[0043] 步骤S102、利用标注样本集构建情绪倾向分类器,并利用构建的情绪倾向分类器 对待分类新闻的情绪倾向类别进行分类,得到待分类新闻的情绪倾向类别。
[0044] 在发明中,使用少量已标注样本对大量未标注样本进行自动标注,更新已标注样 本,实现对已标注样本的自动扩充,得到最终的标注样本集,构建情绪倾向分类器。使用构 建的情绪倾向分类器对待分类新闻进行情绪倾向判定分类,得到待分类新闻含有的情绪倾 向类别。由于情绪倾向判定是指判定待分类新闻是否含有用户看到待分类新闻时产生的情 绪倾向,判定结果表明待分类新闻含有的情绪倾向,所以使用判定结果,即可以得到待分类 新闻含有的情绪倾向类别。当获知待分类新闻含有的情绪倾向类别后,可以将待分类新闻 划分到其含有的情绪倾向类别对应的新闻中,实现了基于情绪倾向性对新闻进行分类的目 的,从而提高了用户浏览新闻时的用户体验度。
[0045] 当然,在得到待分类新闻的情绪倾向类别后,还可以依据情绪倾向类别将待分类 新闻划分至不同情绪倾向类别的数据库中。此外,用户在看新闻时,还可以将划分到数据库 中的待分类新闻推荐给用户,其中,在推荐新闻时,可以根据用户选择的情绪倾向类别进行 推荐。
[0046] 在实际应用中,用户选择的情绪倾向类别可以是用户通过点击遥控器中的"情绪 倾向"按钮时,"情绪倾向"按钮所对应的情绪倾向类别。
[0047] 参考图2,示出了本发明一种基于特征子空间的新闻分类方法实施例2的流程图, 具体地,在步骤S102中,基于朴素贝叶斯分类算法,利用标注样本集构建的情绪倾向分类 器对待分类新闻的情绪倾向类别进行分类,得到待分类新闻的情绪倾向类别,具体内容如 下:
[0048] 步骤S200、利用构建的情绪倾向分类器对待分类新闻的情绪倾向类别进行分类, 得到分类结果;
[0049] 其中,在朴素贝叶斯分类算法下,情绪倾向分类器的分类结果包括与任一情绪倾 向类别对应的后验概率,也即,对任一待分类新闻进行分类的情绪倾向分类器都会产生两 个情绪倾向类别对应的后验概率,并且与任一情绪倾向类别对应的后验概率表示待分类新 闻含有该情绪倾向类别的后验概率。比如,上述两个情绪倾向类别包括"积极"情绪倾向类 别和"消极"情绪倾向类别,"积极"情绪对应的后验概率是待分类新闻含有"积极"情绪倾 向类别的后验概率,"消极"情绪对应的后验概率则是待分类新闻含有"消极"情绪倾向类别 的后验概率。
[0050] 具体地,第i(i= 1,2)种情绪倾向类别对应的后验概率可以标记为P(Cl|D),其表 示待分类新闻中含有q情绪倾向类别的后验概率。
[0051] 其中,第i种情绪倾向类别对应的后验概率P(Cl|D)的计算公式是:
[0052]P(Ci|D) =P(Ci) [IIP(tki)];
[0053] 其中,Cl表示情绪倾向类别;P(cJ为确定的新闻文本中,情绪倾向类别Cl出现的 先验概率;P(tkl)为待确定新闻文本中,特征词集合中的特征词k出现在情绪倾向类别(^中 的概率;IIP(tkl)为各个P(tkl)的乘积。
[0054] 将待分类新闻对应的两种情绪倾向类别对应的后验概率计算出来,即可得到每一 情绪倾向类别对应的最终的后验概率,也即得到最终的分类结果。
[0055] 步骤S201、判断积极情绪类别对应的后验概率是否大于消极情绪类别对应的后验 概率,如果是,则进入步骤S202,否则,进入步骤S203;
[0056] 具体的,上述两个情绪倾向类别包括"积极"情绪倾向类别和"消极"情绪倾向类 另IJ,将"积极"情绪倾向类别确认为第一情绪倾向类别,将"消极"情绪倾向类别确认为第二 情绪倾向类别,分类结果采用Emotion[i] =P(Ci|D)表示,Emotion[i]的值为最大时,表明 待分类新闻含有第i种情绪倾向类别。
[0057] 步骤S202、判定待分类新闻的情绪倾向类别为积极情绪类别;
[0058]步骤S203、判定待分类新闻的情绪倾
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1