一种基于特征子空间的新闻分类方法及系统的制作方法

文档序号:9304650阅读:359来源:国知局
一种基于特征子空间的新闻分类方法及系统的制作方法
【技术领域】
[0001] 本发明涉及自然语言处理及模式识别技术领域,特别是涉及一种基于特征子空间 的新闻分类方法和系统。
【背景技术】
[0002] 当今,用户可以通过网络对新闻中的人物、事件和现象等表达自己的观点和态度。 在用户的活动中,用户对事物的态度往往与用户的情绪倾向是紧密联系的,也就是说可以 从用户的情绪倾向观察到用户对事物的观点倾向。其中,情绪倾向是指用户内在的心理反 应与感受的倾向性,即积极情绪倾向或消极情绪倾向。
[0003] 现有技术中,对于新闻的分类,通常是利用主题分类技术对新闻进行分类、管理和 检索的,例如基于新闻的主题(如体育、经济、娱乐、政治等)对新闻进行分类、管理和检索。 然而,在实际生活中,针对不同主题的新闻,用户产生的情绪倾向也会不同,而现有技术中 并不存在基于情绪倾向性对新闻进行分类的技术方案,因此,不能满足用户按自己的情绪 倾向来查找新闻的需求,从而降低了用户浏览新闻时的体验度。
[0004] 综上所述可以看出,如何实现对新闻进行情绪倾向性分类,从而改善用户浏览新 闻时的用户体验是目前亟待解决的问题。其中,对新闻进行情绪倾向性分类是指:按用户看 至IJ新闻时的情绪倾向将新闻标记为某种情绪倾向类别的新闻。

【发明内容】

[0005] 有鉴于此,本发明提供了一种基于特征子空间的新闻分类方法和系统,以实现对 新闻进行情绪倾向性分类,从而提高用户浏览新闻时的体验度的目的。
[0006] 为解决上述技术问题,本发明提供一种基于特征子空间的新闻分类方法,包括:
[0007] 将已标注样本的整个特征空间划分为若干个不相交的特征子空间,并对若干个不 相交的特征子空间中各个特征子空间进行训练,得到与所述各个特征子空间对应的子分类 器;其中,所述已标注样本为已知情绪倾向类别的样本;
[0008] 利用训练得到的子分类器对未标注样本进行分类,得到所述未标注样本的情绪倾 向类别,并将已知情绪倾向类别的所述未标注样本更新至标注样本集中;
[0009] 利用所述标注样本集构建情绪倾向分类器,并利用构建的情绪倾向分类器对待分 类新闻的情绪倾向类别进行分类,得到所述待分类新闻的情绪倾向类别;
[0010] 其中,所述情绪倾向类别包括积极情绪类别和消极情绪类别。
[0011] 优选的,所述将已知情绪倾向类别的所述未标注样本更新至标注样本集中,包 括:
[0012] 将情绪倾向类别对应的置信度最高的所述未标注样本更新至所述标注样本集中, 迭代上述更新过程直至所有所述未标注样本更新至所述标注样本集中。
[0013] 优选的,将相同数量的积极情绪类别的所述未标注样本和消极情绪类别的所述未 标注样本更新至所述标注样本集中。
[0014]优选的,利用机器学习分类算法对所述若干个不相交的特征子空间中各个特征子 空间进行训练,得到与所述各个特征子空间对应的子分类器。
[0015]优选的,所述机器学习分类算法为朴素贝叶斯分类算法。
[0016]优选的,所述利用构建的情绪倾向分类器对待分类新闻的情绪倾向类别进行分 类,得到所述待分类新闻的情绪倾向类别,包括:
[0017]利用构建的情绪倾向分类器对待分类新闻的情绪倾向类别进行分类,得到分类结 果;其中,所述分类结果包括与任一情绪倾向类别对应的后验概率,所述与任一情绪倾向类 别对应的后验概率表示所述待分类新闻含有该情绪倾向类别的后验概率;
[0018]判断所述积极情绪类别对应的后验概率是否大于所述消极情绪类别对应的后验 概率,如果是,则判定所述待分类新闻的情绪倾向类别为积极情绪类别,否则,判定所述待 分类新闻的情绪倾向类别为消极情绪类别。
[0019]本发明还提供了一种基于特征子空间的新闻分类系统,包括:
[0020] 子分类器确定单元,用于将已标注样本的整个特征空间划分为若干个不相交的特 征子空间,并对所述若干个不相交的特征子空间中各个特征子空间进行训练,得到与所述 各个特征子空间对应的子分类器;其中,所述已标注样本为已知情绪倾向类别的样本;
[0021] 标注样本集更新单元,用于利用训练得到的子分类器对未标注样本进行分类,得 到所述未标注样本的情绪倾向类别,并将已知情绪倾向类别的所述未标注样本更新至标注 样本集中;
[0022] 分类单元,用于利用所述标注样本集构建情绪倾向分类器,并利用构建的情绪倾 向分类器对待分类新闻的情绪倾向类别进行分类,得到所述待分类新闻的情绪倾向类别;
[0023]其中,所述情绪倾向类别包括积极情绪类别和消极情绪类别。
[0024]以上本发明提供的一种基于特征子空间的新闻分类方法及系统中,新闻的情绪倾 向类别包括积极和消极两种,最开始就已知情绪倾向类别的样本称为已标注样本,反之,最 开始未知情绪倾向类别的样本称为未标注样本,基于此,首先,将已标注样本的整个特征空 间划分为若干个不相交的特征子空间,并对这些特征子空间中各个特征子空间进行训练, 得到对应的子分类器;然后,利用训练得到的子分类器对未标注样本进行分类,并将已知情 绪倾向类别的未标注样本更新至标注样本集中;最后,利用最终更新好的标注样本集构建 情绪倾向分类器,并利用构建的情绪倾向分类器对待分类新闻的情绪倾向类别进行分类, 得到待分类新闻的情绪倾向类别。当获知待分类新闻的情绪倾向类别后,可以将待分类新 闻划分到其含有的情绪倾向类别对应的新闻中,从而提高了用户浏览新闻时的体验度。
【附图说明】
[0025]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。
[0026] 图1为本发明一种基于特征子空间的新闻分类方法实施例1的流程图;
[0027]图2为本发明一种基于特征子空间的新闻分类方法实施例2的流程图;
[0028]图3为本发明一种基于特征子空间的新闻分类系统实施例1的结构框图示意图。
【具体实施方式】
[0029] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
[0030] 本发明的核心是提供一种基于特征子空间的新闻分类方法和系统,以实现对新闻 进行情绪倾向性分类,从而提高用户浏览新闻时的体验度的目的。
[0031] 在发明中,新闻的情绪倾向类别可以是每个用户看到同一篇新闻时产生的情绪倾 向,当然,也可以统计看到同一篇新闻时产生某一相同情绪倾向的用户数量占看到该新闻 的所有用户数量的比例,当该比例较大时,认为该新闻含有相应的情绪倾向类别,否则,认 为含其它相应的情绪倾向类别。所有用户数量可以设定为一定数量,例如可以是1〇〇〇人, 而无需设定为某个市或者某个省的全部人口数量,否则会提高计算时间,降低效率。
[0032] 本发明中,新闻的情绪倾向类别可
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1