一种新闻读者情绪的分类方法与系统的制作方法

文档序号:9453043阅读:295来源:国知局
一种新闻读者情绪的分类方法与系统的制作方法
【技术领域】
[0001] 本发明涉及信息分类领域,特别是涉及一种新闻读者情绪的分类方法与系统。
【背景技术】
[0002] Web技术的快速发展,促进互联网不断向"交互式互联网"转变,渐渐成为社会各 种信息的重要载体。随着各种社交平台的兴起,网络上用户的生成内容越来越多,产生了大 量的文本信息,如新闻、微博、博客等。面对如此庞大且富有情绪表达的文本信息,完全可以 考虑通过探索它们的潜在价值为人们服务。为了处理和分析这些信息资源,情绪分析成为 目前计算语言学领域中的一项基本的热点研究任务。此处,情绪具体是指与各种感觉、思维 和行为等相关的主观心理感受和客观生理反应,例如高兴、生气、悲伤等。情绪可以分为两 类:作者情绪(作者在写作文本时所表达的情绪)和读者情绪(读者看完文本后所产生的 情绪)。目前情绪分析任务在语音、视频、图像中的情绪识别和情绪模拟研究已经取得了不 错的成果,而针对我们日常生活中主要的交流媒介之一的文本,情绪分析尚未取得充分的 研究。
[0003] 研究文本的情绪有助于分析和研究情绪产生的机制,帮助人们了解自身的情绪状 态。而且由于人的态度往往与人的情绪是紧密相关的,因此可以通过研究人的情绪帮助分 析人们对事或物的态度、观点和看法。
[0004] 先前的研究工作大多数都是基于全监督的学习方法,基于全监督的学习方法的前 提是有足够大规模的已标注语料,然而获取大规模语料是一件费时耗力的工作,在小规模 标注样本时很难提高新闻读者情绪分类性能。

【发明内容】

[0005] 有鉴于此,本发明的主要目的在于提供一种新闻读者情绪的分类方法与系统,可 以在标注语料规模较小时准确高效地对新闻读者情绪进行分类。
[0006] 为实现上述目的,本发明提供了一种新闻读者情绪的分类方法,包括:
[0007] 步骤A:从目标语料中获取新闻文本和评论文本,并获取所述新闻文本以及所述 评论文本的词特征信息,将所述新闻文本以及所述评论文本的所述词特征信息进行融合;
[0008] 步骤B:将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料;
[0009] 步骤C:将所述可用语料按预设规则分为训练语料与测试语料,并将所述训练语 料分为已标注样本与未标注样本;
[0010] 步骤D:将已标注样本进行训练得到最大熵模型,利用所述最大熵模型对所述未 标注样本进行情绪类别的分类,得到所述未标注样本对应各情绪类别的后验概率,将后验 概率不确定度最大的预设数量的未标注样本进行情绪类别标注,成为新的已标注样本,并 更新当前的已标注样本与未标注样本;
[0011] 步骤E:循环步骤D直至全部的所述未标注样本均进行过情绪类别标注。
[0012] 优选地,从目标语料中获取新闻文本和评论文本与获取所述新闻文本以及所述评 论文本的词特征信息之间还包括:使用ICTCLAS工具对所述新闻文本与所述评论文本进行 分词。
[0013] 优选地,将所述新闻文本以及所述评论文本的所述词特征信息进行融合时,利用 预设符号区别所述新闻文本的词特征与所述评论文本的词特征。
[0014] 优选地,后验概率不确定度为后验概率接近概率为0. 5的程度。
[0015] 优选地,步骤D中将已标注样本进行训练得到最大熵模型之后还包括:
[0016] 利用所述最大熵模型对所述测试语料进行情绪类别的分类。
[0017] 优选地,将所述可用语料按预设规则分为训练语料与测试语料包括:
[0018] 抽取所述可用语料的80%作为训练语料,将所述可用语料其余的20%作为测试 语料。
[0019] 本发明还提供了一种新闻读者情绪的分类系统,包括:
[0020] 词特征信息融合模块、语料格式转换模块、语料分类模块、样本更新模块和标注验 证丰旲块;
[0021] 所述词特征信息融合模块用于从目标语料中获取新闻文本和评论文本,并获取所 述新闻文本以及所述评论文本的词特征信息,将所述新闻文本以及所述评论文本的所述词 特征信息进行融合;
[0022] 所述语料格式转换模块用于将进行融合后的词特征信息转换为最大熵模型对应 格式的可用语料;
[0023] 所述语料分类模块用于将所述可用语料按预设规则分为训练语料与测试语料,并 将所述训练语料分为已标注样本与未标注样本;
[0024] 所述样本更新模块用于将已标注样本进行训练得到最大熵模型,利用所述最大熵 模型对所述未标注样本进行情绪类别的分类,得到所述未标注样本对应各情绪类别的后验 概率,将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注,成为新的已 标注样本,并更新当前的已标注样本与未标注样本;
[0025] 所述标注验证模块用于循环执行所述样本更新模块的任务直至全部的所述未标 注样本均进行过情绪类别标注。
[0026] 优选地,后验概率不确定度为后验概率接近概率为0. 5的程度。
[0027] 优选地,将所述可用语料按预设规则分为训练语料与测试语料包括:
[0028] 抽取所述可用语料的80%作为训练语料,将所述可用语料其余的20%作为测试 语料。
[0029] 应用本发明提供的一种新闻读者情绪的分类方法与系统,从目标语料中获取新闻 文本和评论文本,并获取所述新闻文本以及所述评论文本的词特征信息,将所述新闻文本 以及所述评论文本的所述词特征信息进行融合;将进行融合后的词特征信息转换为最大熵 模型对应格式的可用语料;将所述可用语料按预设规则分为训练语料与测试语料,并将所 述训练语料分为已标注样本与未标注样本;将已标注样本进行训练得到最大熵模型,利用 所述最大熵模型对所述未标注样本进行情绪类别的分类,得到所述未标注样本对应各情绪 类别的后验概率,将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注, 成为新的已标注样本,并更新当前的已标注样本与未标注样本;循环上述步骤直至全部的 所述未标注样本均进行过情绪类别标注。对新闻文本和评论文本的词特性融合,利用最大 熵模型对情绪类别进行分类,依次将最不确定情绪类别的样本进行标注,可以在标注语料 规模较小时准确高效地对新闻读者情绪进行分类。
【附图说明】
[0030] 为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本 发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据 提供的附图获得其他的附图。
[0031] 图1为本发明一种新闻读者情绪的分类方法实施例一的流程图;
[0032] 图2为本发明一种新闻读者情绪的分类方法实施例一的实验效果图;
[0033] 图3为本发明一种新闻读者情绪的分类系统实施例二的结构示意图。
【具体实施方式】
[0034] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1