一种新闻读者情绪的分类方法与系统的制作方法

文档序号：9453043阅读：295来源：国知局

一种新闻读者情绪的分类方法与系统的制作方法
【技术领域】
[0001] 本发明涉及信息分类领域，特别是涉及一种新闻读者情绪的分类方法与系统。
【背景技术】
[0002] Web技术的快速发展，促进互联网不断向"交互式互联网"转变，渐渐成为社会各种信息的重要载体。随着各种社交平台的兴起，网络上用户的生成内容越来越多，产生了大量的文本信息，如新闻、微博、博客等。面对如此庞大且富有情绪表达的文本信息，完全可以考虑通过探索它们的潜在价值为人们服务。为了处理和分析这些信息资源，情绪分析成为目前计算语言学领域中的一项基本的热点研究任务。此处，情绪具体是指与各种感觉、思维和行为等相关的主观心理感受和客观生理反应，例如高兴、生气、悲伤等。情绪可以分为两类：作者情绪（作者在写作文本时所表达的情绪）和读者情绪（读者看完文本后所产生的情绪）。目前情绪分析任务在语音、视频、图像中的情绪识别和情绪模拟研究已经取得了不错的成果，而针对我们日常生活中主要的交流媒介之一的文本，情绪分析尚未取得充分的研究。
[0003] 研究文本的情绪有助于分析和研究情绪产生的机制，帮助人们了解自身的情绪状态。而且由于人的态度往往与人的情绪是紧密相关的，因此可以通过研究人的情绪帮助分析人们对事或物的态度、观点和看法。
[0004] 先前的研究工作大多数都是基于全监督的学习方法，基于全监督的学习方法的前提是有足够大规模的已标注语料，然而获取大规模语料是一件费时耗力的工作，在小规模标注样本时很难提高新闻读者情绪分类性能。

【发明内容】

[0005] 有鉴于此，本发明的主要目的在于提供一种新闻读者情绪的分类方法与系统，可以在标注语料规模较小时准确高效地对新闻读者情绪进行分类。
[0006] 为实现上述目的，本发明提供了一种新闻读者情绪的分类方法，包括：
[0007] 步骤A:从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；
[0008] 步骤B:将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；
[0009] 步骤C:将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；
[0010] 步骤D:将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对所述未标注样本进行情绪类别的分类，得到所述未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；
[0011] 步骤E:循环步骤D直至全部的所述未标注样本均进行过情绪类别标注。
[0012] 优选地，从目标语料中获取新闻文本和评论文本与获取所述新闻文本以及所述评论文本的词特征信息之间还包括：使用ICTCLAS工具对所述新闻文本与所述评论文本进行分词。
[0013] 优选地，将所述新闻文本以及所述评论文本的所述词特征信息进行融合时，利用预设符号区别所述新闻文本的词特征与所述评论文本的词特征。
[0014] 优选地，后验概率不确定度为后验概率接近概率为0. 5的程度。
[0015] 优选地，步骤D中将已标注样本进行训练得到最大熵模型之后还包括：
[0016] 利用所述最大熵模型对所述测试语料进行情绪类别的分类。
[0017] 优选地，将所述可用语料按预设规则分为训练语料与测试语料包括：
[0018] 抽取所述可用语料的80%作为训练语料，将所述可用语料其余的20%作为测试语料。
[0019] 本发明还提供了一种新闻读者情绪的分类系统，包括：
[0020] 词特征信息融合模块、语料格式转换模块、语料分类模块、样本更新模块和标注验证丰旲块；
[0021] 所述词特征信息融合模块用于从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；
[0022] 所述语料格式转换模块用于将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；
[0023] 所述语料分类模块用于将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；
[0024] 所述样本更新模块用于将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对所述未标注样本进行情绪类别的分类，得到所述未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；
[0025] 所述标注验证模块用于循环执行所述样本更新模块的任务直至全部的所述未标注样本均进行过情绪类别标注。
[0026] 优选地，后验概率不确定度为后验概率接近概率为0. 5的程度。
[0027] 优选地，将所述可用语料按预设规则分为训练语料与测试语料包括：
[0028] 抽取所述可用语料的80%作为训练语料，将所述可用语料其余的20%作为测试语料。
[0029] 应用本发明提供的一种新闻读者情绪的分类方法与系统，从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对所述未标注样本进行情绪类别的分类，得到所述未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；循环上述步骤直至全部的所述未标注样本均进行过情绪类别标注。对新闻文本和评论文本的词特性融合，利用最大熵模型对情绪类别进行分类，依次将最不确定情绪类别的样本进行标注，可以在标注语料规模较小时准确高效地对新闻读者情绪进行分类。
【附图说明】
[0030] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
[0031] 图1为本发明一种新闻读者情绪的分类方法实施例一的流程图；
[0032] 图2为本发明一种新闻读者情绪的分类方法实施例一的实验效果图；
[0033] 图3为本发明一种新闻读者情绪的分类系统实施例二的结构示意图。
【具体实施方式】
[0034] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈敬;李寿山;周国栋;
技术所有人：苏州大学张家港工业技术研究院;
我是此专利的发明人

上一篇：一种情感与非情感问题的分类方法及系统的制作方法
上一篇：一种账户报告自动生成方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。