一种新闻读者情绪的分类方法与系统的制作方法_2

文档序号：9453043阅读：来源：国知局

一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0035] 实施例一：
[0036] 本实施例提供了一种新闻读者情绪的分类方法，图1示出了本实施例的流程图，包括：
[0037] 步骤S101 :从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；
[0038] 获取新闻文本与评论文本，新闻文本与评论文本--对应。获取新闻文本以及评论文本的词特征信息时，由于句子中词语词之间没有明显的分词信息，所以需要对文本进行分词，可使用ICTCLAS分词工具对其进行分词。将新闻文本与评论文本的词特征信息融合时为了区别融合特征中的新闻文本特征与评论文本特征，可使用预设符号加在其中一种类型的特征后，例如在评论文本特征后加_*以区分：
[0039] 新闻文本：今天的日本地震很可能是2011年大地震的余震。…
[0040] 评论文本：我希望一切都能好，真的好难过，我依旧无法忘记去年的场景。我的岳父岳母经历了这次地震，多么痛苦啊。
[0041] 新闻文本特征：今天、的、日本、地震、很、可能、是、2011年、大、地震、的、余震……、
[0042] 评论文本特征：我、希望、一切、都、能、好、，、真、的、好、难过、，、我、依旧、无 '法........
[0043] 融合特征：今天、的、日本、地震、很、可能、是、2011年、大、地震、的、余震、。、…、我 _*、希望_*、一切_*、都_*、能_*、好_*、，_*、真_*、的_*、好_*、难过_*、，_*、我_*、依旧 _*、无法_*........
[0044] 步骤S102 :将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；
[0045] 可用语料的格式需严格按照最大熵模型要求的格式，即每类特征占一列。最大熵模型已经成为近年来自然语言处理领域最成功的机器学习方法。最大熵分类方法是基于最大熵信息理论的，其基本思想是为所有已知的因素建立模型，而把所有未知的因素排除在外。也就是说，要找到一种概率分布，满足所有已知的事实，但是让未知的因素最随机化。该方法最大的特点就是不需要满足特征与特征之间的条件独立。因此，该方法适合融合各种不一样的特征，而无需考虑它们之间的影响。
[0046] 在最大熵模型下，预测条件概率P (c|D)的公式如下：
[0047]
[0048] 其中Z(D)是归一化因子。Fki。是特征函数，定义为：
[0049]
[0050]目前，最大熵概率模型的优势主要有以下两点：
[0051] 首先，最大熵统计模型获得的是所有满足约束条件的模型中信息熵极大的模型；
[0052] 其次，最大熵统计模型可以灵活地设置约束条件，通过约束条件的多少可以调节模型对未知数据的适应度和对已知数据的拟合程度；再次，它还能自然地解决了统计模型中参数平滑的问题。
[0053] 步骤S103 :将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；
[0054] 将所述可用语料按预设规则分为训练语料与测试语料，可抽取所述可用语料的 80%作为训练语料，将所述可用语料其余的20%作为测试语料。
[0055] 步骤S104 :将已标注样本进行训练得到最大熵模型，利用所述最大熵模型对所述未标注样本进行情绪类别的分类，得到所述未标注样本对应各情绪类别的后验概率，将后验概率不确定度最大的预设数量的未标注样本进行情绪类别标注，成为新的已标注样本，并更新当前的已标注样本与未标注样本；
[0056] 将训练语料中的已标注样本训练得到最大熵模型，对未标注样本进行读者情绪分类，得到每个未标注样本所对应的积极或消极的情绪类别的后验概率，当后验概率越接近 0. 5时，认为该未标注样本的情绪分类越不确定，将不确定度最大的预设数量的未标注样本进行分别标注，如每次对最不确定的10个未标注样本标注，标注后即成为已标注样本，此时已标注样本与未标注样本已经更新。
[0057] 步骤S105 :循环上述步骤直至全部的所述未标注样本均进行过情绪类别标注。
[0058] 循环上述步骤直到所有未标注样本均进行了情绪类别的标记。每次循环上述步骤时将已标注样本进行训练得到最大熵模型之后还包括：利用所述最大熵模型对已预设的所述测试语料进行情绪类别的分类，以测试更新已标注样本后的分类效果。
[0059] 本实施例的实验效果：
[0060] 从Yahoo!Kimo新闻网站中搜集了多个领域（世界新闻、生活资讯等）的新闻语料，为了保证新闻的粗粒度情绪标签的准确性，选择显著情绪类别的投票比例在50%以上的新闻语料，同时过滤掉不含评论信息的新闻。最终，含有"积极"情绪的语料有1497篇，含有"消极"情绪的语料有1997篇。从"积极"情绪的语料和"消极"情绪的语料中各随机抽取1000篇作为实验样本。其中，80%作为训练语料，20%作为测试语料，从训练语料中选取20篇语料作为主动学习中的标注样本集，其余的780篇训练语料都作为未标注样本集。实验选用的评价标准是Acc.，即正确率。在说明基于不确定性的主动学习的效果时，做了随机的实验作为对比，随机的实验只是没有挑选策略，随机挑选未标注样本进行人工标注后加入到已标注样本集中，其余步骤与基于不确定性的主动学习方法一致，在图2中，分别将基于不确定性的主动学习方法记为UNCE，基于随机的主动学习方法记为RAND，可看出已标注样本越多时分类的正确率越高，且基于不确定的主动学习方法的准确率总体高于基于随机的主动学习方法的准确率。
[0061] 应用本实施例提供的一种新闻读者情绪的分类方法，对新闻文本和评论文本的词特性融合，利用最大熵模型对情绪类别进行分类，依次将最不确定情绪类别的样本进行标注，可以在标注语料规模较小时准确高效地对新闻读者情绪进行分类。
[0062] 实施例二：
[0063] 本实施例提供了一种新闻读者情绪的分类系统，图3示出了本实施例的结构示意图，包括：
[0064] 词特征信息融合模块101、语料格式转换模块102、语料分类模块103、样本更新模块104和标注验证模块105 ;
[0065] 所述词特征信息融合模块101用于从目标语料中获取新闻文本和评论文本，并获取所述新闻文本以及所述评论文本的词特征信息，将所述新闻文本以及所述评论文本的所述词特征信息进行融合；
[0066] 所述语料格式转换模块102用于将进行融合后的词特征信息转换为最大熵模型对应格式的可用语料；
[0067] 所述语料分类模块103用于将所述可用语料按预设规则分为训练语料与测试语料，并将所述训练语料分为已标注样本与未标注样本；
[0068] 所述样本更新模块104用于将已标注样本进行训练得到最大熵模型，利用所

完整全部详细技术资料下载

当前第2页1 2 3