一种文本情绪复杂度的确定方法及装置制造方法

文档序号:6631392阅读:233来源:国知局
一种文本情绪复杂度的确定方法及装置制造方法
【专利摘要】本申请提供的文本情绪复杂度的确定方法及装置,利用预先构建的分类器对待分类文本进行分类,获得分类结果,并确定分类结果中的最大概率值,将该最大概率值对应的情绪复杂度确定为待分类文本的情绪复杂度,从而利用分类器实现了对文本情绪复杂度的确定。确定出情绪复杂度的文本可以被保存至对应数据库,进而文本推荐系统可以读取该数据库中的文本在相应版块进行推荐,满足用户不同的阅读需求。
【专利说明】一种文本情绪复杂度的确定方法及装置

【技术领域】
[0001] 本发明涉及自然语言处理【技术领域】,尤其是一种文本情绪复杂度的确定方法及装 置。

【背景技术】
[0002] 当今,互联网已经成为信息的重要载体,尤其是近些年,互联网中出现了大量的网 络文本,由于信息的海量,网络文本的推荐系统应用而生,目的是挑选出一些网络文本,将 其推荐给用户。例如,推荐的文本内容可以是新闻、博客等。其中,一种推荐系统根据的是 网络文本的主题,例如,按照经济、体育和娱乐等,确定待推荐的网络文本属于哪一主题,进 而将该网络文本推荐到相应的主题版块。
[0003] 然而,该种方式仅仅考虑新闻的所属领域,并未考虑网络文本对用户情绪的影响 程度,该影响程度可以认为是文本的情绪复杂度。具体地,不同用户对同一文本内容可能产 生不同的情绪,例如喜怒哀乐等,若多个用户对同一文本产生的情绪较为单一,则认为该文 本的情绪复杂度为低,相反,若用户对同一文本内容产生的情绪存在多种,则认为该文本的 情绪复杂度为中或者1?等。
[0004] 因此,可以开发一种文本推荐系统,根据文本情绪复杂度进行推荐,即在不同版块 中推荐情绪复杂度不同的文本,基于此,需要首先判定出文本的情绪复杂度。


【发明内容】

[0005] 有鉴于此,本发明提供了一种文本的情绪复杂度确定方法及装置,用以实现对文 本情绪复杂度的判定。为实现所述发明目的,本发明提供的技术方案如下:
[0006] -种文本情绪复杂度的确定方法,包括:
[0007] 利用预先构建的分类器对待分类文本进行分类,获得所述待分类文本的分类结 果;其中,所述分类结果包含预设数量的概率值,且每一概率值与一情绪复杂度对应;
[0008] 确定所述预设数量概率值中的最大概率值;
[0009] 将所述最大概率值对应的情绪复杂度确定为所述待分类文本的情绪复杂度。
[0010] 优选地,所述分类结果包含三个概率值,分别为第一概率值、第二概率值及第三概 率值;其中,第一概率值与高情绪复杂度对应,第二概率值与中情绪复杂度对应,第三概率 值与低情绪复杂度对应。
[0011] 优选地,所述分类器的构建方法包括:
[0012] 将获取的待训练文本集合划分为所述预设数量种类的样本子集,并将所述样本子 集组合为训练集;其中,所述待训练文本集合中包含多个待训练文本;
[0013] 在所述待训练文本集合中,提取特征词;
[0014] 利用所述训练集对所述特征词进行训练,生成分类器。
[0015] 优选地,每个所述待训练文本均具有多个情绪标签,且每个情绪标签具有各自对 应的投票数;
[0016] 其中,所述将获取的待训练文本集合划分为所述预设数量种类的样本子集,并将 所述样本子集组合为训练集,包括:
[0017] 根据每个所述待训练文本各自情绪标签的投票数,确定各自的情绪复杂值;
[0018] 根据每个所述待训练文本情绪复杂值,将所述待训练文本集合划分为所述预设数 量种类的样本子集,并将所述样本子集组合为训练集。
[0019] 优选地,所述根据每个所述待训练文本各自情绪标签的投票数,确定各自的情绪 复杂值,包括:
[0020] 针对每个所述待训练文本,计算各自每个情绪标签的投票数占各自待训练文本投 票总数的比值;
[0021] 利用复杂度计算公式,分别计算每个所述待训练文本各自的情绪复杂度值;其中, 所述复杂度计算公式为:
[0022]

【权利要求】
1. 一种文本情绪复杂度的确定方法,其特征在于,包括: 利用预先构建的分类器对待分类文本进行分类,获得所述待分类文本的分类结果;其 中,所述分类结果包含预设数量的概率值,且每一概率值与一情绪复杂度对应; 确定所述预设数量概率值中的最大概率值; 将所述最大概率值对应的情绪复杂度确定为所述待分类文本的情绪复杂度。
2. 根据权利要求1所述的文本情绪复杂度的确定方法,其特征在于,所述分类结果包 含三个概率值,分别为第一概率值、第二概率值及第三概率值;其中,第一概率值与高情绪 复杂度对应,第二概率值与中情绪复杂度对应,第三概率值与低情绪复杂度对应。
3. 根据权利要求1所述的文本情绪复杂度的确定方法,其特征在于,所述分类器的构 建方法包括: 将获取的待训练文本集合划分为所述预设数量种类的样本子集,并将所述样本子集组 合为训练集;其中,所述待训练文本集合中包含多个待训练文本; 在所述待训练文本集合中,提取特征词; 利用所述训练集对所述特征词进行训练,生成分类器。
4. 根据权利要求3所述的文本情绪复杂度的确定方法,其特征在于,每个所述待训练 文本均具有多个情绪标签,且每个情绪标签具有各自对应的投票数; 其中,所述将获取的待训练文本集合划分为所述预设数量种类的样本子集,并将所述 样本子集组合为训练集,包括: 根据每个所述待训练文本各自情绪标签的投票数,确定各自的情绪复杂值; 根据每个所述待训练文本情绪复杂值,将所述待训练文本集合划分为所述预设数量种 类的样本子集,并将所述样本子集组合为训练集。
5. 根据权利要求4所述的文本情绪复杂度的确定方法,其特征在于,所述根据每个所 述待训练文本各自情绪标签的投票数,确定各自的情绪复杂值,包括: 针对每个所述待训练文本,计算各自每个情绪标签的投票数占各自待训练文本投票总 数的比值; 利用复杂度计算公式,分别计算每个所述待训练文本各自的情绪复杂度值;其中,所述 复杂度计算公式为:
其中,P(ei)为情绪标签的投票数占各自待训练文本投票总数的比值;n为各自待训练 文本的情绪标签总个数。
6. 根据权利要求1所述的文本情绪复杂度的确定方法,其特征在于,所述分类器为最 大熵分类器。
7. -种文本情绪复杂度的确定装置,其特征在于,包括: 分类器分类模块,用于利用预先构建的分类器对待分类文本进行分类,获得所述待分 类文本的分类结果;其中,所述分类结果包含预设数量的概率值,且每一概率值与一情绪复 杂度对应; 最大概率值确定模块,用于确定所述预设数量概率值中的最大概率值; 情绪复杂度确定模块,用于将所述最大概率值对应的情绪复杂度确定为所述待分类文 本的情绪复杂度。
8. 根据权利要求7所述的文本情绪复杂度确定装置,其特征在于,所述分类器分类模 块利用的分类器的构建模块包括: 训练集生成子模块,用于将获取的待训练文本集合划分为所述预设数量种类的样本子 集,并将所述样本子集组合为训练集;其中,所述待训练文本集合中包含多个待训练文本; 特征词提取子模块,用于在所述待训练文本集合中,提取特征词; 分类器生成子模块,用于利用所述训练集对所述特征词进行训练,生成分类器。
9. 根据权利要求8所述的文本情绪复杂度的确定装置,其特征在于,训练集生成子模 块使用的每个所述待训练文本均具有多个情绪标签,且每个情绪标签具有各自对应的投票 数;其中,所述训练集生成子模块包括: 情绪复杂值确定单元,用于根据每个所述待训练文本各自情绪标签的投票数,确定各 自的情绪复杂值; 训练集组合单元,用于根据每个所述待训练文本情绪复杂值,将所述待训练文本集合 划分为所述预设数量种类的样本子集,并将所述样本子集组合为训练集。
10. 根据权利要求9所述的文本情绪复杂度的确定装置,其特征在于,所述情绪复杂值 确定单元包括: 比值计算子单元,用于针对每个所述待训练文本,计算各自每个情绪标签的投票数占 各自待训练文本投票总数的比值; 复杂度计算子单元,用于利用复杂度计算公式,分别计算每个所述待训练文本各自的 情绪复杂度值;其中,所述复杂度计算公式为:
其中,P(ei)为情绪标签的投票数占各自待训练文本投票总数的比值;n为各自待训练 文本的情绪标签总个数。
【文档编号】G06F17/28GK104346327SQ201410572252
【公开日】2015年2月11日 申请日期:2014年10月23日 优先权日:2014年10月23日
【发明者】李寿山, 刘欢欢, 周国栋, 李军辉 申请人:苏州大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1