一种文本情绪极性的识别方法及装置的制造方法

文档序号：8223475阅读：254来源：国知局

一种文本情绪极性的识别方法及装置的制造方法
【技术领域】
[0001] 本申请涉及自然语言分析技术领域，尤其是一种文本情绪极性的识别方法及装置。
【背景技术】
[0002] 随着互联网的快速发展，网络中出现了大量对于人物、事件、产品等内容进行的评论，一些数据监测系统需要收集评论信息，并需要对评论信息进行情绪极性的分析，从而了解评论者对于被评论对象的观点或态度。
[0003] 其中，情绪极性指的是评论者通过文本表达出的情绪类型，如褒义情绪（正极性情绪）或贬义情绪（正极性情绪）。例如，评论内容为"听到昨晚发生的上海外滩踩踏事件，我感到非常悲痛"，该评论文本的情绪极性为贬义情绪。又如，评论内容为"我非常期待这次产品发布会，因为在会上将发布运用了最新定位技术的导航仪"，该评论文本的情绪极性为褒义情绪。
[0004] 为了实现数据监测系统对网络文本的监测，需要对网络文本的情绪极性进行识别。

【发明内容】

[0005] 有鉴于此，本申请提供了一种文本情绪识别方法及装置，用以实现对文本表达情绪极性的识别。为实现所述目的，本发明提供的技术方案如下：
[0006] -种文本情绪极性的识别方法，包括：
[0007] 获取多条待识别文本；
[0008] 利用预先构建的分类器，分别确定每条所述待识别文本各自的多个极性概率值；
[0009] 将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文本各自的情绪极性。
[0010] 可选地，上述的文本情绪极性的识别方法中，所述分类器的构建方法包括：
[0011] 获取已标注的第一语言类型的语料，并将所述第一语言类型的语料翻译为第二语言类型的语料；其中，所述已标注的第一语言类型的语料具有情绪极性标签；
[0012] 当存在已确定出情绪极性的文本时，将所述第二语言类型的语料及所述文本确定为训练集；
[0013] 当不存在已确定出情绪极性的文本时，将所述第二语言类型的语料确定为训练集；
[0014] 利用预设训练算法，对所述训练集进行训练，获得分类器。
[0015] 可选地，上述的文本情绪极性的识别方法中，所述第一语言类型的语料为英文语料，所述第二语言类型的语料为中文语料。
[0016] 可选地，上述的文本情绪极性的识别方法中，所述利用预先构建的分类器，分别确定每条所述待识别文本各自的多个极性概率值包括：
[0017] 利用预先构建的最大熵分类器，分别确定每条所述待识别文本各自的多个极性概率值。
[0018] 本申请还提供了一种文本情绪极性的识别装置，包括：
[0019] 待识别文本获取单元，用于获取多条待识别文本；
[0020] 分类器分类单元，用于利用预先构建的分类器，分别确定每条所述待识别文本各自的多个极性概率值；
[0021] 情绪极性确定单元，用于将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文本各自的情绪极性。
[0022] 可选地，上述的文本情绪极性的识别装置中，包括分类器构建单元，用于构建分类器；其中，所述分类器构建单元包括：
[0023] 第二语料获取子单元，用于获取已标注的第一语言类型的语料，并将所述第一语言类型的语料翻译为第二语言类型的语料；其中，所述已标注的第一语言类型的语料具有情绪极性标签；
[0024] 第一训练集确定子单元，用于当存在已确定出情绪极性的文本时，将所述第二语言类型的语料及所述文本确定为训练集；
[0025] 第二训练集确定子单元，用于当不存在已确定出情绪极性的文本时，将所述第二语言类型的语料确定为训练集；
[0026] 分类器构建子单元，用于利用预设训练算法，对所述训练集进行训练，获得分类器。
[0027] 可选地，上述的文本情绪极性的识别装置中，所述第二语料获取子单元获取到的第一语言类型的语料为英文语料，所述第二语料获取子单元翻译为的第二语言类型的语料为中文语料。
[0028] 可选地，上述的文本情绪极性的识别装置中，所述分类器分类单元包括：
[0029] 最大熵分类器分类子单元，用于利用预先构建的最大熵分类器，分别确定每条所述待识别文本各自的多个极性概率值。
[0030] 与现有技术相比，本发明具有以下有益效果：
[0031] 由以上可知，本发明提供的文本情绪极性的识别方法，利用预先构建的分类器，可以确定出待识别文本在不同情绪极性类别中的极性概率值，将最大极性概率值对应的情绪极性确定为待识别文本的情绪极性，从而确定出了待识别文本的情绪极性。
【附图说明】
[0032] 为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
[0033] 图1为本申请提供的文本情绪极性的识别方法的流程图；
[0034] 图2为本申请提供的构建分类器的流程图；
[0035] 图3为本申请提供的文本情绪极性的识别装置的结构示意图；
[0036] 图4为本申请提供的文本情绪极性的识别装置的另一结构示意图。
【具体实施方式】
[0037] 下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0038] 见图1，其示出了本发明实施例提供的文本情绪极性的识别方法的流程，具体包括以下步骤：
[0039] 步骤S101 :获取多条待识别文本。
[0040] 其中，待识别文本为从网络中抓取到的文本，如微博、论坛、贴吧等，当然，本实施并不局限于网络文本，还可以是其他各种载体中的信息文本，如报刊、杂志等。
[0041] 需要说明的是，待识别文本可以理解为一条语句，如"听到昨晚发生的人群踩踏事件，我感到非常悲痛"，也就是说，本步骤中获取到多条语句。
[0042]步骤S102 :利用预先构建的分类器，分别确定每条所述待识别文本各自的多个极性概率值。
[0043]其中，分类器是利用训练方法对训练集进行学习训练生成的分类模型，可以对输入的待识别文本进行分类。分类器自身可以识别出多个情绪类别，情绪类别也就是情绪极性，如正极性情绪、中极性情绪以及负极性情绪。本步骤中，计算待识别文本在每种情绪类别中的概率值，从而获得多个极性概率值。可见，极性概率值表征的是待识别文本分别属于各个不同情绪类别的概率。
[0044] 需要说明的是，针对每个待识别文本，均计算在每种情绪类别中的概率值。从而，每个待识别文本具有各自的多个极性概率值。例如，待识别文本分别为文本1及文本2,其中，文本1的多个极性概率值为Pll、P12及P13,文本2的多个极性概率值为P21、P22及 P23〇
[0045] 步骤S103 :将各自的多个极性概率值中的最大值对应的情绪极性确定为每条所述待识别文本各自的情绪极性。
[0046] 其中，针对每个待识别文本，确定各自的多个极性概率值中的最大值，并确定出每个最大值分别对应的情绪极性，进而，将各个情绪极性分别确定为各自的待识别文本的情绪极性。需要说明的是，分类器计算出的极性概率值具有情绪极性标签，利用情绪极性标签，可以确定出极性概率值对应的情绪极性。
[0047] 例如，文本1的多个极性概率值为P11、P12及P13,最大值为P11，且最大值P11的情绪极性标签为正情绪极性，进而将正情绪极性确定为文本1的情绪极性。
[0048] 由以上的技术方案可知，本实施例提供的文本情绪极性的识别方法，利用预先构建的分类器，可以确定出待识别文本在不同情绪极性类别中的极性概率值，将最大极性概率值对应的情绪极性确定为待识别文本的情绪极性，从而确定出了待识别文本的情绪极性。
[0

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李寿山;汪蓉;周国栋;
技术所有人：苏州大学;
我是此专利的发明人

上一篇：一种在Recovery系统中支持显示多国语言的方法及系统的制作方法
上一篇：一种时间信息抽取方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。