一种文本情感标注方法、装置及系统的制作方法

文档序号:9911690阅读:525来源:国知局
一种文本情感标注方法、装置及系统的制作方法
【技术领域】
[0001] 本发明涉及自然语言处理技术领域,具体涉及一种文本情感标注方法、装置及系 统。
【背景技术】
[0002] 随着互联网技术的蓬勃发展,互联网逐渐采用用户参与的开放式构架理念,因而 互联网上产生了大量的用户参与的信息,例如大量对人物、事件、产品等的评论信息。这些 评论信息表达了人们的各种情感色彩和情感倾向性,如喜、怒、哀、乐和批评、赞扬等。显然, 其余用户就可以通过浏览这些带主观情感的评论来了解大众舆论对于某一事件或产品的 看法。
[0003] 而在传统的情感语料库构建过程中,情感标签的生成方法通常是通过人工进行标 注。些标注语料由两部分构成:表达情感的原始文本以及与这些文本所对应的情感标签。人 工标注的方式主要有以下缺陷:1. 一方面,为保证情感语料的标注准确性,需要对每一位参 加标注的工作人员进行大量的领域相关知识和情感标注规范的培训,这些培训将消耗大量 的时间与资金。另一方面,由于缺乏对情感语料的系统标注规范,在培训结束后也很难保证 标注人员能准确高效地对情感语料进行标注。2.不同的标注者常常具有不同的情感认识体 验,导致不同标注者对同一语料标注时会出现不同甚至是相反的结果。出现这种情况时,通 常需要标注者一起讨论决定最终的标注结果,这一过程往往会消耗标注人员大量的时间与 精力,最终会严重拖慢标注进程。
[0004] 综上所述,由于人类情感认识机制的复杂性,标注者往往很难对自身真实情感进 行准确的表述与分类,导致语料的标注严重不准确,并且标注的过程十分繁琐,耗费的人力 物力巨大。

【发明内容】

[0005] 本申请提供一种文本情感标注方法、装置及系统,可以准确对文本语料进行情感 标注,减少标注的工作量。
[0006] 根据第一方面,一种实施例中提供一种文本情感标注方法,包括:获取传感器输出 的文本阅读者的脑电信号;分别计算去噪后的脑电信号在四类频段上的功率均值,作为情 感分析的特征向量,所述四类频段为S波、Θ波、α波以及β波;将所述情感分析的特征向量输 入至分类模型中,预测得到文本的情感的标注结果。
[0007] 根据第二方面,一种实施例中提供一种文本情感标注装置,包括:获取单元,用于 获取传感器输出的文本阅读者的脑电信号;计算单元,用于分别计算去噪后的脑电信号在 四类频段上的功率均值,作为情感分析的特征向量,所述四类频段为S波、Θ波、α波以及β波; 预测单元,用于将所述情感分析的特征向量输入至分类模型中,预测得到文本的情感的标 注结果。
[0008] 根据第三方面,一种实施例中提供一种文本情感标注系统,包括:传感器及处理 器;所述传感器,用于采集文本阅读者的脑电信号并输出至所述处理器;所述处理器,用于 获取所述传感器输出的文本阅读者的脑电信号,并分别计算去噪后的脑电信号在四类频段 上的功率均值,作为情感分析的特征向量,其中,所述四类频段为δ波、Θ波、α波以及β波;以 及,将所述情感分析的特征向量输入至分类模型中,预测得到文本的情感的标注结果。
[0009] 依据上述实施例的文本情感标注方法、装置及系统,由于由测试者阅读待分类的 文本,采集文本阅读者的脑电信号,再根据脑电信号对该文本进行情感标注,能够从认知神 经科学角度真实反映标注者的情绪,具有很高的准确性。并且,本申请不需要对标注人员进 行长时间的培训,在开发文本情感分析系统时,能节约大量的时间与资金。
【附图说明】
[0010] 图1为本申请实施例的文本情感标注方法的流程图;
[0011] 图2为本申请实施例步骤采集脑电信号的位点结构分布示意图;
[0012] 图3为另一种实施例的文本情感标注方法的流程图;
[0013] 图4为本申请实施例的文本情感标注装置的结构示意图;
[0014] 图5为另一种实施例的文本情感标注装置的结构示意图;
[0015] 图6为本申请实施例的文本情感标注系统的结构示意图。
【具体实施方式】
[0016] 文本情感标注是指:对阅读人员阅读本文后的产生情感(如喜、怒、哀、乐和批评、 赞扬等)进行标注,得到文本与情感标签的对应关系。其中,可以对多个文本与对应的情感 标签进行存储,从而可以构建得到情感语料库。
[0017] 本申请提供一种文本情感标注方法、装置及系统,由测试者阅读待分类的文本,采 集文本阅读者的脑电信号,再根据脑电信号对该文本进行情感标注,能够从认知神经科学 角度真实反映标注者的情绪,具有很高的准确性。并且,本申请不需要对标注人员进行长时 间的培训,在开发文本情感分析系统时,能节约大量的时间与资金。
[0018] 下面通过【具体实施方式】结合附图对本发明作进一步详细说明。
[0019] 实施例一:
[0020] 请参考图1,本申请实施例提供一种文本情感标注方法,包括以下步骤:
[0021] 101、获取传感器输出的文本阅读者的脑电信号。
[0022] 请一并参阅图3,步骤101、获取传感器输出的文本阅读者的脑电信号前,还包括:
[0023] 101Α、将待标注文本通过组块分析技术转换为多个词组的形式,并呈现给文本阅 读者。
[0024]将待标注文本通过组块分析技术转换为多个词组的形式的过程如下:
[0025]原始语料:"中国体育健儿将在2008年奥运会上为国争光。"
[0026]组块分析转换的词组形式:"中国体育健儿"、"将"、"在2008年奥运会上"、"为国争 光"。
[0027]又如:原始语料:"小明按时交作业。"
[0028] 组块分析转换的词组形式:"小明"、"按时"、"交作业"。
[0029] 以上对组块分析技术的介绍仅作举例,不作限定。
[0030] 其中,如图2所示,具体可以是:获取传感器从文本阅读者头皮上多个位点采集到 的电平信号。
[0031] 其中,位点的个数可以是11个,11个位点按照预设规则设置在文本阅读者头皮上。 一种较为简单可行的实施方式,如图2中的Fpl、Fp2、F7、F3、Fz、F4、F8、T3、C3、Cz、C4、T4、T5、 ?3、?2、?436、〇1、〇2^1及六2所示为11个位点的分布示意图。可以理解的是,本实施例也可 以采用另外一些方式对位点的分布进行设置,上述位点分布规则的介绍仅作举例,不作限 定。
[0032] 由于脑电信号采集自人类头皮的多个位点,而这些采集位点都是根据某种规则在 头皮上的一些固定位置设置的,例如图2中的分布规则。人类在进行不同的认知活动时,不 同采集位点上的电位具有明显的差异,这些不同空间位置上的电位分布差异就构成了脑电 信号的空间结构。
[0033] 102、分别计算去噪后的脑电信号在四类频段上的功率均值,作为情感分析的特征 向量。
[0034] 其中,四类频段为δ波、Θ波、α波以及β波。如表1所示,是四类频段δ波、Θ波、α波以及 β波对应的频率以及脑电情绪解释对应表。现有技术中,已经研究得知上述四种频段的脑电 波所对应的人脑活动状态。
[0035]
[0036] 表 1
[0037] -个实施例中,由于在采集脑电信号时,会夹杂着设备、人体肌肉和眼球活动造成 的噪声。所以在计算功率均值之前,一方面需要进一步对脑电信号进行去噪,得到较高信噪 比的信号后再进行计算,提升计算的准确性。另一方面,由于脑电信号具有维度高、空间特 性复杂的特点。本例在对脑电信号进行去噪后,进行空间投影及降维,以便将脑电信号的数 据大小减小为计算机机器学习算法可处理的范围以内。即,如图3所示,在本例步骤102分别 计算去噪后的脑电信号在四类频段上的功率均值前还包括:
[0038] 102Α、将传感器输出的文本阅读者的脑电信号通过独立分量分析法进行投影,得 到多个独立分量。
[0039] 102Β、从多个独立分量中识别出噪声分量。
[004
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1