一种基于皮肤电信号识别中文情感词的方法与流程

文档序号:14194879阅读:1161来源:国知局
一种基于皮肤电信号识别中文情感词的方法与流程

本发明属于电数字数据处理技术的处理自然语言数据领域,具体涉及基于皮肤电信号情感识别技术用于识别中文情感词的方法。



背景技术:

利用皮肤电信号识别情感有其独特的优势,比如它是生理参数所以更加客观,比如它相比于其他生理参数更易于采集、对于神经情绪变化最有效最敏感。对于利用皮肤电信号研究情感,目前技术相对成熟,所以适时的想利用该技术引入文本的分析。目前文本的分析因为其主观性强,语法语义拆分困难,情感词库的不完善等缺陷阻碍了文本情感分析的步伐。

但是随着互联网的蓬勃发展,文字信息更是烟波浩渺,其中包含着大量的有用实用信息让人们又不愿意放弃文字信息的提取。客观上需要用更加客观的生理参数来识别中文情感词,这必将为单纯文本分析提供一个崭新的思路。



技术实现要素:

本发明的目的在于提出利用皮肤电信号识别出中文情感词,为单纯的文本情感分析提供崭新的思路,使文本情感分析更加准确。

为实现上述目的,本发明采用的技术方案为一种基于皮肤电信号识别中文情感词的方法,具体包含以下步骤:

s1:皮肤电采集;

s2:对采集之后的数据进行预处理;

s3:特征提取;

s4:归一化处理;

s5:特征选择;

s6:利用改进的模拟退火人工神经网络算法得到分类结果;

s7:在分类结果中加入情感词比对,进行识别。

作为优选,上述步骤2中的预处理采用小波变换进行去噪处理。

进一步,步骤3中的特征提取是提取了信号的时域和频域中能代表皮肤电信号变化的统计值作为情感识别研究的原始特征。

进一步,上述时域原始特征包括皮肤电信号的均值、中值、最大值、最小值、标准差、最小值比率、最大值比率、最大最小差值,以及将上述信号特征分别进行一阶差分、二阶差分计算后再提取以上统计特征后生成的24个时域特征。

进一步,在提取所述频域特征前先对皮肤电信号进行离散傅里叶变换,然后计算频率均值、中值、标准差、最大值、最小值、最大最小差值,得到6个频域特征。

进一步,上述步骤4中的所述归一化处理使得各特征值的取值范围限定在0到1之间,去除个体差异性的方法如下式:

其中xg为原始信号,为每个被试者平静下的均值,归一化之后得到:

x=(xg-xmean)/(xmax-xmin)(2)。

进一步,为了以最少的特征个数和最高的识别率来识别情感,步骤5所述特征选择时在标准化后的数据中随机选取若干组,并将其分成三份:第一部分为分类器训练集,第二部分测试集测试分类效果,最后部分数据用来验证特征集在情感识别中的有效性。

进一步,上述改进的模拟退火人工神经网络算法包含如下步骤:

步骤一:根据样本的输入和输出确定神经网络结构;

步骤二:运用有记忆的模拟退火算法,具体如下:

1)初始化参数,这样就产生了初始的权值s0,此时设置初始温度t0>0,迭代次数i=0,检验精度ε,令fout=f(s0),f*=f(s0),sp=s0;

2)将网络权值sp作为初始出发点s0,按powell算法进行优化,快速搜索到某一个局部极小值点;

3)设置记忆变量x′和f(x′),分别用于记忆当前遇到的最优解和最优目标函数值,算法刚开始时令x′和f(x′)分别初始化等于初始解x0和其目标函数值f(x0),迭代开始后,每当接受一个新的搜索解时,将其目标函数值f(xk)与f(x′)进行比较,如果f(xk)优于f(x′),则分别用xk和f(xk)代替原来的x′和f(x′),最后算法结束时得到的就是全局最优解;

4)得到的新的一组网络权值sp,令si=sp,fout=f(si),f*=f(si),将网络权值si作为迭代值x,设当前解si=x,令t=ti,进行退火操作,得到一组新的网络权值si+1,按照ti=t0/(1+ln(i))退火,i=i+1;

5)退火后如果满足要求或迭代次数,则算法结束,如果f(si)<fout,令sp=si+1,回到步骤4;

步骤三:神经网络训练及预测,训练是通过设置固定的输入和输出,确定网络结构,在训练过程中,神经网络不断调整各个神经元之间的连接权值,以减小训练输出与指定输出之间的误差,预测是训练好的网络对输入数据进行处理,得到输出的过程;

步骤四:最后将输出的结果与在实验过程中被试者输入的表格信息进行对比,完成对情感词识别比对。

与现有技术相比,本发明的有益效果:

1,本发明能够完成对中文情感词的识别且准确度很高,基本达到了预期结果。

2,本发明充分表明利用生理参数对文本情感词的提取是可行的,为后期文本分析提供了新的思路。

3,本发明系统架构清晰、简单,易于实现。

附图说明

图1表示整个方案的流程示意图。

图2表示部分情感词调查表。

图3表示实验情感词识别表。

图4表示两者识别比对图。

具体实施方式

现结合附图和实施例对本发明做进一步详细的说明。

作为实施例,本发明首先从《现代汉语词典》、《现代汉语分类词典》、《新世纪汉语新词词典》中筛选出2000多个情感词,再从这2000个里筛选出最常用的100个。最后在这100个词中再进行一次筛选,得出情感强度最高的情感词50个。

利用实验室皮肤电采集工具,对某实验室20人进行了采集。该实验室20人均身体健康,无心脏病精神病史,一年之内未服过任何精神性药物,且从20岁到50岁各年龄段均有。实验素材即是挑选出的50个具有强烈情感的情感词,要求被试者坐在电脑屏幕前,此时每隔40秒电脑屏幕出现一个情感词,情感词出现时要求被试者联想与该情感词相关的场景。前30秒用于联想后10秒用于填写是否有感觉并且填写情感强度(0很强,1较强,2一般,3较弱,4很弱)。然后依次播放,直到完成50个情感词的播放。

对采集之后的数据进行预处理,由于皮肤电信号比较微弱,易受到机器干扰,肌电干扰,电磁干扰等的影响,所以要对采集的皮肤电信号去噪处理。本发明采用小波变换进行去噪处理。小波变换具有在低频部分具有较高的频率分辨率和较低的时间分辨率,在高频部分具有较高的时间分辨率和较低的频率分辨率,因此具有对信号的自适应性,非常适用于生理信号的分析。

在实验开始之前,向被试者详细说明了本次实验的流程和目的。首先每个被试者要求坐在离电脑显示屏正前方80cm处。实验开始。要求被试者先闭眼一分钟,然后睁眼看屏幕,这时屏幕上会每隔40秒出现一个情感词,其中30秒显示该情感词,10秒填写情感词情感强度表。当情感词出现时,被试者受情感词的刺激联想相应的场景,屏幕空白时填写调查表并让情绪归于平静。依次播放选定好的50个情感词,直到结束。

删去无效数据后,筛选出270组有效数据。参照德国augsburg大学特征提取的方法,提取了信号的时域和频域中最能代表皮肤电信号变化的统计值作为情感识别研究的原始特征。在时域中,提取了皮肤电信号的最大值、最小值、标准差、一阶差分标准差、一阶差分最小值比率、二阶差分标准差、二阶差分最小值比率等22个时域特征。为了提取皮肤电信号的频域特征,先对皮肤电信号进行离散傅里叶变换,然后计算频率均值、中值、标准差、最大值、最小值、最大最小差值,得到6个频域特征。

由于皮肤电信号个体差异很大,且根据公式提取的各个统计特征的特征值的取值范围处在不同的数量级,为了方便统一比较,规范数据的统计分布,便于后续处理,做归一化处理各个特征,使各特征值的取值范围限定在0到1之间。公式入下:

去除个体差异性方法:

其中xg为原始信号,为每个被试者平静下的均值。

归一化后得到:

x=(xg-xmean)/(xmax-xmin)(2)

将处理好的数据进行特征选择。特征选择是为了以最少的特征个数和最高的识别率来识别情感。在以上270组标准化后的数据中随机选取180组,并将其分成三份:前80组数据组成分类器训练集;中间60组数据组成测试集测试分类效果;最后的40组数据用来验证特征集在情感识别中的有效性。

神经网络算法是分布式存储信息,它的信息存储在整个网络上,网络上某一处所存储的不是一个外部信息,而是多个信息的部分内容。这样神经网络算法的优点就显而易见,由于信息存储在网络上,它信息的存储和处理是合二为一的,这样它就可以大规模并行处理数据,而且这种方式使它具有较强的容错能力和鲁棒性。还有它的自学性和自适应性。但是神经网络算法也有重大缺陷,它容易陷入局部最小值,收敛过程缓慢,这样就需要对其提出改进。

由于神经网络算法出现的缺陷,而加入模拟退火技术大大改进了算法的机能,很大程度上解决了这些缺陷。本发明先用powell算法快速收敛到局部最小值,找到局部最小值时利用模拟退火搜索策略立即在局部最小值附近再搜索还是否具有谷底,多次进行,此时加入记忆性,记录下搜索到的最优值和最优函数值,这样能很快找到全局最优值。将此方法应用与神经网络算法,就很好的解决了神经网络跳不出局部最小值的缺陷。

改进的模拟退火人工神经网络算法步骤归结如下:

步骤一:根据样本的输入和输出确定神经网络结构。

步骤二:运用有记忆的模拟退火算法:

1)初始化参数。这样就产生了初始的权值s0,此时设置初始温度t0>0,迭代次数i=0,检验精度ε。令fout=f(s0),f*=f(s0),sp=s0。

2)将网络权值sp作为初始出发点s0,按powell算法进行优化,快速搜索到某一个局部极小值点。

3)设置记忆变量x′和f(x′),分别用于记忆当前遇到的最优解和最优目标函数值。算法刚开始时令x′和f(x′)分别初始化等于初始解x0和其目标函数值f(x0),迭代开始后,每当接受一个新的搜索解时,将其目标函数值f(xk)与f(x′)进行比较,如果f(xk)优于f(x′),则分别用xk和f(xk)代替原来的x′和f(x′)。最后算法结束时得到的就是全局最优解。

4)得到的新的一组网络权值sp,令si=sp,fout=f(si),f*=f(si)。将网络权值si作为迭代值x,设当前解si=x,令t=ti,进行退火操作。得到一组新的网络权值si+1。按照ti=t0/(1+ln(i))退火。i=i+1。

5)退火后如果满足要求或迭代次数,则算法结束。如果f(si)<fout,令sp=si+1,转回(4)。

步骤三:神经网络训练及预测。训练是通过设置固定的输入和输出,确定网络结构。在训练过程中,神经网络不断调整各个神经元之间的连接权值,以减小训练输出与指定输出之间的误差。预测是训练好的网络对输入数据进行处理,得到输出的过程。

最后将输出的结果与在实验过程中让被试者填的表进行对比,完成对情感词识别比对。其中,部分情感词调查表如图2所示,实验中情感词识别图如图3所示,两者比对识别图如图4所示。实验结果表明利用皮肤电信号的变化基本可以完成对中文情感词的识别。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1