语音社交媒体的情绪传播计算方法及系统的制作方法

文档序号：8224534阅读：317来源：国知局

语音社交媒体的情绪传播计算方法及系统的制作方法
【技术领域】
[0001] 本发明属于信息技术领域，具体涉及情感计算技术，特别地涉及语音社交媒体的情绪传播计算方法及系统。
【背景技术】
[0002] 近年来，随着通讯技术的迅猛发展和移动智能终端的普及，社交媒体的通讯和交流方式正在发生新的变化，W QQ、微信、WhatsA卵等为代表的即时通讯工具软件已成为国内外的主要社交媒体方式。吃、喝、玩、乐、生活百态W及各种正负能量的新闻与消息，通过社交媒体该一新的传播手段迅速扩散到广大民众百姓。由于社交媒体上的情绪往往会影响至IJ社会上个体的情绪和群体情绪，甚至引发群体事件，因此，对社交媒体的情绪进行研究很有必要。目前，社交媒体的情绪研究已经受到国内外广大学者的关注，他们大多从网络文本分析和图片分析角度着手来对社交媒体中的留言、留图表情来分析，通过分词、情感词典、文本情感倾向分析、机器学习算法等手段来进行，取得了不少研究成果。然而，由于网络文本里存在很多干扰的文字信息，而且情绪往往与当前所处上下文环境密切相关，因此，基于网络文本的情绪分析在情绪传播分析的应用中存在着如下局限性： 1、由于中文词多义现象较普遍，该给中文情感词典的构建带来了很大的困难，而基于网络文本的情绪判断完全依赖所构建的中文情感词典，但是中文情感词典标注的词终究有限，因此，往往无法避免情绪识别错误、识别准确率不高的现象； 2、基于文本的情绪分析是通过对语句中的情感词进行概率统计和匹配，然后给出大致的情感倾向性判断，该种分析所得到的结果，无法进行量化，结果不是很直观。
[0003] 随着语音社交在信息传播中的广泛使用，而众多的研究成果与实践案例已表明，语音中蕴含着丰富的个性化情绪特征，通过语音是能较准确地判断个体情绪的。因此，对社交媒体中的语音进行特征提取、情感计算和分析，使用语音情绪描述社交媒体圈的情绪，并用语音情绪的动态变化来描述社交媒体圈的情绪动态变化，极具创新性。

【发明内容】

[0004] 本发明的目的是针对现有社交媒体情绪传播分析技术的不足，提出了语音社交媒体的情绪传播计算方法及系统，通过对语音情绪的量化来提升情绪识别准确率，并提供直观的图形来动态反应社交媒体圈里情绪变化。
[0005] 本发明提出语音社交媒体的情绪传播计算方法，具体步骤为：步骤1 ;社交媒体圈语音预处理；依次包括语音素材抓取和语音素材处理两个过程，其中：语音素材抓取：通过调用GetVoiceFile 0函数将社交媒体圈里的语音素材自动抓取出来，并保存到硬盘的VoiceFile目录下；语音素材处理；对抓取到的语音素材，进行语音格式预处理，将语音文件转为wav格式的文件，该文件的采样频率是16KHZ，采样位数是16bit，再对语音进行端点检测和截取，去掉首尾无效的语音段落；步骤2 ;语音特征参数提取；依次包括语音特征参数选择和实施特征提取两个过程，其中：语音特征参数选择：对已完成步骤1的语音素材，选取18个语音特征参数构成语音特征参数集S (n)，S (n) = [SEM，PM，SZCM，FF，NB，VS，MFCC12]，其中，SEM指短时能量的平均值， PM指基音的平均值，SZCM指短时平均过零率的平均值，FF指第一共振峰的值，NB指语间停顿次数，VS指语速，MFCC12指12阶Mel频标倒谱系数；实施特征提取：使用matl油工具软件编写的getVoiceValueO函数来提取单个语音文件的18个语音特征参数，该函数是按设定的间隔时间来对所选语音文件进行特征提取，当该语音文件的播放时长如果能整除设定的间隔时间，则提取次数就是该整除数，否则，提取次数是整除数加1，提取完后将提取到的值存入VoiceValue. txt文件中；步骤3 ;情绪识别计算；包括；PAD (Pleasure-Arousal-Dominance,愉悦-激活-优势） H维参数的标记、BP神经网络建模和语音情感计算共H个过程，其中， PAD H维参数的标记：包括语音PAD量化调查和PAD值计算共两个过程，具体如下：语音PAD量化调查；W问卷和网络调查的方式，收集到被调查者在PAD量化调查表中对语音素材的标记值，该标记值是从愉悦、激活、优势H个维度来对语音素材进行的人工标定； PAD值计算：依照PAD归一化计算公式，对PAD量化调查表里的标记值分别计算愉悦、激活、优势H个维度上的P值、A值和D值，使得PAD H个维度的各自值均处在[-1,1]的区间里，PAD归一化计算公式如下：
【主权项】
1.语音社交媒体的情绪传播计算方法，其特征在于，具体步骤为：步骤1 :社交媒体圈语音预处理；依次包括语音素材抓取和语音素材处理两个过程，其中：语音素材抓取：通过调用GetVoiceFile ()函数将社交媒体圈里的语音素材自动抓取出来，并保存到硬盘的VoiceFile目录下；语音素材处理：对抓取到的语音素材，进行语音格式预处理，即将语音文件转为wav格式的文件，该文件的采样频率是16KHz，采样位数是16bit，再对语音进行端点检测和截取，去掉首尾无效的语音段落；步骤2 :语音特征参数提取；依次包括语音特征参数选择和实施特征提取两个过程，其中：语音特征参数选择：是对已完成步骤1的语音素材，选取18个语音特征参数构成语音特征参数集S(n)，S(n) = [SEM，PM，SZCM，FF，NB，VS，MFCC12]，其中，SEM指短时能量的平均值，PM指基音的平均值，SZCM指短时平均过零率的平均值，FF指第一共振峰的值，NB指语间停顿次数，VS指语速，MFCC12指12阶Mel频标倒谱系数；实施特征提取：是使用matlab工具软件编写的getVoiceValueO函数来提取单个语音文件的18个语音特征参数，该函数是按设定的间隔时间来对所选语音文件进行特征提取，如果该语音文件的播放时长能整除设定的间隔时间，则提取次数就是该整除数，否则，提取次数是整除数加1，提取完后将提取到的值存入VoiceValue. txt文件中；步骤3 :情绪识别计算；包括：PAD (愉悦-激活-优势）三维参数的标记、BP神经网络建模和语音情感计算共三个过程，其中： PAD三维参数的标记：包括语音PAD量化调查和PAD值计算共两个过程，具体如下：语音PAD量化调查：以问卷和网络调查的方式，收集到被调查者在PAD量化调查表中对语音素材的标记值，该标记值是从愉悦、激活、优势三个维度来对语音素材进行的人工标定； PAD值计算：依照PAD归一化计算模型，对PAD量化调查表里的标记值分别计算愉悦、激活、优势三个维度上的P值、A值和D值，使得PAD三个维度的各自值均处在[-1，1]的区间里，PAD归一化计算公式如下：
式中，J是归一化的值，4是待归一化的第左个样本值，是样本值里最大值，^lin是样本值里最小值； BP神经网络建模：使用BP神经网络来对社交媒体圈里的语音素材的PAD值进行样本训练与建模，包括：网络层数的设计、神经节点的设计、传递函数和学习函数的设计共三个过程，具体如下：网络层数的设计：由于三层BP神经网络可以以任意精度逼近任意映射关系，因此网络层数选定为3,即：输入层、隐含层和输出层；神经节点的设计：输入层节点数目设置为18, S卩：18个语音特征参数；输出层节点设置为3, S卩：输出P值、A值、D值；隐含层节点数目通过经验公式《 = + 及反复训练得至IJ，式中/为输入层节点数，战7输出层节点数，a为1到10的常数；均方误差的计算公式如下：
式中，ASZ堤均方误差，/7是输出节点的数目，^是训练的样本数目，&.是神经网络的期望输出值，是神经网络的实际输出值；传递函数和学习函数的设计：隐含层神经元传递函数选h/^办·;输出层神经元传递函数选训练函数选学习速率初始值选0. 1 ;动量因子的初始值选0. 9 ; 语音情感计算：使用建立好的BP神经网络，对语音PAD量化调查所获得的值，进行情感计算，并以历史语音的快乐、悲伤、愤怒、惊讶、恐惧和中立这六类基本情绪的PAD值作为参考，进行情感归类；步骤4 :情绪传播过程的量化；通过记录发音时间顺序与该时段的PAD值来描述情绪传播动态过程，并通过计算极性的公式，即：Vvalue=O. 2*Pvalue+0. 8*Avalue，来计算极性，再以图形的方式给出简明的正负极性情绪传播过程量化图。
2.基于权利要求1所述的语音社交媒体的情绪传播计算方法的系统，其特征在于包括四个模块：语音社交媒体圈语音预处理模块，语音特征参数提取模块，语音情绪识别计算模块和情绪传播过程量化模块，这4个模块分别执行对应于语音社交媒体的情绪传播计算方法中的四个步骤；其中：所述语音社交媒体圈语音预处理模块，包括语音素材抓取和语音素材处理2个子模块，这2个子模块分别执行权利要求1步骤1中2个过程的功能；所述语音特征参数提取模块，包括语音特征参数选择和实施特征提取2个子模块，这2 个子模块分别执行权利要求1步骤2中2过程的功能；所述语音情绪识别计算模块，包括PAD三维参数的标记、BP神经网络建模和语音情感计算3个子模块，这3个子模块分别执行权利要求1步骤3中3个过程的功能；所述情绪传播过程量化模块，包括按发言时间顺序标记语音、给出语音的量化PAD值、计算情绪极性和给出量化的传播图形4个子模块，这4个子模块分别执行权利要求1步骤 4中的功能。
【专利摘要】本发明属于信息技术领域，具体为语音社交媒体的情绪传播计算方法及系统。本发明方法包括4个步骤：社交媒体圈语音预处理；语音特征参数提取；情绪识别计算；情绪传播过程的量化。本发明系统包括4个模块，分别4个步骤的功能。本发明从语音情绪角度来计算社交媒体圈的情绪传播，通过PAD三维情感参数标记和BP神经网络建模，将社交媒体圈里情绪传播过程用数值来量化标识。本发明优点：充分考虑了语音社交媒体中短语式会话多的特征，采用间隔一定时间的方式来提取语音特征，有利于提升情绪识别准确率，以及能动态反应社交媒体圈里的情绪；提供了情绪传播过程量化图，便于直观地看到社交圈里的情绪变化。
【IPC分类】G10L15-06, G10L15-16, G10L15-02
【公开号】CN104538027
【申请号】CN201410760823
【发明人】戴伟辉, 戴永辉, 韩冬梅, 胡虹智, 周璇, 戴杏云, 赵旭东, 赵卫东, 徐冬溶, 黄丽华, 樊卫国, 陈海建, 王今朝
【申请人】复旦大学
【公开日】2015年4月22日
【申请日】2014年12月12日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：戴伟辉;戴永辉;韩冬梅;胡虹智;周璇;戴杏云;赵旭东;赵卫东;徐冬溶;黄丽华;樊卫国;陈海建;王今朝;
技术所有人：复旦大学;
我是此专利的发明人

上一篇：一种基于深度长短期记忆循环神经网络的连续语音识别方法
上一篇：一种用于参数化语音合成的基频建模方法