一种基于CapCNN的实时语音情感识别方法及应用装置

文档序号：26548237发布日期：2021-09-07 23:54阅读：204来源：国知局

一种基于capcnn的实时语音情感识别方法及应用装置
技术领域
1.本发明涉及模式识别技术领域，具体地，涉及一种基于capcnn的实时语音情感识别方法及应用装置。

背景技术：

2.语音是人类最常用、最有效、最方便的交流方式。人们通过声带发声除了表达基本的语意信息以外，还表达了说话人的情感以及情绪等信息，这些包含在语音信号中的情感信息是一种很重要的信息资源，是人们感知事物必不可少的信息之一。而语音情感识别作为实现智能化人机交互的关键技术，在很多领域中都有着广泛的应用，本发明则主要着眼于自闭症儿童患者的辅助治疗。
3.儿童自闭症对儿童的成长和发展有着严重的影响。有研究表明，自闭症患病率一直处于上升趋势。在如此严峻的形势下，目前自闭症的治疗主要依靠人为干预，而面对庞大的自闭症患者群体，人为干预实施变得十分艰难。因此，我们可以通过结合计算机干预，以人机交互的方式帮助自闭症儿童获得自我认识，走出自我封闭世界。在医生与自闭症患者的互动的过程中计算机可以及时捕获他们语言表达中情感的变化，即进行实时的语音情感识别，将自闭症患者的情感状态实时反馈给医生，达到让医生及时正确地引导和稳定自闭症患者的情绪变化的目的。
4.语音情感识别技术发展至今，其中依然存在一些不足。首先，国内语音情感识别的研究仍处于初级阶段，并且由于语音的复杂性以及语言的多样性，研究的过程中并未存在数量较多且高质量的语音数据库。其次，由于有些时候语音情感与所处的情绪状态并不是一一对应的，某些情绪并不通过可视的情感语音变化表现出来，即使人类自身也很难准确地仅通过语音理解一个人的情绪状态，往往需要借助于当时特定的环境以及上下文信息，这便对使用计算机进行语音情感识别的研究提出了挑战。最后，目前情感识别方法虽然种类繁多，但是不同方法各有优劣。最高效、最稳定的识别方法仍待研究：对于处理高维数据，cnn能够共享卷积核，并自动进行特征提取的特点显示出了独特的优势，但与此同时，池化层将丢失大量有价值的信息，并且只关注于信息的局部特征。这使得cnn对学习时间序列的过程具有普遍性的影响；而面对时间序列敏感的问题和任务，lstm通常更合适。但是，在处理一些时间依赖性在时间轴上跨度比较大的任务时，lstm网络有着一定的局限性。因此，目前的语音情感识别存在着样本缺乏和识别难度大的问题。

技术实现要素：

5.鉴于现有技术中的上述缺陷或不足，本发明的目的是提供可提高识别的准确性、精度和泛化能力的基于capcnn的实时语音情感识别方法及应用装置。相比于其他语音情感识别方法，该方法在多个数据集中都表现出更好的鲁棒性，更佳的情感分类效果，并且能够较好地把握语谱图的位置信息和整体特征，是一种高效稳定语音情感识别方法。
6.为了解决上述问题，第一方面，本发明提供了一种基于capcnn的实时语音情感识
别方法，所述方法包括：
7.采集不同情感的语音数据，对音频信息进行分帧，每帧使用25ms，帧移与帧长的比值为0.5来进行重叠操作，然后为每个语音段添加上汉明窗；
8.提取语音数据频谱特征：首先对预处理后的语音信号每一帧进行短时傅里叶分析，然后将语音信号转化为语谱图，语谱图在作为输入的数据之前，对原始特征进行线性归一化处理，将语谱图量化为0～255的灰度图，最后将其转化为大小为[1000,40]的矩阵；具体方法为：
[0009]
(1)语音特征为2d，需要将输入数据从2d扩展到3d。
[0010]
(2)连续进行三次卷积层的卷积运算，为后续的胶囊路由算法做准备。
[0011]
(3)将经过卷积层的矩阵重构，并输出到胶囊层。
[0012]
(4)将数据输入进胶囊神经网络进行运算，对每个胶囊之间进行动态路由算法。
[0013]
(5)使用三层全连接层和adam优化器。
[0014]
构造基于capcnn的模型，通过提取处理的频谱特征输入网络并训练，实现语音情感的判别分类；
[0015]
结合输入的数据和模型中的情感分类，判断对象的情感状态，从而有针对性地进行人机交互。
[0016]
第二方面，本技术还提供一种分布式麦克风阵列用于采集语音数据，该阵列包含了若干个麦克风阵列节点，每个麦克风阵列节点设置有一个或若干个麦克风音频采集模块，其特征在于，所述麦克风阵列采集所述音频数据被用于本技术实施例所描述的方法。
[0017]
第三方面，本技术实施例提供了一种高度集成的硬件dsp用于嵌入式语音识别系统，包括微控制器，将mcu、a/d、d/a、ram、rom集成在一块芯片上，以及存储在所述rom中并可在所述mcu上运行的计算机程序，其特征在于，所述mcu执行所述计算机程序时实现如描述于本技术实施例描述的方法，并且体积小、集成度高、可靠性好，又具有较强的中断处理能力、高性能的价格比和功能强、效率高的指令系统及低功耗、低电压的特点。
[0018]
第四方面，本技术实施例提供了一种计算机可读存储介质，其中存储介质可以包括：rom、ram、磁盘、光盘、磁光盘或半导体存储器等，其上存储有计算机程序，所述计算机程序用于：所述计算机程序被处理器执行时实现如本技术实施例描述的方法。
附图说明
[0019]
以下将结合附图对本发明的实施方案进行描述，其中
[0020]
图1示出了本技术的基于capcnn的实时语音情感识别流程示意图；
[0021]
图2示出了本技术的capcnn网络框架示意图。
具体实施方式
[0022]
为了能够使得本发明的发明目的、技术流程及技术创新点进行更加清晰的阐述，以下结合附图及实例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
[0023]
为达到以上目的，本发明提供了一种基于capcnn的实时语音情感识别方法，主流
程如图1所示，该方法包括：
[0024]
步骤一，采集不同情感的语音数据，对音频信息进行分帧，每帧使用25ms，帧移与帧长的比值为0.5来进行重叠操作，然后为每个语音段添加上汉明窗。
[0025]
具体的，借助麦克风等采集音频的设备，调用pc端相关录制音频应用，进行语音信号的录制，语音信号的频率范围在300～3400hz，为提高采样精度又不至于使语音信号数据量太大，所以本发明采用单声道11025hz的采样率采集自闭症患儿的语音信号，并对提取出来的数据进行预处理。首先对音频信息进行分帧，每帧使用25ms，帧移与帧长的比值为0.5来进行重叠操作。然后为了精确定位语音的开始和结束，区分语音段和非语音段，并计算每段语音的平均短时能量其中e
a
表示平均短时能量，n表示分帧的总帧数，e
i
表示当前帧的短时能量，e
h
表示平均短时能量的一半。同时还需要计算平均短时过零率其中z
i
为每一帧的过零率，并以这两个点为阈值点进行双阈值端点检测；
[0026]
最后为了减少因分帧而产生的频率泄露，对每帧语音进行添加汉明窗的操作，其中n为分帧的总帧数，α是固定数字，(0≤n≤n
‑
1，α＝0.46)。
[0027]
步骤二，提取语音数据频谱特征：首先对预处理后的语音信号每一帧进行短时傅里叶分析，然后将语音信号转化为语谱图，语谱图在作为输入的数据之前，对原始特征进行线性归一化处理，将语谱图量化为0～255的灰度图，最后将其转化为大小为[1000，40]的矩阵。
[0028]
具体的，提取语音数据频谱特征并绘制语谱图。首先对预处理后的语音信号每一帧进行短时傅里叶分析其中0≤k≤n
‑
1，x(n，k)是x(n)的短时幅度谱估计。再将提取的频谱特征转化为语谱图。在时间m处的频谱能量密度函数p(n，k)为p(n，k)＝|x(n，k)|2＝(x(n，k))
×
(conj(x(n，k)))，其中该式以n为横坐标，k为纵坐标，p(n，k)则使用颜色的深浅来表示幅度，以此得到的二维图像即为语谱图。因为方法用到的情感特征意义各不相同，其取值范围差异很大，因此为了度量各种特征，在进行特征选择之前，对原始特征进行线性归一化处理，其中p(a，b)为语谱图中各点灰度值，p
max
(a，b)和p
min
(a，b)为语谱图矩阵的最大值和最小值，进行归一化幅值后，将语谱图量化为0～255的灰度图，最后将其转化为大小为[1000，40]的矩阵。
[0029]
步骤三、构造基于capcnn的模型，通过提取处理的频谱特征输入网络并训练，实现语音情感的判别分类；
[0030]
传统的卷积神经网络总是从图像的部分特征来理解，而忽略了整个矩阵的位置特征。针对语音时长较短的数据集，本技术基于卷积神经网络(cnn）和胶囊神经网络(capsnet)所构建的方法(称作capcnn)的网络结构不仅注重局部特征，而且从整体理解图像特征，在位置信息的提取方面表现突出。在卷积网络的基础上，使用路由算法作为表示增强结构，增强语音情感识别的准确率。对于卷积神经网络的部分，它通过降低高维特征的大小来得到一个紧凑的矩阵来进行下一步的操作；
[0031]
语音特征为2d，需要将输入数据从2d扩展到3d；
[0032]
对数据进行步长为2、卷积核大小为13和输出通道8连续两个卷积运算，并使用每个卷积层后面的relu激活函数和批处理归一化；
[0033]
然后在进行步长为2、卷积核大小为13和输出通道64的卷积层进行卷积运算，该操作是将8个卷积单元封装在一起作为一个新的单元，为后续的胶囊路由算法做准备，张量的最大池被再次部署以匹配包膜层的输入，张量的第2维被设为1；
[0034]
语音情感识别任务需要精准的提取特征位置信息的功能，将经过卷积层的矩阵重构为[
‑
1,16]，并输出到胶囊层；
[0035]
胶囊神经网络输入和输出向量的长度来表示一个实体的概率，长度取值在0到1之间；使用squash非线性函数，其中j表示指定的胶囊，s
j
是指定胶囊的输入向量，squash非线性函数保证短向量的长度可以降至几乎为零，长向量的长度接近但不超过1；
[0036]
对每个胶囊之间进行动态路由算法，低层胶囊i改变标量权重c
ij
，其中标量权重c
ij
由迭代动态路由算法确定，然后将低层胶囊的输出向量乘以权重后，发送给高层胶囊，作为高层胶囊的输入；
[0037]
通过全连接层扩展三层(512、1024、784)，两层是relu的激活函数，最后一层是sigmoid的激活函数；
[0038]
使用adam的优化器，学习率从0.001开始，权重衰减为1.0*10
‑6，一阶矩估计的指数衰减率为0.9，二阶矩估计的指数衰减率为0.999。
[0039]
步骤四，结合输入的数据和模型中的情感分类，判断自闭症患儿的情感状态，从而有针对性地进行人机交互。
[0040]
通过与前沿的语音情感识别模型的对比，本技术的方法不仅在整体数据集实现较高的分类准确率，在单独的数据集上也得到良好的效果。同时这也证明位置信息和整体特征的把握对语音情感识别是十分必要，也进一步说明胶囊神经网络在语音情感识别应用上具有一定的发展潜力。
[0041]
为了更好地理解本发明，以上结合发明的具体实例做了详细描述，但并非是本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。
[0042]
作为另一方面，本技术还提供一种分布式麦克风阵列用于采集语音数据，该阵列包含了若干个麦克风阵列节点，每个麦克风阵列节点设置有一个或若干个麦克风音频采集模块，其特征在于，所述麦克风阵列采集所述音频数据被用于本技术实施例所描述的方法。
[0043]
作为另一方面，本技术还提供了一种高度集成的硬件dsp用于嵌入式语音识别系统，包括微控制器，并将mcu、a/d、d/a、ram、rom集成在一块芯片上，以及存储在所述rom中并可在所述mcu上运行的计算机程序，其特征在于，所述mcu执行所述计算机程序时实现如描述于本技术实施例描述的方法，并且体积小、集成度高、可靠性好，又具有较强的中断处理能力、高性能的价格比和功能强、效率高的指令系统及低功耗、低电压的特点。
[0044]
作为另一方面，本技术还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中前述装置中所包含的计算机可读存储介质；也可以是单独存在，未
装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，前述程序被一个或者一个以上的处理器用来执行描述于本技术实施例描述的方法。
[0045]
本技术实施例所使用的存储介质的任何引用可包括非易失性、易失性存储器。合适的非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)、光盘(包含光盘只读存储器(cd
‑
rom)和数字通用盘(dvd))、或闪存。易失性存储器可包括随机存取存储器(ram)，它用作外部高速缓冲存储器。作为说明而并非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddr sdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)。
[0046]
应当理解，本技术的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(programmablegate array；以下简称：pga)，现场可编程门阵列(field programmable gate array；以下简称：fpga)等。
[0047]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。
[0048]
此外，在本技术各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件和固件的形式实现。所述集成的模块如果以软件和固件的形式实现并作为独立的产品销售或使用时，可以从存储介质或网络中传入具有专用硬件结构的计算机进行功能实现。
[0049]
还要指出的是，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
[0050]
虽然上面已经示出和描述了本技术的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本技术的限制。任何本领域技术人员，在不脱离本发明的精神和范围内，均可以对上述实施例进行变化、修改、替换和变型，因此本发明的保护范围并不局限于此，应当以权利要求所限定的范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：文昕成;刘昆宏;叶嘉鑫;罗妍;王煊泽;吴昌鲡
技术所有人：厦门大学
我是此专利的发明人

上一篇：一种安全的便携式原汁机的制作方法
上一篇：一种新型全自动真空填料设备的制作方法