动物声音情绪识别系统及其方法

文档序号：8382006阅读：2557来源：国知局

动物声音情绪识别系统及其方法
【技术领域】
[0001]本发明涉及语音识别技术，尤其涉及一种动物声音情绪识别系统及其方法。
【背景技术】
[0002]随着动物行为学研究的发展，人类对动物的情绪表达越发重视。动物通过声音和动作等特定行为表达情绪；其中，动物声音与人类语言类似，可实现同种物种之间的交流。长期以来，人们对动物情绪的感知仅局限于长期的经验总结和直觉判断上；如何实时有效地感知动物情绪成为新兴的研究方向。随着机器学习与人工智能的发展，人们可通过机器翻译技术进行不同语言的交流，因此，该项技术使动物声音情绪识别成为可能。动物声音情绪识别在动物行为学研究、宠物叫声翻译、动物园应急报警等领域具有重要的应用价值。1997年MIT媒体实验室的Rosalind Picard教授提出“情感计算(AffectiveComputing)”的概念，目的是研究和开发出能够识别、翻译、处理和模仿人类情感反应的设备。该领域的一个分支-情感语音(Emot1nal Speech)得到快速发展,提升了人机交互的情感真实度。但针对动物声音情绪的研究甚少，英国格拉斯哥大学的Pascal Belin团队对猫和猴子叫声进行分析，并分成积极和消极两种情绪，情绪维度过少；匈牙利罗兰大学的Csaba Molnar等人应用机器学习的方法对狗的六种不同行为对应的叫声进行分析，识别率偏低；国内主要研究基于动物叫声的物种识别与个体辨认技术，动物声音情绪资源匮乏，研究进展相对缓慢。
[0003]总体来看，国外对于野外动物声音识别技术的研究已取得阶段性成果，但相关技术细节均未公开；国内尚处于实验室研究阶段，研究对象大多数仍为常见的家畜，尚未出现一款成型的可以直接使用的动物情绪类声音识别系统。

【发明内容】

[0004]本发明的目的是针对动物声音情绪的动物声音采集与特征参数的提取、动物声音特性与人类语音的差异性分析以及声音的衰减、变异加大识别难度等一系列问题，提供一种动物声音情绪识别系统及其方法，从而实现:
1、基于高斯模型的动物声音情绪识别技术，掌握动物生活习性，提出切实有效的动物保护措施；
2、特征组合和模型自增强，提高识别概率。
[0005]本发明的设计思路是:
由于存在噪音的干扰，动物声音信号的采集可能存在误差，为了提高动物情绪的声音识别率，设置Mel带通滤波器组，进行声音降噪处理。类比现代语音识别的非特定人语音识别和声纹识别技术，结合野生动物声音特性，设计基于混合高斯模型的动物声音识别技术。同时，考虑到声音的衰减、变异加大识别难度，将采用高保真音频采集器，增强声音信号。
[0006]针对声音识别的需要，首先建立动物情绪声音标准数据库，设定声音识别基准。针对特定动物，提取相应声音文件，提取梅尔-频率倒谱系数、共振峰以及过零率等特征参数，搭建动物声音的高斯混合模型，进行特征组合；其次，设计声音信号采集和处理系统，实现动物声音采集、A/D转换、预处理和特征参数提取以及声音信号的识别；针对声音识别复杂的浮点运算需求，选用DSP，对声音信号进行预处理、端点检测、特征参数提取等操作；预处理包括抗混叠滤波、模数变换、分帧和预加重；端点检测采用了短时能量和短时平均过零率的VUS算法；另外，由于梅尔-频率倒谱系数(Mel-Frequeney Cepstrum- Coeffieient,MFCC)有较好的声学特性，故选用作特征提取的参数；最后，设计无线传感器网络，实现模型的自增强，提高识别率；搭建无线传感器网络，当声音数据与模板库匹配后得到的匹配概率大于某一阈值时，将声音数据远程传输至服务器端加入至训练集，实现模型自增强。
[0007]本发明的技术方案是:
一、动物声音情绪识别系统
本系统包括音频处理装置、数据处理装置、无线传输装置和电源；
其连接关系是:
音频处理装置、数据处理装置和无线传输装置依次连接；
电源分别与音频处理装置和数据处理装置连接。
[0008]二、动物声音情绪识别方法
本方法包括模型建立、情感识别和模型自增强三个部分。
[0009]①声音数据模板库和模型的建立
对收集到的国内外开放的动物情绪声音数据，进行端点检测提取出梅尔-频率倒谱系数、共振峰和过零率三个特征参数，对提取的特征参数建立高斯混合模型，训练出动物情感声音的高斯混合模型，建立动物情感声音数据模板库；
②情绪识别
将采集到的声音信号通过抗混叠滤波、模数变换、分帧和预加重预处理以及端点检测，提取出梅尔-频率倒谱系数、共振峰和过零率三个特征参数后，对其进行特征组合，与搭建好的动物情绪声音的声学模型进行匹配得出后验概率，最后经过概率比较得到识别结果并输出；
③模型自增强
当所采集的情绪声音信号与某种情绪声音模型匹配所得到的后验概率大于设定的阈值，将该声音数据和匹配结果更新到已建好的动物情绪声音数据模板库，不断训练声学模型，实现1?型的自增强，提闻动物声首情绪的识别率。
[0010]本发明具有以下优点和积极效果:
①提供了一种对声音信号提取特征参数并进行建模的技术方案
对采集到的声音信号进行一系列的预处理、端点检测和特征参数的提取，针对特定的动物所提取该动物声音数据的MFCC特征参数，建立动物声音情绪的高斯混合模型，将处理后的声音数据样本进行模式匹配和分析；
②提供了一种特征组合提高动物声音情绪识别概率的技术方案
对所提取的声音信号的MFCC参数、共振峰以及过零率等三个特征参数，提出三特征加权法，将三种情感特征按照相应的权重组合，通过采集的模板声音数据库进行训练，确定最优加权参数；
③提供了一种应用无线传输网络传送声音数据实现模型自增强提高识别率的技术方案应用移动无线传输网络，当声音情绪识别所得到的后验概率大于某一预设阈值时，判定该声音符合模型训练条件，并将声音数据传送到服务器端加入到模板声音数据库，实现数据库和动物情绪声首I旲型的更新和增强,提闻识别率；
④适用于动物园、农林部门和野生动物保护部门对动物生活习性的及时掌控以及保护策略的制订；还适用于日常家居方便人与宠物之间的互动交流。
【附图说明】
[0011]图1是本系统的结构方框图；
图2是模型建立和情绪识别的原理说明图；
图3是数据处理芯片22的工作流程图；
图4是模型自增强的流程图。
[0012]图中:
10—音频处理装置，
11一音频采集器，12—音频输出器，
13—音频解码器；
20—数据处理装置，
21—通信接口，22—数据处理芯片，
23—闪存存储器(FLASH ROM)，24—随机存储器(SDRAM RAM),
25—JTAG仿真接口，26 — HPI主机接口，
27—外部扩展接口；
30—无线传输装置；
40 一电源。
【具体实施方式】
[0013]下面结合附图和实施详细说明:
一、系统
1、总体
如图1，本系统包括音频处理装置10、数据处理装置20、无线传输装置30和电源40 ；其连接关系是:
音频处理装置10、数据处理装置20和无线传输装置30依次连接；
电源40分别与音频处理装置10和数据处理装置20连接。
[0014]其工作机理是:
音频处理装置10受数据处理装置20的管理和控制，为数据处理装置20提供基础数据资料；
数据处理装置20对音频处理装置10和无线传输装置30进行管理和控制；
无线传输装置30的传输对象来自于数据处理装置20处理后的数据，无线传输装置30的传输过程受到数据处理装置20的管理和控制；
音频处理装置10、数据处理装置20以及无线传输装置30都由电源40供电。
[0015]2、功能部件 I)音频处理装置10
音频处理装置10包括依次连接的音频采集器11、音频解码器12和音频输出器13 ；
(I)音频采集器11
音频采集器11采用高保真型音频采集器；
对动物声音进行采集，再将采集到的动物声音数据经过音频解码器11解码。
[0016](2)音频解码器12
音频解码器13采用TI公司生产的音频处理芯片TLV320AIC34，对音频信号进行解码调制；
将采集的信号传送至数据处理装置20，或将经由数据处理装置20处理后的数据通过音频输出器12输出。
[0017](3)音频输出器13
音频输出器13采用市场上普通扬声器即可；
用于语音输出动物声音的情绪识别结果。
[0018]2)数据处理装置20
数据处理装置20包括通信接口 21、数据处理芯片22、闪存存储器23、随机存储器24、JTAG仿真接口 25、HPI主机接口 26和外部扩展接口 27 ；
其连接关系是:
数据处理芯片22分别设置有通信接口 21、JTAG仿真接口 25、HPI主机接口 26和外部扩展接口 27 ；
数据处理芯片22分别连接有闪存存储器23和随机存储器24。
[0019](I)通信接口 21
通信接口 21是一种多功能的同

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨春勇;侯金;陈少平;苏家仪;刘恒;
技术所有人：中南民族大学;
我是此专利的发明人