智能语音信号模式识别系统装置的制作方法

文档序号：13941625阅读：164来源：国知局

本发明公开了一种智能语音信号模式识别系统装置，属于智能电子产品技术领域，具体地说是装备了语音采集模块、语音识别模块、控制系统及扬声器为一体的一种智能语音信号模式识别系统装置。

背景技术：

在人们的日常生活中，存在着各种各样的语号信号，如人们的交流发出的语音信号、机器运作产生的声音、播放音乐发出的声音、汽车鸣笛产生的声音等，语音信号几乎充斥了整个生活环境周围，有些时候人们希望准确的获悉和识别一组语音信号中是由哪些对象发出的。在常见的声音信号中，人们往往可以辨别出不同的声音是由什么物体发出的，但是当多种对象同时发出声音时，尤其是多个同类对象同时发声时，或者录音环境嘈杂，人们很难区别哪种声音是由哪个物体发出的，例如，在一组多人辩论现象的录音中，讲话的人数较多时，人们很难通过听录音而区分出哪些话是哪个辩手说的。因此，人们通常需要一种能够识别语音的装置。

在本发明之前，市面上也存在一些识别语音的产品，倒如一些语音输入软件等，但是大多是识别语音中的文字或字母，或者是对简单的单一语音进行配对识别，也有的可以通过对着手机等产品说话，手机识别语音语义后完成某些任务，如打电话搜索等简单任务，但是无法实现对语音特征的区别，不能准确的识别区分出相似语音或相同的词语是由哪个人或对象说出的类似问题。因此，不便于人们的灵活使用。

技术实现要素：

为了克服上述技术缺点，本发明的目的是提供一种智能语音信号模式识别系统装置，可以方便的识别和记录语音信号及提出特征参数，并通过对现有信号进行对未知语音信号进行智能模式识别、分类和提取。

为达到上述目的，本发明采取的技术方案是：包含有框体10，框体10设置有腔体，在框体10中设置有语音采集模块1、语音识别模块2、中央处理器3、无线信号收发装置4、显示屏8、存储器33、网络模块31、内存卡32、扬声器35和电源9，语音采集模块1包含有话筒11、无线对讲机12和固定录音器13，语音识别模块2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23，语音信号由语音采集模块1采集，采集到的信号由语音识别模块2处理，数据信号由存储器33保存，人机交互的操作流程以及结果的输出的可视化由显示屏8显示，扬声器35设置为对操作步骤进行语音提示及播报识别结果，网络模块31设置为将本发明与互联网云平台进行连接，中央处理器3设置为对整个系统装置的程序控制及数据运算，无线信号收发装置4设置为对无线对讲机12、智能手机、网络模块31所产生的无线电信号进行接收、发射及将本发明与互联网无线连接，内存卡32设置为将已录制的外部语音数据读入本发明数据库中。

本发明设计了，语音输入单元20设置为包含有“语音录入模式”和“语音测试模式”两种类型，可通过语音采集模块1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音，在“语音录入模式”中，语音输入单元20设置为一次只能对一个人或一个对象进行语音录入，其特征在于，录入的语音为一段5～30秒的音频信号，本发明采用多状态语音录入策略，其特征在于，录入的语音中可包含有正常讲话、唱歌或者高/中/低音的多状态组合语音，显示器8实时显示语音波形及完成进度条，录入语音完毕后需要进行数据标记，标记方法采用人工手动标记，如采集完张三的声音，即在本发明显示屏8显示的对话框中备注：“张三的声音”，保存即可，录入的语音保存在存储器33中，在“语音测试模式”下，本发明通过语音采集模块1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音，测试语音采集过程为实时采集，没有任何人数、对象和时间的限制。

本发明设计了，语音输入单元20设置为与语音采集模块1相连接，话筒11通过音频线连接到语音采集模块1，无线对讲机12通过无线电信号与语音采集模块1连接。

本发明设计了，语音采集模块1还可采用智能手机进行语音信号输入，通过用手机与本发明语音采集模块1匹配连接，匹配方式包括蓝牙、红外线、wifi以及扫描二维码进行连接，实现语音录入，相当于把手机当成无线语筒使用，更方便于多人群语音互动。

本发明设计了，语音预处理单元21把语音采集模块1采集到的语音信号转变为电信号，即将模拟信号转变为数字信号，然后进行常规的信号处理，包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。

本发明设计了，语音信号特征提取单元22设置为从原始语音信号中提取出反映语音本质的主要特征参数，形成特征向量xi，xi＝(xi1,xi2,…xij,…,xin)^t，xij表示第i个对象或个人的第j个语音特征值，特征参数提取方法优选的采用频率倒谱系数法(mfcc)，还可采用谱包络法、lpc内插法、lpc求根法、希尔伯特变换法等得到声学特征，提取特征后得到的特征向量系统将自动保存到模式类数据库中，一个对象或人的所有声音特征对应一个模式类，若录入n个人或对象的语音后，即得到n个模式类，若每个模式类有n个特征参数，即可构成n维特征空间，即标记后的特征信号集可记为d＝{(x1,y1),(x2,y2),…(xi,yi),…,(xn,yn)}，其中xi∈χ＝rⁿ，xi表示所录入的第i个对象或人的语音特征信号，yi∈y＝{1,2,…,n}，yi表示第i个人或对象，n表示第n个人或对象的数字编号，标记后的语音特征数据构成模式类数据库，并存储在本发明的存储器33中。

本发明设计了，特征匹配判别分类单元23设置为采用智能的多类分类器，分类器的学习算法设置为采用改进的神经网络分类算法，通过对已录入并标记的语音特征信号集作为训练数据，让网络模型对训练数据进行学习，得到分类规则，完成分类器的训练；然后利用已经训练好的分类器对未知的测试语音信号进行智能分类和识别；当测试信号提取特征后，本发明会自动进行特征匹配，将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入并标记好的样本语音特征参数进行特征匹配，并计算测试语音信号与所有已录入的样本语音信号的相似度，然后把测试语音信号划分到与其相似度最高的那一样本信号模式类别中，最后本发明向外界输出识别结果，“这是xxx的声音”类似的报告，例如，如果本发明已存储了张三的语音特征信号，当张三对着本发明说话或唱歌时，本发明会自动计算出张三的测试语音特征参数与已录入并标记过的张三的录入语音信号最相似，经过识别，自动输出“这是张三的声音”。

本发明设计了，多类分类器采用的多层人工神经网络结构，其特征是，网络的一端定义为输入层，另一端定义为输出层，输入层与输出层中间的部分定义为隐含层，输入层用于接收外界的输入信号，重新将输入信号发送给隐含层的所有神经元，经隐含层计算后将结果传递给输出层，输出层从隐含层接收信号，计算后输出分类结果，即识别的结果，本发明优选的隐含层的层数设置为1～200层。

本发明设计了，改进的人工神经网络分类算法训练的过程包含步骤1～7。

步骤1：网络初始化。根据语音信号录入的个数，不断更新算法数据库，当录入了n个对象的语音信号时，即构成n个模式类，得到样本空间(x,y)，第i组样本即(xi,yi)，xi表示对第i个对象所提取的特征向量集合，yi表示所标记的第i个对象；根据系统输入输出序列(x,y)确定网络输入层结点数n、隐含层结点数l、输出层结点数m，其中n值由输入信号特征提取中对应特征值的个数确定，m值由存储的语音模式类的个数确定，l的参照值为其中a的取值范围为0～10，由模型自动计算确定，初始化输入层与隐含层的神经元之间的连接权值ωij和隐含层与输出层神经元之间的连接权值ωjk，初始化隐含层阈值a和输出层阈值b，给定学习率η和神经元激励函数。

步骤2：计算隐含层的输出。根据输入变更x，输入层与隐含层的神经元的连接权值ωij，以及隐含层阈值a，计算隐含层输出h；记第j个隐含层结点的输出为hj，j＝1,2,…,l，其中l为隐含层结点数，f为隐含层激励函数，所述激励函数有多种，本发明优选的采用f(x)＝(1+e^-x)^-1。

步骤3：计算输出层的输出。根据隐含层输出h，隐含层与输出层神经元之间的连接权值ωjk，以及输出层阈值b，计算输出层输出o，记第k个输出层结点的输出为ok，k＝1,2,…,m，其中m为输出层结点数，bk为输出层第k个结点的阈值，hj为隐含层第j个结点的输出值。

步骤4：计算预测误差。根据网络预测得到的输出o和期望输出y(真值)，计算网络预测总误差e，ek为第k个输出层结点产生的误差，

步骤5：更新权值。根据网络预测总误差e更新网络连接权值ωjk和ωij，ωjk⁺＝ωjk+η·hj·ek，其中j＝1,2,…,l，k＝1,2,…,m，η为学习率，ek表示输出层结点的网络总误差对输出层网络结点k的灵敏度，其中i＝1,2,…,n，j＝1,2,…,l。

步骤6：阈值更新。根据网络预测总误差e更新隐含层阈值a和输出层阈值b，j＝1,2,…,l；bk⁺＝bk+η·ek，k＝1,2,…,m。

步骤7：判断算法迭代是否收敛，若没收敛返回步骤2，本发明优选的最小误差为0.001时结束迭代。

本发明设计了，语音采集模块1内置有语音采集卡，用于收集和处理采集到的语音信号。

本发明设计了，固定录音器13采用防风式麦克风。

本发明设计了，显示屏8采用带背景灯的触摸屏或led显示屏。

在本发明中，固定录音器13可以设置多个，布置在本发明外壳处，用于增加语音录制强度。

本发明对已录入并标记好的语音信号具有长期存储功能，凡是存储在本发明语音模式类数据库中的语音信号，本发明都可随时调取与未知测试语音进行对比识别。

本发明的使用流程是，先打开电源开关5，然后系统自动运行，显示屏8点亮并显示操作界面，人们可以选择“语音录入模式”和“语音测试模式”两种功能。

(1)当选择语音录入时，中央处理器3会控制语音输入单元20进入“语音录入模式”，显示屏8和扬声器35会同时提示“现在是语音录入模式，请说话”类似的提示，人们可通过语音采集模块1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音；为保证本发明能够准确识别和量化被识别对象的语音特征，因此在“语音录入模式”阶段每次只能对一个人或一个对象进行语音录入，由于同一人在说话和唱歌时发出的声音信号数据会存在一定的特征偏差，因此，为提高语音信号识别的准确度，本发明采用多状态语音录入策略，即录入的语音中可包含正常讲话、唱歌或者高/中/低音及其他状态下的多状态组合声音，录音时长为5～30秒，显示器8会显示语音实时波形及完成进度条，如果录制的语音不理想可以删除再次录入，录入语音完毕后需要进行数据标记，标记方法采用人工手动标记，如采集完张三的声音，即在本发明显示屏8显示的对话框中备注：“张三的声音”，保存即可，录入的语音存储在本发明的存储器33中。

(2)语音信号录入完毕后，本发明的控制系统自动将已标记的语音信号送入语音预处理单元21，语音预处理单元21把语音采集模块1采集到的语音信号转变为电信号，即将模拟信号转变为数字信号，然后进行常规的信号处理，包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。

(3)本发明的控制系统自动把已预处理后语音信号送入信号特征提取单元22，语音信号特征提取单元22从预处理后的语音信号中提取出反映语音本质的特征参数，得到特征向量xi，特征参数提取方法优选的采用频率倒谱系数法(mfcc)，还可采用谱包络法、lpc内插法、lpc求根法、希尔伯特变换法等得到声学特征，提取特征后得到的特征向量系统自动保存到模式类别库中，一个人的所有声音特征对应一个模式类，若录入n个人语音后，即得到n个模式类，若每个模式类有n个特征参数，从而得到一人对应语音信号模式类的数据库，所有的数据都存储在本发明的存储器33中，至此，语言信号录入模式内容完毕。

(4)语音录入完毕后，可进行语音测试，当进行语音测试时，只需要在显示屏8的操作界面中选择“语音测试模式”即可，中央处理器3会控制语音输入单元20进入“语音测试模式”，显示屏8和扬声器35会同时提示“语音测试中…”类似的提示，这时人们不取要做任何操作，本发明会通过语音采集模块1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音，测试语音采集过程为实时采集，没有任何时间限制和人数的限制。

(5)在“语音测试模式”下采集到的语音数据，本发明系统装置会自动地对测试语音信号进行预处理和特征提取，将采集到的语音测试信号转化为电信号，并进行常规的滤波、去除噪音、加窗函数及端点检测后进行信号特征提取。

(6)测试信号提取特征后，本发明会自动进行特征匹配，将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入的已标记好的样本语音特征参数进行特征匹配，并计算测试语音信号与所有已录入的原始语音信号的相似度，并把测试语音信号分到与其相似度最高的那一模式类别中，最后本发明向外界输出，“这是xxx的声音”类似的报告，例如，如果本发明已存储了张三的语音特征信号，当张三对着本发明说话或唱歌时，本发明经过识别，会自动输出“这是张三的声音”。

当本发明在公共场合测试时，由于测试环境中，同一时间段可能存在多个对象同时说话，即采集到的语音信号是宽带混叠的信号，为防止本发明对此时采集的语音信号特征提取时出错，本发明采用的策略在于，运用智能算法，先匹配和识别出单个人说话时的语音特征参数并进行标识和存储，然后系统再对共同说话时的语音信号进行自动筛选和分离，最后输出识别结果并报告“现在是张三、李四、王五……共同的声音”类似的提示，并提示存在xx个语音未能识别，关闭系统时按下电源关闭键6。

本发明还设计了，系统装置还可以向人们输出对多人交流环境下的识别结果清单，包含测试环境下有多少人或对象在现场说话的数量，以及筛选并播放从多人同时说话的录音中识别分离出每个人所讲的内容，而过滤掉其他人的声音和环境音。

当测试语音信号中出现了本发明未存储的标本语音信号特征时，本发明会自动记录未知的该语音信号特征，以提醒人们是否标记并存储该对象的语音信号。

附图说明

图1为本发明的结构示意图。

图2为本发明的系统框架图。

图3为本发明的多层人工神经网络示意图。

图4为本发明的语音信号改进的神经网络分类算法流程图。

具体实施方式

附图1为本发明的一个实施例，结合附图1～附图4具体说明本实施例，包含有框体10，框体10设置有腔体，在框体10中设置有语音采集模块1、语音识别模块2、中央处理器3、无线信号收发装置4、显示屏8、存储器33、网络模块31、内存卡32、扬声器35和电源9，语音采集模块1包含有话筒11、无线对讲机12和固定录音器13，语音识别模块2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23，语音信号由语音采集模块1采集，采集到的信号由语音识别模块2处理，数据信号由存储器33保存，人机交互的操作流程以及结果的输出的可视化由显示屏8显示，扬声器35设置为对操作步骤进行语音提示及播报识别结果，网络模块31设置为将本发明与互联网云平台进行连接，中央处理器3设置为对整个系统装置的程序控制及数据运算，无线信号收发装置4设置为对无线对讲机12、智能手机、网络模块31所产生的无线电信号进行接收、发射及将本发明与互联网无线连接，内存卡32设置为将已录制的外部语音数据读入本发明数据库中。

在本实施例中，语音输入单元20设置为包含有“语音录入模式”和“语音测试模式”两种类型，可通过语音采集模块1所提供的话筒11、无线对讲机12、固定录音器13及智能手机任意一种方式输入语音，在“语音录入模式”中，语音输入单元20设置为一次只能对一个人或一个对象进行语音录入，其特征在于，录入的语音为一段5～30秒的音频信号，本发明采用多状态语音录入策略，其特征在于，录入的语音中可包含有正常讲话、唱歌或者高/中/低音的多状态组合语音，显示器8实时显示语音波形及完成进度条，录入语音完毕后需要进行数据标记，标记方法采用人工手动标记，如采集完张三的声音，即在本发明显示屏8显示的对话框中备注：“张三的声音”，保存即可，录入的语音保存在存储器33中，在“语音测试模式”下，本发明通过语音采集模块1中的话筒11、无线对讲机12、固定录音器13及智能手机其中的一种或多种输入工具一同采集测试语音，测试语音采集过程为实时采集，没有任何人数、对象和时间的限制。

在本实施例中，语音输入单元20设置为与语音采集模块1相连接，话筒11通过音频线连接到语音采集模块1，无线对讲机12通过无线电信号与语音采集模块1连接。

在本实施例中，语音采集模块1还可采用智能手机进行语音信号输入，通过用手机与本发明语音采集模块1匹配连接，匹配方式包括蓝牙、红外线、wifi以及扫描二维码进行连接，实现语音录入，相当于把手机当成无线语筒使用，更方便于多人群语音互动。

在本实施例中，语音预处理单元21把语音采集模块1采集到的语音信号转变为电信号，即将模拟信号转变为数字信号，然后进行常规的信号处理，包括环境背景噪音消除、信号分帧、滤波、预加重、加窗函数及端点检测等。

在本实施例中，语音信号特征提取单元22设置为从原始语音信号中提取出反映语音本质的主要特征参数，形成特征向量xi，xi＝(xi1,xi2,…xij,…,xin)^t，xij表示第i个对象或个人的第j个语音特征值，特征参数提取方法优选的采用频率倒谱系数法(mfcc)，还可采用谱包络法、lpc内插法、lpc求根法、希尔伯特变换法等得到声学特征，提取特征后得到的特征向量系统将自动保存到模式类数据库中，一个对象或人的所有声音特征对应一个模式类，若录入n个人或对象的语音后，即得到n个模式类，若每个模式类有n个特征参数，即可构成n维特征空间，即标记后的特征信号集可记为d＝{(x1,y1),(x2,y2),…(xi,yi),…,(xn,yn)}，其中xi∈χ＝rⁿ，xi表示所录入的第i个对象或人的语音特征信号，yi∈y＝{1,2,…,n}，yi表示第i个人或对象，n表示第n个人或对象的数字编号，标记后的语音特征数据构成模式类数据库，并存储在本发明的存储器33中。

在本实施例中，特征匹配判别分类单元23设置为采用智能的多类分类器，分类器的学习算法设置为采用改进的神经网络分类算法，通过对已录入并标记的语音特征信号集作为训练数据，让网络模型对训练数据进行学习，得到分类规则，完成分类器的训练；然后利用已经训练好的分类器对未知的测试语音信号进行智能分类和识别；当测试信号提取特征后，本发明会自动进行特征匹配，将提取的测试语音信号的特征参数实时地与本发明存储器33中已录入并标记好的样本语音特征参数进行特征匹配，并计算测试语音信号与所有已录入的样本语音信号的相似度，然后把测试语音信号划分到与其相似度最高的那一样本信号模式类别中，最后本发明向外界输出识别结果，“这是xxx的声音”类似的报告，例如，如果本发明已存储了张三的语音特征信号，当张三对着本发明说话或唱歌时，本发明会自动计算出张三的测试语音特征参数与已录入并标记过的张三的录入语音信号最相似，经过识别，自动输出“这是张三的声音”。

在本实施例中，多类分类器采用的多层人工神经网络结构，其特征是，网络的一端定义为输入层，另一端定义为输出层，输入层与输出层中间的部分定义为隐含层，输入层用于接收外界的输入信号，重新将输入信号发送给隐含层的所有神经元，经隐含层计算后将结果传递给输出层，输出层从隐含层接收信号，计算后输出分类结果，即识别的结果，本发明优选的隐含层的层数设置为1～200层。

在本实施例中，改进的人工神经网络分类算法训练的过程如下：

步骤4：计算预测误差。根据网络预测得到的输出o和期望输出y(真值)，计算网络预测总误差e，ek为第k个输出层结点产生的误差，步骤5：更新权值。根据网络预测总误差e更新网络连接权值ωjk和ωij，ωjk⁺＝ωjk+η·hj·ek，其中j＝1,2,…,l，k＝1,2,…,m，η为学习率，ek表示输出层结点的网络总误差对输出层网络结点k的灵敏度，其中i＝1,2,…,n，j＝1,2,…,l。

步骤6：阈值更新。根据网络预测总误差e更新隐含层阈值a和输出层阈值b，j＝1,2,…,l；bk⁺＝bk+η·ek，k＝1,2,…,m。

步骤7：判断算法迭代是否收敛，若没收敛返回步骤2，本发明优选的最小误差为0.001时结束迭代。

在本实施例中，语音采集模块1内置有语音采集卡，用于收集和处理采集到的语音信号。

在本实施例中，固定录音器13采用防风式麦克风。

在本实施例中，显示屏8采用带背景灯的触摸屏或led显示屏。

在本实施例中，固定录音器13可以设置多个，布置在本发明外壳处，用于增加语音录制强度。

在本实施例中，系统装置还可以向人们输出对多人交流环境下的识别结果清单，包含测试环境下有多少人或对象在现场说话的数量，以及筛选并播放从多人同时说话的录音中识别分离出每个人所讲的内容，而过滤掉其他人的声音和环境音。

在内；凡是包含有框体10，框体10设置有腔体，在框体10中设置有语音采集模块1、语音识别模块2、中央处理器3、无线信号收发装置4、显示屏8、存储器33、网络模块31、内存卡32、扬声器35和电源9，语音采集模块1包含有话筒11、无线对讲机12和固定录音器13，语音识别模块2包含有语音输入单元20、语音预处理单元21、语音信号特征提取单元22、特征匹配判别分类单元23，语音信号由语音采集模块1采集，采集到的信号由语音识别模块2处理，数据信号由存储器33保存，人机交互的操作流程以及结果的输出的可视化由显示屏8显示，扬声器35设置为对操作步骤进行语音提示及播报识别结果，网络模块31设置为将本发明与互联网云平台进行连接，中央处理器3设置为对整个系统装置的程序控制及数据运算，无线信号收发装置4设置为对无线对讲机12、智能手机、网络模块31所产生的无线电信号进行接收、发射及将本发明与互联网无线连接，内存卡32设置为将已录制的外部语音数据读入本发明数据库中的技术内容都在本发明的保护范围内，应当指出，本发明保护范围不应受限于外形特征，本发明的框体10的造型可以设置为方形、圆柱形、多棱柱体形或类似于白菜、西瓜、石头等其他造型，凡是造型不同而实质的技术内容与本发明相同的一切技术内容也在本发明的保护范围之内；同时，本技术领域技术人员在本发明内容的基础上作常规的显而易见的小改进或小组合，只要技术内容包含在本发明所记载的内容范围之内的技术内容也在本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宫文峰;张泽辉;刘志勇
技术所有人：宫文峰
我是此专利的发明人

上一篇：一种教学用停电或铃声坏掉后上下课提醒设备的制作方法
上一篇：物品输送装置的制作方法