基于波形时频域分析的语义和声纹双重识别的方法及系统与流程

文档序号:18904288发布日期:2019-10-18 22:27阅读:274来源:国知局
基于波形时频域分析的语义和声纹双重识别的方法及系统与流程
本申请实施例涉及但不限于声音识别
技术领域
,尤其涉及一种基于波形时频域分析的语义和声纹双重识别的方法、系统及存储介质。
背景技术
:语音识别,包括声纹识别和语义识别,声纹识别是指根据语音信号中包含的个人特征分量辨认说话人的身份,其关注的是说话人的个性特征;而语义识别则是根据语音信号中包含的内容信息识别说话人的说话内容,其关注的是说话人之间的共性特征。现有的语音识别方法中,往往只提取声纹特征而不识别语义内容,或者只对语义内容进行分析而没有对语音信号中包含的其他丰富信息进行充分的挖掘,仅能实现识别个人身份或者识别语义内容的功能,但这在信息技术高速发展的今天,是远不能满足人们的使用需求的,因此迫切需要一种更好的语音识别方法,以能够满足人们在物联网时代中对各种智能设备的使用。技术实现要素:以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。一方面,本申请实施例提供了一种基于波形时频域分析的语义和声纹双重识别的方法、系统及存储介质,能够对语义和声纹进行双重识别,以提升用户的使用体验。另一方面,本申请实施例提供了一种基于波形时频域分析的语义和声纹双重识别的方法,包括:获取语音信号;基于小波时频域分析方法对所述语音信号进行降噪处理;根据经过降噪处理的语音信号建立信号时频方差图像;利用经过训练的多层感知机对所述信号时频方差图像进行处理,识别语义和声纹。进一步,所述基于小波时频域分析方法对所述语音信号进行降噪处理,包括以下步骤:对所述语音信号进行端点检测,获取所述语音信号的起点和终点,得到有用语音信号;对所述有用语音信号进行小波变换,获取所述有用语音信号在不同尺度下的初始小波系数;获取第一自适应阈值,利用所述第一自适应阈值对所述有用语音信号进行整体降噪;获取第二自适应阈值,利用所述第二自适应阈值对经过整体降噪的有用语音信号进行局部降噪;获得对应于经过降噪处理的语音信号的小波系数。进一步,所述获取第一自适应阈值,利用所述第一自适应阈值对所述有用语音信号进行整体降噪,包括:利用以下公式获取第一自适应阈值:其中,λj为尺度j上的第一自适应阈值,为尺度j上带有噪声的有用语音信号xj(n)的小波系数的标准差,为尺度j上有用语音信号sj(n)的小波系数的标准差,j>0;根据所述第一自适应阈值利用以下公式对所述有用语音信号进行整体降噪:其中,为尺度j上经过整体降噪后的有用语音信号的小波系数,sgn(·)为符号函数。进一步,所述获取第二自适应阈值,利用所述第二自适应阈值对经过整体降噪的有用语音信号进行局部降噪,包括:利用以下公式获取第二自适应阈值:其中,为尺度j上的第二自适应阈值,为尺度j上带有噪声的有用语音信号xj(n)的小波系数的方差,为尺度j上有用语音信号sj(n)的小波系数的方差,为尺度j上噪声信号vj(n)的小波系数的方差,j>0;根据所述第二自适应阈值利用以下公式对经过整体降噪的有用语音信号进行局部降噪:其中,为尺度j上经过整体降噪后的有用语音信号的小波系数,yj(n)为尺度j上经过降噪处理的语音信号的小波系数。进一步,所述根据经过降噪处理的语音信号建立信号时频方差图像,包括以下步骤:重新排布对应于经过降噪处理的语音信号的所述小波系数,建立信号时频图像,所述信号时频图像的长度对应于不同的时间,所述信号时频图像的宽度对应于不同的频段;利用滑动窗口对所述信号时频图像中不同频段的小波系数进行处理,得到对应于不同频段的小波系数方差序列,建立信号时频方差图像。进一步,所述利用滑动窗口对所述信号时频图像中不同频段的小波系数进行处理,得到对应于不同频段的小波系数方差序列,建立信号时频方差图像,包括以下步骤:设定滑动窗口的宽度和移动距离;将所述滑动窗口在所述信号时频图像的不同频段中移动,计算所述滑动窗口在各个位置时所述滑动窗口内的小波系数的方差;将所述方差按照对应的频段进行归类排列,得到对应于不同频段的小波系数方差序列;将所述小波系数方差序列按照长度对应于时间、宽度对应于频段的方式建立信号时频方差图像。进一步,所述多层感知机包括1层输入层、5层隐藏层和1层输出层,所述输出层的输出信号为包括有性别信息、年龄信息、口音信息、身份号别信息和语义号别信息的二进制编码数据。进一步,所述利用多层感知机对所述信号时频方差图像进行处理,识别语义和声纹,包括以下步骤:对多层感知机进行训练;将所述信号时频方差图像中的数据输入到所述输入层;根据所述输出层的输出信号识别语义和声纹。另一方面,本申请实施例还提供了一种基于波形时频域分析的语义和声纹双重识别的系统,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上所述的方法。另一方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上所述的方法。本申请实施例包括:利用小波时频域分析方法对语音信号进行降噪处理,以使语音信号在小波域中从一维的语音信号变换成二维的信号时频方差图像,即能够在小波域中完成对语音信号的降噪处理和对语义及声纹的特征提取,以减少系统资源的开销,实现更高效的语音信号识别过程;利用经过训练的多层感知机对信号时频方差图像进行处理,把用于图像处理的方法处理信号时频方差图像,从而在时域和频域中同时对语音信号进行细致的分析以获得更详细的关于语义和声纹的特征信息,不仅能够实现语义和声纹的双重识别,还具有较高的适应性和低计算复杂程度,适合实时系统的应用。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。图1是本申请一个实施例提供的语义和声纹双重识别系统的示意图;图2是本申请一个实施例提供的语义和声纹双重识别方法的流程图;图3是本申请另一实施例提供的语义和声纹双重识别方法中对语音信号进行降噪处理的流程图;图4a是本申请另一实施例提供的语义和声纹双重识别方法中重新排布小波系数并建立信号时频方差图像的流程图;图4b是本申请一个实施例提供的小波分解示意图;图4c是本申请一个实施例提供的信号时频图像的示意图;图4d是本申请一个实施例提供的利用滑动窗口建立信号时频方差图像的流程图;图5a是本申请一个实施例提供的多层感知机的示意图;图5b是本申请另一实施例提供的多层感知机中输出层的示意图;图6是本申请另一实施例提供的语义和声纹双重识别方法中利用多层感知机识别语义和声纹的流程图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。现有的语音识别方法中,往往只提取声纹特征而不识别语义内容,或者只对语义内容进行分析而没有对语音信号中包含的其他丰富信息进行充分的挖掘,仅能实现识别个人身份或者识别语义内容的功能,但这在信息技术高速发展的今天,是远不能满足人们的使用需求的,因此迫切需要一种更好的语音识别方法,以能够满足人们在物联网时代中对各种智能设备的使用。基于此,本申请提供了一种基于波形时频域分析的语义和声纹双重识别的方法、系统及存储介质,通过利用小波时频域分析方法对语音信号进行降噪处理,以使语音信号能在小波域中从一维的语音信号变换成二维的信号时频方差图像,即能够在小波域中完成对语音信号的降噪处理和对语义及声纹的特征提取,以减少系统资源的开销,实现更高效的语音信号识别过程;此外,通过利用经过训练的多层感知机对信号时频方差图像进行处理,把用于图像处理的方法处理信号时频方差图像,从而在时域和频域中同时对语音信号进行细致的分析以获得更详细的关于语义和声纹的特征信息,不仅能够实现语义和声纹的双重识别,还具有较高的适应性和低计算复杂程度,适合实时系统的应用。下面结合附图,对本申请实施例作进一步阐述。如图1所示,图1是本申请一个实施例提供的语义和声纹双重识别系统的示意图。本申请实施例的语义和声纹双重识别系统可以是但不限于智能手机系统、麦克风系统等能够接收语音信号的终端系统。如图1所示,该语义和声纹双重识别系统100包括:一个或多个控制处理器101和存储器102,图1中以一个控制处理器101及一个存储器102为例。控制处理器101和存储器102可以通过总线或者其他方式连接,图1中以通过总线连接为例。存储器102作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器102可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器102可选包括相对于控制处理器101远程设置的存储器,这些远程存储器可以通过网络连接至该语义和声纹双重识别系统100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。在图1所示的语义和声纹双重识别系统100中,控制处理器101可以用于调用存储器102中储存的语义和声纹双重识别程序,并执行以下步骤:步骤s100,获取语音信号。参照图2,图2是本申请一个实施例提供的语义和声纹双重识别方法的流程图,在一实施例中,可以通过麦克风或者手机咪头等声音传感器获取语音信号,继而使得控制处理器101能够执行后续的步骤,以实现对语义及声纹的识别处理。在一实施例中,优选采用16位采样精度、44.1khz采样频率的音频采样方式采集语音信号,以保证获取更多的语音信息以备进行后续的特征提取及识别操作。步骤s200,基于小波时频域分析方法对语音信号进行降噪处理。通常在采集语音信号时,往往会混入一些噪声信号到语音信号中,而这些噪声信号会对后续的处理过程产生干扰,因此,在进行语义及声纹的识别操作之前,需要对语音信号进行降噪处理。参照图2,在步骤s200的一个实施例中,采用小波时频域分析方法对语音信号进行降噪处理。小波时频域分析方法,能够提供一个随频率改变的时频窗口,能够在时域和频域中进行局部化分析,通过伸缩平移运算对语音信号逐步进行多尺度细化,最终达到高频处时间细分、低频处频率细分,从而能自动适应时频信号分析的要求,从而可聚焦到语音信号的任意细节。因此,在本实施例中,采用小波时频域分析方法,不仅能够对语音信号进行降噪处理,还能够为后续的处理操作提供必要的数据支持。步骤s300,根据经过降噪处理的语音信号建立信号时频方差图像。参照图2,在一实施例中,步骤s300和步骤s200是结合在一起的整体步骤,在步骤s200的基础上,可以使语音信号在小波域中进行相关的处理,因此,可以将一维的语音信号变换成二维的语音图像,建立信号时频方差图像,利用图像处理的方式处理语音信号,从而能够在时域和频域同时对语音信号进行细致的分析以获取更详细的特征信息,以便后续实现语义和声纹双重识别的操作。此外,由于步骤s200和步骤s300都是在小波域中进行的,因此仅需进行一次小波变换,即可进行降噪处理和特征提取处理,从而可以减少系统资源的开销,实现更高效的语义及声纹双重识别。步骤s400,利用经过训练的多层感知机对信号时频方差图像进行处理,识别语义和声纹。多层感知机是一种全连接型人工神经网络。参照图2,在一实施例中,通过多层感知机对信号时频方差图像进行处理,能够利用图像处理的方式处理语音信号,从而可以在语音波形与声纹特征及语义内容之间建立一套映射规则,不仅能够实现准确的语义及声纹双重识别,还具有较高的适应性和低计算复杂程度,适合实时系统的应用。如图3所示,在一实施例中,步骤s200包括:步骤s210,对语音信号进行端点检测,获取语音信号的起点和终点,得到有用语音信号;步骤s220,对有用语音信号进行小波变换,获取有用语音信号在不同尺度下的初始小波系数;步骤s230,获取第一自适应阈值,利用第一自适应阈值对有用语音信号进行整体降噪;步骤s240,获取第二自适应阈值,利用第二自适应阈值对经过整体降噪的有用语音信号进行局部降噪;步骤s250,获得对应于经过降噪处理的语音信号的小波系数。在一实施例中,由于后续需要使用多层感知机实现语义及声纹双重识别,而多层感知机的输入层节点数是固定的,并且输入的数据位数也是固定的,因此需要先确定语音信号中的有效语音部分,才能够实现对语音信号的准确识别。在一实施例中,步骤s210采用短时能量的方法对语音信号进行端点检测,以获取语音信号的起点和终点。短时能量方法通过逐点计算的方式确定语音信号能量,根据语音信号能量大于噪声信号能量的特点,以区分语音信号和噪声信号,从而找到语音信号的起点和终点。因此,步骤s210可以较为准确地将语音信号中有效的语音部分截取出来,从而得到有用语音信号。对一个给定的信号进行小波变换,就是将该信号按某一小波函数簇展开,即将该信号表示为一系列不同尺度和不同时移的小波函数的线性组合,其中每一项的系数称为小波系数。小波系数是一种结构化的数据,它将不同频段的数据由低到高排列,既有频率信息又包含有时间信息。而在语音信号中,语义信息主要集中在低频部分,声纹信息主要集中体现在高频部分,在不同频段上的能量分布在一定程度上反映了每个人的语音特点,因此,通过小波变换得到的小波系数,可以全面、细致地描绘语音信号的特征。所以,通过对小波系数进行相关处理,即可在时域和频域同时对语音信号进行细致的分析以获得更详细的特征信息。基于此,在一实施例中,步骤s220通过对有用语音信号进行小波变换,以获取有用语音信号在不同尺度下的初始小波系数,从而便于为后续的处理操作提供必要的数据支持。由于噪声信号大多存在于语音信号的高频部分,传统的降噪方法是通过设计低通滤波器实现信号去噪,但语音信号的细节往往又存在于高频部分,使用低通滤波的方法会丢失语音信号的细节,这对于强烈依靠信号细节的任务是非常不利的。因此,在一实施例中,通过进行小波变换,得到包含有语音信号的低频分量和高频分量的小波系数,通过设置阈值的方式对小波系数进行处理,将低于该阈值的小波系数去掉,而不是将高频部分全部滤除,可以在去除噪声信号的同时保留语音信号的高频细节,从而保证了可以获取细节更充分的有用语音信号。在一实施例中,结合小波系数的优势,先通过步骤s230对有用语音信号进行整体降噪,接着通过步骤s240对经过整体降噪的有用语音信号进行局部降噪,从而得到对应于经过降噪处理的语音信号的小波系数,保证了语音信号的纯净性。具体地,在一实施例中,步骤s230先通过以下公式获取第一自适应阈值:其中,λj为尺度j上的第一自适应阈值,为尺度j上带有噪声的有用语音信号xj(n)的小波系数的标准差,为尺度j上有用语音信号sj(n)的小波系数的标准差,j>0。接着,步骤s230根据第一自适应阈值利用以下公式对有用语音信号进行整体降噪:其中,为尺度j上经过整体降噪后的有用语音信号的小波系数,sgn(·)为符号函数。在一实施例中,步骤s240先通过以下公式获取第二自适应阈值:其中,为尺度j上的第二自适应阈值,为尺度j上带有噪声的有用语音信号xj(n)的小波系数的方差,为尺度j上有用语音信号sj(n)的小波系数的方差,为尺度j上噪声信号vj(n)的小波系数的方差,j>0。接着,步骤s240根据第二自适应阈值利用以下公式对经过整体降噪的有用语音信号进行局部降噪:其中,为尺度j上经过整体降噪后的有用语音信号的小波系数,yj(n)为尺度j上经过降噪处理的语音信号的小波系数。如图4a所示,在一实施例中,步骤s300包括但不限于以下步骤:步骤s310,重新排布对应于经过降噪处理的语音信号的小波系数,建立信号时频图像,信号时频图像的长度对应于不同的时间,信号时频图像的宽度对应于不同的频段;步骤s320,利用滑动窗口对信号时频图像中不同频段的小波系数进行处理,得到对应于不同频段的小波系数方差序列,建立信号时频方差图像。在一实施例中,当获得对应于经过降噪处理的语音信号的小波系数后,该小波系数包括一个尺度展开系数cj(k)(j=j0)和至少一个小波展开系数dj(k)(j=j0,j0+1,j0+2,...),其中,cj(k)表示语音信号的低频分量,dj(k)表示语音信号的高频分量,当有多个dj(k)时,每个dj(k)表示语音信号高频部分的不同频带信息,j越大,dj(k)表示的分量频率越高。通过重新排布小波系数,从而建立长度对应于不同的时间、宽度对应于不同的频段的信号时频图像,从而方便后续步骤的处理。以一个具体例子进行说明,参照图4b,图4b是重新排布小波系数时对小波系数进行分解的小波分解示意图,以3层小波变换为例,对信号f(t)进行3层小波分解,可以得到4组小波系数,包括1组尺度展开系数cj(k)(j=j0)和3组小波展开系数dj(k)(j=j0,j0+1,j0+2),如果信号f(t)的频率范围是0~f,则第1层小波分解的高频系数dj0+2(k)对应的频率范围就是第二层小波分解的高频系数dj0+1(k)对应的频率范围就是第3层小波分解的高频系数dj0(k)对应的频率范围就是第3层小波分解的低频系数cj0(k)对应的频率范围就是为了更加形象地表示小波分解的时频特性,参照图4c,图4c是信号时频图像的示意图。以水平方向为时间变化,竖直方向为频率变化,重新排布小波系数,可得到一幅二维的信号时频图像,即,该信号时频图像的长度对应于不同的时间、宽度对应于不同的频段。从图4c中可知,小波时频域分析方法在频率高时具有高的时间分辨率,即时间点数多;在频率低时具有高的频率分辨率,即频率间隔变小。虽然小波系数有利于在时域和频域同时对语音信号进行细致的分析以获得更详细的特征信息,但是语音信号在经过小波变换后得到的数据个数基本没有变化,而为了不丢失高频部分的信号细节,对语音信号的采样频率一般在8khz以上,即一秒钟产生至少8000个以上的数据,这需要构建一个庞大的神经网络来进行处理和分析,这对神经网络的训练和使用都是不利的。但是,由于小波变换将语音信号的不同频段的信息分离在不同尺度的小波系数中,因此可以在不同尺度的小波系数上提取出不同频段的语音特征,通过计算方差,可以用少量的数据表示大量数据的离散程度,既精简了小波系数,又能表征语音信号的变化特征。基于此,在一实施例中,结合通过重新排布小波系数而得到的信号时频图像,利用滑动窗口对信号时频图像中不同频段的小波系数进行处理,得到对应于不同频段的小波系数方差序列,建立信号时频方差图像,从而方便后续步骤的处理。如图4d所示,在一实施例中,步骤s320包括但不限于以下步骤:步骤s321,设定滑动窗口的宽度和移动距离;步骤s322,将滑动窗口在信号时频图像的不同频段中移动,计算滑动窗口在各个位置时滑动窗口内的小波系数的方差;步骤s323,将方差按照对应的频段进行归类排列,得到对应于不同频段的小波系数方差序列;步骤s324,将小波系数方差序列按照长度对应于时间、宽度对应于频段的方式建立信号时频方差图像。在一实施例中,步骤s321至步骤s324提供了一种利用滑动窗口建立信号时频方差图像的实施方式。以一个具体例子进行说明,在每一尺度的小波系数上,即在对应于每一层频率范围的小波系数上,通过一个滑动窗口,取出一段小波系数,计算滑动窗口内小波系数的方差,得到窗内小波系数的变化情况,以滑动窗口宽度的一半作为滑动窗口的移动距离,移动滑动窗口,计算下一个滑动窗口内小波系数的方差,以此类推,可得到该层频率范围内小波系数随时间的变化情况,即得到对应于该层频率范围的小波系数方差序列,通过计算不同频率范围内小波系数的方差,从而得到对应于不同频率范围的小波系数方差序列,最后将这些小波系数方差序列按照信号时频图像的样式建立信号时频方差图像,把该信号时频方差图像传递给后续的多层感知机进行处理。在一实施例中,信号时频方差图像优选根据8层小波变换的小波系数进行建立,具体地,滑动窗口的宽度和移动距离如下表1所示:表1不同层数的滑动窗口宽度与移动距离层数12345678高8低窗口宽度1684222222移动距离842111111结合上表1,在一优选实施例中,步骤s320包括但不限于如下步骤:第一步,设滑动窗口的宽度为2l,通常对于不同频段的小波系数,l的取值也不同,对高频小波系数,由于时间分辨率高,l的取值宜大,对低频小波系数,由于时间分辨率低,l的取值宜小;第二步,通过以下公式计算滑动窗口内小波系数的方差:其中,wn(i)为第n层的小波系数,mn为第n层小波系数的长度;第三步,设滑动窗口的移动距离为l,根据移动距离将滑动窗口向右移动;第四步,重复第二步和第三步,得到对应于每一层小波系数的小波系数方差序列,直到得到对应于每一层小波系数的小波系数方差序列。假设某一层小波系数的长度为10,滑动窗口的宽度为4,移动距离为2,则得到对应于该层小波系数的小波系数方差序列的计算过程可如下表2所示:表2小波系数方差序列的计算过程根据上表2可建立信号时频方差图像,通过把该信号时频方差图像传递给后续的多层感知机进行处理,即可对语音信号中的语义特征和声纹特征进行识别。由于神经网络能够模仿人类的神经系统,通过神经元对不同的输入信号所产生的不同响应来对输入信号进行处理,并且一定数量的神经元能够以某种结构连接形成人工神经网络,利用大量数据训练每个神经元的参数,使每个神经元对不同的信号产生相对应的响应,如果神经元的结构和数量合适,利用适量的数据训练出一组合适的参数,可能生成一个类似于人类听觉系统的人工神经网络,这样,包含特定语义信息和声纹特征的语音信号就可以通过人工神经网络产生相似的输出,从而可以实现声纹识别与语义识别。基于此,参照图5a,在一实施例中,采用多层感知机对信号时频方差图像进行处理,从而识别语义和声纹,其中,多层感知机包括1层输入层、5层隐藏层和1层输出层。如图5a所示,每个方格表示一个神经元,每条线代表一个突触,突触用于接收前一层神经元的输出并对其加权。此外,为了对说话人的性别、年龄、口音等特性进行绑定训练,在一实施例中,参照图5b,输出层的输出信号为包括有性别信息、年龄信息、口音信息、身份号别信息和语义号别信息的二进制编码数据。优选地,在一具体实施方式中,输出层定义了97位二进制编码输出,具体地,其中2位输出数据表示性别信息,8位输出数据表示年龄信息,8位输出数据表示口音信息,40位输出数据表示身份号别信息,40位输出数据表示语义号别信息。由于多层感知机的输出层定义了97位二进制编码输出,因此能够使语义与声纹双重识别一次精确完成,不仅大大提高了识别效率,也极大的提高了识别的准确率,通过多次大量的实验也证明了本实施例的有效性,证明了其具有较高的适应性和低计算复杂程度,适合实时系统的应用。如图6所示,在一实施例中,步骤s400包括但不限于以下步骤:步骤s410,对多层感知机进行训练;步骤s420,将信号时频方差图像中的数据输入到输入层;步骤s430,根据输出层的输出信号识别语义和声纹。在一实施例中,利用经过训练的多层感知机对信号时频方差图像进行处理,把用于图像处理的方法处理信号时频方差图像,从而在时域和频域中同时对语音信号进行细致的分析以获得更详细的关于语义和声纹的特征信息,能够实现语义和声纹的双重识别。在一实施例中,对多层感知机进行训练,可分为两步:第一步,对每个突触赋予一个权值,该权值可以是随机的,也可以根据过往的经验进行设置;第二步,将标记了目标输出结果的数据样本从输入层输入到多层感知机,经过隐藏层的运算处理,在输出层得到实际的输出结果,利用下式对实际的输出结果与目标输出结果求平方误差函数:其中,n=1,2,...,n,n为输出层的数据位数;第三步,利用下式求实际的输出结果与目标输出结果的总误差:第四步,通过下式利用均方误差对每一个突触的权值求梯度:其中,i为该突触所属神经元与所在的层,i>1且为整数,j为神经元在层中的序号,k为突触所连接前一层神经元的序号;第五步,设置一个训练因子ηi与δi,j,k相乘,得到δwi,j,k=ηiδi,j,k,通过下式得到更新后的权值为:利用上述步骤,可以在语音波形与说话人及语义内容之间建立一套映射,从而为后续实现声纹和语义双重识别的处理操作提供必要的技术支持。此外,本申请的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,被图1中的一个控制处理器101执行,可使得上述一个或多个控制处理器101执行上述方法实施例中的语义和声纹双重识别方法,例如,执行以上描述的图2中的方法步骤s100至s400、图3中的方法步骤s210至s250、图4a中的方法步骤s310至s320、图4d中的方法步骤s321至s324、图6中的方法步骤s410至s430。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1