一种动态归一化数字特征的语音评分方法与装置的制作方法

文档序号：2819049阅读：478来源：国知局

专利名称：一种动态归一化数字特征的语音评分方法与装置的制作方法
技术领域：
本发明涉及声音信号处理，具体涉及利用动态归一化数字特征对跟读或模仿的语音进行评分的方法和装置。
背景技术：
语音评分系统在实际生活中有许多应用。比如说某些KTV会装有评分系统，当用户演唱完毕会给用户打分。无论是怎样的应用，基本上都是把用户的信号输入到系统后与原声进行比较，根据某个准则判断两段语音信号的相似度，给用户打分。实际应用中判断准则有很多种。目前常见的比较准则有基于音量的方法(如CN 102110435A)，基于能量的方法，还有基于音调的方法等等。基于音量的方法采集目标声音的模拟信号，将模拟信号转变为数字信号。然后计算用户声音数字信号与原音数字信号之间音量的差值，根据这个差值进行打分。差值越小则分数越高。基于能量的方法则是比较数字化的目标声音信号的能量与原唱能量之间的差距。基于音调的准则从频域的角度来考虑，比较目标声音的频率与原音频率之间的偏离程度。除此之外，还可以比较目标声音与原唱之间的相关函数的差距(如CN 102103852A)。但是，从现实的角度上讲，无论声音的音量或是能量都是对原音和目标声音之间的幅度进行比较，是从时域的角度进行比较，而语音的特性在频域上体现，因此从时域上进行比较误差较大，不足以客观地衡量原唱与目标声音之间的相似度。图I为三段相同语音不同人跟读的基音变化图，曲线I表示原音，曲线2和3表示两个目标跟读语音。若根据现有的音量、能量、频率偏差等方法来进行评分，结果是曲线2较曲线3与曲线I的相似度较高。然而实际情况是曲线3与曲线I的读音更接近，两者的动态变化规律相似。因此，用常用的音量、能量、频率偏差等静态特征来评分就不够客观。本发明针对这些不足提出了一种利用原音与目标声音的归一化动态特征进行评分的技术。声音的一个重要的声学特征是共振峰。声道可以看成是一根具有非均匀截面的声管，在发音时起共鸣器的作用。当激励进入声道时会引起共振特性，产生一组共振频率，称为共振峰频率或简称为共振峰。如图2所示一帧语音的频谱图，实线的局部最大值即是共振峰频率，是共振峰语音的一个重要的特征参数。本发明从频域的角度出发，提取原音与目标声音的归一化共振峰动态特征，进行语音评分，来消除现有评分系统采用静态特征评分带来的不足。

发明内容
本发明的目的在于克服现有评分系统采用静态特征评分带来的不足，提出了一种动态归一化数字特征的语音评分方法与装置，使用语音的归一化动态特征对目标声音进行评分，提高了评分的科学性。本发明通过如下技术方案实现。一种动态归一化数字特征的语音评分方法，包括以下步骤步骤I :对目标音进行数字化处理，处理结束后进行定位，确定目标音的最小评判单兀的起终点，分巾贞后目标音一共有K巾贞,原音以巾贞为单位一共有L巾贞；步骤2 :对原音和目标音分别使用共振峰检测算法或频率估计算法进行特征提取，得到原音和目标音的前N个共振峰频率值，分别用ω β (i，n) (I彡i彡L，I彡η彡N) 和ω _ (i，η) (I彡i彡K，I彡η彡N)表示原音和目标音第i帧的第η个共振峰频率值；步骤3 :判断原音与目标音的帧数是否相同，若相同则跳过此步骤，若不同则进行抽取和内插；取任意一个共振峰，则对于原音，这个共振峰对应一个长度为L的序列，对于目标音则对应一个长度为K的序列，利用内插和抽取消除帧数的不同，经内插和抽取之后的序列长度为Μ，对其它共振峰对应的序列进行相同的处理，分别用ω' g(i, η) (I彡i彡Μ，I彡η彡N)和ω '目标(i，η) (I彡i彡Μ，I彡η彡N)表示帧数归一化后原音和目标音第i帧的第η个共振峰频率值；步骤4 :由步骤3中帧数归一化后的频率值获取原音和目标音的动态特征，用Λ ω g (i，η)和△ ω (i，n)分别表示原音和目标音共振峰的变化，计算原音和目标音前后两个频率之间的差值Δω原=原(i+l’rO — co'原(i,n)(公式I)Acow(Ln) = CO'目标(i，n)(公式 2)其中I≤i≤M-1，I≤η≤N ;步骤5:对频率进行归一化，对于原音的第η个共振峰，归一化后的动态特征 Λω' g(i，η)，对于目标音的第η个共振峰，归一化的动态特征Λ ω' @#(i，n)，同理，对原音和目标音的其它N-I个共振峰对应的动态特征序列进行频率归一化处理；步骤6 :计算原音与目标音第η个共振峰的相似度dn，并计算原音与目标音其他各个共振峰的相似度，当 <越小时说明原音与目标音的第η个共振峰的动态特征相似度越高；反之，当dn越大时动态特征相似度越低；步骤7 :由各个共振峰的误差能判断总体的误差，实际情况下，各个共振峰的重要程度不一，不同共振峰的误差对总体的误差所造成的影响并不相等，根据各个共振峰的重要程度设置不同的权值，使用(公式6)计算总体误差
权利要求
1.一种动态归一化数字特征的语音评分方法，其特征在于包括以下步骤步骤I :对目标音进行数字化处理，处理结束后进行定位，确定目标音的最小评判单元的起终点，分巾贞后目标音一共有K巾贞,原音以巾贞为单位一共有L巾贞；步骤2 :对原音和目标音分别使用共振峰检测算法或频率估计算法进行特征提取，得到原音和目标音的前N个共振峰频率值，分别用《 g (i，n) (I≤i≤L，I彡≤≤N)和《 @ 标(i，n) (I≤i≤K，I≤n≤N)表示原音和目标音第i帧的第n个共振峰频率值；步骤3 :判断原音与目标音的帧数是否相同，若相同则跳过此步骤，若不同则进行抽取和内插；取任意一个共振峰，则对于原音，这个共振峰对应一个长度为L的序列，对于目标音则对应一个长度为K的序列，利用内插和抽取消除帧数的不同，经内插和抽取之后的序列长度为M，对其它共振峰对应的序列进行相同的处理，分别用g(i,n)(l^i^M, I < n < N)和co '目标(i,n) (I < i < M, I < n < N)表不巾贞数归一化后原音和目标音第i 帧的第n个共振峰频率值；步骤4 :由步骤3中帧数归一化后的频率值获取原音和目标音的动态特征，用△ g (i，n)和△ co @#(i，n)分别表示原音和目标音共振峰的变化，计算原音和目标音前后两个频率之间的差值A w 原(i, n) = w '原(i+l，n) - w '原(i, n)(公式I)八^巨标1^，11) = 03' _(i+l，n)_w'目标(i，n)(公式 2)其中 KiS M-I, I ≤n ≤N ；步骤5:对频率进行归一化，对于原音的第n个共振峰，归一化后的动态特征Aco' g (i，n)，对于目标音的第n个共振峰，归一化的动态特征Aco' (i，n)，同理，对原音和目标音的其它N-I个共振峰对应的动态特征序列进行频率归一化处理；步骤6 :计算原音与目标音第n个共振峰的相似度dn，并计算原音与目标音其他各个共振峰的相似度，当dn越小时说明原音与目标音的第n个共振峰的动态特征相似度越高；反之，当dn越大时动态特征相似度越低；步骤7 由各个共振峰的误差能判断总体的误差，实际情况下，各个共振峰的重要程度不一，不同共振峰的误差对总体的误差所造成的影响并不相等，根据各个共振峰的重要程度设置不同的权值，使用(公式6)计算总体误差
2.根据权利要求I所述一种动态归一化数字特征的语音评分方法，其特征在于步骤2 中，采用倒谱法检测峰值，由于倒谱会出现相位卷绕的情况，因此采用同态解卷技术，经过同态滤波后得到平滑的谱，这样简单地检测峰值就能直接提取共振峰参数。
3.根据权利要求I所述一种动态归一化数字特征的语音评分方法，其特征在于步骤3 中，抽取与内插的方法采用线性插值或高次样条插值。
4.根据权利要求3所述一种动态归一化数字特征的语音评分方法，其特征在于步骤3 中抽取与内插的方法采用线性插值，对原音和目标音先进行内插操作，取每一帧的第i个共振峰频率，得到关于原音的一个长度为L的序列，根据目标音得到一个长度为K的序列；在序列每两个点之间插入M-I个点，则内插后原音的第i个共振峰对应的序列长度为LXM，目标音的长度为KXM，对内插后的数据进行抽取；对原音的序列每L个点取一个值，对目标音每K个点取一个值；经过内插和抽取后原音和目标音的长度相同，均为M ;1 < i < M ;对每一个共振峰对应的序列都进行相同的操作。
5.根据权利要求I所述一种动态归一化数字特征的语音评分方法，其特征在于步骤5 中所述归一化的方法采用最大值归一化、均值归一化或能量归一化。
6.根据权利要求5所述一种动态归一化数字特征的语音评分方法，其特征在于步骤5 中所述归一化的方法采用最大值归一化，先对第η个共振峰的动态特征序列进行处理，选取原音的动态特征序列中的最大值 )}，以这个最大值为基准，其它频率值按其与最大频率的比值取值
7.根据权利要求I所述一种动态归一化数字特征的语音评分方法，其特征在于步骤6 中由于取前N个共振峰，故原音与目标音各有N个长度为M-I的归一化动态特征序列，比较这N个序列之间的相似度即可给用户打分，使用(公式5)进行相似度评判
8.实现权利要求I所述评分方法的评分装置，其特征在于包括顺次信号连接的数字化模块、分帧模块、计算模块、比较模块和显示模块，所述数字化模块接收目标音信号，目标音经过数字化模块和分帧模块后进入计算模块，计算模块接收原音信号，原音和目标音在计算模块中分别提取归一化的动态特征，将这些归一化后的动态特征输入到比较模块进行比较，最终结果输出到显示模块。
9.根据权利要求8所述的评分装置，其特征在于还包括USB模块和目标音输入模块，目标音从输入模块输入，原音通过USB模块输入。
10.根据权利要求9所述的评分装置，其特征在于所述分帧模块、计算模块、比较模块采用DSP或ARM芯片实现，所述输入模块包括麦克风，所述数字化模块采用A/D转换芯片，原音通过USB模块直接输入到DSP或ARM芯片中，目标音则从麦克风输入，先经A/D转换芯片输入到DSP或ARM芯片中，经DSP或ARM芯片对目标音分帧、特征提取、帧数归一化、动态特征提取和频率归一化，得到两组动态特征数据再进行误差估计和评分，结果最终输出到显示模块上。
全文摘要
本发明公开一种动态归一化数字特征的语音评分方法与装置，所述评分方法包括对目标音进行数字化处理后进行分帧；提取原音和目标音的动态特征，得到若干组动态特征序列，对这些序列进行归一化操作得到归一化的动态特征；计算原音与目标音各个共振峰的相似度，计算出原音与目标音之间的误差，由各个共振峰的误差能判断总体的误差，根据总体误差进行评分。所述装置包括顺次信号连接的数字化模块、分帧模块、计算模块、比较模块和显示模块。本发明装置结构简单，按照方便，从频域的角度出发，提取原音与目标声音的归一化共振峰动态特征，进行语音评分，来消除现有评分系统采用静态特征评分带来的不足，评分结果更为客观。
文档编号G10L25/90GK102592589SQ20121004264
公开日2012年7月18日申请日期2012年2月23日优先权日2012年2月23日
发明者宁更新, 林广超, 韦岗申请人:华南理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：宁更新;林广超;韦岗
技术所有人：华南理工大学
我是此专利的发明人

上一篇：一种基于最大矩阵对角率的欠定盲分离方法
上一篇：一种可任意调节的语音自然变声方法及装置的制作方法