技术简介:
本专利针对汉语语音识别中音调抽取的高延迟问题,提出基于局部优化动态编程的音调路径跟踪方法。通过预计算抗偏自相关、定义受限目标函数、创新强度计算模型,结合平滑与归一化处理,在保证精度的同时显著降低时间延迟,提升实时识别效率。
关键词:音调抽取,动态规划,实时处理
专利名称:用于汉语语音音调抽取的方法和系统的制作方法
技术领域:
本发明涉及语音识别领域。更具体地说,本发明涉及一种方法和系统,用于在语音识别中使用局部优化动态编程音调(pitch)路径跟踪(path-tracking)来进行汉语语音音调抽取。
背景技术:
音调抽取在多种语音处理系统中都是非常重要的组成部分。除了提供对产生语音的激励源的特征的有价值的深入研究之外,说话的音调曲线对识别讲话者来说也很有用,因而在几乎所有的语音分析合成系统中都是必需的。由于音调抽取的重要性,在语音识别领域已经提出了很多种用于音调抽取的方法和系统。
基本上,用于音调抽取的方法或系统进行发音/不发音(voiced/unvoiced)判断,并在发音语音期间提供对音调周期(pitch period)的测量。用于音调抽取的方法和系统大致可划分成下述3个宽泛的类别1.原理上利用语音信号的时域特性的组。
2.原理上利用语音信号的频域特性的组。
3.同时利用语音信号的时域和频域特性的组。
时域音调抽取器直接对语音波形进行操作,以估计音调周期。对于这些音调抽取器,最经常进行的测量有峰谷测量、越零(zero-crossing)测量和自相关(auto-correlation)测量。所有这些情形下所作出的基本假设是如果已合适地处理了准周期性信号以将格式结构的影响最小化,则简单的时域测量将可提供对所述周期的良好的估计。
频域音调抽取器这一类别使用了下述特性,即如果信号在时域上是周期性的,则信号的频谱将由基频及其谐波处的一系列冲激组成。因此,可对信号的频谱进行简单的测量以估计信号的周期。
混杂式音调抽取器这一类别同时包含了时域和频域方法的特性以进行音调抽取。例如,混杂式抽取器可能使用频域技术来提供频谱平坦的时间波形,然后使用自相关测量来估计音调周期。
虽然上述用于音调抽取的传统方法和系统是精确且可靠的,但它们只适用于特性分析,而不适用于实时语音识别。另外,由于多数欧洲语言和汉语的区别,对于汉语语音音调抽取来说需要考虑一些特殊的方面。
对比于多数欧洲语言,汉语普通话使用声调(tone)来用于词汇区分。声调在整个音节上持续。有5种词汇声调,它们在含义的歧义消除中起着重要作用。这些声调的直接声学表示是图1所示的音调曲线变动模式。声调最直接的声学体现是基频。因此,对于汉语语音音调抽取来说,应考虑基频的影响。
Paul Boersma的题为“Accurate short-term analysis of the fundamentalfrequency and the harmonics-to-noise ratio of a sampled sound”的文章,IFAProceedings 17,1993,pp.97-110,给出了一种详细而先进的基于基频处理的音调抽取方法。Paul Boersma的文章的主要概念包括抗偏自相关(anti-biasauto-correlation)和维特比(viterbi)算法(动态编程)技术,其将发音/不发音判断、音调候选者估计器以及最佳路径获得(best path finding)集成到一趟(one pass)处理中,可有效地提高抽取精确度。
然而,Paul Boersma的全局优化动态编程语音路径跟踪由于时间延迟而不适用于实际应用。音调抽取的时间延迟取决于两个因素其一是CPU计算能力,另一个是算法结构问题。像在Paul Boersma的算法中那样,如果当前窗(帧)中的音调抽取依赖于后面的窗(帧),则无论CPU速度如何,系统都将有响应的结构性延迟。例如,在Paul Boersma的算法中,如果语音长度是L秒,则结构性时间延迟是L秒。对于实时语音识别应用,这有时是不可接受的。因此,对本领域内的技术人员来说,很明显需要一种改进的方法和系统。
发明内容本发明公开了若干用于汉语语音音调抽取的方法和装置,其使用局部优化动态编程音调路径跟踪,以满足实时语音识别应用的低时间延迟需求。
在本发明的一个方面中,提出了一种示例性方法,该方法包括预计算哈明(Hamming)窗函数的抗偏自相关;至少对于一个帧,将第一候选者保存为不发音候选者,并从抗偏自相关函数检测其他发音候选者;基于所述不发音和发音候选者,根据发音/不发音强度函数来计算音调路径的成本值,并保存预定数量的最小成本路径;以及以低时间延迟来输出多个邻接帧的至少一部分。
在一个具体实施例中,所述方法包括从语音信号中去除全局和局部DC(直流)分量。在另一个实施例中,所述方法包括将语音信号分段为多个帧,并且对于每个帧,计算频谱、功率谱和自相关。在另一个实施例中,所述方法包括执行MFCC(Mel频标倒谱系数)抽取。
本发明包括执行这些方法的装置和当在数据处理系统上执行时使得所述系统执行这些方法的计算机可读介质。本发明的其他特征从附图和下面的描述中将是很清楚的。
参考附图,将可更充分地理解本发明的特征,其中图1示出了普通话中的5种主要词汇声调;图2示出了一种动态搜索处理;图3示出了语音曲线的平滑处理;图4是下述方法的一个实施例的流程图,该方法用于根据本发明来进行汉语语音音调抽取;图5是图4的方法的更详细的方案的流程图;图6是下述方法的一个实施例的框图,该方法用于根据本发明来进行汉语语音音调抽取;并且图7是可用于本发明的计算机系统的框图。
具体实施例方式在下面的详细描述中,给出了大量的具体细节,以提供对本发明的透彻理解。然而,本领域内的技术人员将会认识到,本发明不应局限于这些具体细节。
图7示出了可用于本发明的典型计算机系统的一个示例。注意,尽管图7示出了计算机系统的多种组件,然而它不应代表任何特定的体系结构或互连所述组件的方式,因为这些细节对本发明来说并没有密切关系。还将会认识到,具有更少组件或可能具有更多组件的网络计算机以及其他数据处理系统也可用于本发明。例如,图7的计算机系统可以是AppleMacintosh或IBM兼容计算机。
如图7所示,计算机系统700具有数据处理系统的形式,并包括总线702、ROM 707、易失性RAM 705和非易失性存储器706,总线702耦合到微处理器703。微处理器703可以是Intel公司的Pentium微处理器,其耦合到缓存704,如图7的示例所示。总线702将这些各种组件互连起来,并将这些组件703、707、705和706互连到显示控制器和显示设备708,以及外围设备例如输入/输出(I/O)设备,所述外围设备可以是鼠标、键盘、调制解调器、网络接口、打印机以及本领域公知的其他设备。一般地,输入/输出设备710通过输入/输出控制器709耦合到系统。易失性RAM 705一般实现为动态RAM(DRAM),其持续地需要电源以刷新或保持存储器中的数据。非易失性存储器706典型地是磁性硬盘驱动器、磁光驱动器、光驱动器、DVD RAM或即使从系统去除电源时也可保持数据的其他类型的存储系统。一般地,非易失性存储器也可是随机访问存储器,尽管这不是必需的。尽管图7示出了非易失性存储器是直接耦合到数据处理系统中其余组件的本地设备,但可认识到,本发明也可利用远离系统的非易失性存储器,例如通过网络接口如调制解调器或以太网接口而耦合到该数据处理系统的网络存储设备。总线702可包括通过各种桥接器、控制器和/或适配器而彼此连接的一条或多条总线,如本领域内所公知的那样。在一个实施例中,I/O控制器709包括用于控制USB外设的USB(通用串行总线)适配器。
本发明涉及用于汉语语音音调抽取的方法和系统,其使用局部优化动态编程音调路径跟踪,以满足许多实时语音识别应用的低时间延迟需求。
本发明使用了精确的自相关估计,以及低时间延迟的局部优化动态音调路径跟踪处理,可确保音调变动的平滑。利用本发明,语音识别器可有效地利用音调信息,并提高具有声调的语言例如汉语的语音识别的性能。而且,本发明结合了考虑Mel频标倒谱系数(MFCC)特征抽取的计算流,其中MFCC特征抽取是所有语言语音识别最常采用的特征。因此,语音特征抽取中计算资源增加得相对较小。
根据本发明的语音识别中的汉语语音音调抽取方法可包括下述主要组成部分预处理预计算哈明窗函数的抗偏自相关,进行语音的哈明窗化以用于短期分析,并去除全局和局部DC分量;音调候选者估计对于每个帧,将第一候选者保存为不发音候选者,并从抗偏自相关函数检测其他发音候选者;以及局部优化动态编程音调路径跟踪当接收到新的语音帧时,根据发音/不发音强度函数和传输成本函数,对每个可能的音调路径计算成本值,在路径栈中保存预定数量的最小成本路径,并以低时间延迟连续输出多个帧。
根据本发明的语音识别中的汉语语音音调抽取系统包括下述组件预处理器包括用于计算哈明窗函数的抗偏自相关的预计算器,包括用于进行语音的哈明窗化以用于短期分析的哈明窗化处理器,还包括用于去除全局和局部DC分量的处理器;音调候选者估计器对于每个帧,将第一候选者保存为不发音候选者,并从抗偏自相关函数检测其他发音候选者;以及局部优化动态编程处理器当接收到新的语音帧时,根据发音/不发音强度函数来对每个可能的音调路径计算成本值,传输(transmit)所述成本函数,在路径栈中保存预定数量的最小成本路径,并以低时间延迟连续输出多个帧。
如图4所示,本发明用于汉语语音音调抽取的方法包括下述组成部分
预处理410对于这一语音识别应用,由于在这一情形下Mel频标倒谱系数(MFCC)特征分析是必需的,因此预处理包括哈明窗函数的自相关的预计算、对语音进行哈明窗化以用于短期分析、全局和局部DC分量的去除等等。所述创造性方法使用抗偏自相关函数,它是修正的自相关函数。我们采用这一函数来执行基于自相关的音调抽取,因为它比通常的自相关函数更精确。
音调候选者估计器420对于每个帧,所述创造性方法包括将第一候选者保存为不发音候选者,它总是会出现。从抗偏自相关函数检测到其他K个发音候选者。在这一应用中,对每一个候选者都定义了合理的强度值。
局部优化动态编程音调路径跟踪430原理上,语音中连续的帧上音调值不会出现剧烈的变化。基于这一原理并考虑人类语音的音调值范围的有限性,设计了一个成本函数来用于音调路径。当接收到新的语音帧时,对每个可能的音调路径计算成本值,在路径栈中保存N个最小成本路径,并以低时间延迟连续输出多个帧。
音调曲线的平滑和音调归一化440在汉语语音识别系统中,将初始/最终阶段作为普通话的建模单元。由于多数初始阶段是不发音语音而大多数最终阶段是发音语音,因此在音调曲线的初始/最终阶段之间存在音调的不连续性。对音调曲线进行平滑,以满足隐式马尔可夫模型(HMM)建模需求。由于在聚类算法(clustering algorithm)中的动态范围非常重要,因此我们通过划分平均音调来将音调归一化到0.7-1.3的范围,以用其他特征维度来平衡聚类算法。
本发明在此描述的最后两个组成部分是专门为语音识别的需求而设计的。
在一个实施例中,本发明基本上集中于1)局部优化动态编程音调路径跟踪(上述)传统的Paul Boersma音调抽取的主要优点之一在于引入了全局动态编程,用于在从下述等式计算的音调候选者矩阵中获得最佳路径p=argMaxR(i),i=1,...,N-1
其中,R(i)代表第i个自相关系数。
为了进行更精确的发音/不发音判断,Boersma利用了全局音调路径跟踪算法来进行发音/不发音判断。为此,Boersma的算法分别对每个帧保留了一个不发音候选者C0,并保留了K个发音候选者。对应于该不发音候选者的频率定义为0F(C0)=0。另外,所述算法分别为不发音候选者C0和发音候选者定义了强度。
在上述框架中,两个因素导致了音调抽取的结构性延迟。一个是参数NormalizedEnergy(归一化能量)。NormalizedEnergy是该帧的全局归一化的能量值,其中NormalizedEnergy用来测量不发音候选者的强度。这在具有噪音的环境中提高了我们的音调抽取器的鲁棒性,尤其是当噪音具有脉冲的形式时。然而,计算全局归一化的能量值延迟了音调抽取。另一个导致结构性延迟的因素是对最佳路径的全局搜索。只有当可检测到语音的结束时才可最终确定最佳路径并进行回溯。如果语音长度是N个帧,则这两个因素导致了N个帧的时间延迟。
在全局搜索算法中,将音调路径保存在M×N矩阵中,如图2所示。这一矩阵的每一个元素表示音调值。该矩阵的每一行表示候选音调路径。根据当前的路径成本,对该矩阵的所有M个音调路径进行降序排序。当接收到第i个帧语音信号时,根据下述公式,对现有路径的每个可能的扩展计算路径成本PathCost{Pathi-1m,Cik},对于所有的m=1...M,k=1...K其中,Pathi-1m,m=1...M是存在于时间i-1处的路径,而Cik,k=1...K是第i个帧的检测到的候选者。系统选择M个最小成本路径,对它们进行降序排序,在这M个路径中剪除一部分,并将它们插入到音调路径矩阵中。当i=N时,输出音调路径矩阵中最顶部的原始候选者,它是全局优化的。
然而,本发明的局部优化音调路径跟踪算法检查连续的L个帧(例如从t=i-(L-1)到t=i)之间的最佳路径中的元素的变动。如果最佳路径中的元素对于连续L个帧没有变化,则我们输出连续的元素并清除音调路径矩阵和路径的一部分。
在我们的实验中,观测到L=5一般足够了,并且音调输出的延迟约在10个帧;因此本算法引起的延迟很小。在我们的系统中,平均延迟时间约为120ms。
为了满足实时应用的需求,我们如下修正了全局归一化能量值NormalizedEnergy=EnergyOfThisFrame/MaximumEnergy(EnergyOfThisFrame本帧的能量;MaximumEnergy最大能量)其中MaximumEnergy是从以前的历史中计算出的运行时最大能量值,并且当帧音调输出可用时进行更新。
使用上述局部优化搜索,精度没有损失。而且,在此描述的本发明的系统和方法减少了存储器成本。
2)更受限的目标函数为了提高精度并节省计算资源,我们可以将检测合理地限制在范围[Fmin,Fmax]中。即,当我们获得局部最大值R*(m)的位置和高度时,可认为是最大值的位置只能是那些产生[Fmin,Fmax]之间的音调的位置。在我们的算法中,Fmin=100Hz,Fmax=500Hz,就人类发音的特性来说这一限制是合理的。
由于在语音信号中总是存在谐波频率,因此我们应该倾向于较高的基频。因此,我们不能将局部最大值R*(m)直接用作为发音候选者的强度值。我们提出了一种新的发音和不发音强度计算以及传输成本计算的方法如下不发音强度计算公式I(C0)=VoicingThreshold+(1.0-NormalizedEnergy)2(1.0-VoicingThershold)]]>(VoicingThreshold发音阈值)发音强度计算公式I(Ck)=R*(mk)*(MinimumWeight+log10[(F(Ck)-Fmin]log10[(Fmax)-Fmin]*(1.0-MinmumWeight))]]>(MinimumWeight最小权重)传输成本计算公式TransmitCost(Fi-1,Fi)=TransmitCoefficientlog10(1+|Fi-1-Fi|)(TransmitCost传输成本;TransmitCoefficient传输系数)我们采用音调路径的路径成本函数进行计算,直到第i个帧,如下述公式Cost{path}=Σi=2numberofframesTransmitCost(Fi-1,Fi)-Σi=1numberofframesIi]]>(Cost成本;path路径;numberofframes帧数量)通过将音调范围限制到实际人类语音中的通常范围,所述路径跟踪算法可以更精确地抽取音调。
3)后期处理音调曲线的平滑和归一化音调曲线的平滑提高了声学建模的鲁棒性,并降低了整个系统的敏感度。在C.Julian Chen,et al.,“New methods in continuous Mandarin speechrecognition”,EuroSpeech 97,pp.1543-1546的方法中,提出了一种指数函数。对于以前的一些传统音调抽取算法,发音/不发音判断不是非常可靠。在不发音段和发音段之间的转换期间经常存在一些不期望出现的音调脉冲。所述指数函数对于平滑这些不可靠的音调值来说可能是有用的,但是,当发音/不发音判断非常可靠时,该指数平滑函数的优点就消失了。而且,指数平滑将会损害可靠的音调曲线,并使得音调曲线过于平滑,从而损害了音调模式的区分性特性。在本发明中,我们直接限制了发音区域的音调值。
如图3所示,对于不发音区域,被平滑的音调值是P(t)=P(ts)+t-tste-ts[P(te)-P(ts)]]]>在此,发音音调在平滑期间保持不变,而不发音部分将在其邻近的发音音调值期间都保持为噪音值。再一次地,我们发现如果来自局部优化路径的输出的最终元素是不发音帧,则我们将由于平滑需求而得到了额外的时间延迟。因此,在本发明的一个实施例中,我们修改了局部优化搜索算法,以搜索在连续的L个帧之内保持不变的最后的发音元素,同时输出这一元素之前的所有元素。按照这种方式,我们可以容易地平滑所有不发音帧的音调曲线,而不会在平滑部分中产生任何额外的延迟。一般地,局部优化搜索中由于等待发音帧而产生的时间延迟增加到约为12个帧。对于多数语音识别应用来说这一水平的延迟是很可以接受的。
在传统的语音识别系统中,使用了不同级别的多种聚类算法,MFCC特征值通常在(-2.0,2.0)之间。这样,需要音调归一化来提高语音识别精度。考虑实时需求,如下计算归一化的音调值NormalizedPitchValue=PitchValue/AveragePitchValue(NormalizedPitchValue归一化的音调值;PitchValue音调值;AveragePitchValue平均音调值)在此,“平均音调值”是从以前的历史中计算的运行时平均值,并且当输出一些音调帧段时连续地更新。基于5种词汇声调的音调变动范围,归一化的音调范围一般在(0.7,1.3)之间。
由于本发明中使用的局部优化搜索,时间延迟减小了。由于局部优化搜索中所需的短栈,搜索空间和存储器需求也减小了。这对分布式语音识别(DSR)客户的情形来说尤其重要,因为典型的移动设备通常是存储器敏感并且是计算敏感的。而且,本发明使得与平滑和归一化的局部化相关联的任何延迟都变得非常可控制。在一个实施例中,通过划分音调值的移动平均值,音调值被归一化到0.7-1.3的范围。
如上所述,本发明包括局部优化搜索以及对应的音调值后期处理。
图5示出了本发明的系统和方法的更详细的流程图。参考图5,下面将更详细地描述本发明的处理和系统的每个组成部分。
1.计算哈明窗的自相关函数Rw(m)=1NΣn=0N-1-|m|hamming(n)hamming(n+m)]]>哈明窗的长度N对应于24ms。
2.去除全局DC分量在成帧之前,对输入语音信号sin施加陷波滤波(notch filtering)操作,以去除它们的DC偏移,获得没有偏移的输入信号sof(方框510)。
sof(n)=sin(n)-sin(n-1)+0.999*sof(n-1)3.将语音信号分段成帧(方框515)。在一个实施例中,帧长是24ms,帧平移步阶是12ms。
4.计算每个帧的归一化能量(方框515)。
5.对于i=1总帧数,进行下述步骤·去除第i个帧的局部DC分量(方框520)。
·增加第i个帧的哈明窗(方框520)。
xi(n)=x(n)*hamming(n-i*N)·计算第i个帧的快速傅立叶变换(FFT)(方框525)。
Hi(ω)=FFT(xi(n))·计算第i个帧的功率谱(方框530)。
Pi(ω)=Hi2(ω)·进行IFFT(逆快速傅立叶变换),获得第i个帧的自相关(方框535)R^i(m)=IFFT(Pi(ω))]]>·计算第i个帧的的抗偏自相关(方框540)。
R*i(m)=R^i(m)/R^i(0)Rw(m)/Rw(0)]]>·音调候选者估计器(方框545)设置保留的不发音候选者,计算其强度I(C0)。
从局部最大值R*i(m)检测最高K个候选者Ck,k=1,2,...,K,计算它们的频率F(Ck)和强度I(Ck)。
·局部优化音调路径跟踪和后期处理(方框550)如果在时间i-1,存在M个排序路径Pathi-1m,(m=1,···,M).]]>在时间i,当第i个帧语音信号到来时,我们通过下述成本函数来扩展音调路径PathCost{Pathi-1m,Cik},]]>对于所有的m=1,...,M,k=1...,K降序排列所扩展的路径,并剪除M阶之外的路径。我们得到Pathim,m=1,...,M取得最佳路径,我们构建如下的序列Path11,Path12,...,Pathi1在此Pathi1={Pi1,Pi2,···,PiNi}]]>在Pathi1中寻找满足下述要求的最后一个音调元素Pih1)发音(意味着Pih≠0)2)在最佳路径序列中从t=i-(L-1)到t=i,Pih保持不变。
如果获得了Pih,则进行下述步骤(方框560)输出Pi0…Pih清除部分路径缓冲区如果存在不发音区域则进行平滑执行归一化如下更新(MaximumEnergy,NormalizedEnergy)和AveragePitch(平均音调)MaximumEnergy=max(MaximumEnergy,EnergyOfOutputedFrames)NormalizedEnergy=EnergyOfFramesInThePathBufferMaximumEnergy]]>AveragePitch=AveragePitch+AveragePitchOfOutputedFrames2]]>(EnergyOfOutputedFrames输出帧的能量,EnergyOfFramesInThePathBuffer路径缓冲区中的帧的能量,AveragePitchOfOutputedFrames输出帧的平均音调)否则继续(continue)。
·如果这是最后帧,则输出路径栈中的最小成本路径,并终止音调抽取处理(方框560)。
图6是根据本发明一个实施例的汉语语音音调抽取系统的框图。该系统包括预处理器(610);音调候选者估计器(615);局部优化动态编程处理器(620);用于对音调曲线进行平滑的平滑处理器(625);和音调归一化处理器(630)。最后两个组件(625和630)是为语音识别的需求而专门设计的。
如上所述,我们的发明使用了局部优化动态编程音调路径跟踪而不是全局音调跟踪来满足许多实时语音识别应用的低时间延迟需求。为了保持精确度,我们定义了音调路径的更为受限的目标函数。我们使用一种新方法来测量每个音调候选者的强度,并使用一种新方法来计算发音候选者的频率权重。所有这些修正都使得发音/不发音判断更为可靠,并且使得所得到的音调抽取更为精确。本发明还减少了存储器成本。本发明所提供的所有修正都有助于提高实时语音识别器的性能和可行性,尤其是在DSR客户应用中。
这样,本发明描述了一种汉语语音音调抽取系统和方法,其使用局部优化动态编程音调路径跟踪,以满足许多实时语音识别应用的低时间延迟需求。
权利要求1.一种汉语语音音调抽取方法,包括预计算哈明窗函数的抗偏自相关;至少对于一个帧,将第一候选者保存为不发音候选者,并从所述抗偏自相关函数检测其他发音候选者;以及基于所述不发音和发音候选者,根据发音/不发音强度函数来计算音调路径的成本值,保存预定数量的最小成本路径,并以低时间延迟来输出多个邻接帧的至少一部分。
2.如权利要求1所述的方法,还包括对音调曲线进行平滑以满足建模需求。
3.如权利要求1所述的方法,还包括将音调曲线归一化以满足聚类算法平衡。
4.如权利要求1所述的方法,其中所述不发音强度函数是I(C0)=VoicingThreshold+(1.0-NormalizedEnergy)2(1.0-VoicingThreshold);]]>并且所述发音强度函数是I(Ck)=R*(mk)*(MinimumWeight+log10[(F(Ck)-Fmin)]log10[(Fmax)-Fmin]*(1.0-MinimumWeight)).]]>
5.如权利要求1所述的方法,还包括根据传输成本函数计算音调路径的成本值,其中所述传输成本函数是TransmitCost(Fi-1,Fi)=TransmitCoefficientlog10(1+|Fi-1-Fi|)。
6.如权利要求1所述的方法,还包括去除全局和局部直流分量。
7.如权利要求1所述的方法,其中所述抗偏自相关函数是Rw(m)=1NΣn=0N-1-|m|hamming(n)hamming(n+m).]]>
8.如权利要求1所述的方法,还包括给每个候选者指定强度值。
9.如权利要求6所述的方法,其中所述去除是通过陷波滤波操作进行的。
10.如权利要求1所述的方法,还包括将语音信号分段为多个帧。
11.如权利要求4所述的方法,还包括基于人类发音特性,定义所述Fmax和Fmin。
12.如权利要求10所述的方法,对于每个帧,所述方法还包括通过快速傅立叶变换计算频谱;计算功率谱;以及通过逆快速傅立叶变换计算自相关。
13.如权利要求1所述的方法,还包括执行Mel频标倒谱系数抽取。
14.一种汉语语音音调抽取系统,包括预处理器,用于预计算哈明窗函数的抗偏自相关;音调候选者估计器,用于至少对于一个帧,将第一候选者保存为不发音候选者,并从所述抗偏自相关函数检测其他发音候选者;以及局部优化动态处理器,用于基于所述不发音和发音候选者,根据发音/不发音强度函数来计算音调路径的成本值,保存预定数量的最小成本路径,并以低时间延迟来输出多个邻接帧的至少一部分。
15.如权利要求14所述的系统,还包括平滑处理器,用于对音调曲线进行平滑以满足建模需求。
16.如权利要求14所述的系统,还包括归一化处理器,用于将音调曲线归一化以满足聚类算法平衡。
17.如权利要求14所述的系统,其中所述不发音强度函数是I(C0)=VoicingThreshold+(1.0-NormalizedEnergy)2(1.0-VoicingThreshold);]]>并且其中所述发音强度函数是I(Ck)=R*(mk)*(MinimumWeight+log10[(F(Ck)-Fmin)]log10[(Fmax)-Fmin]*(1.0-MinimumWeight)).]]>
18.如权利要求14所述的系统,其中所述局部优化动态处理器还根据传输成本函数计算音调路径的成本值,其中所述传输成本函数是TransmitCost(Fi-1,Fi)=TransmitCoefficientlog10(1+|Fi-1-Fi|)。
19.如权利要求14所述的系统,其中所述预处理器还去除全局和局部直流分量。
20.一种机器可读介质,其上存储有可执行代码,所述代码使得机器执行一种汉语语音音调抽取方法,该方法包括预计算哈明窗函数的抗偏自相关;至少对于一个帧,将第一候选者保存为不发音候选者,并从所述抗偏自相关函数检测其他发音候选者;以及基于所述不发音和发音候选者,根据发音/不发音强度函数来计算音调路径的成本值,保存预定数量的最小成本路径,并以低时间延迟来输出多个邻接帧的至少一部分。
21.如权利要求20所述的机器可读介质,其中所述方法还包括对音调曲线进行平滑以满足建模需求。
22.如权利要求20所述的机器可读介质,其中所述方法还包括将音调曲线归一化以满足聚类算法平衡。
23.如权利要求20所述的机器可读介质,其中所述不发音强度函数是I(C0)=VoicingThreshold+(1.0-NormalizedEnergy)2(1.0-VoicingThreshold);]]>并且所述发音强度函数是I(Ck)=R*(mk)*(MinimumWeight+log10[(F(Ck)-Fmin)]log10[(Fmax)-Fmin]*(1.0-MinimumWeight)).]]>
24.如权利要求20所述的机器可读介质,其中所述方法还包括根据传输成本函数计算音调路径的成本值,其中所述传输成本函数是TransmitCost(Fi-1,Fi)=TransmitCoefficientlog10(1+|Fi-1-Fi|)。
25.如权利要求20所述的机器可读介质,其中所述方法还包括去除全局和局部直流分量。
26.如权利要求20所述的机器可读介质,其中所述抗偏自相关函数是Rw(m)=1NΣn=0N-1-|m|hamming(n)hamming(n+m).]]>
27.如权利要求20所述的机器可读介质,其中所述方法还包括将语音信号分段为多个帧。
28.如权利要求27所述的机器可读介质,其中所述方法还包括通过快速傅立叶变换计算频谱;计算功率谱;以及通过逆快速傅立叶变换计算自相关。
29.如权利要求20所述的机器可读介质,其中所述方法还包括执行Mel频标倒谱系数抽取。
全文摘要本发明公开了一种汉语语音音调抽取方法和系统。所述汉语语音音调抽取方法和系统包括预计算哈明窗函数的抗偏自相关;至少对于一个帧,将第一候选者保存为不发音候选者,并从抗偏自相关函数检测其他发音候选者;以及基于所述不发音和发音候选者,根据发音/不发音强度函数来计算音调路径的成本值,保存预定数量的最小成本路径,并以低时间延迟来输出多个邻接帧的至少一部分。
文档编号G10L25/93GK1585967SQ02822356
公开日2005年2月23日 申请日期2002年11月8日 优先权日2001年11月12日
发明者良·何, 波·徐, 文·柯 申请人:英特尔公司