一种基于音素混淆网络的音素后验概率计算方法

文档序号:2823442阅读:226来源:国知局
专利名称:一种基于音素混淆网络的音素后验概率计算方法
技术领域
本发明属于发音质量评估技术领域,具体地说,本发明涉及一种用于发音质量评 估系统中的置信度计算方法。
背景技术
在自然条件下使用发音质量评估系统,不同于在理想实验环境下的使用,这时发 音质量评估系统的性能会有很大的降低。而且对于真实的口语,在语音中会参杂很多非语 音,譬如非正常停顿、咳嗽声以及很多的环境噪声,这都给发音质量评估系统达到原有的评 估精度造成了困难。另外,用户说的词汇如果不在发音质量评估系统预先设定的领域范围 内,也较容易造成评估误差。总之,对于商业化的发音质量评估系统,用户的期望是尽可能 的准确评估发音质量,与此同时还要求比较快的评估速度,而置信度评价方法正是解决这 些困难的一种关键性措施。置信度评价方法可以对发音质量评估系统的目标发音在特定的时间间隔内进行 假设检验,通过预先训练的阈值对待评估发音段的准确性进行评价,从而提高发音质量评 估系统的准确率和稳健性。目前,把目标文本的后验概率(即传统Goodness of Pronunciation算法)作为计 算发音评估的置信度是一种应用较广的做法。图1为现有的置信度计算方法的示意图。输 入语音首先通过全音节网络识别器进行一遍解码,在这个过程中,可以获得对应于输入语 音的音素分割点。然后在每个音素段内与目标音素强制对齐,从而获得目标文本对应的声 学似然值。再利用全音节网络识别结果中最优候选路径上的声学似然值,最终计算出目标 文本在待评估语音下的音素后验概率作为置信度得分。该算法是对理论上的音素后验概率 算法的简化。首先,为了减少分母的计算量,它假设求和算法的结果近似等于求最大值算法 的结果。当用户由一个音素错发成音素集中另外一个音素时,这种假设可以很好的近似于 真实后验概率的值;但当用户的发音不同于音素集中任何一个标准发音时,最大值就与求 和相差很多了。此时,求和算法近似等于求最大值算法的假设会严重降低置信度的计算精 度。其次,为使后验概率值能在不同语音段间比较,GOP算法还采用了在后验概率基础上的 段长规整策略。但是理论上,声学似然值是状态转移概率与语音观察概率随语音帧数的累 积量,时间长度直接影响声学似然值的大小,而又间接将这种影响传递到音素后验概率上, 所以对声学似然值作时间规整才更为合理。以上两个缺陷导致传统的GOP算法的计算精度 很低,特别是用户为第二语言学习者时,它的性能变得难以接受,从而很不利于发音质量评 估系统的在线使用和实际推广。

发明内容
本发明的目的是克服现有技术的不足,综合考虑计算速度和稳健性,提供一种用 于发音质量评估系统中的基于音素混淆网络的音素后验概率算法,该方法是一种利用音素 混淆网络来计算音素后验概率并将其作为发音质量评估置信度的算法。
为实现上述发明目的,本发明提供的发音质量评估系统中的基于音素混淆网络的 音素后验概率算法,包括如下步骤1)将待识别语音输入语音识别系统中;2)对输入语音进行预处理,该预处理中包括分帧;3)采用感知加权线性预测参数(PLP)特征提取方法或者美尔域倒谱系数(MFCC) 特征提取方法提取语音特征;4)利用全音节循环网络状态图和声学模型,对特征向量序列进行解码,得到最优 路径,记录最优路径上的各音素分割点信息;5)根据步骤4)获得的最优路径识别结果的上下文以及目标学习文本,在各个音 素段内搭建其对应的音素混淆网络;6)按照步骤4)中得到的音素分割点和步骤5)中搭建的音素混淆网络,根据声学 模型和语音段对应的特征向量序列,在混淆网络的每条路径上将模型状态和语音特征做强 制对齐,获得该语音段在该路径上的声学似然值;7)对步骤6)获得的声学似然值进行段长规整,即pn。r ((X1, · · · , xt) I (S1, . . . , St)) = ρ ((X1, · · · , xt) I (S1, . . , st))1/T,其中,p((Xl,...,xt)I (Sl, ...,St))是规整前的声学似然值,Pnor((X1,..., Xt) I (S1, ...,St))是规整后的声学似然值,T是该音素段的时间长度;8)计算基于音素混淆网络的音素后验概率
(ρΛ — ΑιοΛ(Χ1’"·,Χ ) I (5P--^f )ref ) keCN其中,(Sl,. . . st)ref是根据学习文本获得的状态序列,CN是包含多条音素并联路 径的混淆网络;9)将基于音素混淆网络的音素后验概率作为该音素在发音质量评估系统中的置 信度得分。上述技术方案中,所述步骤2)中对输入语音进行预处理包括对输入语音进行数 字化、预加重高频提升、分帧及加窗处理。上述技术方案中,所述步骤3)中提取语音特征包括计算PLP或MFCC参数系数、 计算能量特征和计算差分系数。上述技术方案中,所述步骤4)中全音节循环网络解码过程采用viterbi解码方法。上述技术方案中,所述步骤5)中音素混淆网络的搭建利用了音素间的声学相似 性,包括确定中心音素和并联路径条数、根据学习文本和识别结果的上下文对中心音素进 行三音子扩展、搭建并联音素混淆网络。上述技术方案中,所述步骤7)中对每条路径上的声学似然值采用音素语音段长 度的时间规整策略。上述技术方案中,所述步骤8)中音素后验概率采用音素混淆网络的分母计算策 略。本发明的优点是,构建音素混淆网络作为音素后验概率分母部分计算的依据,以 及采用声学似然值的时间规整策略,从而大幅度提高发音质量评估置信度的计算精度。本发明是在保证计算量增加不多的前提下的用于发音质量评估系统中的置信度计算的改进 算法,即,根据音素间的声学相似性搭建混淆网络,利用混淆网络所有路径上的声学似然值 进行求和处理,从而获得更为准确的音素后验概率分母值,此外还对声学似然值进行段长 规整,消除音素发音快慢造成的差异,由此计算的音素后验概率值在计算精度上获得大幅 度提高,有效提高了发音评估的准确性。


图1是现有技术的置信度计算方法的示意图;图2是本发明的基于音素混淆网络的音素后验概率算法一个实施例的流程图;图3是本发明的基于音素混淆网络的音素后验概率算法中全音节网络状态图的 搭建示意图;图4是本发明的基于音素混淆网络的音素后验概率算法中针对声母的混淆网络 搭建流程图;图5是本发明的基于音素混淆网络的音素后验概率算法中针对韵母的混淆网络 搭建流程图;图6是本发明的基于音素混淆网络的音素后验概率算法中的基于状态图的强制 对齐示意图。
具体实施例方式下面结合附图及具体实施例对本发明的基于音素混淆网络的音素后验概率算法 做进一步地描述。图2是本发明的基于音素混淆网络的音素后验概率算法一个实施例的流程图。如 图2所示,本发明提供的发音质量评估系统中的基于音素混淆网络的音素后验概率算法, 包括如下步骤1)将待识别语音输入语音识别系统中。2)对输入语音进行预处理,所述预处理主要是进行分帧。在本实施例中,预处理采用如下流程2-1)将语音信号按照16K (或8K)采样率进行数字化;2-2)通过预加重进行高频提升预加重滤波器是:Η(ζ) = 1-α z-1,其中α = 0· 98。2-3)将数据进行分帧取帧长为25ms、帧间重叠为15ms,可根据需要适当调整;2-4)加窗处理
Οττγ)窗函数采用常用的hamming窗函数 ⑷=0.54-0.460^^^)
N-I其中,0彡 η 彡 N-1。3)提取语音特征本发明可采用PLP (Perceptual Linear Predictive,感知加权 线性预测)或者MFCC(mel-frequency cepstral coefficient,美尔域倒谱系数)参数特征 提取方法,具体流程如下3-1)计算每帧语音的PLP或MFCC参数系数c (m),1彡m彡N。,其中N。为倒谱系数
5的个数,Nc = 12 ;3-2)计算每帧语音的能量特征;3-3)计算能量特征和倒谱特征的一阶和二阶差分。采用如下的回归公式计算差分 倒谱系数=+ ,其中μ是归一化因子,τ为整数,2Τ+1为用于计算差分倒谱 St 二.
系数的语音帧数,其中Τ = 2,μ = 0. 375 ;3-4)对于每一帧语音,生成39维的特征向量。4)利用全音节循环网络状态图和声学模型,对特征向量序列进行解码,得到最优 路径,记录最优路径上的各音素分割点信息。本步骤中所用的状态图的构建方法如下图3是本发明的基于音素混淆网络的音素后验概率算法中状态图的搭建示意图。 如图3所示,首先根据全音节语法搭建起一个基于所有音节的搜索空间,即一个所有音节 并联的可循环网络。识别器将在这个网络上进行搜索,找到对应于输入语音的最优路径 (即声学似然值最大的路径)作为识别结果。搭建解码状态图时,借助字典信息,把词的网 络展开成一个音素的网络。每个节点由音素构成,然后每个音素再被声学模型中相对应的 隐马尔可夫模型(HMM)所取代,每个HMM由若干个状态组成。这样,最终的搜索空间就变成 了一个状态图,状态图中的任意一条路径代表一个音节序列候选,通过比较不同路径上的 似然概率值来获得最优路径作为识别结果。本实施例中采用的声学模型是与性别有关的,男生模型包含4665个状态,女生模 型包含4015个状态,每个状态都是由16个高斯共同描述的。本实施例中,在解码过程中采用了传统的viterbi搜索策略。5)根据步骤4)获得的最优路径识别结果的上下文以及目标学习文本,在各个音 素段内搭建其对应的音素混淆网络;由于通常的HMM声学模型采用上下文相关的三音子作为基本的建模单元,所以在 混淆网络的搭建时也需要把音素转换成三音子。对每个音素语音段,我们同时采用全音节 网络识别结果的上下文和学习文本的上下文作为音素混淆网络三音子扩展的依据,该扩展 的音素混淆网络搭建的主要规则如下当识别结果为声母时,在该语音段中,由所有声母扩展的三音子搭建并联网络进 行统计量计算。汉语声母共有27个,对这些声母进行三音子扩展时,同时考虑识别结果和 学习文本的上下文。根据声韵母串联的汉语音节结构,这些上下文均是韵母,因为声调与 音素的发音相对独立,将这些韵母进行不同声调的扩展,共有5个声调。这样最终搭建出 的混淆网络共有5 (上文5个声调)*5(下文5个声调)*2(识别结果和学习文本共两类上 下文)*27(27个声母)条路径相并联。如图4,以“ζ”为例加以说明,该音素的学习文本上 下文分别是“a4”和“uo2”,识别结果的上下文分别是“an3”和“ui2”。首先将第一个声母 “aa”作为中心音素,当采用它的学习文本上下文进行三音子扩展时,从“al-aa+uol”一直到 “a5-aa+U05”共5*5个三音子,采用识别结果上下文进行扩展时获得5*5个三音子;其他的 声母作为中心音素时有类似的操作,这样可以获得5*5*2*27个三音子,将这些三音子并联 构成混淆网络。
当识别结果为韵母时,在该语音段中,由所有韵母扩展的三音子搭建并联网络进 行统计量计算。汉语韵母共有184个,对这些韵母进行三音子扩展时,同时考虑识别结果和 学习文本的上下文。根据声韵母串联的汉语音节结构,这些上下文均是声母。这样最终搭 建出的混淆网络共有2 (识别结果和学习文本共两类上下文)*184 (184个声母)条路径相 并联。如图5,以“a4”为例加以说明,该音素的学习文本上下文分别是“d”和“z”,识别结 果的上下文分别是“t”和“zh”。首先将第一个韵母“al”作为中心音素,采用学习文本上下 文扩展为“d-al+z”,采用识别结果上下文扩展为“t-al+zh”;其他的韵母作为中心音素时有 类似的操作,这样可以获得2*184个三音子,将这些三音子并联构成最后混淆网络。6)按照步骤4)中得到的音素分割点和步骤5)中搭建的音素混淆网络,根据声学 模型和语音段对应的特征向量序列,在混淆网络的每条路径上将声学状态和语音帧做强制
对齐,获得每一帧语音对应的状态号,并获得该语音段在该路径上的声学似然值 κχ, k),
其负对数为 其中,Xt为输入的第t帧语音特征;st为第t帧语音特征对应的隐马尔科夫模型 的状态,该状态为正态分布Ν(μ ;Σ t),t分别是状态st模型的均值矢量和协方差 矩阵,其具体数值从声学模型中获得;η是特征向量Xt的维数,S卩t的维数。该强制对齐过程也是一个简单的解码过程,这时的候选项是同一音素的所有状态 序列,声学似然值最大的状态序列作为最佳路径被解出来。图6是基于状态图的强制对齐 示意图。图中,虚线代表候选状态序列,而黑实线代表解出来的最优路径即最佳状态序列。 如图6所示,当某一状态序列对观察序列(本实施例中的观察序列为特征向量)出现的似 然概率P (XI S)最大时,认为该状态序列为最佳状态序列。7)对步骤6)获得的声学似然值进行段长规整,即pnor ((X1,…,xt) I (S1,…,St)) = ρ ((X1,…,xt) I (S1, . . . , st))1/T,其中,p((Xl,...,xt)I (Sl, ...,St))是规整前的声学似然值,Pnor((X1,..., xt) I (si; ...,St))是规整后的声学似然值,T是该音素段的时间长度;8)计算基于音素混淆网络的音素后验概率 其中,(Sl,...,st) 是根据学习文本获得的状态序列,CN是包含多条音素并联路 径的混淆网络;9)将基于音素混淆网络的音素后验概率作为该音素在发音质量评估系统中的置 信度得分。音素的置信度得分被用来衡量该音素发音质量的好坏。在评价置信度算法的性能 时,采用与专家评估作对比的方式进行,即对同一批语音数据机器评估和专家评估发音质 量同时进行,以专家评估的结果作为标准,机器评估结果与其一致认为机器评估正确,否则 认为机器评估错误,这样统计出一个打分正确率的值。比较打分正确率的变化即可获知不 同置信度算法的性能变化情况。从音素的置信度得分到机器评估结果之间存在着影射关系 的问题,在此采用了阈值分类的方法。首先采用一个开发数据集按照打分正确率最高的原
7则,训练出各个音素的置信度阈值;在测试过程中,针对特定音素,当其置信度得分高于该 音素的阈值时认为发音较准确,反之则认为该发音存在缺陷。测试试验使用香港普通话水平考试现场录制的三个数据集对本发明中的基于音素混淆网 络的音素后验概率算法进行试验。试验任务是评价发音质量评估系统的音素打分正确率, 测试集由182个女生和107个男生的语音数据构成。每位朗读者朗读的目标语音都是事先 指定的50个单字和25个双字词,三个数据集的目标语音内容各不相同。朗读者均是香港本 地的大学毕业生,普通话水平普遍不太好。对所有语音数据均有语言学专家的音素打分结 果作为评价发音质量评估系统准确性的依据。置信度的得分被用来区分发音质量的好坏, 当置信度得分高于事先设定的门限时认为发音较准确,反之则认为该发音存在缺陷。这个 门限我们是通过训练得到的,即我们从每个数据集中随机取出60%作为开发集用来训练门 限值,剩下的40%作为其测试集。我们的目标是提高音素打分正确率,即尽可能使机器评估 的准确性接近于专家评估。使用两种不同的算法计算置信度。一种如图1所示,定义为传统GOP算法系统,另 一种为如图2所示的本发明的基于音素混淆网络的音素后验概率算法,定义为改进算法系 统。表1是本发明的基于音素混淆网络的音素后验概率算法与现有技术的传统GOP算 法的性能对比测试表。两种算法的性能对比测试结果如下表1所示。表1 从表中可以看出,本发明所使用的基于音素混淆网络的音素后验概率算法的性能 要好于传统GOP算法。本发明采用的改进算法的打分正确率在声母相对提高33. 3%,在声 母相对提高28.7%。此外,基于音素混淆网络的音素后验概率算法没有明显增加计算量,实时测试的 结果如表2所示。从表中可以发现改进算法均没有带来严重的计算负担。表 2
权利要求
一种基于音素混淆网络的音素后验概率算法,其特征在于,包括如下步骤1)输入待识别语音;2)对输入语音进行预处理,所述预处理包括分帧处理;3)提取语音特征,得到待识别语音的特征向量序列;4)利用全音节循环网络状态图和声学模型,对特征向量序列进行解码,得到最优路径作为识别结果,记录最优路径上的各音素分割点信息;5)根据步骤4)获得的识别结果以及目标学习文本,在各个语音段内搭建其对应的音素混淆网络;6)按照步骤4)中得到的音素分割点和步骤5)中搭建的音素混淆网络,根据声学模型和音素段对应的特征向量序列,在混淆网络的每条路径上将模型状态和语音特征做强制对齐,获得该语音段在该路径上的声学似然值;7)对步骤6)获得的声学似然值进行段长规整,即pnor((x1,...,xt)|(s1,...,st))=p((x1,...,xt)|(s1,...,st))1/T,其中,p((x1,...,xt)|(s1,...,st))是规整前的声学似然值,pnor((x1,...,xt)|(s1,...,st))是规整后的声学似然值,T是该音素段的语音帧数;8)计算基于音素混淆网络的音素后验概率 <mrow><mi>p</mi><mrow> <mo>(</mo> <mi>ph</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><msub> <mi>p</mi> <mi>nor</mi></msub><mrow> <mo>(</mo> <mrow><mo>(</mo><msub> <mi>x</mi> <mn>1</mn></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub> <mi>x</mi> <mi>t</mi></msub><mo>)</mo> </mrow> <mo>|</mo> <msub><mrow> <mo>(</mo> <msub><mi>s</mi><mn>1</mn> </msub> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <msub><mi>s</mi><mi>t</mi> </msub> <mo>)</mo></mrow><mi>ref</mi> </msub> <mo>)</mo></mrow> </mrow> <mrow><munder> <mi>&Sigma;</mi> <mrow><mi>k</mi><mo>&Element;</mo><mi>CN</mi> </mrow></munder><msub> <mi>p</mi> <mi>nor</mi></msub><mrow> <mo>(</mo> <mrow><mo>(</mo><msub> <mi>x</mi> <mn>1</mn></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub> <mi>x</mi> <mi>t</mi></msub><mo>)</mo> </mrow> <mo>|</mo> <msub><mrow> <mo>(</mo> <msub><mi>s</mi><mn>1</mn> </msub> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <msub><mi>s</mi><mi>t</mi> </msub> <mo>)</mo></mrow><mi>k</mi> </msub> <mo>)</mo></mrow> </mrow></mfrac><mo>,</mo> </mrow>其中,(s1,...,st)ref是根据学习文本获得的状态序列,CN是包含多条音素并联路径的混淆网络。
2.根据权利要求1所述的基于音素混淆网络的音素后验概率算法,其特征在于,所述 步骤4)中全音节循环网络解码过程采用viterbi解码方法。
3.根据权利要求1所述的基于音素混淆网络的音素后验概率算法,其特征在于,所述 步骤5)中搭建音素混淆网络包括三个子步骤,具体流程如下3-1)确定中心音素和并联路径条数;3-2)根据学习文本和识别结果的上下文对中心音素进行三音子扩展;3-3)搭建并联音素混淆网络。
4.根据权利要求3所述的基于音素混淆网络的音素后验概率算法,其特征在于,所述 步骤3-2)中,当中心音素为声母时,对学习文本和识别结果的上下文韵母进行声调扩展, 将进行声调扩展后的学习文本和识别结果的上下文韵母分别作为上下文因素,将所有声母 分别作为中心音素,形成多个三音子,并将这些三音子搭建成并联网络;当中心音素为韵母时,将学习文本和识别结果的上下文声母分别作为上下文音素,将 进行声调扩展的所有韵母分别作为中心音素,形成多个三音子,将这些三音子搭建成并联 网络。
5.根据权利要求1所述的基于音素混淆网络的音素后验概率算法,其特征在于,所述 步骤7)中对每条路径上的声学似然值采用音素段长的时间规整策略。
6.根据权利要求1所述的基于音素混淆网络的音素后验概率算法,其特征在于,所述 步骤8)中,利用基于音素混淆网络计算得出音素后验概率的分母,进而得出所述音素后验 概率。
全文摘要
本发明提供一种基于音素混淆网络的音素后验概率算法,包括预处理分帧;提取每帧语音的语音特征;根据全音节循环网络状态图、声学模型和语音特征向量进行解码,得到最优路径上的各音素分割点信息;在各个音素段内,搭建其对应的音素混淆网络,对网络中的每一条路径计算语音的声学似然值;利用在学习文本对应的路径上获得的声学似然值来计算音素后验概率的分子部分,将混淆网络所有路径上的声学似然值进行时间规整后累加作为音素后验概率的分母,从而计算出更为精确的音素后验概率。本发明的方法,采用一种改进的基于音素混淆网络的音素后验概率算法作为评价音素发音质量的依据,在不影响计算速度的基础上大幅度提高了发音质量评估的准确性。
文档编号G10L15/02GK101887725SQ20101016487
公开日2010年11月17日 申请日期2010年4月30日 优先权日2010年4月30日
发明者葛凤培, 颜永红 申请人:中国科学院声学研究所
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1