一种基于实时解码的语音端点检测方法

文档序号：2833629阅读：243来源：国知局

专利名称：一种基于实时解码的语音端点检测方法
技术领域：
本发明涉及一种基于解码结果的语音端点检测方法，尤其是一种能及时反馈语音结束点的方法。
背景技术：
语音的端点检测就是确定语音的起点和终点，从语音信号中排除无声段。端点检测的正确与否对语音识别的性能有很大的影响。在语音评测系统中，用户录音的内容已经由试卷文本确定，在用户朗读完试卷内容后及时给出语音末端点并停止计算，有助于提高系统性能和评测效果。在外层应用系统中，端点检测的效果好坏直接影响用户体验。比如在语音学习软件中，用户录音评测时同时进行端点检测，检测到语音结束时，自动停止录音，省去了点停止按钮的繁琐操作，在用户多次使用时能大大提升用户体验；在语音控制系统，如智能家居，用户可以通过“开灯”，“关灯”等命令控制灯的开关，端点检测实时性不高的情况下，会造成这些命令响应不及时，体验不好，如果用户刚说完“开灯”的“灯”字，灯就开了，这样体验是非常好的。现有的端点检测方法可以分成两类门限法和模式识别法。( I)门限法提取语音的某一特征，例如短时能量、短时平均幅度、过零率等，计算其值的大小，结合实际情况与经验确定一门限值，根据一些判断策略，来决定是否是语音开始帧或结束帧，主要的算法有利用短时能量和短时过零率，应用倒谱特征等。(2)模式识别法此类方法是把语音信号的端点检测问题看作是对每帧信号进行分类，通过建立相应的检测准则，对每帧语音进行划分，判断该帧语音是属于背景噪声还是语音，属于该算法的有基于自相关相似距离的语音端点检测方法，基于HMM模型的语音端点检测等。上述方法中的任何一种方法都是与用户朗读文本无关的。在语音识别的文本内容确定时，例如英语学习或中文学习系统，在这些应用场景中，外部应用系统用户朗读的文本内容已经确定，并且只关注用户朗读的文本相关部分的语音，希望用户朗读完指定文本或命令词的最后一个词时，端点检测模块能立即给出语音结束位置。在用户正常朗读指定文本的情况下，现有的端点检测技术由于不知道或者未利用用户朗读的文本内容，需要下一段非语音数据到来，才能进行决策，响应时间较大。如果用户读完了指定的文本后又继续朗读一些与指定文本无关的内容，现有端点检测并不能区分出这部分系统不关心的语音，给出合适的语音结束点。在某些应用场合，可能需要在用户朗读完完整的命令词或句子时，才能给出语音结束点停止录音，如果用户朗读了一半文本内的内容，然后停留了较长时间，现有端点检测可能检测出这段静音，过早的给出语音结束点，不能满足这种应用需求。

发明内容
本发明技术解决问题克服现有技术的不足，提供一种基于实时解码的语音端点检测方法，解决在语音识别文本确定的情况下，现有端点检测技术表现出来的实时性不高，无法对用户关心的语音进行针对性检测问题。本发明技术解决方案一种基于实时解码的语音端点检测方法，是一种通过与文本内容相结合的端点检测方法，实现步骤如下第一步输入语音识别相关文本，解析文本；第二步根据文本解析结果构建解码网络；第三步输入语音，提取语音中的声学特征，基于第二步构建的解码网络对所述声学特征进行解码，得到解码后的语言单元序列；所述语言单元序列中每一个单元称为一帧。此处所述声学特征是描述短时语音本质特征的一组值，通常是一种固定维数的特征向量(如39维的MFCC特征向量)。第四步对解码后的语音单元序列进行语音端点判断，判断是否是语音端点，所述语音端点分为语音开始点和语音结束点；如果判断结果是语音结束点，则把语音结束点信息反馈给外部应用系统，否则继续第三步；在第四步中语音开始点判断是可选的，如果外部外部应用系统不关心语音开始点，则不判断语音开始点；所述第四步中的语音开始点判断如下(I. I)取解码器中的最优路径；解码器是语音识别系统的核心之一，其任务是对输入的声学特征，根据声学模型、解码网络，寻找能够以最大概率输出该信号的语言单元序列。解码网络又叫语法网络是解码器的输入之一，没有解码网络解码器不能工作，解码网络限定了解码器输出语言单元序列的范围；(I. 2)语音开始点预警，即根据解码器中的最优路径，判断当前语音文本是否可能达到语音开始点，如果是，进行步骤(1.3)，否则退出；(I. 3)预警确认，即判断语音文本中是否有文本内音素或有效的垃圾语音，通过此过程来确认当前是否真的达到语音开始点；如果是，得到开始点，否则直接退出。所述第四步中的语音结束点判断如下(2. I)取解码器中当前最优路径；(2. 2)语音结束点预警，即根据解码器中的最优路径，判断语音文本中的最后一个音素是否可能说了，如果是，进行步骤(2. 3)，否则退出；(2. 3)预警被确认，即语音文本中最后一个音素是否真的说过了，通过帧长，帧平均似然度指标来决策，如果判断为真的说了，则得到语音结束点，结束流程，否则直接结束。在某些的应用场景中，有时候用户没读完文本内容，需要返回语音的结束点，这就需要本发明检测方法与传统的端点检测方法结合，与传统的端点检测方法相结合的过程步骤如下( I)输入语音识别相关文本，解析文本；(2)根据第一步文本解析结果构建解码网络；(3)输入语音，一方面提取语音中的声学特征，另一方面把语音传给传统的端点检测模块；(4)将本发明所述的端点检测方法和传统端点检测同时进行，各自检测出语音端点。(5)结合本发明所述的端点检测方法和传统端点检测方法给出的语音端点决策是否是语音端点，可以采用上述两个中任何一个方法检测出是端点就认为是端点的策略，还可以用两种方法都检测出端点才认为是端点；(6)反馈语音端点给外部应用系统。所述第二步中构建解码网络步骤如下(I)得到第一步的文本解析后的最小建模单元，可以是音素、音节、词语；(2)根据最小建模单元个数计算网络中的虚节点数和总结点数，为节点分配内存，并把最小建模单元和网络节点关联起来；(3)根据允许的朗读规则计算网络中的弧数，并为弧分配内存；所述允许的朗读规则包括回读、漏读；(4)根据朗读规则，通过弧把节点连接起来；(5)输出解码网络。所述步骤(I. I)和步骤(2. I)中取解码器中的最优路径的步骤如下(I)遍历当前解码器中所有路径，解析各路径得到对应的语音单元序列和概率；( 2 )根据概率对路径进行排序；(3)取排序后概率最大的路径作为最优路径。所述第三步中声学特征为梅尔倒谱系数MFCC、倒谱系数CEP，线性预测系数LPC或感知线性预测系数PLP。所述第三步中语音单元序列是音素序列、音节序列或文字序列。所述第三步中解码为Viterbi解码，或是基于动态时间规整(DTW)的解码。本发明与现有技术相比的优点在于(I)本发明在用户正常朗读指定文本时，能在用户读完最后一个词时及时给出语音结束点，响应时间比现有端点检测技术响应时间短，实时性高。(2)本发明当用户朗读完指定文本后继续朗读一些其他无关的内容，本方案能智能的区分出这部分系统不关心的垃圾语音，使外部外部应用系统效果更好。(3)本发明可以用在对用户朗读的完整性的有要求的录音场合，用户没读完指定内容就不给出语音结束点，现有端点检测技术是做不到的。

图I为本发明的实现流程图；图2为本发明中的语音开始点判断流程图；图3为本发明中的语音结束点判断流程图；图4为本发明中与现有端点检测技术相结合的实现流程图；图5为以中文声韵母作为最小单元的解码网络示例；图6为传统的MFCC特征提取流程；图7为传统的端点检测流程。
具体实施方式
本发明是一种与文本相关的新的端点检测方法，以viterbi解码作为解码方式为例(本发明不仅限于viterbi解码)，本发明流程图如图I所示第一步输入语音识别相关文本，解析文本输入的文本是用户预定的朗读内容，也是构建解码网络的依据之一。此步骤主要完成二个任务首先需要对文本的编码格式进行统一转换，如统一转换成UTF8格式，这样做的好处在于解析文本的代码仅需要实现一套；其次按照声学模型中对应模型单元的颗粒度(如字、音节、音素)进行解析(一般采用音素作为建模单元效果更佳，以下描述均以音素为例)，生成解析结果树状结构，该结构包含篇章、句子、词语、字、音节、音素六个层次的完整信息，其中前4个层次可以按照文本前端分词算法进行解析，后2个层次可以根据发音词典进行解析。第二步根据文本解析结果构建解码网络，具体如下(2. I):得到第一步的文本解析后的最小建模单元(可以是音素、音节、词语)；(2. 2):根据最小建模单元个数计算网络中的虚节点数和总结点数，分配节点内存，并把最小建模单元和网络节点关联起来；(2. 3):根据回读，漏读等允许的朗读规则计算网络中的弧数，并为弧分配内存；(2. 4):根据朗读规则，构建弧把节点连接起来；(2. 5):输出解码网络。假设语音识别文本为“中国” 二字，网络最小建模单元为音素(声韵母)，构建出的解码网络如图五所示，从图中可以看出，该网络允许漏读1-2个字，回读1-2个字，该网络对于用户读“国”，“中国国”等增漏读情况都能正确解码。第三步输入语音，提取声学特征，基于解码网络进行解码声学特征是描述语音特征的一些值，通常是一种固定维数的特征向量的序列，如39维的MFCC (美尔倒谱系数)特征，就是39个浮点值表示一帧语音的特征；MFCC特征的提取流程如图6所示，具体步骤如下(3. I)A/D变换，将模拟信号转换为数字信号；(3. 2)预加重通过一个一阶有限激励响应高通滤波器，使信号的频谱变得平坦，不易受到有限字长效应的影响；(3. 3)分帧根据语音的短时平稳特性，语音可以以帧为单位进行处理，一般可以取25毫秒(ms)作为一巾贞；(3. 4)加窗采用哈明窗对一帧语音加窗，以减小吉布斯效应的影响；(3. 5)快速傅立叶变换(Fast Fourier Transformation, FFT):将时域信号变换成为信号的功率谱；(3. 6)三角窗滤波用一组Mel频标上线性分布的三角窗滤波器(共24个三角窗滤波器)，对信号的功率谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应；(3. 7)求对数三角窗滤波器组的输出求取对数，可以得到近似于同态变换的结果;(3. 8)离散余弦变换(Discrete Cosine Transformation, DCT):去除各维信号之间的相关性，将信号映射到低维空间；
(3. 9)谱加权由于倒谱的低阶参数易受说话人特性、信道特性等的影响，而高阶参数的分辨能力比较低，所以需要进行谱加权，抑制其低阶和高阶参数；(3. 10)倒谱均值减(Cepstrum Mean Subtraction, CMS):CMS 可以有效地减小语音输入信道对特征参数的影响；(3. 11)差分参数大量实验表明，在语音特征中加入表征语音动态特性的差分参数，能够提高系统的识别性能。我们也用到了 MFCC参数的一阶差分参数和二阶差分参数。声学特征提取之后，就进行实时解码，语音解码是本发明中重要的一步(以Viterbi解码为例)，本发明中解码的过程为对输入的每帧声学特征，计算解码网络中当前每条可行路径对应节点的输出概率和节点内部状态转移概率，并更新当前路径的累计概率。此处的输出概率可根据节点音素对应的隐马尔科夫模型和声学特征计算，节点内部状态转移概率直接从模型中读取；当上述解码到节点内部最后一个状态时，可对当前解码路径进行扩展，扩展的依据就是跟踪解码网络，当此节点连接到多个节点时，需要扩展多条路径继续进行解码，若跟踪解码网络的弧上存在路径惩罚，则需要将惩罚累加到路径的累计概率中，解码过程会实时生成多条路径。第四步判断是否是语音端点，语音端点可分为语音开始点和语音结束点，如果是语音结束点，则把语音结束点反馈给外部外部应用系统，否则继续第三步；在第四步中开始点判断是可选的，如果外部系统不关心开始点信息，则可以不判断开始点，本发明这两种情况都包括在内。图2中语音端点判断可以包含语音开始点判断、语音结束点判断中的一种或全部。语音开始点的判断语音开始点判断的流程如图2所示。语音开始点判断大致分下面几步第一步取解码器最优路径，取最优路径详细如下路径即是解码器到达结束节点走过的路，因为开始不知道哪条路最短，解码器会走很多条路，每一条路对应一种语音单元序列，最优路径就是对于当前语音概率最大语音单元序列对应的路径。(I. I):遍历当前解码器中所有路径，解析各路径得到语音单元序列和概率；(1.2)根据概率对路径进行排序；(I. 3):取排序后概率最大的路径作为最优路径。第二步语音开始点预警，即根据最优路径判断当前是否可能达到开始点，如果是，进行第三步，否则退出流程。以图五的解码网络进行解码为例，识别文本是“中国”，Zh为网络的文本开始点，此处即判断当前解码是否已经到达网络中“zh”节点。第三步预警确认，通过判断是否文本内音素或有效的垃圾语音等过程来确认当前是否真的达到语音开始点。如果是，得到开始点，否则直接退出流程。以图五的解码网络进行解码为例，即判断解码路径到达“zh”的概率是否足够大。语音结束点的判断语音结束点判断的流程如图3所示。第一步取解码器中当前最优路径，与上述语音开始点判断中最优路径的方法一样。第二步语音结束点预警，即根据最优路径判断文本最后一个音素是否可能说了，如果是，进行第三步，否则退出流程。以图5的解码网络进行解码为例，此处即判断解码器最优路径是否解码到“uo”节点。第三步确认预警，即判断文本中最后一个音素是否真的说过了。可以通过帧长、帧平均似然度等指标来决策。如果判断为真的说了，则得到结束点结束流程，否则直接结束流程。以图5的解码网络进行解码为例，此处即衡量到达“uo”的最优路径的帧长，平均似然度是否合理。与传统端点检测结合(扩展方案)在某些的应用场景中，有时候用户没读完文本内容，也需要端点检测系统能返回语音的结束点，这就需要与传统的端点检测技术结合，流程图如图4所示。假设图4中传统的端点检测流程为基于能量的端点检测，流程图如图7所示，主要分为以下几步第一步输入语音；第二步对语音分段，提取短时能量；第三步综合判决，根据当前短时能量判决语音段和非语音段，可采用四门限或双门限两种方法之一；第四步端点反馈，根据第三步判决结果反馈检测结果。本发明中与传统的端点检测方法相结合的过程步骤如下第一步输入语音识别相关文本，解析文本；第二步根据第一步文本解析结果构建解码网络；第三步输入语音，一方面提取语音中的声学特征，另一方面把语音传给传统的端点检测模块；第四步将本发明所述的端点检测方法和传统端点检测同时进行，各自检测出语首端点；第五步结合本发明所述的端点检测方法和传统端点检测方法给出的语音端点决策是否是语音端点，可以采用上述两个中任何一个方法检测出是端点就认为是端点的策略，还可以用两种方法都检测出端点才认为是端点；第六步反馈语音端点给外部应用系统。上图4中“是否检测到开始点”包含了已经检测到开始点则不检测的过程。总之，本发明解决了在语音识别文本确定的情况下，传统端点检测技术表现出来的实时性不高，无法对用户关心的语音进行针对性检测问题。本发明未详细阐述部分属于本领域技术人员的公知技术。
权利要求
1.一种基于实时解码的语音端点检测方法，其特征在于实现步骤如下第一步输入语音识别相关文本，解析文本；第二步根据文本解析结果构建解码网络；第三步实时输入语音，提取语音中的声学特征，基于第二步构建的解码网络对所述声学特征进行解码，得到解码后的语言单元序列；所述语言单元序列中每一个单元称为一帧；第四步对解码后的语音单元序列进行语音端点判断，判断是否是语音端点，所述语音端点分为语音开始点和语音结束点；如果判断结果是语音结束点，则把语音结束点信息反馈给外部应用系统，否则继续第三步；在第四步中语音开始点判断是可选的，如果外部外部应用系统不关心语音开始点，则不判断语音开始点；所述第四步中的语音开始点判断如下 (I. I)取解码器中的最优路径； (I. 2)语音开始点预警，即根据解码器中的最优路径，判断当前语音文本是否可能达到语音开始点，如果是，进行步骤(1.3)，否则结束判断； (I. 3)确认预警，即判断语音文本中是否有文本内音素或有效的垃圾语音，通过此过程来确认当前是否真的达到语音开始点；如果是，得到开始点，否则直接退出；所述第四步中的语音结束点判断如下 (2. I)取解码器中当前最优路径； (2. 2)语音结束点预警，即根据解码器中的最优路径，判断语音文本中的最后一个音素是否可能说了，如果是，进行步骤(2. 3)，否则结束判断； (2. 3)确认预警，即语音文本中最后一个音素是否真的说过了，通过帧长，帧平均似然度指标来决策，如果判断为真的说了，则得到语音结束点，结束流程，否则直接结束。
2.根据权利要求I所述的一种基于实时解码的语音端点检测方法，其特征在于在某些的应用场景中，有时候用户没读完文本内容，需要返回语音的结束点，这就需要本发明检测方法与传统的端点检测方法结合，与传统的端点检测方法相结合的过程步骤如下 (1)输入语音识别相关文本，解析文本； (2)根据第一步文本解析结果构建解码网络； (3)输入语音，一方面提取语音中的声学特征，另一方面把语音传给传统的端点检测模块； (4)将本发明所述的端点检测方法和传统端点检测同时进行，各自检测出语音端点； (5)结合本发明所述的端点检测方法和传统端点检测方法给出的语音端点决策是否是语音端点，可以采用上述两个中任何一个方法检测出是端点就认为是端点的策略，还可以用两种方法都检测出端点才认为是端点； (6)反馈语音端点给外部应用系统。
3.根据权利要求I或2所述的一种基于实时解码的语音端点检测方法，其特征在于所述第二步中构建解码网络步骤如下 (1)得到第一步的文本解析后的最小建模单元，可以是音素、音节、词语； (2)根据最小建模单元个数计算网络中的虚节点数和总结点数，为节点分配内存，并把最小建模单元和网络节点关联起来；(3)根据允许的朗读规则计算网络中的弧数，并为弧分配内存；所述允许的朗读规则包括回读、漏读； (4)根据朗读规则，通过弧把节点连接起来； (5)输出解码网络。
4.根据权利要求I或2所述的一种基于实时解码的语音端点检测方法，其特征在于所述步骤(I. I)和步骤(2. I)中取解码器中的最优路径的步骤如下 (1)遍历当前解码器中所有路径，解析各路径得到对应的语音单元序列和概率； (2)根据概率对路径进行排序； (3)取排序后概率最大的路径作为最优路径。
5.根据权利要求I或2所述的一种基于实时解码的语音端点检测方法，其特征在于所述第三步中声学特征为梅尔倒谱系数MFCC、倒谱系数CEP，线性预测系数LPC或感知线性预测系数PLP。
6.根据权利要求I或2所述的一种基于实时解码的语音端点检测方法，其特征在于所述第三步中语音单元序列是音素序列、音节序列或文字序列。
7.根据权利要求I或2所述的一种基于实时解码的语音端点检测方法，其特征在于所述第三步中解码为Viterbi解码，或是基于动态时间规整(DTW)的解码。
全文摘要
一种基于实时解码的语音端点检测方法，步骤为输入语音识别相关文本，解析文本；根据文本解析结果构建解码网络；输入语音，提取语音中的声学特征，基于构建的解码网络对所述声学特征进行解码，得到解码后的语音单元序列；对解码后的语音单元序列进行语音端点判断，判断是否是语音端点，所述语音端点分为语音开始点和语音结束点；如果判断结果是语音结束点，则把语音结束点信息反馈给外部外部应用系统，否则继续第二步；在第三步中语音开始点判断是可选的，如果外部外部应用系统不关心语音开始点，则不判断语音开始点。本发明解决了在语音识别文本确定的情况下，传统端点检测技术表现出来的实时性不高，无法对用户关心的语音进行针对性检测问题。
文档编号G10L13/08GK102982811SQ20121048304
公开日2013年3月20日申请日期2012年11月24日优先权日2012年11月24日
发明者吴玲, 王兵, 赵乾, 潘颂声, 何春江, 朱群申请人:安徽科大讯飞信息科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：吴玲;王兵;赵乾;潘颂声;何春江;朱群
技术所有人：安徽科大讯飞信息科技股份有限公司
我是此专利的发明人

上一篇：一种可实时反馈用户朗读进度的语音跟踪方法
上一篇：结合韵律和发音学特征的汉语声调识别系统及方法