语音识别方法、装置及系统与流程

文档序号:16308578发布日期:2018-12-19 05:11阅读:227来源:国知局
语音识别方法、装置及系统与流程

本发明涉及涉及计算机技术领域,尤其涉及语音识别技术领域。

背景技术

语音识别(automaticspeechrecognition,asr)是指一种从语音波形中识别出对应的文字内容的技术,是人工智能领域的重要技术之一。解码器是语音识别技术的核心模块之一,可以基于己经训练好的声学模型、语言模型及发音词典建立一个识别网络,识别网络中的各路径分别与各种文本信息、以及各文本信息的发音对应,然后针对声学模型输出的发音,在该识别网络中寻找最大的一条路径,基于该路径能够以最大概率输出该语音信号对应的文本信息,完成语音识别。

现有技术中提出了一种语音识别方法,其方案为利用汉语普通话语音学知识指导和训练数据驱动相结合的方法,通过建立判决树的方式,实现模型状态层面的参数共享,建立语境相关的声学模型,声学模型建立在声、韵母层面上,该技术方案设计了一组语音学问题提供给判决树构造算法使用,利用能够提取的汉语普通话语音区别特征,如:清、浊音,鼻音、非鼻音等(此处发音特征属于发音属性的一种),在识别解码过程中,通过判决树对减少模型匹配的盲目性,提高搜索的效率和准确性,克服了模型的精确性和可训练性之间的矛盾。

该方案通过发音属性信息对声学模型进行聚类,实现了对更多的声学模型应用,从而提高系统性能,但其声学模型构建仍是基于语音特征的统计特性,当应用于中远距离交互场景下时,由于语音会受到周围环境的噪声与混响的干扰,语音特征的统计特性发生变化,会导致声学模型性能急剧下降,语音识别的准确率低。



技术实现要素:

为了提高语音识别的准确率。本申请实施例提供了一种语音识别解码方法、系统和装置,以及相应的语音识别加权有限状态转换器wfst的构建方法、系统和装置。

本申请的实施例,一方面提供了一种语音识别wfst的构建方法,所述方法包括:构建声学wfst(h1),所述声学wfst是从声学特征到发音属性的搜索网络;构建发音wfst(a),所述发音wfst是从发音属性到音素的搜索网络;构建词典wfst(l),所述词典wfst是从音素到字或词的搜索网络;构建语言wfst(g),所述语言wfst是字或词到词序列的搜索网络;对多个wfst进行整合生成语音识别wfst;其中所述多个wfst包括:所述声学wfst、所述发音wfst、所述词典wfst、所述语言wfst;所述整合生成的语音识别wfst为从声学特征到词序列的搜索网络,表示为h1*a*l*g。所述整合为,将词典wfst与语言模型wfst进行整合运算,得到的有限状态转换器再与发音wfst做整合运算,进一步与声学wfst整合。

可选的,上述语音识别wfst的构建方法中,构建声学加权有限状态转换器wfst(h1)为:以发音属性作为状态,以声学特征作为观测,通过采用hmm隐马尔可夫模型结合前后向算法、期望最大化算法、viterbi,获得在发音属性条件下产生给定声学特征的概率,基于所述概率构建所述声学wfst。

可选的,上述语音识别wfst的构建方法中,构建发音wfst(a)为:深度神经网络以声学特征为输入,以音素和发音属性为双目标输出,得到概率最大的音素及发音属性,作为发音属性与音素的一次共现,通过大量语音库的输入和输出统计发音属性与音素的共现次数,并除以总帧数,得到发音属性与音素的共现概率,将发音属性与音素及其共现概率表示成发音wfst,发音wfst状态转移的输入为发音属性,输出为音素及发音属性与音素的共现概率。

可选的,构建第二声学wfst(h2),第二声学wfst是从声学特征到音素的搜索网络;所述整合的多个wfst还包括:第二声学wfst。所述对多个wfst进行整合中的多个wfst当包括第二声学wfst时,整合后的加权有限状态转换器为(h1*a+h2)*l*g。

可选的,所述对多个wfst进行整合中的多个wfst当包括第二声学wfst(c)时,整合步骤为,将声学wfst和发音wfst进行整合得到的声学特征到音素的wfst和第二声学wfst进行网络合并生成一个声学特征到音素的wfst;然后将词典wfst与语言wfst进行整合,得到的有限状态转换器再与上述网络合并后的声学特征到音素的wfst做整合生成语音识别wfst。

可选的,所述网络合并为将两个输入输出类型相同的wfst的相同路径进行合并,概率组合,不同路径保留。

可选的,所述整合过程还包括进行确定化,最小化处理。

本申请的实施例,一方面提供了一种语音识别wfst的构建方法,所述方法包括:构建声学加权有限状态转换器wfst(h1),所述声学wfst是从声学特征到发音属性的搜索网络;构建发音wfst(a),所述发音wfst是从发音属性到上下文相关音素的搜索网络;构建上下文wfst(c),所述上下文wfst是从上下文相关音素到音素的搜索网络;构建词典wfst(l),所述词典wfst是从音素到字或词的搜索网络;构建语言wfst(g),所述语言wfst是字或词到词序列的搜索网络;对多个wfst进行整合生成语音识别wfst;其中所述多个wfst包括:所述声学wfst、所述发音wfst、所述上下文wfst、所述词典wfst、所述语言wfst;所述整合生成的语音识别wfst为从声学特征到词序列的搜索网络,表示为h1*a*c*l*g。

可选的,所述整合步骤具体为,将词典wfst与语言模型wfst进行整合运算,得到的有限状态转换器再上下文wfst做整合运算,再将结果与发音wfst做整合运算,进一步与声学wfst做整合。

可选的,上述语音识别wfst的构建方法中,构建声学加权有限状态转换器wfst(h1)为:以发音属性作为状态,以声学特征作为观测序列,通过采用hmm隐马尔可夫模型结合前后向算法、期望最大化算法、viterbi,获得在该发音属性条件下产生给定观测(声学特征)的概率,基于所述概率构建所述声学wfst。

可选的,上述语音识别wfst的构建方法中,构建发音wfst(a)为:深度神经网络以声学特征为输入,以音素和发音属性为双目标输出,得到概率最大的音素及发音属性,作为发音属性与音素的一次共现,通过大量语音库的输入和输出统计发音属性与音素的共现次数,并除以总帧数,得到发音属性与音素的共现概率,将发音属性与音素及其共现概率表示成发音wfst,发音wfst状态转移的输入为发音属性,输出为音素及发音属性与音素的共现概率。

可选的,所述方法还包括:构建第二声学wfst,所述第二声学wfst是从声学特征到上下文相关音素的搜索网络。

可选的,所述对多个wfst进行整合中的多个wfst当包括第二声学wfst时,整合后的加权有限状态转换器为(h1*a+h2)*c*l*g。

可选的,所述对多个wfst进行整合中的多个wfst当包括第二声学wfst(c)时,整合步骤为,将声学wfst和发音wfst进行整合得到的声学特征到上下文相关音素的wfst和第二声学wfst进行网络合并生成一个声学特征到上下文相关音素的wfst;然后将词典wfst与语言wfst进行整合,得到的有限状态转换器再与上下文wfst进行整合,整合结果再与上述网络合并后的声学特征到音素的wfst做整合生成语音识别wfst。

可选的,所述网络合并为将两个输入输出类型相同的wfst的相同路径进行合并,概率组合,不同路径保留。

可选的,所述整合还包括进行确定化,最小化处理。

本申请的实施例,另一方面还提供了一种语音识别解码方法,所述方法包括:接收语音信号;从所述语音信号中提取声学特征;将所述声学特征输入语音识别wfst,获取声学特征至词序列的各路径的概率;比较各路径的概率,概率最大的路径所对应的词序列作为识别结果输出。

可选的,所述语音识别wfst是通过将声学wfst、发音wfst、上下文wfst,词典wfst、语言wfst进行整合所生成的从声学特征到词序列的搜索网络。

可选的,所述声学wfst是从声学特征到发音属性的搜索网络;所述发音wfst是从发音属性到上下文相关音素的搜索网络;所述上下文wfst是从上下文相关音素到音素的搜索网络;所述词典wfst是从音素到字或词的搜索网络;所述语言wfst是字或词到词序列的搜索网络。

可选的,所述语音识别wfst是通过将声学wfst、发音wfst、词典wfst、语言wfst进行整合所生成的从声学特征到词序列的搜索网络。

可选的,所述声学wfst是从声学特征到发音属性的搜索网络;所述发音wfst是从发音属性到音素的搜索网络;所述词典wfst是从音素到字或词的搜索网络;所述语言wfst是字或词到词序列的搜索网络。

本申请的实施例,另一方面还提供了一种语音识别解码方法,所述方法包括:接收语音信号;从所述语音信号中提取声学特征序列;将所述声学特征序列顺序输入声学wfst网络,获取声学特征至发音属性的各路径的概率;以声学特征至发音属性的各路径输出的发音属性作为发音wfst网络的输入,获取发音属性至上下文相关音素的各路径的概率;以第发音属性至上下文相关音素的各路径输出的上下文相关音素作为上下文wfst网络的输入,获取上下文相关音素至音素的各路径的概率以上下文相关音素至音素的各路径输出的音素作为词典wfst网络的输入,获取音素至字或词的各路径的概率;以音素至字或词的各路径径输出的字或词作为语言wfst网络的输入,获取字或词至词序列的各路径的概率;根据各wfst网络中各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

可选的,所述语音识别解码方法还包括:所述总概率的计算方法为求和或乘积运算。

本申请的实施例,另一方面还提供了一种语音识别解码方法,所述方法包括:接收语音信号;从所述语音信号中提取声学特征序列;将所述声学特征序列顺序输入声学wfst网络的,获取声学特征至发音属性的各路径的概率;以声学特征为第二声学wfst网络的输入,获取声学特征至上下文相关音素的各路径的概率;以声学特征至发音属性的各路径输出的发音属性作为发音wfst网络的输入,获取发音属性至上下文相关音素的各路径的概率;以发音属性至上下文相关音素的各路径输出的上下文相关音素以及第二声学wfst网络输出的上下文相关音素作为所述上下文wfst网络的输入,获取上下文相关音素至音素的各路径的概率;以上下文相关音素至音素的各路径输出的音素作为词典wfst网络的输入,获取音素至字或词的各路径的概率;以音素至字或词的各路径输出的字或词作为语言wfst网络的输入,获取字或词至词序列的各路径的概率;根据各wfst网络中各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

可选的,所述语音识别解码方法还包括:所述总概率的计算方法为求和或乘积运算。

本申请的实施例,另一方面还提供了一种语音识别wfst的构建装置,所述装置包括:处理器;所述处理器用于与存储器耦合;并读取并执行存储器中的指令,所述指令包括:构建声学加权有限状态转换器wfst,所述声学wfst是从声学特征到发音属性的搜索网络;构建发音wfst,所述发音wfst是从发音属性到音素的搜索网络;构建词典wfst,所述词典wfst是从音素到字或词的搜索网络;构建语言wfst,所述语言wfst是字或词到词序列的搜索网络;对多个wfst进行整合生成语音识别wfst;其中所述多个wfst包括:所述声学wfst、所述发音wfst、所述词典wfst、所述语言wfst;所述整合生成的语音识别wfst为从声学特征到词序列的搜索网络。

可选的,所述指令还包括:构建第二声学wfst,所述第二声学wfst是从声学特征到发音属性的搜索网络;所述对多个wfst进行整合生成语音识别wfst,其中所述多个wfst包括:所述第二声学wfst。

本申请的实施例,另一方面还提供了一种语音识别wfst的构建装置,所述装置包括:处理器;所述处理器用于与存储器耦合;并读取并执行存储器中的指令,所述指令包括:构建声学加权有限状态转换器wfst,所述声学wfst是从声学特征到发音属性的搜索网络;构建发音wfst,所述发音wfst是从发音属性到上下文相关音素的搜索网络;构建上下文wfst,所述上下文wfst是从上下文相关音素到音素的搜索网络;构建词典wfst,所述词典wfst是从音素到字或词的搜索网络;构建语言wfst,所述语言wfst是字或词到词序列的搜索网络;对多个wfst进行整合生成语音识别wfst;其中所述多个wfst包括:所述声学wfst、所述发音wfst、所述上下文wfst,所述词典wfst、所述语言wfst;所述整合生成的语音识别wfst为从声学特征到词序列的搜索网络。

可选的,所述指令还包括:构建第二声学wfst,所述第二声学wfst是从声学特征到上下文相关音素的搜索网络所述对多个wfst进行整合生成语音识别wfst,其中所述多个wfst包括:所述第二声学wfst。

上述语音识别wfst构建装置中的wfst整合方式同上述语音识别wfst构建方法相关的实施例相同。

本申请的实施例,另一方面还提供了一种语音识别解码装置,所述装置包括:处理器,所述处理器用于与存储器耦合;并读取并执行存储器中的指令,所述指令包括:接收语音信号;从所述语音信号中提取声学特征序列;将所述声学特征序列顺序输入声学wfst网络,获取声学特征至发音属性的各路径的概率;以所述声学特征至发音属性的各路径输出的发音属性作为发音wfst网络的输入,获取发音属性至音素的各路径的概率;以所述发音属性至音素的各路径输出的音素作为词典wfst网络的输入,获取音素至字或词的各路径的概率;以音素至字或词的各路径输出的字或词作为语言wfst网络的输入,获取字或词至词序列的各路径的概率;根据各wfst网络中各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

可选的,上述所获取的路径是指活跃路径,其中活跃路径是指wfst搜索过程中将概率较小路径裁剪后,剩余的概率较大的路径。

本申请的实施例,另一方面还提供了一种语音识别解码装置,所述装置包括:处理器,所述处理器用于与存储器耦合;并读取并执行存储器中的指令,所述指令包括:接收语音信号;从所述语音信号中提取声学特征序列;将所述声学特征序列顺序输入声学wfst网络,获取声学特征至发音属性的各路径的概率;以所述声学特征序列作为第二声学wfst网络输入,获取声学特征至音素的各路径的概率;以声学特征至发音属性的各路径输出的发音属性作为发音wfst网络的输入,获取发音属性至音素的各路径的概率;以发音属性至音素的各路径输出的音素和第二声学wfst网络输出的音素作为所述词典wfst网络的输入,获取音素至字或词的各路径的概率;以音素至字或词的各路径输出的字或词作为语言wfst网络的输入,获取字或词至词序列的各路径的概率;根据各wfst网络中各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

可选的,上述所获取的路径是指活跃路径,其中活跃路径是指wfst搜索过程中将概率较小路径裁剪后,剩余的概率较大的路径。

本申请的实施例,另一方面还提供了一种语音识别解码系统,所述系统包括:终端和服务器;所述终端用于接收语音信号,并将所述语音信号发送至服务器;所述服务器用于接收所述语音信号,并从语音信号中提取声学特征信序列,将所述声学特征序列输入语音识别wfst,获取声学特征序列至词序列的各路径的概率;比较各路径的概率,概率最大的路径所对应的词序列作为识别结果输出。

可选的,所述语音识别wfst是通过将声学wfst、发音wfst、上下文wfst,词典wfst、语言wfst进行整合所生成的从声学特征到词序列的搜索网络。

可选的,所述声学wfst是从声学特征到发音属性的搜索网络;所述发音wfst是从发音属性到上下文相关音素的搜索网络;所述上下文wfst是从上下文相关音素到音素的搜索网络;所述词典wfst是从音素到字或词的搜索网络;所述语言wfst是字或词到词序列的搜索网络。

可选的,所述语音识别wfst是通过将声学wfst、发音wfst、词典wfst、语言wfst进行整合所生成的从声学特征到词序列的搜索网络。

可选的,所述声学wfst是从声学特征到发音属性的搜索网络;所述发音wfst是从发音属性到音素的搜索网络;所述词典wfst是从音素到字或词的搜索网络;所述语言wfst是字或词到词序列的搜索网络。

上述语音识别解码系统中的wfst整合方式同上述语音识别wfst构建方法相关的实施例相同。

本申请的实施例,另一方面还提供了一种语音识别解码系统,所述系统包括:终端和服务器;所述终端用于接收语音信号,并将所述语音信号发送至服务器;所述服务器用于接收所述语音信号,并从语音信号中提取声学特征序列;

将声学特征序列顺序输入声学wfst网络,获取声学特征至发音属性的各路径的概率;以声学特征至发音属性的各路径输出的发音属性作为发音wfst网络的输入,获取发音属性至上下文相关音素的各路径的概率;以发音属性至上下文相关音素的各路径输出的上下文相关音素作为上下文wfst的输入,获取上下文相关音素至音素的各路径的概率;以上下文相关音素至音素的各路径输出的音素作为词典wfst网络的输入,获取音素至字或词的各路径的概率;以音素至字或词的各路径输出的字或词作为语言wfst网络的输入,获取字或词至词序列的各路径的概率;根据各wfst网络中各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

可选的,上述各步骤所获取的路径是指活跃路径,其中活跃路径是指wfst搜索过程中将概率较小路径裁剪后,剩余的概率较大的路径。

本申请的实施例,另一方面还提供了一种语音识别解码系统,所述系统包括:终端和服务器。

本申请的实施例,另一方面还提供了一种语音识别解码系统,所述系统包括:终端和服务器;所述终端用于接收语音信号,并将所述语音信号发送至服务器;所述服务器用于接收所述语音信号,并从语音信号中提取声学特征序列,将声学特征序列顺序作为声学wfst网络的输入,获取声学特征至发音属性的各路径的概率;以声学特征为第二声学wfst网络的输入,获取声学特征至上下文相关音素的各路径的概率;以声学特征至发音属性的各路径输出的发音属性作为发音wfst网络的输入,获取发音属性至上下文相关音素的各路径的概率;以发音属性至上下文相关音素的各路径输出的上下文相关音素以及第二声学wfst网络输出的上下文相关音素作为上下文wfst网络的输入,获取上下文相关音素至音素的各路径的概率;以上下文相关音素至音素的各路径输出的音素作为词典wfst网络的输入,获取音素至字或词的各路径的概率;以音素至字或词的各路径输出的字或词作为语言wfst网络的输入,获取字或词至词序列的各路径的概率;根据各wfst网络中各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

可选的,上述各步骤所获取的路径是指活跃路径,其中活跃路径是指wfst搜索过程中将概率较小路径裁剪后,剩余的概率较大的路径。

本申请的实施例,另一方面还提供了一种声学wfst的构建方法,所述方法包括,通过hmm隐马尔可夫模型,以发音属性作为状态,以声学特征作为观测,获得在发音属性条件下产生给定声学特征的概率,基于所述概率构建所述声学wfst。

可选的,通过hmm隐马尔可夫模型,以发音属性作为状态,以声学特征作为观测,获得在发音属性条件下产生给定声学特征的概率,进一步为,以发音属性作为状态,以声学特征作为观测,通过采用hmm隐马尔可夫模型结合前后向算法、期望最大化算法、viterbi,获得在发音属性条件下产生给定声学特征的概率,基于所述概率构建所述声学wfst。

本申请的实施例,另一方面还提供了一种发音wfst的构建方法,所述方法包括,通过以声学特征为输入,以发音属性和音素或上下文相关音素为双目标输出进行神经网络多目标训练,最终获得发音属性与音素或上下文相关音素的共现概率来构建发音wfst。

本申请的实施例,另一方面还提供了一种语音识别解码装置,所述装置包括:语音信号接收单元,用于接收语音信号;声学特征提取单元,用于从所述语音信号接收单元接接收语音信号中提取声学特征序列;第一获取单元,用于将声学特征提取单元提取的声学特征序列顺序输入声学wfst网络,获取声学特征至发音属性的各路径的概率;第二获取单元,用于将所述第一获取单元获取的各路径的发音属性输入发音wfst网络的,获取发音属性至上下文相关音素的各路径的概率;第三获取单元,用于将所述第二获取单元获取的各路径的上下文相关音素输入上下文wfst网络,获取上下文相关音素至音素的各路径的概率第四获取单元,用于将所述第三获取单元获取的各路径的音素输入词典wfst网络的,获取音素至字或词的各路径的概率;第五获取单元,用于将所述第四获取单元获取的各路径的字或词输入语言wfst网络,获取字或词至词序列的各路径的概率;结果输出单元,用于根据各个获取单元获取的各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

可选的,上述各步骤所获取的路径是指活跃路径,其中活跃路径是指wfst搜索过程中将概率较小路径裁剪后,剩余的概率较大的路径。

本申请的实施例,另一方面还提供了一种语音识别解码装置,所述装置包括:语音信号接收单元,用于接收语音信号;声学特征提取单元,用于从所述语音信号接收单元接接收语音信号中提取声学特征序列;第一获取单元,用于将声学特征提取单元提取的声学特征序列顺序输入声学wfst网络,获取声学特征至发音属性的各路径的概率;第二获取单元,将声学特征序列顺序作为第二声学wfst网络输入,获取声学特征序列至上下文相关音素的各路径的概率;第三获取单元,将第一获取单元获取的各路径输出的发音属性输入发音wfst网络,获取发音属性至上下文相关音素的各路径的概率;第四获取单元,将第二获取单元获取的各路径输出的上下文相关音素和第三获取单元获取的各路径输出的上下文相关音素输入上下文wfst网络,获取上下文相关音素至音素的各路径的概率;第五获取单元,将第四获取单元获取的各路径输出的音素输入词典wfst网络,获取音素至字或词的各路径的概率;第六获取单元将第五获取单元获取的各路径输出的字或词输入语言wfst网络,获取字或词至词序列的各路径的概率;结果输出单元,用于根据各个获取单元获取的各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

可选的,上述各步骤所获取的路径是指活跃路径,其中活跃路径是指wfst搜索过程中将概率较小路径裁剪后,剩余的概率较大的路径。

本申请上述实施例新增声学特征到发音属性的wfst,以及发音属性到音素的wfst得到新的语音识别wfst,从而在语音识别解码过程中加入了不受噪声、混响等外界干扰的发音属性特征,提高了语音识别系统对环境的鲁棒性,使得语音识别的准确率得到提高。

附图说明

图1a示出了本发明实施例中的wfst的一种示例;

图1b示出了本发明实施例中的wfst的一种示例;

图1c示出了对图1a、1b中的wfst进行整合后的结果示例;

图2示出了本发明实施例的一种语音识别解码系统图;

图3示出了本发明实施例的一种语音识别解码系统结构图;

图4给出了本发明实施例的另一种语音识别解码系统结构图;

图5示出了本发明实施例的一种语音识别wfst构建流程图;

图6示出了本发明实施例的另一种语音识别wfst构建流程图;

图7示出了本发明实施例的一种语音识别解码流程;

图8示出了本发明实施例的另一种语音识别解码流程;

图9示出了本发明实施例的又一种语音识别解码流程;

图10示出了本发明实施例的又一种语音识别解码流程;

图11示出了本发明实施例的又一种语音识别解码流程;

图12示出了本发明实施例的一种服务器结构图;

图13示出了本发明实施例的一种电子终端结构图;

图14示出了本发明实施例的一种语音识别解码装置的结构图;

图15示出了本发明实施例的又一种语音识别解码装置的结构图;

图16示出了本发明实施例的又一种语音识别解码装置的结构图;

图17示出了本发明实施例的又一种语音识别解码装置的结构图。

具体实施方式

为了便于理解,下面先对本发明实施例中的一些概念进行介绍:

本发明实施例中的语音识别解码器是通过语音识别wfst来构建。wfst是一种用于大规模的语音识别的加权有限状态转换器,每一个状态转换均用输入和输出符号标记。因此,所构建的网络(wfst)用于生成从输入符号序列或字符串到输出字符串的映射。wfst除了输入和输出符号之外还对状态转换进行加权。权重值可以是编码概率,持续时间或沿路径积累的任何其他数量,以计算将输入字符串映射到输出字符串的总体权重。wfst用于语音识别通常是表示在语音处理中输入语音信号后输出识别结果的各种可能的路径选择及其相应的概率。

wfst之间的整合(composition)是将两个不同级的wfst进行组合。如词典wfst是音素对字或词的映射,语言wfst是字或词对词序列(如词序列)的映射,两个wfst进行整合后就变成了音素对词序列的映射。图1a,1b,1c给出了一种wfst的整合实现方式,图1a、1b是两个不同级的wfst,图1c是整合后生成的新的wfst。

如图所示,例如图1a模型中的第一步有两条路径,第一路径是0->1,a1到b1的概率为0.2(表示成a1:b1/0.2),第二条路径为0->2,a2:b2/0.3,而图1b模型中的第一步只有一条路径,即0->1,b1:c2/0.4,因此图1a,1b整合后只有一条路径,a1->b1->c2,即图1a路径为0->1,a1:b1/0.2,和图1b的对应路径0->1,b1:c2/0.4结合,得到路径(0,0)->(1,1),a1:c2/0.6,如图1c所示,此处是进行概率值得相加,实际计算中概率的组合包括但不限于求和、乘积及其它线性及非线性变换。整合过程中其它路径的结合也和上述步骤类似,到达(1,1)后代表图1a网络中到达1位置了,在状态1同样有两条路径可走,分别为1->1,a3:b2/0.4,1->3,a1:b2/0.5,图1b的网络此时也是在状态1,只有一条路径,即1->2,b2:c4/0.5,在这个状态上a3:b2可以与b2:c4结合起来,a1:b2也可以与b2:c4结合起来,分别到的两个新的状态为(1,1)->(1,2)a3:c4/0.6和(1,1)->(3,2)a1:c4/1。同样的,图1a中的1->3,a1:b2/0.5可以和图1b中的2->2,b2:c4/0.6结合起来得到路径(1,2)->(3,2)a1:c4/1.1,基于上述方式就可以两个wfst网络结合起来整合为一个新的wfst图1c。

图2给出了本发明实施例的语音识别解码系统图,本发明实施例的语音识别方法和装置应用于如图2中的电子终端、一个或多个服务器(101、102),所述电子终端可以包括但不限于是智能手机、个人计算机、平板电脑、智能手表、智能眼镜、智能音响设备、车载电子终端、服务机器人等。电子终端和服务器101、服务器102可以通过一个或多个网络通信连接,网络可以是有线或无线网络,如因特网、蜂窝网络、卫星网络局域网和/或类似物。

服务器102用于构建语音识别wfst,并将构建的语音识别wfst输出给所述所述服务器101用于语音识别解码器的构建和语音识别解码。

具体构建包括:构建声学加权有限状态转换器wfst,所述声学wfst是从声学特征到发音属性的搜索网络;构建发音wfst,所述发音wfst是从发音属性到音素的搜索网络;构建词典wfst,所述词典wfst是从音素到字或词的搜索网络;构建语言wfst,所述语言wfst是字或词到词序列的搜索网络;构建第二声学wfst,所述第二声学wfst是从声学特征到音素的搜索网络;其中构建第二声学wfst为可选步骤;

上述语音识别wfst的构建还可以可选的包括上下文wfst,其中上下文wfst是从上下文相关音素到音素的搜索网络;当语音识别wfst的构建过程中包括上下文wfst时,所述发音wfst为从发音属性到上下文相关音素的搜索网络。

对多个wfst进行整合生成语音识别wfst,所述语音识别wfst为从声学特征到词序列的搜索网络;其中所述多个wfst包括:所述声学wfst、所述发音wfst、所述词典wfst、所述语言wfst、第二声学wfst(可选)、上下文wfst(可选)。

电子终端,通过语音获取装置,如麦克风,拾取语音声波,生成语音信号,并将所述语音信号发送至服务器101;服务器101用于接收所述语音信号,并从语音信号中提取声学特征序列,将所述提取的声学特征序列输入语音识别wfst进行搜索,获取声学特征至词序列的各路径的概率,比较各路径的概率,概率最大的路径作为识别结果发送回终端。

此处语音识别过程中进行的wfst搜索所获得的路径可以是指活跃路径。其中活跃路径是指wfst中每条路径都有一个概率值,为了在解码时降低计算量,一些概率较小的路径,在解码过程中将会被裁剪,不再扩展;概率较大的路径会继续扩展,这些路径就是活跃路径。

除上述实现方式外,本发明具体实施例中的语音识别wfst构建的执行主体还可以由电子终端设备执行,即电子终端设备执行本发明实施例的上述语音识别wfst的构建方法构建语音识别wfst,并基于语音识别wfst进行语音解码;语音识别wfst构建的执行主体还可以是服务器101,即服务器101和服务器102功能合并,服务器101执行本发明实施例的上述语音识别wfst的构建方法构建语音识别wfst,并基于语音识别wfst对终端发送的语音信号进行语音解码。

以上语音识别wfst的详细构建过程,以及语音识别解码的具体方法会在后续的具体实施例中详细介绍。

除上述构建语音识别wfst进行解码的实现方式外,本发明实施例的语音识别解码方法和装置应用于如图2中的电子终端和服务器还可以是:电子终端接收语音信号,并将所述语音信号发送至服务器101;服务器101可用于接收所述语音信号,并基于声学wfst、所述发音wfst、所述词典wfst、所述语言wfst、第二声学wfst(可选)、上下文wfst(可选)执行图8-11中的语音识别方法。或者可以是电子终端接收语音信号,并基于声学wfst、所述发音wfst、所述词典wfst、所述语言wfst、第二声学wfst(可选)、上下文wfst(可选)执行图8-11中的语音识别方法。所述图8-11中的语音识别方法会在后面的具体实施例描述中详细说明。

即本发明实施例的语音识别解码方案还可以是动态的解码方案,无需整合构建语音识别wfst,终端或者服务器直接基于各个wfst进行解码。

本发明实施例的一种语音识别解码wfst构建流程如图5所示,主要包括:

步骤501:生成声学wfst,声学wfst是从声学特征到发音属性的搜索网络,可以是,如隐马尔可夫模型(hmm)wfst(以h1表示)。

hmm(hiddenmarkovmodel)是关于时序的概率模型,描述由一个隐藏的马尔科夫链生成不可观测的状态随机序列,再由各个状态生成观测随机序列的过程。hmm的参数中包括所有可能的状态的集合,以及所有可能的观测的集合。hmm由初始概率分布、状态转移概率分布以及观测概率分布确定。初始概率分布和状态转移概率分布决定状态序列,观测概率分布决定观测序列。给定模型参数与观测序列,通过前后向算法计算给定模型下观测到上述观测序列的概率;给定观测序列,通过期望最大化算法估计模型参数,使得在该模型下观测序列概率最大;给定模型和观测序列,通过viterbi估计最优状态序列。

本发明实施例中声学wfst的构建可以是以发音属性作为状态,以声学特征作为观测,其中声学特征可以表现为各种组合的声学特征序列,采用hmm模型描述由发音属性生成声学特征的过程,通过前后向算法计算hmm模型下发音属性作为状态观测到声学特征的观测概率;给定声学特征,通过期望最大化算法和观测概率估计hmm模型参数,使得在该参数下发音属性作为状态所观测到声学特征概率最大;利用模型参数,通过viterbi估计一个发音属性,及在该发音属性条件下产生给定观测(声学特征)的概率。

步骤502:生成发音wfst,发音wfst是从发音属性(articulatoryfeatures)到音素或上下文相关音素的搜索网络(以a表示)。

发音属性信息可以是现有已知的发音方式的分类,如表1所示,也可以是根据发音位置的分类,但不限于此,可以通过神经网络学习获得新的发音属性类别。神经网络包括有多种算法模型,其中包括深度神经网络算法。其中发音wfst可以是发音属性到音素的搜索网络,也可以是发音属性上下文相关音素的搜索网络。当构建发音属性到音素的搜索网络时,可以是深度神经网络以声学特征为输入,以发音属性和音素为双目标输出,后续步骤也是基于发音属性和音素的训练;当构建发音属性到上下文相关音素的搜索网络时,可以是深度神经网络以声学特征为输入,以发音属性和上下文相关音素为双目标输出,后续步骤也是基于发音属性和上下文相关音素的训练,两种发音wfst的构建过程的训练方式相同,只是训练和构建的目标不同。因此下面在描述的过程中将两种训练过程合并进行描述,下面描述中音素/上下文相关音素表示或的关系,在生成发音属性到音素的搜索网络时选择音素相关的训练方案,在生成发音属性到上下文相关音素的搜索网络时选择上下文相关音素相关的训练方案。

表1:英语音素与发音属性对应表示例

发音属性至音素/上下文相关音素的对应可以通过以下步骤获取:

a)深度神经网络多目标训练,获取发音属性分类器,以及语音属于发音属性概率。深度神经网络以声学特征为输入,以发音属性和音素/上下文相关音素为双目标输出,利用前向传播算法计算给定声学特征条件下的音素/上下文相关音素概率及发音属性概率,并利用梯度下降算法训练深度神经网络参数。上述发音属性概率是指声学特征属于各发音属性的概率,并将概率最大的发音属性定义为当前声学特征的发音属性。

b)利用发音属性分类器,将声学特征序列重新对齐到发音级,获取到新标注。如帧数为t的声学特征序列o1,o2…ot,每一帧声学特征通过上述分类器都可以获得概率最大的发音属性,得到长度为t的发音属性序列a1,a2…at。此发音属性序列即为新标注。

c)利用新标注a1,a2…at重新对发音属性分类器进行多目标训练,更新上述发音属性分类器。

d)利用更新后的分类器,重新执行上述对齐获得新标注a1’,a2’…at’。

e)任意一语音帧会被分类到某一发音属性及某一音素/上下文相关音素,例如对声学特征o1,通过上述深度神经网络,得到概率最大的音素及发音属性,记概率最大的音素/上下文相关音素为p/p1-p+p2,概率最大的发音属性为a。那么发音属性a与音素p/上下文相关音素p1-p+p2有一次共现。在大量语音库上统计a与p/p1-p+p2的共现次数,并除以总帧数,得到a与p/p1-p+p2的共现概率。任意音素/上下文相关音素与任意发音属性的共现概率通过同样的方法得到。

f)将a、p/p1-p+p2及其共现概率表示成发音wfst。发音wfst状态转换的输入为发音属性a,输出为音素p或上下文相关音素p1-p+p2及a与p/p1-p+p2的共现概率。

步骤503,生成上下文wfst,上下文wfst是上下文相关音素到音素的映射。上下文相关音素比较常用的模型有三音子(记为音子/左音子/右音子),也可以采用四音子。

以上下文相关音素为例,在声学建模时,为考虑上下文语境对当前发音的影响,通常可以采用上下文相关的上下文相关音素模型作为基本建模单元,并且采用决策树聚类等方式减少模型状态数量,以避免上下文相关音素模型训练时的数据不足的问题。上下文wfst构建从上下文相关音素到音素的映射。上下文wfst从某一个状态出发,接收一个上下文相关音素,输出一个音素及概率,达到目的状态,完成一次转移。上下文wfst可以通过现有技术中的其他方式构建生成。

503为可选步骤,当有503步骤时,步骤502生成发音属性到上下文相关音素的搜索网络,当没有503步骤时,步骤502生成发音属性到音素的搜索网络。

步骤504,生成词典wfst,词典wfst是从音素到字或词的搜索网络(以l表示)。

词典通常以词-音素序列的形式表示。如果一个词有不同发音,则会以多个词-音素序列的形式表示。在生成词典wfst时,可以采用对音素及字(或词)进行编号,并引入消歧符号解决同音字等问题。消歧符号是在词典中的音素序列末尾插入的符号#1,#2,#3等。当音素序列是词典中另一个音素序列的前缀,或者出现在一个以上的单词中时,需要在其后加入这些符号之一,以确保wfst可确定化的。上述过程生成的词典以wfst的形式表示词-音素的映射关系。wfst接收音素序列,输出是词。词典wfst也可以通过现有技术中的其他方式构建生成。

步骤505,生成语言wfst,语言wfst是一个字或词到词序列的搜索网络(以g表示)。

语言模型用于描述字或词到词序列等不同的语法单元的概率分布的模型,用于计算一个词序列出现的概率,或者预测给定历史词语序列下,一个词语出现的概率。n-gram语言模型最常用的的表示形式之一。它利用马尔可夫模型,假设一个词语出现的概率仅与其前面出现的n个词语有关。比如,1-gram语言模型表示词语出现仅与自身有关,2-gram表示词语出现仅与前一个词有关,3-gram表示词语出现仅与前两个词有关,等等。

在构造语言模型时采用最大似然估计来进行概率估计,通过计算n-gram词序列在语料中出现的次数来计算相应的概率。将上述词序列及其概率表示成状态转换。语言wfst也可以通过现有技术中的其他方式构建生成。

前述步骤501、步骤502、步骤503、步骤504、步骤505不分先后;其中步骤503为可选步骤。

当执行步骤503时,发音wfst为发音属性到上下文相关音素的搜索网络,步骤510为:整合声学模型wfst、发音wfst、上下文wfst、词典wfst、语言wfst,确定化、最小化整合后生成语音识别wfst。整合过程为将词典wfst与语言模型wfst进行整合运算,得到的wfst再与上下文wfst整合运算,得到的结果再与发音wfst做整合运算,最后进一步与声学wfst做整合。完成整合运算后,即得到一个从声学特征(状态概率分布)对应到词序列的wfst加权有限状态转换器。

当不执行步骤503时,步骤510为:整合声学模型wfst、发音wfst、词典wfst、语言wfst,确定化、最小化整合后的wfst生成解码器。整合过程为,将词典wfst与语言模型wfst进行整合运算,得到的wfst再与发音wfst做整合运算,进一步与声学wfst做整合。完成整合运算后,即得到一个从声学特征(状态概率分布)对应到词序列的wfst加权有限状态转换器。

图6是对应于本发明实施例的又一种语音识别解码wfst构建方法,与图5所示的实施例的语音识别解码wfst构建方法区别在与增加了以下步骤:

步骤606:生成第二声学wfst网络,第二声学模型wfst是从声学特征到音素或者上下文相关音素的搜索网络(以h2表示)。如隐马尔可夫模型(hmm)wfst。第二声学wfst的生成方法在现有技术中已经存在,因此此处不再做详细的介绍。

同样,在图6所示的语音识别解码wfst构建方法中步骤603是可选步骤。因此对应的,上述第二声学wfst可以是声学特征到音素的搜索网络,也可以是声学特征到上下文相关音素的搜索网络。当构建的过程中不包括步骤603时,步骤606生成的第二声学wfst为声学特征到音素的搜索网络;当构建的过程中包括步骤603时,步骤606生成的第二声学wfst为声学特征到上下文相关音素的搜索网络。

步骤601、602、603、604、605与图5所示的实施例中的步骤501、502、503、504、505一样,不再赘述。步骤601、602、603、604、605、606不分先后。

步骤610:整合发音wfst、声学模型wfst、第二声学模型wfst、上下文wfst(可选)、词典wfst、语言wfst,确定化、最小化整合后的wfst生成解码器。整合过程包括上下文wfst时表示为(h1*a+h2)*c*l*g,整合过程为为,将声学wfst和发音wfst的整合结果和第二声学wfst进行网络合并,生成一个声学特征到上下文相关音素的wfst,将词典wfst与语言模型wfst进行整合,得到的有限状态转换器再与上下文wfst整合,整合后的结果再与网络合并后的wfst做整合,整合后的语音识别解码器wfst以(h1*a+h2)*l*g表示。整合过程不包括上下文wfst时表示为(h1*a+h2)*l*g,整合过程为,将声学wfst和发音wfst的整合结果和第二声学wfst进行网络合并,生成一个声学特征到音素的wfst,将词典wfst与语言模型wfst进行整合,得到的有限状态转换器再与网络合并后的wfst做整合,整合后的语音识别解码器wfst以(h1*a+h2)*l*g表示,其中的每条成功路径都表示一种可能的声学特征到词序列的对应。上述各个wfst进行composition最后形成了声学特征到词序列的映射。

图7示出了本发明实施例的一种语音识别解码方法。

步骤701:从语音信号帧中提取声学特征信息。声学特征提取的方式有多种,本发明的实施例中并不对其进行特别限定。声学特征提取方式有:例如将信号拾取单元输出的语音信号划分成多个语音信号帧,通过消除噪音、信道失真等处理对各语音信号帧进行增强,再将各语音信号帧从时域转化到频域,并从转换后的语音信号帧内提取合适的声学特征。

步骤702:以声学特征为输入,搜索语音识别wfst网络的路径,获取声学特征至词序列的各路径的概率。

其中所述语音识别wfst可以是通过图5、图6中所提到方法生成。

步骤703:比较各路径的概率,概率最大的路径所对应的词序列作为识别结果输出。

此处包括后续的解码过程中各步骤进行的wfst搜索所获得的路径可以是指活跃路径。其中活跃路径是指wfst中每条路径都有一个概率值,为了在解码时降低计算量,一些概率较小的路径,在解码过程中将会被裁剪,不再扩展;概率较大的路径会继续扩展,这些路径就是活跃路径。

通过上述实施例的语音识别解码方法通过采用考虑到发音属性与音素,发音属性与声学特征相关性而生成的语音识别wfst进行语音识别解码,能够增强对于外界噪声和混响的干扰抵抗能力,提高语音识别系统对环境的鲁棒性。

除了上述基于构建后的语音识别wfst的解码方法外,图8示出了本发明实施例的另一种语音识别解码方法:

步骤801:从语音信号中提取声学特征序列。

声学特征提取方式可以为:例如将信号拾取单元输出的语音信号划分成多个语音信号帧,通过消除噪音、信道失真等处理对各语音信号帧进行增强,再将各语音信号帧从时域转化到频域,并从转换后的语音信号帧内提取合适的声学特征。

步骤802:将语音帧对应的声学特征输入声学wfst,获取声学特征至发音属性的各路径的概率。

步骤803:以声学特征至发音属性的各路径输出的发音属性作为发音wfst网络的输入,获取发音属性至音素的各路径的概率。

步骤804:以发音属性至音素的各路径输出的音素作为词典wfst网络的输入,获取音素至字(或词)的各路径的概率。

步骤805:以音素至字(或词)的各路径输出的字(或词)作为语言wfst网络的输入,获取字(或词)至词序列的各路径的概率。

步骤810:根据各wfst中各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

所述声学特征序列通常是指接收的语音信号帧中从起始帧到最后一帧的语音帧序列所一一对应的声学特征序列。wfst间总路径概率的计算可以有多种方式,包括但不限于求和、乘积及其它线性及非线性变换。

在一个实施例中,上述声学wfst、发音wfst、词典wfst、语言wfst可以是基于图5中相应构建步骤的方式所生成的。

图8中的上述解码步骤可以采用时间同步的维特比光束(time-synchronousviterbibeam)搜索算法举例如下:viterbi-beam搜索算法是一个宽度优化的帧同步算法,其核心是一嵌套循环。每当往后推移一帧,就针对相应层次的每个节点分别运行viterbi算法。

下面给出viterbibeam搜索算法的基本步骤:

1.初始化搜索路径,在当前路径集合a中添加起始路径,设该路径为搜索网络的起始节点,并且设此刻时间t=0;

2.在t时刻,对于声学模型wfst的路径集合a中的每一条路径,都向后扩展一帧至所有可以达到的状态,执行viterbi算法。比较扩展路径前驱的得分,并保留最佳得分。再利用发音wfst、词典wfst和语言wfst对路径重新判断得分;

3.利用设置的门限(光束宽度)裁剪掉不可能得分或低于门限分数的路径,保留高于得分高于门限的路径。并将这些路径添加到a中,得到t+1时刻wfst的路径集合;

4.重复步骤2-3,直到所有语音帧计算完毕。回溯集合a中得分最高的路径。

通过上述实施例的语音识别解码方法和装置通过采用考虑到发音属性与声学特征,发音属性与音素相关性而构建的声学wfst和发音wfst进行语音识别解码,能够增强对于外界噪声和混响的干扰抵抗能力,提高语音识别系统对环境的鲁棒性。

图9为本发明实施例的又一种语音识别解码方法流程:

步骤901:从语音信号帧中提取声学特征信息。

通常接收到的待识别的语音信号可以切割为多个语音信息号帧,解码识别的过程是对语音信号进行声学特征提取。

步骤902:将语音帧对应的声学特征输入声学wfst,获取声学特征至发音属性的各路径的概率得分。

步骤903:以学特征至发音属性的各路径输出的发音属性作为发音wfst网络的输入,获取发音属性至上下文相关音素的各路径的概率。

步骤904:以发音属性至上下文相关音素的各路径输出的上下文相关音素作为上下文wfst网络的输入,获取上下文相关音素至音素的各路径的概率。

步骤905:以上下文相关音素至音素的各路径输出的音素作为词典wfst网络的输入,获取音素至字(或词)的各路径的概率。

步骤906:以音素至字(或词)的各路径输出的字(或词)作为解码器中的语言wfst网络的输入,获取字(或词)至词序列的各路径的概率。

步骤910:根据各wfst中各路径的概率来获得起始帧到最后一帧的声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

wfst间总路径概率的计算可以有多种方式,包括但不限于求和、乘积及其它线性及非线性变换。

在一个实施例中,上述声学wfst、发音wfst、上下文wfst、词典wfst、语言wfst可以是基于图5中相应构建步骤的方式所生成的。

通过上述实施例的方法和装置,不仅采用了考虑到发音属性与声学特征,发音属性与音素相关性而构建的声学wfst和发音wfst进行语音识别解码,还能够将语音的发音学知识加入到语音识别解码过程中,在远场等强噪音、强混响环境下,利用发音不受噪音干扰的性质,弥补传统声学模型受到噪声和混响等外界干扰后概率不准确的问题,并且通过上下文wfst的引入,能够提升语音识别过程中音素识别的准确性。

图10给出了本发明实施例的又一种语音解码识别方法流程图,与图8的解码流程图比较,区别在以下步骤:

步骤1002、以声学特征作为声学wfst网络的输入,获取声学特征至发音属性的各路径的概率;以声学特征为输入,以声学特征作为第二声学wfst网络的输入,获取声学特征至音素的各路径的概率;

步骤1004、以发音属性至音素的各路径输出的音素以及第二声学wfst网络输出的声学特征至音素的各路径中的音素作为词典wfst网络的输入,获取音素至字(或词)的各路径的概率;

其他步骤1001、1003、1005、1010和图8中的801、803、805,、810相同,因此不再赘述。

在一个实施例中,上述声学wfst、发音wfst、词典wfst、语言wfst可以是基于图6中相应构建步骤的方式所生成的。

上述方案改进了传统声学建模的方法,加入了不受噪声、混响等外界干扰的发音属性特征,并在传统的解码搜索基础上,提出改进的解码搜索方法,利用语音帧属于发音属性的概率,以及发音属性与音素的相关性,提高语音识别系统对环境的鲁棒性。图11给出了本发明实施例的又一种的语音识别解码方法流程图,与图9的解码流程图比较,区别在以下步骤:

步骤1102、将声学特征作为声学wfst网络的输入,获取声学特征至发音属性的各路径的概率;以声学特征为输入,搜索第二声学wfst网络的路径,获取声学特征至上下文相关音素的各路径的概率;

步骤1103、以声学特征至发音属性的各路径输出的发音属性作为发音wfst网络的输入,获取发音属性至上下文相关音素的各路径的概率;

步骤1104、以发音属性至上下文相关音素的各路径输出的上下文相关音素以及第二声学wfst输出的声学特征至上下文相关音素的各路径中的上下文相关音素作为解码器中的上下文wfst网络的输入,获取上下文相关音素至音素的各路径的概率;

在一个实施例中,上述声学wfst、发音wfst、上下文wfst、词典wfst、语言wfst可以是基于图6中相应构建步骤的方式所生成的。

通过上述实施例的方法和装置,改进了传统声学建模的方法,加入了不受噪声、混响等外界干扰的发音属性特征,并在传统的解码搜索基础上,提出改进的解码搜索方法,利用语音帧属于发音属性的概率,以及发音属性与音素的相关性,提高语音识别系统对环境的鲁棒性,此外还引入了上下文音素模型,结合上下文模型进行音素识别,提升语音识别的准确度。

图3给出了本发明实施例的一种语音识别解码系统结构图;其中包括语音识别wfst构建装置100和语音识别解码装置200,基于上文对图2所示语音识别解码系统的介绍,本发明的语音识别wfst构建装置可以设置于服务器102或服务器101或电子终端,语音识别解码装置可以设置于电子终端设备或服务器101。

图3中的语音识别wfst构建装置100包括:301声学wfst生成单元、302发音wfst生成单元、303上下文wfst生成单元、304词典wfst生成单元、305语言wfst生成单元、306解码器生成单元。

其中,301声学wfst生成单元用于生成声学模型wfst,声学模型wfst是从声学特征到发音属性的搜索网络(以h1表示)。

302发音wfst生成单元用于构建生成发音wfst,发音wfst是从发音属性(articulatoryfeatures)到音素或上下文相关音素的搜索网络(以a表示)。

303上下文wfst生成单元用于生成上下文(context)wfst(以c表示),303上下文wfst可以是上下文相关音素到音素的映射,其中上下文相关音素可以是三音子(记为音子/左音子/右音子)。303上下文wfst生成单元为语音识别解码器的构建装置中的可选单元。当语音识别wfst的构建装置中包括303上下文wfst生成单元,302发音wfst生成单元所构建的发音wfst是从发音属性到上下文相关音素的搜索网络;当语音识别wfst的构建装置中不包括303上下文wfst生成单元,302发音wfst生成单元所构建的发音wfst是从发音属性到音素的搜索网络。

304词典wfst生成单元用于生成词典(lexicon)wfst,词典wfst是从音素到字(或词)的搜索网络(以l表示)。

305语言wfst生成单元用于生成语言模型(languagemodel)wfst,语言模型wfst是一个字(或词)到词序列的搜索网络(以g表示)。

306语音识别wfst生成单元,用于对声学模型wfst、发音wfst、词典wfst、语言模型wfst进行整合、确定化、最小化等获得最后的语音识别解码器wfst。

如果不引入上下文wfst(c),306语音识别wfst生成单元进行整合的过程,是将304词典wfst与305语言模型wfst进行整合运算,得到的wfst再与302发音wfst做整合运算,进一步与301声学wfst做整合。完成整合运算后,即得到一个从声学特征(状态概率分布)对应到词序列的wfst加权有限状态转换器。整合后的加权有限状态转换器表示为h1*a*l*g,最终得到的语音识别解码器wfst所生成的状态转换网络的每条成功路径都表示一种可能的声学特征到词序列的对应。如果引入上下文wfst(c),整合后的语音识别解码器wfst为h1*a*c*l*g。整合步骤为将304词典wfst与305语言模型wfst进行整合运算,得到的wfst再与303上下文wfst整合运算,得到的结果再与302发音wfst做整合运算,最后进一步与301声学wfst做整合。完成整合运算后,即得到一个从声学特征(状态概率分布)对应到词序列的wfst加权有限状态转换器。

其中各个wfst的具体生成方法和整合方法可以参考图5的描述,此处不再赘述。

语音识别解码装置200包括:307信号拾取单元(如麦克风)和310解码器。

307信号拾取单元(如麦克风)用于采集获得语音声波获得语音信号。

310解码器包括:308信号处理及特征提取单元和309语音识别解码单元。其中308信号处理及特征提取单元用于对信号拾取单元输出的语音信号进行处理提取声学特征,309语音识别解码单元用于基于语音识别wfst对308信号处理及特征提取单元所提取的声学特征进行解码搜索,获得声学特征至词序列的各路径的概率,输出概率最大的路径对应的识别结果(词序列)。所述语音识别wfst是上文中提到的306语音识别wfst生成单元所生成。声学特征提取的方式有多种,本发明的实施例中并不对其进行特别限定。声学特征提取方式有:例如将信号拾取单元输出的语音信号划分成多个语音信号帧,通过消除噪音、信道失真等处理对各语音信号帧进行增强,再将各语音信号帧从时域转化到频域,并从转换后的语音信号帧内提取合适的声学特征。

图4给出了本发明实施例的另一种语音识别解码系统结构图,系统包括语音识别wfst构建装置300和语音识别解码装置400,在图3实施例的基础上,语音识别wfst构建装置300的组成单元中新增410第二声学模型wfst生成单元。

语音识别wfst构建装置300包括410第二声学模型wfst生成单元,401声学wfst生成单元、402发音wfst生成单元、403上下文wfst生成单元、404词典wfst生成单元、405语言wfst生成单元,406解码器生成单元。

其中401声学wfst生成单元、402发音wfst生成单元、403上下文wfst生成单元、404词典wfst生成单元、405语言wfst生成单元与图3中功能相同,不再赘述。

所述410第二声学模型wfst生成单元用于生成第二声学模型wfst,第二声学模型wfst是从声学特征到音素或上下文相关音素的搜索网络(以h2表示)。第二声学wfst可以由隐马尔可夫模型hmm构建。当语音识别wfst的构建装置中包括403上下文wfst生成单元,410第二声学wfst生成单元所构建的第二声学wfst是从声学特征到上下文相关音素的搜索网络;当语音识别wfst的构建装置中不包括403上下文wfst生成单元,410第二声学wfst生成单元所构建的第二声学wfst是从声学特征到音素的搜索网络。

406语音识别wfst生成单元用于对401声学模型wfst、410第二声学模型wfst,402发音wfst、404词典wfst、405语言模型wfst和403上下文wfst进行整合、确定化、最小化等获得最后的语音识别解码器wfst。其中由于403上下文wfst生成单元为可选单元,因此在整合过程中也可以不包括上下文wfst。

如果不引入上下文wfst(c),整合过程包括,将声学wfst和发音wfst的整合结果和第二声学wfst进行网络合并,生成一个声学特征到音素的wfst,将词典wfst与语言模型wfst进行整合,得到的有限状态转换器再与网络合并后的wfst做整合,整合后的语音识别解码器wfst以(h1*a+h2)*l*g表示,其中的每条成功路径都表示一种可能的声学特征到词序列的对应。如果引入上下文wfst(c),整合后的语音识别解码器wfst(以(h1*a+h2)*c*l*g表示)。整合过程包括,将声学wfst和发音wfst的整合结果和第二声学wfst进行网络合并,生成一个声学特征到音素的wfst,将词典wfst与语言模型wfst进行整合,得到的有限状态转换器再与上下文wfst整合,整合后的结果再与网络合并后的wfst做整合,整合后的语音识别解码器wfst以(h1*a+h2)*l*g表示。其中网络合并即是将两个输入输出类型相同的wfst网络进行合并,具体可以是将两个输入输出类型相同的wfst网络中的相同的路径进行合并并进行概率的组合,并将不同路径保留之后生成的输入输出类型不变的新的wfst网络。

其中各个wfst的具体生成方法和整合方法已经在图5的描述中介绍过,此处不再赘述。

图4的语音识别解码装置400与图3中实施例语音识别解码装置200比较,区别在406语音识别wfst生成单元所构建生成并发送给409语音识别解码单元的wfst和图3实施例中不同,407信号拾取单元(如麦克风)、408信号处理及特征提取单元功能和图3实施例中相同。即:409语音识别解码器是由406语音识别wfst生成单元整合生成,其中所述整合方式可以是现有的wfst的整合方法,比如通过确定化和最小化的方式整合而得。

图14是本申请实施例提供的一种语音识别解码装置的结构图。如图所示,语音识别解码装置包括:1401语音信号接收单元,1402声学特征提取单元,1403第一获取单元,1404第二获取单元,1405第三获取单元,1406第四获取单元,1410结果输出单元。

1401语音信号接收单元,用于接收语音信号;

1402声学特征提取单元,用于从所述语音信号接收单元1401接接收语音信号中提取声学特征序列;

1403第一获取单元,用于将声学特征提取单元1402提取的声学特征序列顺序输入声学wfst网络,获取声学特征至发音属性的各路径的概率;

1404第二获取单元,用于将所述第一获取单元1403获取的各路径的发音属性输入发音wfst网络,获取发音属性至音素的各路径的概率;

1405第三获取单元,将第二获取单元1404获取的各路径的音素输入作为词典wfst网络,获取音素至字或词的各路径的概率;

1406第四获取单元将第三获取单元1405获取的各路径的字或词输入语言wfst网络,获取字或词至词序列的各路径的概率;

1410结果输出单元,用于根据各个获取单元获取的各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

图15是本申请实施例提供的又一种语音识别解码装置的结构图。如图所示,语音识别解码装置包括:1501语音信号接收单元,1502声学特征提取单元,1503第一获取单元,1504第二获取单元,1505第三获取单元,1506第四获取单元,1507第五获取单元,1510结果输出单元。

1501语音信号接收单元,用于接收语音信号;

1502声学特征提取单元,用于从所述语音信号接收单元1501接接收语音信号中提取声学特征序列;

1503第一获取单元,用于将声学特征提取单元1502提取的声学特征序列顺序输入声学wfst网络,获取声学特征至发音属性的各路径的概率;

1504第二获取单元,用于将所述第一获取单元1503获取的各路径的发音属性输入发音wfst网络的,获取发音属性至上下文相关音素的各路径的概率;

1505第三获取单元,用于将所述第二获取单元1504获取的各路径的上下文相关音素输入上下文wfst网络,获取上下文相关音素至音素的各路径的概率;

1506第四获取单元,用于将所述第三获取单元1505获取的各路径的音素输入词典wfst网络的,获取音素至字或词的各路径的概率;

1507第五获取单元,用于将所述第四获取单元1504获取的各路径的字或词输入语言wfst网络,获取字或词至词序列的各路径的概率;

1510结果输出单元,用于根据各个获取单元获取的各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

图16是本申请实施例提供的又一种语音识别解码装置的结构图。如图所示,语音识别解码装置包括:1601语音信号接收单元,1602声学特征提取单元,1603第一获取单元,1604第二获取单元,1605第三获取单元,1606第四获取单元,1607第五获取单元,1610结果输出单元。

1601语音信号接收单元,用于接收语音信号;

1602声学特征提取单元,用于从所述语音信号接收单元1601接接收语音信号中提取声学特征序列;

1603第一获取单元,用于将声学特征提取单元1602提取的声学特征序列顺序输入声学wfst网络,获取声学特征至发音属性的各路径的概率;

1604第二获取单元,将声学特征提取单元1602提取的声学特征序列顺序作为第二声学wfst网络输入,获取声学特征序列至音素的各路径的概率;

1605第三获取单元,将第一获取单元1603获取的各路径输出的发音属性输入发音wfst网络,获取发音属性至音素的各路径的概率;

1606第四获取单元,将第二获取单元1604获取的各路径输出的音素和第三获取单元1605获取的各路径输出的音素输入词典wfst网络,获取音素至字或词的各路径的概率;

1607第五获取单元将第四获取单元1606获取的各路径输出的字或词输入语言wfst网络,获取字或词至词序列的各路径的概率;

1610结果输出单元,用于根据各个获取单元获取的各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

图17是本申请实施例提供的又一种语音识别解码装置的结构图。如图所示,语音识别解码装置包括:1701语音信号接收单元,1702声学特征提取单元,1703第一获取单元,1704第二获取单元,1705第三获取单元,1706第四获取单元,1707第五获取单元,1708第六获取单元,1710结果输出单元。

1701语音信号接收单元,用于接收语音信号;

1702声学特征提取单元,用于从所述语音信号接收单元1701接接收语音信号中提取声学特征序列;

1703第一获取单元,用于将声学特征提取单元1702提取的声学特征序列顺序输入声学wfst网络,获取声学特征至发音属性的各路径的概率;

1704第二获取单元,将声学特征提取单元1702提取的声学特征序列顺序作为第二声学wfst网络输入,获取声学特征序列至上下文相关音素的各路径的概率;

1705第三获取单元,将第一获取单元1703获取的各路径输出的发音属性输入发音wfst网络,获取发音属性至上下文相关音素的各路径的概率;

1706第四获取单元,将第二获取单元1704获取的各路径输出的上下文相关音素和第三获取单元1705获取的各路径输出的上下文相关音素输入上下文wfst网络,获取上下文相关音素至音素的各路径的概率;

1707第五获取单元,将第四获取单元1706获取的各路径输出的音素输入词典wfst网络,获取音素至字或词的各路径的概率;

1708第六获取单元将第五获取单元1707获取的各路径输出的字或词输入语言wfst网络,获取字或词至词序列的各路径的概率;

1710结果输出单元,用于根据各个获取单元获取的各路径的概率来获得声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

图12示出了本发明实施例的一种服务器的结构示意图。图12显示的服务器1208仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图12所示,服务器1208是通用计算设备的形式表现。服务器1208的组件可以包括:一个或者多个设备处理器1201,存储器1202,连接不同系统组件(包括存储器1202和设备处理器1201)的总线1204。

总线1204表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。通常来说,可以是工业标准体系结构(isa)总线,微通道体系结构(mac)总线,增强型isa总线、视频电子标准协会(vesa)局域总线以及外围组件互连(pci)总线。

服务器1208典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器1208访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。存储器1202可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(ram)1211和/或高速缓存存储器1212。服务器1208可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。例如,存储系统1213可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图12中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如cd-rom,dvd-rom或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线1204相连。存储器1202可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块1214,这些程序模块1214被配置以执行本发明具体实施例中语音识别解码方法的功能。

程序模块1214可以存储在例如存储器1202中,这样的程序模块1214包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块1214通常执行本发明所描述的实施例中的功能和/或方法。

服务器1208也可以与一个或多个外部设备1206(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器1208交互的设备通信,和/或与使得该服务器1208能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过用户接口1205进行。并且,服务器1208还可以通过通信模块1203与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,通信模块1203通过总线1204与服务器1208的其它模块通信。应当明白,尽管图中未示出,可以结合服务器1208使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

设备处理器1201通过运行存储在存储器1201中的程序,从而执行各种功能应用以及数据处理,例如:

处理器1201可用于调用存储于存储器1202中的程序,例如本申请的一个或多个实施例提供的语音识别wfst的构建方法,如图7-11所示的语音识别解码方法在服务器侧的实现程序,或者,存储器1202可用于存储本申请的一个或多个实施例提供的语音识别解码方法,如图5-6所示的语音识别wfst构建方法在服务器侧的实现程序。并执行程序包含的指令。

以图5所述的语音识别wfst的构建方法的实现程序为例,当处理器1201可用于调用存储于存储器1202中的语音识别wfst的构建方法在服务器侧的实现程序时,执行以下步骤:

1、生成声学wfst,声学wfst是从声学特征到发音属性的搜索网络,如隐马尔可夫模型(hmm)wfst。

2、生成发音wfst,发音wfst是从发音属性(articulatoryfeatures)到音素或上下文相关音素的搜索网络。

3、生成上下文wfst,上下文wfst是上下文相关音素到音素的映射(可选步骤)。

4、生成词典wfst,词典wfst是从音素到字或词的搜索网络。

5、生成语言wfst,语言wfst是一个字或词到词序列的搜索网络。

6、整合声学模型wfst、发音wfst、上下文wfst(可选)、词典wfst、语言wfst后生成语音识别wfst。

上述步骤的具体实现方法在图5的说明中已经详细介绍过,因此不再赘述。

图12的服务器中的处理器还可以用于执行图6的语音识别wfst构建方法在服务器侧的实现程序。图12的服务器中的处理器还可以用于执行图7-11中的一种或多种的语音识别解码方法在服务器侧的实现程序。

上述方法已经在上文中详细介绍过,因此不再赘述。

本发明实施例中的语音识别解码方法可以用于在电子终端中进行语音识别。图13示出了本发明实施例提供的一种电子终端的结构示意图,其中该电子终端400可以为各种形态的移动终端,包括手机,平板,pda(personaldigitalassistant,个人数字助理),车载终端,可穿戴设备,智能终端等。其中图13显示的电子终端1300仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。

如图13所示,该电子终端1300包括:rf电路1301、wi-fi模块1302、显示单元1303、输入单元1304、第一存储器1305、第二存储器1306、处理器1307、电源1308、gps模块1309等硬件模块。

其中,rf电路1301用来收发通信信号,能够与其他网络设备通过无线网络进行数据的交互。通信模块1302可以wi-fi模块,用于通过wi-fi连接网络进行通信互联。也可以是蓝牙模块,或是其他短距离无线通信模块。

显示单元1303用来显示用户交互界面,用户可以通过显示界面访问移动应用。该显示单元1303可包括显示面板,可选的,可以采用lcd(liquidcrystaldisplay,液晶显示器)或oled(organiclight-emittingdiode,有机发光二极管)等形式来配置显示面板。在具体实现中,上述触控面板覆盖该显示面板,形成触摸显示屏,处理器1307根据触摸指令的类型在触摸显示屏上提供相应的视觉输出。具体地,本发明实施例中,该输入单元1304可以包括触控面板,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上操作),可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板。除了触控面板,输入单元1304还可以包括其他输入设备,包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

其中,第一存储器1305存储该装置预设数量的app以及界面信息;可以理解的,第二存储器1306可以为电子终端1300的外存,第一存储器1305可以为该智能装置的内存。第一存储器1305可以为nvram非易失存储器、dram动态随机存储器、sram静态随机存储器、flash闪存等其中之一;该智能装置上运行的操作系统通常安装在第一存储器1305上。第二存储器1306可以为硬盘、光盘、usb盘、软盘或磁带机、云服务器等。可选地,现在有一些第三方的app也可以安装在第二存储器1306上。本发明的具体实施例中的语音识别解码程序或语音识别wfst构建程序都可以存储于第一存储器1305上,也可以存储于第二存储器1306上。

处理器1307是装置的控制中心,利用各种接口和线路连接整个装置的各个部分,通过运行或执行存储在该第一存储器1305内的软件程序和/或模块,以及调用存储在该第二存储器1306内的数据,执行该装置的各种功能和处理数据。可选的,该处理器1307可包括一个或多个处理单元。

电源1308可以为整个装置供电,包括各种型号的锂电池。

gps模块1309用于获取用户的位置信息,比如位置坐标。

当第一存储器1305或第二存储器1306中安装的某个程序接收处理器的指令,执行步骤如下:

在本申请的一些实施例中,第一存储器1305或第二存储器1306可用于存储本申请的一个或多个实施例提供的语音识别解码方法,如图7-11所示的语音识别解码方法在终端侧的实现程序,或者第一存储器1305或第二存储器1306可用于存储本申请的一个或多个实施例提供的语音识别wfst的构建方法,如图5-6所示的语音识别wfst构建方法在终端侧的实现程序。关于本申请的一个或多个实施例提供的语音识别解码方法的实现,请参考图5-11的实施例。

处理器1307可用于读取和执行计算机可读指令。具体的,处理器1307可用于调用存储于第一存储器1305或第二存储器1306中的程序,例如本申请的一个或多个实施例提供的语音识别解码方法在电子终端侧的实现程序,或者,本申请的一个或多个实施例提供的语音识别wfst构建方法在终端侧的实现程序并执行程序包含的指令。

以图8语音识别解码方法在电子终端侧的实现程序为例,当处理器1307可用于调用存储于第一存储器1305或第二存储器1306中的网络拥塞方法在电子终端侧的实现程序时,执行以下步骤:

1、从语音信号帧中提取声学特征。

通常接收到的待识别的语音信号可以切割为多个语音信息号帧,解码识别的过程是对语音信号进行声学特征提取。

2、将语音帧对应的声学特征输入声学wfst,获取第一层的声学特征至发音属性的各路径的概率。

3、以第一层的各路径输出的发音属性作为发音wfst网络的输入,获取第二层的发音属性至音素的各路径的概率。

4、以第二层的各路径输出的音素作为词典wfst网络的输入,获取第三层音素至字(或词)的各路径的概率。

5、以第三层各的路径输出的字(或词)作为语言wfst网络的输入,获取第四层字(或词)至词序列的各路径的概率。

6、根据各层中各路径的概率来获得起始帧到最后一帧的声学特征序列至词序列的各路径的总概率,将总概率最大的路径所对应的词序列作为对应于所述声学特征序列的识别结果输出。

图13的设备处理器还可以用于执行图5-6的语音识别wfst的构建方法,图7,9-11的语音识别解码方法在电子终端侧的实现程序。

上述方法已经在上文中详细介绍过,因此不再赘述。

具体当本发明实施例中的方法在终端中实现时,处理器还可以通过芯片的形式来实现。

上述装置通过改进传统语音识别解码器,加入了不受噪声、混响等外界干扰的发音属性特征,并在传统的解码搜索基础上,提出改进的解码搜索方法,利用语音帧属于发音属性的概率,以及发音属性与音素的相关性,提高语音识别系统对环境的鲁棒性。

本领域内的技术人员应明白,本申请实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例均可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

显然,本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1