语音识别方法和装置的制造方法

文档序号:9766609阅读:499来源:国知局
语音识别方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音识别技术领域,特别涉及一种语音识别方法和装置。
【背景技术】
[0002]传统的语音识别技术,大多是基于状态建模的语音识别模型进行语音识别的。例如,基于隐马尔科夫模型(Hidden Markov Model;以下简称:HMM)进行语音识别。HMM可以看作一个数学上的双重随机过程:一个是用具有有限状态数的马尔科夫Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与马尔科夫Markov链的每一个状态相关联的观测序列的随机过程。在这种建模方式中,一个音素或者一个音节被认为可分为多个没有物理意义的状态,然后采用离散或者连续高斯模型或深度学习模型描述每个状态的输出分布。但是,基于状态建模的方式,在语音识别的过程中,在对两个发音单元之间处进行识别时,容易出现混淆,识别性能较差。

【发明内容】

[0003]本发明旨在至少在一定程度上解决上述技术问题。
[0004]为此,本发明的第一个目的在于提出一种语音识别方法,能够提高语音识别的准确性,并提高识别过程中的解码速度。
[0005]本发明的第二个目的在于提出一种语音识别装置。
[0006]为达上述目的,根据本发明第一方面实施例提出了一种语音识别方法,包括以下步骤:接收语音信号;根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声学模型是基于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单元,所述解码网络由所述基本发音单元构成的多个解码路径组成;将所述最优解码路径输出为所述语音信号的识别结果。
[0007]本发明实施例的语音识别方法,基于连接时序分类构建的声学模型和解码网络对语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,并作为语音信号的识别结果,能够解决两个发音单元中间出现混淆的问题,提高语音识别的准确性,并能够有效减少可能的解码路径,提高识别过程中的解码速度。
[0008]本发明第二方面实施例提出了一种语音识别装置,包括:接收模块,用于接收语音信号;解码模块,用于根据预先建立的声学模型、语言模型和解码网络对所述语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,所述声学模型是基于连接时序分类训练得到的,所述声学模型中包括基本发音单元和所述空白单元,所述解码网络由所述基本发音单元构成的多个解码路径组成;输出模块,用于将所述最优解码路径输出为所述语音信号的识别结果。
[0009]本发明实施例的语音识别装置,基于连接时序分类构建的声学模型和解码网络对语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,并作为语音信号的识别结果,能够解决两个发音单元中间出现混淆的问题,提高语音识别的准确性,并能够有效减少可能的解码路径,提高识别过程中的解码速度。
[0010]本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
【附图说明】
[0011]本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0012]图1为根据本发明一个实施例的语音识别方法的流程图;
[0013]图2为根据本发明一个实施例中解码网络的示意图;
[0014]图3为根据本发明另一个实施例的语音识别方法的流程图;
[0015]图4a为根据本发明一个实施例的解码网络中的节点S的示意图;
[0016]图4b为根据本发明一个实施例的对图4a中节点S添加blank节点后的拓扑图;
[0017]图5为本发明一个实施例的语音识别方法中两个发音单元中间识别混淆的示意图;
[0018]图6为根据本发明一个实施例的语音识别装置的结构示意图一;
[0019]图7为根据本发明一个实施例的语音识别装置的结构示意图二;
[0020]图8为根据本发明一个实施例的语音识别装置的结构示意图三;
[0021 ]图9为根据本发明一个实施例的语音识别装置的结构示意图四。
【具体实施方式】
[0022]下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0023]在本发明的描述中,需要理解的是,术语“多个”指两个或两个以上;术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0024]下面参考附图描述根据本发明实施例的语音识别方法和装置。
[0025]—种语音识别方法,包括以下步骤:接收语音信号;根据预先建立的声学模型、语言模型和解码网络对语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,声学模型是基于连接时序分类训练得到的,声学模型中包括基本发音单元和空白单元,解码网络由基本发音单元构成的多个解码路径组成;将最优解码路径输出为语音信号的识别结果。
[0026]图1为根据本发明一个实施例的语音识别方法的流程图。
[0027]如图1所示,根据本发明实施例的语音识别方法,包括以下步骤。
[0028]SlOl,接收语音信号。
[0029]S102,根据预先建立的声学模型、语言模型和解码网络对语音信号进行解码,并在解码过程中动态添加空白单元,以得到添加空白单元后的最优解码路径,其中,声学模型是基于连接时序分类训练得到的,声学模型中包括基本发音单元和空白单元,解码网络由基本发音单元构成的多个解码路径组成。[°03°] 在本发明的一个实施例中,预先建立的声学模型是基于(^(]((3011116(31:;[01118七temporal (:1&881;^0&1:;[011,连接时序分类)技术训练得到的。具体地,可对大量的语音信号进行特征提取,以得到各语音信号的特征向量。然后在特征向量中每隔预定数量的发音单元添加空白标签,并基于连接时序分类对添加所述空白标签后的语音信号进行训练,建立声学模型。其中,声学模型中包括多个基本发音单元和空白单元。
[0031]语言模型可为现有的或者未来可能出现的任意语言模型本发明对此不做限定。
[0032]声学模型中的多个基本发音单元及其之间的跳转关系(即跳转路径)可以形成大量的解码路径,这些解码路径即可构成解码网络。
[0033]其中,基本发音单元可为完整的声母或韵母,可被称为音素。
[0034]举例来说,图2为根据本发明一个实施例中解码网络的示意图。如图2所示,其中,虚线圆圈用于标识解码路径的开始,实线圆圈(如A和B)表示解码网络中的基本发音单元,箭头标识基本发音单元之间的跳转路径。由图2可知,解码网络中存在多个解码路径。每条解码路径为对语音信号进行解码时的一种可能解码结果。
[0035]在本发明的实施例中,对语音信号进行解码的过程即为根据语音信号的特征向量帧从解码网络中的多个解码路径中选择最优解码路径的过程。
[0036]在本发明的一个实施例中,如图3所示,S102可具体包括S201-S204:
[0037]S201,根据解码网络中的跳转路径,对当前各解码路径进行扩展,并在扩展过程中动态添加空白单元,以得到添加空白单元后的至少一个扩展路径。
[0038]对解码路径进行扩展的过程,即从解码网络中起始位置沿着各个基本发音单元之间的跳转路径向解码网络的结束位置一步步前进的过程。
[0039]举例来说,如果已经完成语音信号到达特征向量帧i扩展,并得到了至少一个解码路径(可称为当前解码路径),假设特征向量帧i在其中一个当前解码路径中对应的基本发音单元为A,则可根据解码网络中基本发音单元A的各个跳转路径分别对当前解码路径进行进一步扩展以得到可能的扩展路径。其中,在解码网络中每前进一步表示语音信号中的特征向量帧i跳转至特征向量帧i+Ι的一个可能的跳转路径。
[0040]在本发明的实施例中,随着路径扩展的进行,扩展到达一个基本发音单元时,可为该基本发音单元添加空白(black)单元,并添加空白单元相关的跳转路径。具体地,可确定各解码路径当前扩展到的第一基本发音单元;为第一基本发音单元添加由第一基本发音单元跳转至空白单元、由空白单元跳转至自身的跳转路径,以生成针对第一基本发音单元添加空白单元之后的至少一个扩展路径。
[0041]举例来说,对于图4a中的解码网络中的节点S,其添加空白(black)单元之后的拓扑图可如图4b所示,在原来的S—>S(即由S跳转至S)的路径基础上增加了 S—>blank以及blank—〉blank的路径。由此,相当于在基于解码网络中的跳转路径的基础上,在扩展到一个基本发音单元时,为该基本发音单元添加了空白单元相关的跳转路径,并根据添加的跳转路径对当前解码路径进行扩展。
[0042]由此,在解码路径中在进入S后,能够得到“S—〉S(可重复若干次,次数大
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1