一种语音识别方法及装置制造方法

文档序号：2826548阅读：168来源：国知局

一种语音识别方法及装置制造方法
【专利摘要】本发明涉及信息处理【技术领域】，尤其涉及一种语音识别方法及装置；其中，所述方法包括：获取语音数据；根据所述语音数据的属性信息自动确定所述语音数据的类型；选择与所述语音数据的类型相匹配的声学模型进行语音识别。通过本发明技术方案，根据语音数据类型建立相应的声学模型，使得声学模型的建立更具准确性；进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别，使得语音的识别更具准确性。
【专利说明】一种语音识别方法及装置
【技术领域】
[0001]本发明涉及信息处理【技术领域】，尤其涉及一种语音识别方法及装置。
【背景技术】
[0002]语音识别(Speech Recognition)是新近兴起的一门新兴学科。语音识别技术的应用使得机器等相关设备“听懂”人的自然语音，实现了由语音到信号的转换。语音识别通过将语音转换成数字或模拟信号，进而由模拟或数字信号作为控制信号实现相应的控制及其他相关功能，提升了控制及其他相关功能实现的便利及灵活性。因此，语音识别在工业、军事、交通、医学、生活等各个方面有着广阔的前景。
[0003]声学模型是语音识别的基础，通过对语音数据的特征量提取等实现语音的识别。现有技术中语音识别往往采用单个声学模型进行语音识别，通过训练建立一个声学模型，建立模型后根据接收的语音数据，在所建立声学模型的基础上，实现语音的识别；进而根据识别结果获取语音包含信息的数据信号，实现控制等相关功能。
[0004]现有技术中，通过单个声学模型进行语音识别，因不同语音类型有各自的声学特点，以单个声学模型作为语音识别的基础会使得训练的声学模型准确度较差，并进而造成语音识别结果的准确度较低。

【发明内容】

[0005]本发明提供了一种语音识别方法及装置，以提高语音识别的准确性。
[0006]第一方面，本发明实施例提供了一种语音识别的方法，包括:
[0007]获取语音数据；
[0008]根据所述语音数据的属性信息自动确定所述语音数据的类型；
[0009]选择与所述语音数据的类型相匹配的声学模型进行语音识别。
[0010]本发明实施例提供的语音识别方法，根据不同语音的特点划分语音数据的类型，进而根据划分的语音数据的类型，建立与相应语音数据类型相匹配的声学模型。当进行语音识别时，相关设备根据语音数据的属性信息确定语音数据的类型后，根据确定的语音数据类型选择与语音数据类型相匹配的声学模型进行语音的识别。通过本发明技术方案，根据语音类型建立相应的声学模型，使得声学模型的建立更具准确性；进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别，使得语音的识别更具准确性。
[0011]第二方面，本发明实施例提供了一种语音识别的装置，包括:
[0012]获取模块，用于获取语音数据；
[0013]确定模块，用于根据所述语音数据的属性信息自动确定所述语音数据的类型；
[0014]选择模块，用于选择与所述语音数据的类型相匹配的声学模型进行语音识别。
[0015]本发明实施例提供的语音识别装置，根据不同语音的特点划分语音数据的类型，进而根据划分的语音数据的类型，建立与相应语音数据类型相匹配的声学模型。当进行语音识别时，相关设备根据语音数据的属性信息确定语音数据的类型后，根据确定的语音数据类型选择与语音数据类型相匹配的声学模型进行语音的识别。通过本发明技术方案，根据语音数据类型建立相应的声学模型，使得声学模型的建立更具准确性；进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别，使得语音的识别更具准确性。
【专利附图】

【附图说明】
[0016]此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，并不构成对本发明的限定。在附图中:
[0017]图1是本发明实施例一中语音识别方法流程示意图；
[0018]图2是本发明实施例二中语音识别方法流程示意图；
[0019]图3是本发明实施例二中语音数据获取流程示意图；
[0020]图4是本发明实施例二中语音识别方法数据在客户端和服务器端交互示意图；
[0021]图5是本发明实施例三中语音识别方法流程示意图；
[0022]图6是本发明实施例三中从语音数据包中提取语音数据的基频分量流程示意图；
[0023]图7是本发明实施例四中语音识别方法流程示意图；
[0024]图8是本发明实施例五中语音识别装置结构模块示意图。
【具体实施方式】
[0025]下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是，此处所描述的具体实施例仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。
[0026]声学模型是语音识别技术的基础，描述了语音特征到发音单元的统计对应关系，本发明语音识别方法具体实现是在声学模型改动的基础上而进行的。可以理解的是，不同类别的说话人语音特性也不同，以此可以根据不同类别的语音特性建立相应的声学模型。目前，声学模型采用高斯混合模型一隐马模型(G MM — HMM)或者深层神经网络一隐马模型(D N N — H M M)，通过采用自适应或者在原有模型基础上采用相关类别的数据进一步迭代，生成相关类别的声学模型，并在构建多种声学模型集合而成的声学模型库。本发明技术方案的实现是基于上述或本领域技术人员应该知晓的任何其他方法建立的与语音数据特性类型相匹配的多种声学模型的基础上进行的，下述结合具体实施例详细说明本发明。
[0027]图1是本发明实施例一中语音识别方法流程示意图；作为一种优选方式，本实施例可适用于在线语音的自动识别，并且本实施例方法应用于客户端设备或服务器端设备，或者客户端设备和服务器端设备的结合等，进而实现本发明方法。如图1所示，所述方法包括:
[0028]步骤101、获取语音数据。
[0029]语音数据是指由语音信息组成的客户端电子设备等获取，相关设备能够识别并能进行处理的数据信息。本实施例中获取语音数据是智能手机、IPAD、个人计算机、平板电脑、笔记本电脑等客户端设备或终端设备接收语音信息后，客户端或终端设备获取的语音数据。
[0030]步骤102、根据所述语音数据的属性信息自动确定语音数据的类型。[0031]语音数据的类型是指根据一定的方式划分语音形成的种类不同的语音数据，可以根据语音数据的属性信息自动识别其类型；其中语音数据的属性信息包括语音数据声学特性信息，例如语音中的基频分量等、语音数据相结合的因素的信息等，例如语音数据结合的背景音乐特点等。根据具体的方式可以根据不同的语音数据的属性信息有多种多样的划分，例如，因语音数据中基频分量的存在，可以根据基频分量划分语音数据的类型。基频是浊音发音过程中声带振动的频率，语音分辨的一个主要特征是激励的类型，根据激励类型不同，可以将语音信号分为浊音和清音两大类。语音中只有浊音才有基频，浊音的激励是周期性的脉冲串，脉冲串的频率就是基音频率，也即是基频分量，简称基频。由于发声器官生理方面的差异，男性和女性的基频分量范围不同，一般地，男性的基频分量范围大约为50Hz-250Hz ;女性的基频分量范围大约为120Hz-500Hz ;儿童的基频分量范围大约为250Hz-800Hz。因此，可以根据语音中基频分量的范围确定语音数据的类型。
[0032]进一步的，需要说明的是，当获取语音数据后对语音数据类型的确定可以在服务器端进行，也可以在客户端或终端进行。具体方式的选择根据应用而进行相应设定，例如，可以在客户端中确定语音数据的类型，进而将确定语音数据类型的信息和语音数据发送至服务器端实现语音的识别。
[0033]步骤103、选择与语音数据的类型相匹配的声学模型进行语音识别。
[0034]根据语音数据类型所对应的语音类型训练有相应类型的声学模型。当确定语音的类型后，根据语音的类型相应的确定语音数的据类型，进而确定与语音数据类型相匹配的声学模型，进而根据确定的声学模型进行语音的识别。本发明实施例中与语音数据类型相匹配的声学模型可以通过多种方式进行建立。例如，可以根据语音的声学特性，不同年龄段或者不同性别的人的语音的不同特点，进而建立各种不同的声学模型；并进一步确立语音数据类型与声学模型的匹配关系；进而当确定相应语音数据的类型后，选择与相应语音数据类型相匹配的声学模型进行语音识别。
[0035]本发明实施例提供的语音识别方法，根据不同语音的特点划分语音数据的类型，进而根据划分的语音数据的类型，建立与相应语音数据类型相匹配的相应的声学模型。当进行语音识别时，相关设备可基于语音数据的属性信息自动确定语音数据的类型后，根据确定的语音数据类型选择与语音数据类型相匹配的声学模型进行语音的识别。根据本发明技术方案，本实施例中对本发明的具体实施，根据语音数据类型建立相应的声学模型，因对不同的语音数据的类型建立了与其更匹配的声学模型，使得声学模型的建立更具准确性；进而根据相应的语音数据类型选择相应类型的声学模型进行语音的识别，使得语音的识别更具准确性。并且，此过程中无需人为干预，能够基于语音数据的属性自动完成类型确认的操作。
[0036]图2是本发明实施例二中语音识别方法流程示意图。
[0037]本实施例以上述实施例为基础，优选根据语音数据中语音的基频分量对语音数据类型进行划分，具体划分基频分量范围为基频分量小于200Hz的第一范围、基频分量在200Hz-300Hz之间的第二范围，基频分量在300Hz-400Hz之间的第三范围；其中，第一范围为男性范围、第二范围为女性范围、第三范围为儿童范围；与此相对应建立的声学模型有男性声学模型、女性声学模型和儿童声学模型。以此，本发明在本实施例中具体的实施是根据以上三种声学模型为基础构建的声学模型库为基础的。作为一种优选实施方式，本发明适用于智能手机语音的在线识别，本发明方法通过智能手机和服务器端相结合实现，如图2所示，所述方法包括:
[0038]步骤201、获取语音数据。
[0039]具体的，本实施例中可以由智能手机获取语音数据。
[0040]图3是本发明实施例二中语音数据获取流程示意图；具体的，如图3所示，获取语音数据的方法包括:
[0041]步骤2011、开启语音采集功能，对采集到的数据进行端点检测。
[0042]端点检测(VAD, Voice Activity Detection)是指在噪声环境中检测语音的存在与否，通常用于语音编码、语音增强等语音处理系统中，起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。当客户端或终端设备开启语音采集功能后，客户端或终端设备对获取的环境中的各种声音进行端点检测，在混合的声音中检测出人的语音。具体的，本实施例中智能手机开启语音采集功能后，进行端点检测，进而在混合的语音中检测出人的语音。
[0043]步骤2012、在检测到初始端点后，将采集到的数据作为语音数据。
[0044]当终端设备或客户端设备检测到人的语音后，开始采集语音，形成语音数据。终端设备或客户端设备进行端点检测后，对环境中各种声音进行识别，当检测到存在有语音后，并进一步确定语音的起始点，进而采集环境中的语音，形成语音数据。具体的，本实施例中，当智能手机检测到声音中有语音的存在，则采集语音，形成语音数据。
[0045]步骤202、提取语音数据的基频分量。
[0046]基频提取是根据一定方式提取语音中的基频分量；基频提取的方法包括时域的自相关、频域的倒谱法等。具体的，本实施例中为获取语音数据中的基频分量，可以采取时序的自相关法，也可以采取频域的倒谱法，以及其它本领域技术人员应该知晓的方法获取语音数据中的基频分量。
[0047]具体的，本实施例中，当智能手机获取语音数据后，提取语音数据的基频分量是在服务器端进行。终端设备或客户端设备采集语音数据后，发送语音数据至服务器端，服务器端进行对语音数据中基频分量进行提取。可以理解的是，本实施例中在服务器端提取基频分量只是本实施例的【具体实施方式】，根据具体应用可以有不同的设定，例如在智能手机中进行语音数据基频分量的提取。
[0048]步骤203、根据基频分量确定语音数据的类型。
[0049]在步骤202中服务器端提取获取了语音数据的基频分量，本步骤中是根据已获取的语音数据的基频分量确定语音数据的类型。根据已知的基频分量范围的划分及相应范围所对应的语音数据类型:基频分量小于200Hz的第一范围、基频分量在200Hz-300Hz之间的第二范围，基频分量在300Hz-400Hz之间的第三范围；其中，第一范围为男性范围、第二范围为女性范围、第三范围为儿童范围。以此，当确定语音数据的基频分量范围后，可以获取语音数据的类型；例如，当提取的基频分量为266Hz时，则根据划分的范围可以确定此语音数据为女性语音数据。
[0050]进一步的，为了实现对语音数据类型更准确的划分，在此种范围方式划分的基础上，可以进行进一步的范围划分。例如，对于基频分量在300Hz-400Hz之间的第三范围，在此范围内可以进一步划分为男孩范围和女孩范围。以此，通过对范围的进一步划分实现了更准确的声学模型的建立，实现更准确的语音的识别。
[0051]步骤204、选择与语音数据类型相匹配的声学模型进行语音识别。
[0052]根据语音数据类型所对应的语音类型训练有相应类型的声学模型。当确定语音数据的类型后，根据语音数据的类型相应的确定与语音数据类型相匹配的声学模型，进而根据确定的声学模型进行语音的识别。本发明实施例中与语音数据类型相匹配的声学模型可以通过多种方式进行建立。例如，可以根据语音的声学特性，不同年龄段或者不同性别的人的语音的不同特点，进而建立各种不同的声学模型；并进一步建立语音数据类型与声学模型的匹配关系，进而当确定相应语音数据的类型后，选择与相应语音数据类型相匹配的声学模型进行语音识别。
[0053]具体的，本实施例中以语音数据中基频分量作为确定语音数据类型的依据。本实施例中在步骤203中确定了语音数据的类型。本步骤计算根据已确定的语音数据的类型，选择与语音数据类型相匹配的声学模型进行语音识别。根据已知语音类型和声学模型的对应关系，建立的声学模型包括:男性声学模型、女性声学模型和儿童声学模型；以此当确定语音数据类型后，并可以选择相应声学模型进行语音的识别。例如，当确定语音数据为女性时，则选择相应的女性声学模型进行语音的识别。
[0054]图4是本发明实施例二中语音识别方法数据在客户端和服务器端之间交互示意图。
[0055]客户端的智能手机对环境中声音进端点检测，当在环境声音中检测到语音后，获取语音数据，并通过一定方式将数据发送至服务器端。
[0056]服务器端对获取的语音数据进行基频分量提取，根据提取的基频分量确定语音数据的类型，进而根据语音数据的类型在声学模型库中选择与语音数据类型相匹配的声学模型进行语音的识别。
[0057]本实施例中，当智能手机获取语音数据后，根据在客户端智能手机和服务器端对语音数据的一系列步骤流程的实施自动实现了语音的识别。本实施例中语音识别的具体实现，不需要采用人工手动通过设备中的相应按键选择与语音数据类型相匹配的声学模型等方式进行，客户端智能手机获取语音数据后自动进行识别，使得语音的识别更具灵活性。
[0058]以此，本发明实施例提供的语音识别方法，根据不同类型语音中包含基频分量的特点划分语音数据的类型，进而根据划分的语音数据的类型选择相应语音类型的声学模型，本实施例，也即是选择男性声学模块、女性声学模型、儿童声学模型等。当进行语音识别时，相关设备确定语音数据的类型后，根据确定的语音数据类型选择与语音数据类型相匹配的声学模型进行语音的识别。通过本发明技术方案，根据基频分量划分的语音数据类型建立相应的声学模型，使得声学模型的建立更具准确性；进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别更具精度与准确性，并同时实现了语音识别的灵活性。
[0059]图5是本发明实施例三中语音识别方法流程示意图。
[0060]本实施例中也是以根据语音数据中语音的基频分量对语音数据类型进行划分的，具体划分基频分量范围为基频分量小于200Hz的第一范围、基频分量在200Hz-300Hz之间的第二范围，基频分量在300Hz-400Hz之间的第三范围；其中，第一范围为男性范围、第二范围为女性范围、第三范围为儿童范围；与此相对应建立的声学模型有男性声学模型、女性声学模型和儿童声学模型。以此，本发明在本实施例中具体的实施是根据以上三种声学模型为基础构建的声学模型库为基础的。作为一种优选实施方式，本发明适用于智能笔记本电脑的在线识别，本发明方法通过笔记本电脑和服务器端相结合实现，如图5所示，所述方法包括:
[0061]步骤301、获取语音数据。
[0062]具体的，本实施例中可由笔记本电脑获取语音数据。
[0063]步骤302、将语音数据按预定时间长度分包，以形成至少一个语音数据包。
[0064]客户端获取语音数据，服务器端进行语音识别，因此客户端和服务器端之间需要进行语音数据传输。客户端与服务器端是通过超文本传输协议(HTTP, Hypertext transferprotocol)进行通讯，为了实现客户端和服务器端语音数据更准确有效的传输，对语音数据以数据包的方式进行传输。客户端将采集的语音数据进行分包，在采集的过程中将形成的语音数据按造预定的时间长度进行分包，预定时间是根据传输语音数据的实际需要而设定的划分语音数据的参考标准，也即是将语音数据按照一定的时间长度进行分包。具体的，本实施例中笔记本电脑将采集的语音数据进行分包。
[0065]优选的，本实施例中按照500ms的时间长度划分语音数据，形成语音数据包，进而笔记本电脑传输语音数据包，实现语音数据的传输。其中，采用格式为P CM。
[0066]步骤303、从全部或设定数量的语音数据包中提取语音数据的基频分量。
[0067]本实施例中对语音数据的基频提取是在客户端进行的，具体的也即是在笔记本电脑中进行的。笔记本电脑从全部或设定数量的语音数据包中提取语音数据的基频分量。为了实现对语音数据类型的判定必须提取语音数据的类型，当语音数据形成语音数据包后，可以提取全部的语音数据包进行语音数据类型的判定，也可以选择设定数据的语音数据包进行类型的判定。
[0068]图6是本发明实施例三中从语音数据包中提取语音数据的基频分量流程示意图；
[0069]步骤3031、选择全部或设定数量的语音数据包。
[0070]本实施例中，选择设定数量的数据包可以选择采集形成的第一个数据包，还可以选择采集形成的前N个数据数据包。其中，数据N根据实际应用的需要可以进行相应的设定。
[0071]步骤3032、对选择的每个语音数据包分别进行分帧。
[0072]对选择设定数量的语音数据包分别进行分帧，如25 m s —帧。
[0073]步骤3033、确定语音数据包中各帧语音数据的基频分量。
[0074]通过一定的方式提取确定语音数据包中语音数据的基频分量，可以为时域自相关法或者频域倒谱法。具体的，本实施例中采用时域自相关法确定语音数据包中各帧语音数据的基频分量。
[0075]步骤3034、根据语音数据包分帧的帧数及各帧语音数据的基频分量，确定数据包中语音数据的基频分量。
[0076]当确定语音数据包中各帧语音数据的基频分量及语音数据包分帧的帧数后，采用动态规划来进一步确定得到各帧的基频分量以及提取到基频的帧数，然后计算得到该语音数据包的平均基频分量，也即是语音数据包的基频分量。
[0077]步骤3035、根据各语音数据包确定的基频分量确定语音数据的基频分量。[0078]当各个语音数据包的基频分量确定后，通过一定的算法确定语音数据的基频分量。例如，可以通过求平均值的方法获取各个语音数据包的平均基频分量，进而根据平均基频分量确定语音数据的基频分量。
[0079]步骤304、根据基频分量确定语音数据类型。
[0080]在步骤303中提取获取了语音数据的基频分量，本步骤中是根据已获取的语音数据的基频分量确定语音数据的类型。根据已知的基频分量范围的划分及相应范围所对应的语音数据类型:基频分量小于200Hz的第一范围、基频分量在200Hz-300Hz之间的第二范围，基频分量在300Hz-400Hz之间的第三范围；其中，第一范围为男性范围、第二范围为女性范围、第三范围为儿童范围。以此，当确定语音数据的基频分量范围后，可以获取语音数据的类型；例如，当提取的基频分量为266Hz时，则根据划分的范围可以确定此语音数据为女性语音数据。
[0081]步骤305、选择与语音数据类型相匹配的声学模型进行语音识别。
[0082]根据语音数据类型所对应的语音类型训练有相应类型的声学模型。当确定语音数据的类型后，根据语音数据的类型，确定与语音数据类型相匹配的声学模型，进而根据确定的声学模型进行语音的识别。
[0083]具体的，本实施例中以语音数据中基频分量作为确定语音数据类型的依据。本实施例中在步骤304中确定了语音数据的类型。本步骤计算根据已确定的语音数据的类型，选择与语音数据类型相匹配的声学模型进行语音识别。根据已知语音类型和声学模型的对应关系，建立的声学模型包括:男性声学模型、女性声学模型和儿童声学模型；以此当确定语音数据类型后，并可以选择相应声学模型进行语音的识别。例如，当确定语音数据为女性时，则选择相应的女性声学模型进行语音的识别。
[0084]以此，本发明实施例提供的语音识别方法，根据不同语音中包含基频分量的特点划分语音的类型，进而根据划分的语音数据的类型选择相应语音类型的声学模型，本实施例，也即是选择男性声学模块、女性声学模型、儿童声学模型等。当进行语音识别时，相关设备确定语音数据的类型后，根据确定的语音数据类型选择与语音数据类型相匹配的声学模型进行语音的识别。通过本发明技术方案，根据基频分量划分的语音数据类型建立相应的声学模型，使得声学模型的建立更具准确性；进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别更具精度与准确性，并同时实现了语音识别的灵活性。并且，本实施例中，在笔记本电脑中对语音数据进行分包后，相应数据的数据包进行语音的识别，简化了语音数据类型判定的流程，并进一步使得语音数据的识别更快速与灵活。
[0085]图7是本发明实施例四中语音识别方法流程示意图；本实施例中也是以根据语音数据中语音的基频分量对语音数据类型进行划分的，在此不再赘述。作为一种优选实施方式，本发明适用于平板电脑的语音在线识别，本发明方法通过笔记本电脑和服务器端相结合实现，如图5所示，所述方法包括:
[0086]步骤401、获取语音数据。
[0087]具体的，本实施例中可由平板电脑获取语音数据。
[0088]步骤402、提取语音数据的基频分量。
[0089]基频提取是根据一定方式提取语音中的基频分量；基频提取的方法包括时域的自相关、频域的倒谱法等。具体的本实施例中为获取语音数据中的基频分量，可以采取时序自相关法，也可以采取频域的倒谱法，以及其他本领域技术人员应该知晓的方法获取语音数据中的基频分量。具体的，本实施例中在服务器端进行基频分量的提取。
[0090]步骤403、确定基频分量所属的基频分量范围。
[0091]根据已知的基频分量范围的划分及相应范围所对应的语音数据类型:基频分量小于200Hz的第一范围、基频分量在200Hz-300Hz之间的第二范围，基频分量在300Hz_400Hz之间的第三范围；其中，第一范围为男性范围、第二范围为女性范围、第三范围为儿童范围。以此，当确定语音数据的基频分量范围后，可以获取语音数据的类型。例如，当提取的基频分量为266Hz时，则根据划分的范围可以确定此基频分量属于200Hz-300Hz的女性之间的第二范围，也即是女性范围。
[0092]步骤404、根据基频分量范围所对应的语音类型，确定语音数据的类型。
[0093]根据已知相应范围所对应的语音数据类型:第一范围为男性范围、第二范围为女性范围、第三范围为儿童范围。以此，当确定语音数据的基频分量范围后，可以获取语音数据的类型。例如，当提取的基频分量为266Hz时，可以确定此基频分量属于200Hz-300Hz的女性之间的第二范围，也即是女性范围；进而可以确定此基频分量所对应的数据类型为女性。
[0094]步骤405、选择与语音数据类型相匹配的声学模型进行语音识别。
[0095]根据语音数据类型所对应的语音类型训练有相应类型的声学模型。当确定语音数据的类型后，根据语音数据的类型，确定与语音数据类型相匹配的声学模型，进而根据确定的声学模型进行语音的识别。
[0096]具体的，本实施例中以语音数据中基频分量作为确定语音数据类型的依据。本实施例中在步骤404中确定了语音数据的类型。本步骤计算根据已确定的语音数据的类型，选择与语音数据类型相匹配的声学模型进行语音识别。根据已知语音类型和声学模型的对应关系，建立的声学模型包括:男性声学模型、女性声学模型和儿童声学模型；以此当确定语音数据类型后，并可以选择相应声学模型进行语音的识别。例如，当确定语音数据为女性时，则选择相应的女性声学模型进行语音的识别。
[0097]以此，本发明实施例提供的语音识别方法，根据不同语音中包含基频分量的特点划分语音数据的类型，进而根据划分的语音数据的类型选择相应语音数据类型所对应的声学模型，本实施例，也即是选择男性声学模块、女性声学模型、儿童声学模型等。当进行语音识别时，相关设备确定语音数据的类型后，根据确定的语音数据类型选择与语音数据类型相匹配的声学模型进行语音的识别。通过本发明技术方案，根据基频分量划分的语音数据类型建立相应的声学模型，使得声学模型的建立更具准确性；进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别更具精度与准确性。
[0098]图8是本发明实施例五中语音识别装置结构模块示意图。如图8所示，所述语音识别装置包括:获取模块501，确定模块502，选择模块503。
[0099]获取模块501，用于获取语音数据。
[0100]确定模块502，用于根据所述语音数据的属性信息自动确定所述语音数据的类型。
[0101]选择模块503，用于选择与所述语音数据的类型相匹配的声学模型进行语音识别。
[0102]本发明实施例提供的语音识别装置，根据不同语音的特点划分语音数据的类型，进而根据划分的语音数据的类型，建立与相应语音数据类型相匹配的声学模型。当进行语音识别时，相关设备确定语音数据的类型后，根据确定的语音数据类型选择与语音数据类型相匹配的声学模型进行语音的识别。通过本发明技术方案，根据语音数据类型建立相应的声学模型，使得声学模型的建立更具准确性；进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别，使得语音的识别更具准确性。
[0103]进一步的，获取模块501包括:端点检测子模块1011，用于开启语音采集功能，对采集到的数据进行端点检测。
[0104]语音采集子模块5012，用于在检测到初始端点后，将采集到的数据作为语音数据。
[0105]进一步的，确定模块包括5021:基频提取子模块，用于提取所述语音数据的基频分量。
[0106]基频提取子模块5021包括:形成数据包单元2021a，用于将所述语音数据按预定时间长度分包，以形成至少一个语音数据包；其中，本实施例中优选的预定时间长度为500ms ο
[0107]提取单元5021b，用于从全部或设定数量的所述语音数据包中提取语音数据的基频分量。
[0108]提取单元5021b包括:数据包选择子单元，用于选择全部或设定数量的语音数据包；其中，本实施例中优选的设定数量为第一个或前N个。
[0109]分帧子单元，用于对选择的每个语音数据包分别进行分帧。
[0110]帧基频确定子单元，用于确定所述语音数据包中各帧语音数据的基频分量。
[0111]包基频确定子单元，用于根据所述语音数据包分帧的帧数及各帧语音数据的基频分量，确定所述数据包中语音数据的基频分量。
[0112]数据基频确定子单元，用于根据各语音数据包确定的基频分量确定所述语音数据的基频分量。
[0113]类型确定子模块5022，用于根据所述基频分量确定所述语音数据的类型。
[0114]类型确定子模块5022包括:确定基频分量范围单元5022c，用于确定所述基频分量所属的基频分量范围；其中，本实施例中优选的基频分量范围包括:基频分量小于200Hz的第一范围、基频分量在200Hz-300Hz之间的第二范围，基频分量在300Hz_400Hz之间的第
二范围。
[0115]确定语音数据类型单元5022d，用于根据所述基频分量范围所对应的语音类型，确定语音数据的类型。
[0116]其中，优选的，本实施例中语音数据类型包括:男性语音数据、女性语音数据和儿童语音数据；以及与所述语音数据类型相匹配的声学模型包括:男性声学模型、女性声学模型和儿童声学模型。
[0117]以此，本发明实施例提供的语音识别装置，根据不同语音中包含基频分量的特点划分语音的类型，进而根据划分的语音数据的类型选择相应语音类型的声学模型，本实施例，也即是选择男性声学模块、女性声学模型、儿童声学模型等。当进行语音识别时，相关设备确定语音数据的类型后，根据确定的语音数据类型选择与语音数据类型相匹配的声学模型进行语音的识别。通过本发明技术方案，根据基频分量划分的语音数据类型建立相应的声学模型，使得声学模型的建立更具准确性；进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别更具精度与准确性，并同时实现了语音识别的灵活性。[0118]显然，本领域技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。
[0119]以上所述仅为本发明的优选实施例，并不用于限制本发明，对于本领域技术人员而言，本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。
【权利要求】
1.一种语音识别方法，其特征在于，包括: 获取语音数据；根据所述语音数据的属性信息自动确定所述语音数据的类型；选择与所述语音数据的类型相匹配的声学模型进行语音识别。
2.如权利要求1所述的语音识别方法，其特征在于，所述获取语音数据，包括: 开启语音采集功能，对采集到的数据进行端点检测；在检测到初始端点后，将采集到的数据作为语音数据。
3.如权利要求1所述的语音识别方法，其特征在于，所述根据所述语音数据的属性信息自动确定所述语音数据的类型，包括: 提取所述语音数据的基频分量；根据所述基频分量确定所述语音数据的类型。
4.如权利要求3所述的语音识别方法，其特征在于，所述提取所述语音数据的基频分量包括: 将所述语音数据按预定时间长度分包，以形成至少一个语音数据包；从全部或设定数量的所述语音数据包中提取语音数据的基频分量。
5.如权利要求4所述的语音识别方法，其特征在于，所述从全部或设定数量的所述语音数据包中提取语音数据的基频分量，包括: 选择全部或设定数量的语音数据包；对选择的每个语音数据包分别进行分帧；确定所述语音数据包中各帧语音数据的基频分量；根据所述语音数据包分帧的帧数及各帧语音数据的基频分量，确定所述数据包中语音数据的基频分量；根据各语音数据包确定的基频分量确定所述语音数据的基频分量。
6.如权利要求5所述的语音识别方法，其特征在于，所述设定数量为第一个或前N个。
7.如权利要求4所述的语音识别方法，其特征在于，所述预定时间长度为500ms。
8.如权利要求3所述的语音识别方法，其特征在于，所述根据所述基频分量确定所述语音数据包中语音数据的类型，包括: 确定所述基频分量所属的基频分量范围；根据所述基频分量范围所对应的语音类型，确定语音数据的类型。
9.如权利要求8所述的语音识别方法，其特征在于，所述基频分量范围包括:基频分量小于200Hz的第一范围、基频分量在200Hz-300Hz之间的第二范围，基频分量在300Hz-400Hz之间的第三范围。
10.如权利要求1所述的语音识别方法，其特征在于，所述语音数据类型包括:男性语音数据、女性语音数据和儿童语音数据；以及与所述语音数据类型相匹配的声学模型包括:男性声学模型、女性声学模型和儿童声学模型。
11.一种语音识别装置，其特征在于，包括: 获取模块，用于获取语音数据；确定模块，用于根据所述语音数据的属性信息自动确定所述语音数据的类型；选择模块，用于选择与所述语音数据的类型相匹配的声学模型进行语音识别。
12.如权利要求11所述的语音识别装置，其特征在于，所述获取模块包括: 端点检测子模块，用于开启语音采集功能，对采集到的数据进行端点检测；语音采集子模块，用于在检测到初始端点后，将采集到的数据作为语音数据。
13.如权利要求11所述的语音识别装置，其特征在于，所述确定模块包括: 基频提取子模块，用于提取所述语音数据的基频分量；类型确定子模块，用于根据所述基频分量确定所述语音数据的类型。
14.如权利要求13所述的语音识别装置，其特征在于，所述基频提取子模块包括: 形成数据包单元，用于将所述语音数据按预定时间长度分包，以形成至少一个语音数据包；提取单元，用于从全部或设定数量的所述语音数据包中提取语音数据的基频分量。
15.如权利要求14所述的语音识别装置，其特征在于，所述提取单元包括: 数据包选择子单元，用于选择全部或设定数量的语音数据包；分帧子单元，用于对选择的每个语音数据包分别进行分帧；帧基频确定子单元，用于确定所述语音数据包中各帧语音数据的基频分量；包基频确定子单元，用于根据所述语音数据包分帧的帧数及各帧语音数据的基频分量，确定所述数据包中语音数据的基频分量；` 数据基频确定子单元，用于根据各语音数据包确定的基频分量确定所述语音数据的基频分量。
16.如权利要求15所述的语音识别装置，其特征在于，所述设定数量为第一个或前N个。
17.如权利要求14所述的语音识别装置，其特征在于，所述预定时间长度为500ms。
18.如权利要求13所述的语音识别装置，其特征在于，所述类型确定子模块包括: 确定基频分量范围单元，用于确定所述基频分量所属的基频分量范围；确定语音数据类型单元，用于根据所述基频分量范围所对应的语音类型，确定语音数据的类型。
19.如权利要求18所述的语音识别装置，其特征在于，所述基频分量范围包括:基频分量小于200Hz的第一范围、基频分量在200Hz-300Hz之间的第二范围，基频分量在300Hz-400Hz之间的第三范围。
20.如权利要求11所述的语音识别装置，其特征在于，所述语音数据类型包括:男性语音数据、女性语音数据和儿童语音数据；以及与所述语音数据类型相匹配的声学模型包括:男性声学模型、女性声学模型和儿童声学模型。
【文档编号】G10L15/26GK103714812SQ201310717335
【公开日】2014年4月9日申请日期:2013年12月23日优先权日:2013年12月23日
【发明者】苏丹申请人:百度在线网络技术（北京）有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏丹
技术所有人：百度在线网络技术（北京）有限公司
我是此专利的发明人

上一篇：鼓系统的制作方法
上一篇：基于音频输入的动态调适音调校正的制作方法