语音识别的方法和装置的制造方法

文档序号：9752200阅读：450来源：国知局

语音识别的方法和装置的制造方法
【技术领域】
[0001]本发明涉及语音识别技术领域，尤其涉及一种语音识别的方法和装置。
【背景技术】
[0002]语音识别技术，是一种能够将用户输入的语音转换成文本的技术。随着科技的不断进步，语音识别技术的应用也越来越广泛。语音识别系统主要通过接收用户输入的语音，基于训练的声学模型对语音进行识别，从而获得语音识别结果。
[0003]目前，对声学模型的训练主要根据不同的采样率分别对训练语料进行训练，例如采样率为16khz的训练语料，生成的模型为16k的声学模型;采样率为8khz的，生成的模型为8k的声学模型。
[0004]但是，分别训练生成声学模型，训练语料需求量大，训练所需的时间成本高，且采样率低的声学模型的语音识别准确率低。

【发明内容】

[0005]本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种语音识别的方法，该方法能够解决分别训练生成不同采样率对应的声学模型，训练语料需求量大，训练所需的时间成本高的问题，且提升语音识别的准确率。
[0006]本发明的第二个目的在于提出一种语音识别的装置。
[0007]为了实现上述目的，本发明第一方面实施例提出了一种语音识别的方法，包括以下步骤:接收用户通过终端输入的语音信息和所述终端所处的网络信息;根据所述网络信息确定所述语音信息对应的采样率，其中，所述采样率包括第一采样率和第二采样率，所述第一采样率大于所述第二采样率；当所述语音信息对应的采样率为第一采样率时，根据所述第一采样率对应的声学模型对所述语音信息进行识别；以及当所述语音信息对应的采样率为第二采样率时，对所述语音信息进行预处理，并根据所述声学模型对预处理后的所述语音信息进行识别。
[0008]本发明实施例的语音识别的方法，通过接收用户通过终端输入的语音信息和终端所处的网络信息，然后根据网络信息确定语音信息对应的采样率，当语音信息对应的采样率为第一采样率时，直接根据声学模型对语音信息进行识别，当语音信息对应的采样率为第二采样率时，对语音信息进行预处理后，再根据声学模型对语音信息进行识别，解决了分别训练生成不同采样率对应的声学模型，训练语料需求量大，训练所需的时间成本高的问题，且提升了语音识别的准确率。
[0009]本发明第二方面实施例提出了一种语音识别的装置，包括:接收模块，用于接收用户通过终端输入的语音信息和所述终端所处的网络信息；确定模块，用于根据所述网络信息确定所述语音信息对应的采样率，其中，所述采样率包括第一采样率和第二采样率，所述第一采样率大于所述第二采样率;第一识别模块，用于当所述语音信息对应的采样率为第一采样率时，根据所述第一采样率对应的声学模型对所述语音信息进行识别；以及第二识别模块，用于当所述语音信息对应的采样率为第二采样率时，对所述语音信息进行预处理，并根据所述声学模型对预处理后的所述语音信息进行识别。
[0010]本发明实施例的语音识别的装置，通过接收用户通过终端输入的语音信息和终端所处的网络信息，然后根据网络信息确定语音信息对应的采样率，当语音信息对应的采样率为第一采样率时，直接根据声学模型对语音信息进行识别，当语音信息对应的采样率为第二采样率时，对语音信息进行预处理后，再根据声学模型对语音信息进行识别，解决了分别训练生成不同采样率对应的声学模型，训练语料需求量大，训练所需的时间成本高的问题，且提升了语音识别的准确率。
【附图说明】
[0011]图1是根据本发明一个实施例的语音识别的方法的流程图。
[0012]图2是根据本发明一个实施例的语音识别的装置的结构示意图一。
[0013]图3是根据本发明一个实施例的语音识别的装置的结构示意图二。
【具体实施方式】
[0014]下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。
[0015]下面参考附图描述本发明实施例的语音识别的方法和装置。
[0016]图1是根据本发明一个实施例的语音识别的方法的流程图。
[0017]如图1所示，语音识别的方法可包括:
[0018]S1、接收用户通过终端输入的语音信息和终端所处的网络信息。
[0019]其中，网络信息可包括2G网络、3G网络、4G网络等。具体地，用户可通过终端输入一段语音信息，然后终端可将该语音信息与该终端所处的网络信息一起上传至服务器。举例来说，用户开启手机的麦克风功能，并输入语音信息“搜一下附近的好吃的”，则手机可将该语音信息发送给服务器。同时，如果该手机使用的是移动4G网络，则可将该网络信息也发送给服务器。
[0020]S2、根据网络信息确定语音信息对应的采样率。
[0021]其中，采样率包括第一采样率和第二采样率，第一采样率大于第二采样率。具体地，服务器在收到上述语音信息和网络信息后，可根据网络信息确定语音信息对应的采样率。举例来说，如果终端使用的网络信息为4G或3G网络，则可确定语音信息对应的采样率为16khz;如果终端使用的网络信息为2G网络，则可确定语音信息对应的采样率为8khz。
[0022]S3、当语音信息对应的采样率为第一采样率时，根据第一采样率对应的声学模型对语音信息进行识别。
[0023]其中，第一采样率对应的声学模型主要通过LSTM(Long_Short Term Memory,时间递归神经网络)训练获得。例如，假设第一采样率为16khz，则可以16khz对语音信息进行采样，然后提取16khz对应的声学特征，再根据已训练好的16khz的声学模型对语音信息进行识别，从而生成对应的识别结果。
[0024]S4、当语音信息对应的采样率为第二采样率时，对语音信息进行预处理，并根据声学模型对预处理后的语音信息进行识别。
[0025]具体地，当语音信息对应的采样率为第二采样率时，可提取语音信息在第二采样率时的声学特征信息，然后基于频谱扩展模型将第二采样率时的声学特征信息转换为第一采样率时的声学特征信息。在此之后，可将转换后的第一采样率时的声学特征信息作为输入，并基于声学模型输出对应的识别结果。例如，假设第二采样率为Skhz，第一采样率为16khz，则可以Skhz对语音信息进行采样，然后提取Skhz对应的声学特征，再根据频谱扩展模型将提取的8khz对应的声学特征转换为16khz对应的声学特征，最后根据已训练好的16khz的声学模型对语音信息进行识别，从而生成对应的识别结果。
[0026]其中，频谱扩展模型为通过采集大量的第一采样率的训练语料，对训练语料进行训练获得的。具体地，可对训练语料进行下采样以获取训练语料在第二采样率时的声学特征信息，再根据回归神经网络建立训练语料在第一采样率时的声学特征信息与在第二采样率时的声学特征信息之间的映射关系，从而生成频谱扩展模型。举例来说，首先可采集大量的采样率为16khz的训练语料，然后对该训练语料进行下采样，提取训练语料在采样率为8khz时的声学特征，将该声学特征作为输入代入至回归神经网络，例如DNN(Deep NeuralNetworks，深度神经网络)，从而获得扩展为采样率为16khz的声学特征，以此建立采样率为8khz时的声学特征与采样率为16khz时的声学特征两者之间的映射关系，然后将映射关系保存，从而生成频谱扩展模型。
[0027]另外，在将第二采样率时的声学特征扩展为第一采样率时的声学特征之后，可将扩展后的声学特征加入至原有的第一采样率对应的声学模型中进行训练，从而使得训练后的声学模型准确率更高。
[0028]本发明实施例的语音识别的方法，通过接收用户通过终端输入的语音信息和终端所处的网络信息，然后根据网络信息确定语音信息对应的采样率，当语音信息对应的采样率为第一采样率时，直接根据声学模型对语音信息进行识别，当语音信息对应的采样率为第二采样率时，对语音信息进行预处理后，再根据声学模型对语音信息进行识别，解决了分别训练生成不同采样率对应的声学模型，训练语料需求量大，训练所需的时间成本高的问题，且提升了语音识别的准确率。
[0029]为实现上述目的，本发明还提出一种语音识别的装置。
[0030]图2是根据本发明一个实施例的语音识别的装置的结构示意图一。
[0031]如图2所示，语音识别的装置可包括:接收模块110、确定模块120、第一识别模块130和第二识别模块140。
[0032]接收模块110用于接收用户通过终端输入的语音信息和终端所处的网络信息。其中，网络信息可包括2G网络、3G网络、4G网络等。具体地，用户可通过终端输入一段语音信息，然后终端可将该语音信息与该终端所处的网络信息一起上传至接收模块110。举例来说，用户开启手机的麦克风功能，并输入语音信息“搜一下附近的好吃的”，则手机可将该语音信息发送给服务器。同时，如果该手机使用的是移动4G网络，则可将该网络信息也发送给服务器。
[0033]确定模块120用于根据网络信息确定语音信息对应的采样率。其中，采样率包括第一采样率和第二采样率，第一采样率大于第二采样率。具体地，确定模块120在收到上述语音信息和网络信息后，可根据网络信息确定语音信息对应的采样率。举例来说，如果终端使用的网络信息为4G或3G网络，则可确定语音信息对应的采样率为16khz;如果终端使用的网络信息为3G网络，则可确定语音信息对应的采样率为Skhz。
[0034]第一识别模块130用于当语音信息对应的采样率为第一采样率时，根据第一采样率对应的声学模型对语音信息进行识别。其中，第一采样率对应的声学模型主要通过LSTM(Long-Short Term Memory，时间递归

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：时雪煜;李先刚;邹赛赛;
技术所有人：百度在线网络技术（北京）有限公司;
我是此专利的发明人

上一篇：用lstm循环神经网络模型进行语音识别的方法和装置的制造方法
上一篇：语音识别方法和装置的制造方法