语音信号的处理方法和装置的制造方法_3

文档序号：9688756阅读：来源：国知局

映射成安静环境下的语音信号，从而准确识别出噪声环境下的语音信号，提高了语音识别的准确率。同时，由于回归神经网络具有较强的鲁棒性，对于未加入训练的场景噪声，同样能够很好的建立起噪声环境下的语音信号至安静环境下的语音信号的映射，从而准确识别出未加入训练的场景噪声下的语音信号，提高了语音识别的准确率。
[0071]S304，获取语音训练样本信号。
[0072]具体地，在语音识别过程中，即使对噪声环境下采集的语音信号进行预处理，即根据语音模型对语音信号进行去噪处理，但是预处理后的语音信号也还有可能会包括噪声信号，因此，本实施例中根据回归神经网络对用于语音识别的声学模型进行再训练，由此可以使得再训练后的声学模型与预处理后的语音信号更加匹配，进一步提高语音识别的准确性。
[0073]其中，语音训练样本信号是用于对声学模型进行再训练时的语音训练数据，语音训练样本信号是噪声环境下的语音信号，既噪声语音训练数据。
[0074]S305，根据语音模型对语音训练样本信号进行去噪处理，并根据去噪处理后的语音训练样本信号训练声学模型。
[0075]具体地，首先提取语音训练样本的声学特征，然后通过回归神经网络根据语言模型对语音训练样本的声学特征进行映射，将处理后的声学特征对已有的声学模型进行再训练，从而训练出与语音模型处理后的声学特征更加匹配的声学模型。
[0076]S306，采集用户录入的语音信号。
[0077]具体地，可以通过语音输入设备如麦克风等采集用户的语音信号，然后将采集的语音信号发送至服务端进行语音识别。其中，可以将训练的语音模型存储到语音识别云端，将采集的语音信号发送至云端进行语音识别。
[0078]S307，判断语音信号是否包含噪声。
[0079]具体地，服务端在接收到用户录入的语音信号后，对用户录入的语音信号进行信噪比估计，以对用户录入的语音信号进行分类。例如，当用户录入的语音信号的信噪比小于一定值时，则判断语音信号包含噪声；当用户录入的语音信号的信噪比大于一定值时，则判断语音信号未包含噪声。
[0080]S308，如果语音信号包含噪声，则根据语音模型对语音信号进行去噪处理。
[0081 ]具体地，如果判断语音信号包含噪声，则可以确定语音信号是在噪声环境下录入，此时需要根据预先存储在服务端中的语音模型对语音信号进行去噪处理，即通过回归神经网络将用户录入的语音信号转换成安静环境下的语音信号。
[0082]在本发明的一个实施例中，根据语音模型中保存的该噪声环境中噪声语音样本和纯净语音样本的映射关系，将采集的包含噪声的语音信号转换为不包含噪声的语音信号。
[0083]S309，根据声学模型对去噪处理后的语音信号进行语音识别。
[0084]具体地，在对用户输入的语音信号进行去噪处理后，通过服务端的解码器进行语音识别，即解码器根据服务端预存的声学模型对去噪处理后的语音信号进行解码，将语音信号转换为文本信息，然后将识别结果反馈给用户。其中，声学模型是通过对大量纯净语音样本训练获得的。
[0085]本发明实施例的语音信号的处理方法，通过语音训练样本对已有的声学模型进行再训练，从而使得再训练后的声学模型与预处理后的语音信号更加匹配，进一步提高语音识别的准确性，提高了语音识别服务的体验。
[0086]为了实现上述实施例，本发明还提出一种语音信号的处理装置。
[0087]图4是本发明一个实施例的语音信号的处理装置的结构示意图。
[0088]如图4所示，语音信号的处理装置包括:第一采集模块10、第一处理模块20和第一训练模块30。
[0089]其中，第一采集模块10用于采集噪声样本信号。具体地，第一采集模块10采集在语音识别过程中可能出现的场景噪声以作为噪声样本信号，其中，场景噪声可以是在多个不同场景下采集得到，例如，采集汽车行驶过程中的车载噪声、采集在餐厅产生的人群噪声、或者采集其他人群密集的地方产生的人群噪声等作为噪声样本信号。进而，第一采集模块10采集的噪声样本信号越多，在不同环境下对采集的语音信号进行处理的精确度就越高，语音识别的准确率就越高。
[0090]第一处理模块20用于根据噪声样本信号对预存的纯净语音样本信号进行处理，得到具有噪声的噪声语音样本信号。其中，纯净语音样本信号为安静环境下的语音样本信号，即不包含噪声信号的语音信号。也就是说，第一处理模块20通过采集的噪声样本信号对安静环境下的语音样本信号进行加噪处理，以得到噪声环境下的语音样本信号，即噪声语音样本信号。
[0091]第一训练模块30用于根据噪声语音样本信号和纯净语音样本信号训练语音模型。其中，第一训练模块30提取噪声语音样本信号和纯净语音样本信号的声学特征，并建立噪声语音样本信号的声学特征与纯净语音样本信号的声学特征的映射关系。具体地，第一训练模块30可以通过提取噪声语音样本信号和纯净语音样本信号的声学特征，并通过回归神经网络建立噪声语音样本信号的声学特征到纯净语音样本信号的声学特征的映射，以得到语音模型。
[0092]本发明实施例的语音信号的处理装置，根据不同场景的噪声样本和纯净语音样本生成噪声语音样本，并根据噪声语音样本和纯净语音样本训练语音模型，从而能够通过该语音模型将各种噪声环境下的语音信号转换成安静环境下的语音信号，从而大大提高了在噪声环境下的语音识别的准确性，提升语音识别服务的鲁棒性和语音识别服务的体验。
[0093]图5是本发明一个具体实施例的语音信号的处理装置的结构示意图。
[0094]如图5所示，语音信号的处理装置包括:第一采集模块10、第一处理模块20、第一训练模块30、第二采集模块40、第二处理模块50和语音识别模块60。
[0095]其中，第二采集模块40用于采集用户录入的语音信号。具体地，第二采集模块40可以通过语音输入设备如麦克风等采集用户的语音信号，然后将采集的语音信号发送至服务端进行语音识别。其中，第一训练模块30可以将训练的语音模型存储到语音识别云端，第二采集模块40将采集的语音信号发送至云端进行语音识别。
[0096]第二处理模块50用于当语音信号包含噪声时，根据语音模型对语音信号进行去噪处理。具体地，第二处理模块50在接收到第二采集模块40采集的语音信号后，对用户录入的语音信号进行信噪比估计，以对用户录入的语音信号进行分类。例如，当用户录入的语音信号的信噪比小于一定值时，则判断语音信号包含噪声；当用户录入的语音信号的信噪比大于一定值时，则判断语音信号未包含噪声。如果判断语音信号包含噪声，则第二处理模块50可以确定语音信号是在噪声环境下录入，此时需要根据预先存储在服务端中的语音模型对语音信号进行去噪处理，即通过回归神经网络将用户录入的语音信号转换成安静环境下的语音信号。
[0097]语音识别模块60用于根据声学模型对去噪处理后的语音信号进行语音识别。其中，语音识别模块60还用于当语音信号未包含噪声时，根据声学模型对语音信号进行语音识别。具体地，在第二处理模块50对语音信号进行去噪处理后，语音识别模块60通过服务端的解码器进行语音识别，即解码器根据服务端预存的声学模型对去噪处理后的语音信号进行解码，将语音信号转换为文本信息，然后将识别结果反馈给用户。其中，声学模型是通过对大量纯净语音样本训练获得的。

完整全部详细技术资料下载

当前第3页1 2 3 4