尼日利亚皮软语语音模型的训练方法、识别方法及装置与流程

文档序号:30578198发布日期:2022-06-29 10:39阅读:299来源:国知局
尼日利亚皮软语语音模型的训练方法、识别方法及装置与流程

1.本发明涉及语音识别技术领域,具体涉及尼日利亚皮软语语音模型的训练方法、识别方法及装置。


背景技术:

2.语音识别是将人类的声音信号转化为文本的过程,是人工智能感知领域的重要技术之一。随着深度学习技术的发展,语音识别的精度和速度都取得了长远的进步。现如今,语音识别技术已经渗透到我们日常生活中的许多应用中,如智能音箱,导购机器人等产品。然而,现有的语音识别研究大多只关注于人数使用最多的语种,如英语和汉语,这导致了语音识别的应用只局限在较为发达的地区和城市。
3.世界上有6809种语言,大多是为使用人数很少的小语种,针对小语种的语音识别的研究是拉近不同语种人群之间交流的关键桥梁。其中,尼日利亚皮软语是属于亚非语系乍得语族,是非洲最重要的三大语言之一。对于语音识别模型而言,对其训练一般都需要几千小时的音频。具体在利用音频文件进行语音模型训练时,一般采用的是双向循环神经网络模型,该模型在处理音频序列时,需要用一组隐藏状态特征,将历史信息保存起来,用于下一个时间段的预测。因此,隐藏状态特征的维度不能太小,否则会影响网络预测的效果,该模型参数量比较大,消耗的计算资源较多,在训练时训练效率较低。


技术实现要素:

4.有鉴于此,本发明实施例提供了一种尼日利亚皮软语语音模型的训练方法、识别方法及装置,以解决语音模型训练效率较低的问题。
5.根据第一方面,本发明实施例提供了一种尼日利亚皮软语语音模型的训练方法,包括:
6.获取尼日利亚皮软语音频样本及其对应的第一文本样本;
7.将所述尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征,并将所述音频特征输入全连接层中,得到第一预测文本;
8.基于所述第一预测文本以及所述第一文本样本,对所述卷积单元以及所述全连接层的参数进行调整,以确定尼日利亚皮软语语音模型。
9.本发明实施例提供的尼日利亚皮软语语音模型的训练方法,尼日利亚皮软语语音模型包括卷积单元以及与卷积单元连接的全连接层,所得到的尼日利亚皮软语语音模型也可以理解为全卷积网络。由于全卷积网络可以同时观测音频序列的历史信息和未来信息,不需要额外的特征来记录,所以网络模型的参数也可以设计比较小,需要消耗的计算资源也能够大大减少,能够在移动终端上运行。
10.结合第一方面,在第一方面第一实施方式中,所述卷积单元包括至少一个卷积子单元,所述卷积单元中的各个所述卷积子单元采用残差方式连接;其中,所述卷积子单元包括连接的深度可分离卷积层、归一化层以及激活函数层。
11.本发明实施例提供的尼日利亚皮软语语音模型的训练方法,在各个卷积子单元中采用深度可分离卷积层进行特征提取,极大减少了计算量,提高了训练的效率。
12.结合第一方面,在第一方面第二实施方式中,所述将所述尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征,并将所述音频特征输入全连接层中,得到第一预测文本,包括:
13.获取英语音频样本及其对应的第二文本样本;
14.基于所述英语音频样本与所述尼日利亚皮软语音频样本及其对应的第二文本以及第一文本样本,形成训练数据集;
15.依次利用所述训练数据集中的音频样本输入所述卷积单元中,得到音频特征;
16.将所述音频特征输入所述全卷积层中,得到相应的第一预设文本。
17.本发明实施例提供的尼日利亚皮软语语音模型的训练方法,尼日利亚皮软语属于小语种,相应的音频样本的较为缺乏。由于尼日利亚皮软语和英语的相关性非常高,二者公用一套字母体系,还有很多相同的单词,因此将英语音频样本及其对应的第二文本样本也加入训练数据集,可以丰富样本数据,增强模型的泛化能力。
18.结合第一方面第二实施方式,在第一方面第三实施方式中,所述基于所述第一预测文本以及所述第一文本样本,对所述尼利日亚皮软语语音模型的参数进行调整,确定尼日利亚皮软语语音模型,包括:
19.从所述训练数据集中提取与输入至所述卷积单元中的音频样本对应的文本样本;
20.基于提取出的文本样本以及所述第一预测文本进行损失函数计算,调整所述卷积单元以及所述全连接层的参数,以确定所述尼日利亚皮软语语音模型。
21.结合第一方面,或第一方面第一实施方式至第三实施方式,在第一方面第四实施方式中,所述尼日利亚皮软语语音模型还包括与所述全连接层连接的语言模型,所述训练方法还包括:
22.固定所述卷积单元以及所述全连接层的参数,并初始化所述语言模型的参数;
23.将所述尼日利亚皮软语音频样本输入所述尼日利亚皮软语语音模型中,得到第二预测文本;
24.基于所述第二预测文本以及所述第二文本样本的误差,对所述语言模型的参数进行调整,确定所述尼日利亚皮软语语音模型。
25.本发明实施例提供的尼日利亚皮软语语音模型的训练方法,在全连接层后还连接有语言模型,以对全连接层输出的预测文本进行进一步的优化,提高了该尼日利亚皮软语语音模型的准确性。
26.结合第一方面第四实施方式,在第一方面第五实施方式中,所述将所述尼日利亚皮软语音频样本输入所述尼日利亚皮软语语音模型中,得到第二预测文本,包括:
27.利用所述语言模型中的语言单元对所述全连接层输出的预测文本进行字符概率统计;
28.基于所述字符概率统计的结果进行解码,得到所述第二预测文本。
29.本发明实施例提供的尼日利亚皮软语语音模型的训练方法,由于尼日利亚皮软语文本资源要比音频资源容易获取,利用语言模型来优化预测概率序列的解码过程,进一步提升了最终语音识别的预测结果。
30.根据第二方面,本发明实施例还提供了一种尼日利亚皮软语语音的识别方法,包括:
31.获取尼日利亚皮软语语音模型,所述尼日利亚皮软语语音模型是根据本发明第一方面,或第一方面任一项实施方式中所述的尼日利亚皮软语语音模型的训练方法训练得到的;
32.将目标尼日利亚皮软语音频输入所述尼日利亚皮软语语音模型中,确定所述目标尼日利亚皮软语音频对应的目标尼日利亚皮软语文本。
33.本发明实施例提供的尼日利亚皮软语语音的识别方法,尼日利亚皮软语语音模型包括卷积单元以及与卷积单元连接的全连接层,所得到的尼日利亚皮软语语音模型也可以理解为全卷积网络。由于全卷积网络可以同时观测音频序列的历史信息和未来信息,不需要额外的特征来记录,所以网络模型的参数也可以设计比较小,需要消耗的计算资源也能够大大减少,能够在移动终端上运行。
34.根据第三方面,本发明实施例还提供了一种尼日利亚皮软语语音模型的训练装置,包括:
35.第一获取模块,用于获取尼日利亚皮软语音频样本及其对应的第一文本样本;
36.训练模块,用于将所述尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征,并将所述音频特征输入全连接层中,得到第一预测文本;
37.调整模块,用于基于所述第一预测文本以及所述第一文本样本,对所述卷积单元以及所述全连接层的参数进行调整,以确定尼日利亚皮软语语音模型。
38.本发明实施例提供的尼日利亚皮软语语音模型的训练装置,尼日利亚皮软语语音模型包括卷积单元以及与卷积单元连接的全连接层,所得到的尼日利亚皮软语语音模型也可以理解为全卷积网络。由于全卷积网络可以同时观测音频序列的历史信息和未来信息,不需要额外的特征来记录,所以网络模型的参数也可以设计比较小,需要消耗的计算资源也能够大大减少,能够在移动终端上运行。
39.根据第四方面,本发明实施例还提供了一种尼日利亚皮软语语音的识别装置,包括:
40.第二获取模块,用于获取尼日利亚皮软语语音模型,所述尼日利亚皮软语语音模型是根据本发明第一方面或第一方面任一项实施方式中所述的尼日利亚皮软语语音模型的训练方法训练得到的;
41.识别模块,用于将目标尼日利亚皮软语音频输入所述尼日利亚皮软语语音模型中,确定所述目标尼日利亚皮软语音频对应的目标尼日利亚皮软语文本。
42.本发明实施例提供的尼日利亚皮软语语音的识别装置,在尼日利亚皮软语语音模型准确性的基础上,能够保证识别结果的准确性。
43.根据第五方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的尼日利亚皮软语语音模型的训练方法,或第二方面所述的尼日利亚皮软语语音的识别方法。
44.根据第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面
的任意一种实施方式中所述的尼日利亚皮软语语音模型的训练方法,或第二方面所述的尼日利亚皮软语语音的识别方法。
附图说明
45.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
46.图1是根据本发明实施例的尼日利亚皮软语语音模型的训练方法的流程图;
47.图2是根据本发明实施例的尼日利亚皮软语语音模型的训练方法的流程图;
48.图3是根据本发明实施例的尼日利亚皮软语语音模型的训练方法的流程图;
49.图4是根据本发明实施例的尼日利亚皮软语语音模型的训练方法的处理架构图;
50.图5是根据本发明实施例的尼日利亚皮软语语音的识别方法的流程图;
51.图6是根据本发明实施例的尼日利亚皮软语语音模型的训练装置的结构框图;
52.图7是根据本发明实施例的尼日利亚皮软语语音的识别装置的结构框图;
53.图8是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
54.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
55.需要说明的是,本发明实施例中所述的尼日利亚皮软语来自于nigerianpidgin的音译。其中,pidgin的中文翻译,有的叫皮软语,有的叫皮钦语。在此对其具体名称并不做任何限制。
56.根据本发明实施例,提供了一种尼日利亚皮软语语音模型的训练方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
57.在本实施例中提供了一种尼日利亚皮软语语音模型的训练方法,可用于电子设备,如电脑、移动终端等,图1是根据本发明实施例的尼日利亚皮软语语音模型的训练方法的流程图,如图1所示,该流程包括如下步骤:
58.s11,获取尼日利亚皮软语音频样本及其对应的第一文本样本。
59.电子设备可以是外界获取到尼日利亚皮软语音频样本及其对应的第一文本样本,也可以是存储在电子设备中的,亦或是电子设备先获取到原始音频文件,通过对原始音频文件及其对应的原始文本文件进行处理后得到音频样本及其对应的文本样本的。
60.其中,尼日利亚皮软语的文本书写和英语相同,因此文本处理上可以采用和英语类似的处理方式。首先,确定字符集,共有26个英文字母。
61.电子设备在对原始文本进行处理时,先遍历原始文本中的每个字符,去除不属于
这26个字母的字符,去除多余的空格和换行符。对于文本中有阿拉伯数字或者缩写单词的,要转换为对应的完整的尼日利亚皮软语单词。最后,还需要将文本中所有的字符转换为小写。在本发明实施例所述的尼日利亚皮软语语音模型中,不区分字母的大小写。
62.进一步地,电子设备在对原始音频进行处理时,为了方便训练尼日利亚皮软语语音模型,音频的长度需要先做一定的约束。其中,可以根据日常交流习惯,一句话的长度大概在10秒左右。例如,电子设备可以采用webrtc库中的vad工具,对所有音频进行端点检测,将连续的音频切分为更小的只包含一句话的音频文件,再对每一个音频都进行时长统计,将小于1秒和大于20秒的音频去除。其次,音频中有可能存在较长的静音片段,带来冗余的信息。例如,可以采用librosa库中的静音切除工具,将音频中的静音切除,只保留有人声的音频片段。
63.电子设备在对音频和相应的文本处理完成之后,需要将音频及文本进行对齐处理。其中,音频是输入信号,文本是用于计算损失的监督信号。因此,每个音频文件和文本需要确保一一对应,才能保证语音模型训练的正常进行。如果音频的内容和文本的内容存在至少一个发音或者一个单词不对应,需要将这个音频和文本一起剔除。
64.s12,将尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征,并将音频特征输入全连接层中,得到第一预测文本。
65.对于卷积单元,其可以包括多个卷积层,或在卷积层的基础上再结合激活函数层等等。在此对卷积单元的具体结构并不做任何限制,具体可以根据实际情况进行相应的设置,只需保证其能够实现特征提取即可。
66.电子设备将尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中,利用卷积单元进行特征提取,得到音频特征;在将音频特征输入全连接层中,由于全连接层是用于对字符进行分类的,因此,全连接层可以输出第一预测文本。
67.s13,基于第一预测文本以及第一文本样本,对卷积单元以及全连接层的参数进行调整,以确定尼日利亚皮软语语音模型。
68.电子设备在得到第一预测文本之后,利用第一预测文本与第一文本样本进行损失函数的计算,并基于损失函数的计算结果对卷积单元以及全连接层的参数进行更新,经过不断的学习调整,就可以确定尼日利亚皮软语语音模型中卷积单元以及全连接层的参数。例如,可以采用ctc损失函数。当然,也可以采用其他损失函数,本发明实施例对此并不做任何限制。
69.经过上述训练得到的尼日利亚皮软语语音模型基于字符建模的,可以摆脱发音字典,进行端到端的训练。
70.本实施例提供的尼日利亚皮软语语音模型的训练方法,尼日利亚皮软语语音模型包括卷积单元以及与卷积单元连接的全连接层,所得到的尼日利亚皮软语语音模型也可以理解为全卷积网络。由于全卷积网络可以同时观测音频序列的历史信息和未来信息,不需要额外的特征来记录,所以网络模型的参数也可以设计比较小,需要消耗的计算资源也能够大大减少,能够在移动终端上运行。
71.在本实施例中提供了一种尼日利亚皮软语语音模型的训练方法,可用于电子设备,如电脑、移动终端等,图2是根据本发明实施例的尼日利亚皮软语语音模型的训练方法的流程图,如图2所示,该流程包括如下步骤:
72.s21,获取尼日利亚皮软语音频样本及其对应的第一文本样本。
73.详细请参见图1所示实施例的s11,在此不再赘述。
74.s22,将尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征,并将音频特征输入全连接层中,得到第一预测文本。
75.其中,所述卷积单元包括至少一个卷积子单元,所述卷积单元中的各个所述卷积子单元采用残差方式连接;其中,所述卷积子单元包括连接的深度可分离卷积层、归一化层以及激活函数层。
76.具体地,所述的卷积单元是基于以为的深度可分离卷积搭建的。对于各个卷积单元而言,其包括一个深度可分离卷积层,一个批处理归一化层以及一个relu非线性激活函数层。每个卷积单元之间采用残差连接的方式堆叠,多个堆叠而成的卷积子单元组成了尼日利亚皮软语语音识别模型中用于特征提取的卷积单元,完成包含复杂信息的高维特征的提取。
77.在各个卷积子单元中采用深度可分离卷积层进行特征提取,极大减少了计算量,提高了训练的效率。
78.具体地,上述s22包括如下步骤:
79.s221,获取英语音频样本及其对应的第二文本样本。
80.尼日利亚皮软语属于小语种,获取大量音频和对应文本的数据成本非常高。由于尼日利亚皮软语和英语的相关性非常高,二者公用一套字母体系,还有许多相同的单词。因此,电子可以获取英语音频样本及其对应的第二文本样本进行尼日利亚皮软语语音模型的训练。
81.s222,基于英语音频样本与尼日利亚皮软语音频样本及其对应的第二文本以及第一文本样本,形成训练数据集。
82.电子设备在训练尼日利亚皮软语语音模型的时候,可以加入一些英语数据作为增强数据一起来训练,扩充数据集,增强模型的泛化能力。
83.电子设备将获取到的英语音频样本及其对应的第二文本样本,与尼日利亚皮软语音频样本及其第一文本样本形成训练数据集,用于后续的尼日利亚皮软语语音模型的训练。其中,训练数据集中的音频样本与文本样本存在一一对应关系。
84.s223,依次利用训练数据集中的音频样本输入卷积单元中,得到音频特征。
85.电子设备在得到训练数据集之后,依次将训练数据集中的音频样本输入卷积单元中,利用卷积单元进行特征提取,得到音频特征。
86.s224,将音频特征输入全连接层中,得到相应的第一预设文本。
87.电子设备再将音频特征输入全连接层中,并利用全连接层对音频特征进行分类,输出第一预测文本。即,电子设备将卷积单元输出的高维特征输入到一个全连接层进行字符的分类预测,输出为预先定义的语种相关的字母的概率,对每个预测的结果取最大概率的字母进行拼接就可以得到第一预测文本。
88.s23,基于第一预测文本以及第一文本样本,对卷积单元以及全连接层的参数进行调整,以确定尼日利亚皮软语语音模型。
89.具体地,上述s23可以包括如下步骤:
90.s231,从训练数据集中提取与输入至卷积单元中的音频样本对应的文本样本。
91.电子设备从训练数据集中提取与上述s223中的音频样本对应的文本样本。
92.s232,基于提取出的文本样本以及第一预测文本进行损失函数计算,调整卷积单元以及全连接层的参数,以确定尼日利亚皮软语语音模型。
93.电子设备在得到第一预测文本之后,利用第一预测文本与提取出的文本样本进行损失函数的计算,并基于损失函数的计算结果对卷积单元以及全连接层的参数进行更新,经过不断的学习调整,就可以确定尼日利亚皮软语语音模型中卷积单元以及全连接层的参数。例如,可以采用ctc损失函数。当然,也可以采用其他损失函数,本发明实施例对此并不做任何限制。
94.本实施例提供的尼日利亚皮软语语音模型的训练方法,尼日利亚皮软语属于小语种,相应的音频样本的较为缺乏。由于尼日利亚皮软语和英语的相关性非常高,二者公用一套字母体系,还有很多相同的单词,因此将英语音频样本及其对应的第二文本样本也加入训练数据集,可以丰富样本数据,增强模型的泛化能力。
95.在本实施例中提供了一种尼日利亚皮软语语音模型的训练方法,可用于电子设备,如电脑、移动终端等,图3是根据本发明实施例的尼日利亚皮软语语音模型的训练方法的流程图,如图3所示,该流程包括如下步骤:
96.s31,获取尼日利亚皮软语音频样本及其对应的第一文本样本。
97.详细请参见图2所示实施例的s21,在此不再赘述。
98.s32,将尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征,并将音频特征输入全连接层中,得到第一预测文本。
99.详细请参见图2所示实施例的s22,在此不再赘述。
100.s33,基于第一预测文本以及第一文本样本,对卷积单元以及全连接层的参数进行调整,以确定尼日利亚皮软语语音模型。
101.详细请参见图2所示实施例的s23,在此不再赘述。
102.s34,固定卷积单元以及全连接层的参数,并初始化语言模型的参数。
103.为进一步提高训练得到的尼日利亚皮软语语音模型的准确性,本实施例中所述的尼日利亚皮软语语音模型除了包括上述s33中所述的卷积单元以及全连接层之外,还包括有语言模型。具体地,在全连接层之后连接有语言模型。即,所述的尼日利亚皮软语语音模型包括卷积单元、全连接层以及语言模型。
104.s35,将尼日利亚皮软语音频样本输入尼日利亚皮软语语音模型中,得到第二预测文本。
105.具体地,上述s35可以包括如下步骤:
106.s351,利用语言模型中的语言单元对全连接层输出的预测文本进行字符概率统计。
107.电子设备将尼日利亚皮软语音频样本输入尼日利亚皮软语语音模型中,从尼日利亚皮软语语音模型的全连接层中输出预测文本,再利用语言模型中的语言单元对其进行字符概率统计。
108.其中,所述的语言单元可以采用n

gam语言模型,也可以采用其他模型,在此并不做任何限制,只需保证该语言单元能够对全连接层输出的预测文本进行字符概率统计即可。
109.s352,基于字符概率统计的结果进行解码,得到第二预测文本。
110.在语言单元后还连接有解码单元,用于对语言单元输出的字符概率统计的结果进行解码,得到第二预测文本。
111.由于尼日利亚皮软语文本资源要比音频资源容易获取,利用语言模型来优化预测概率序列的解码过程,进一步提升了最终语音识别的预测结果。
112.由于尼日利亚皮软语文本资源要比音频资源容易获取,利用语言模型来优化预测概率序列的解码过程,进一步提升了最终语音识别的预测结果。
113.s36,基于第二预测文本以及第二文本样本的误差,对语言模型的参数进行调整,确定尼日利亚皮软语语音模型。
114.电子设备在得到第二预测文本之后,利用第二预测文本与第二文本样本进行损失函数的计算,并基于计算结果调整语言模型的参数。通过不断的训练及参数调整,确定语言模型中的参数,进而最终确定尼日利亚皮软语语音模型。
115.作为本实施例的一种可选实施方式,电子设备利用n-gam语言模型来进一步提升尼日利亚皮软语语音识别的准确率。具体地,将全连接层输出的预测文本进行大小为4的滑动窗口操作,形成了长度是4的字节片段序列,再统计每个字节片段序列出现的频度。在语音识别过程中,将n-gam语言模型输出的字符概率序列进行beam search解码,解码过程中引入语言单元中统计好的字节片段频度来优化搜索过程,进一步提升识别结果的准确性。
116.本实施例提供的尼日利亚皮软语语音模型的训练方法,在全连接层后还连接有语言模型,以对全连接层输出的预测文本进行进一步的优化,提高了该尼日利亚皮软语语音模型的准确性。
117.作为本实施例的一种具体实施方式,所述的尼日利亚皮软语语音模型的训练可以采用如图4所述的架构表示。具体地,训练过程可以划分为三个方面的处理,分别为数据预处理,以得到音频样本及其对应的文本样本;声学模型,包括卷积单元以及与卷积单元连接的全连接层,在该模型的训练中将英语数据作为数据增强加入到尼日利亚皮软语数据中,得到训练数据集;语言模型,包括语言单元及解码单元。
118.根据本发明实施例,提供了一种尼日利亚皮软语语音识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
119.在本实施例中提供了一种尼日利亚皮软语语音识别方法,可用于电子设备,如电脑、移动终端等,图5是根据本发明实施例的尼日利亚皮软语语音识别方法的流程图,如图5所示,该流程包括如下步骤:
120.s41,获取尼日利亚皮软语语音模型。
121.其中,所述尼日利亚皮软语语音模型是根据实施例中所述的尼日利亚皮软语语音模型的训练方法训练得到的。
122.详细请参见上文实施例中所述的尼日利亚皮软语语音模型的训练方法的描述,在此不再赘述。
123.s42,将目标尼日利亚皮软语音频输入尼日利亚皮软语语音模型中,确定目标尼日利亚皮软语音频对应的目标尼日利亚皮软语文本。
124.电子设备将目标尼日利亚皮软语音频输入至尼日利亚皮软语语音模型中,经过该模型的处理,即可输出目标尼日利亚皮软语文本。
125.本实施例提供的尼日利亚皮软语语音的识别方法,尼日利亚皮软语语音模型包括卷积单元以及与卷积单元连接的全连接层,所得到的尼日利亚皮软语语音模型也可以理解为全卷积网络。由于全卷积网络可以同时观测音频序列的历史信息和未来信息,不需要额外的特征来记录,所以网络模型的参数也可以设计比较小,需要消耗的计算资源也能够大大减少,能够在移动终端上运行。
126.在本实施例中还提供了一种尼日利亚皮软语语音模型的训练装置,进一步地,本实施例中还提供了一种尼日利亚皮软语语音的识别装置。该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
127.本实施例提供一种尼日利亚皮软语语音模型的训练装置,如图6所示,包括:
128.第一获取模块51,用于获取尼日利亚皮软语音频样本及其对应的第一文本样本;
129.训练模块52,用于将所述尼日利亚皮软语音频样本输入尼利日亚皮软语语音模型的卷积单元中得到音频特征,并将所述音频特征输入全连接层中,得到第一预测文本;
130.调整模块53,用于基于所述第一预测文本以及所述第一文本样本,对所述卷积单元以及所述全连接层的参数进行调整,以确定尼日利亚皮软语语音模型。
131.本实施例提供的尼日利亚皮软语语音模型的训练装置,尼日利亚皮软语语音模型包括卷积单元以及与卷积单元连接的全连接层,所得到的尼日利亚皮软语语音模型也可以理解为全卷积网络。由于全卷积网络可以同时观测音频序列的历史信息和未来信息,不需要额外的特征来记录,所以网络模型的参数也可以设计比较小,需要消耗的计算资源也能够大大减少,能够在移动终端上运行。
132.本实施例还提供了一种尼日利亚皮软语语音的识别装置,如图7所示,包括:
133.第二获取模块61,用于获取尼日利亚皮软语语音模型,所述尼日利亚皮软语语音模型是根据上述实施例中所述的尼日利亚皮软语语音模型的训练方法训练得到的;
134.识别模块62,用于将目标尼日利亚皮软语音频输入所述尼日利亚皮软语语音模型中,确定所述目标尼日利亚皮软语音频对应的目标尼日利亚皮软语文本。
135.本实施例提供的尼日利亚皮软语语音的识别装置,在尼日利亚皮软语语音模型准确性的基础上,能够保证识别结果的准确性。
136.本实施例中的尼日利亚皮软语语音模型的训练装置,或尼日利亚皮软语语音的识别装置是以功能单元的形式来呈现,这里的单元是指asic电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
137.上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
138.本发明实施例还提供一种电子设备,具有上述图6所示的尼日利亚皮软语语音模型的训练装置,或上述图7所示的尼日利亚皮软语语音的识别装置。
139.请参阅图8,图8是本发明可选实施例提供的一种电子设备的结构示意图,如图8所示,该电子设备可以包括:至少一个处理器71,例如cpu(central processing unit,中央处理器),至少一个通信接口73,存储器74,至少一个通信总线72。其中,通信总线72用于实现
这些组件之间的连接通信。其中,通信接口73可以包括显示屏(display)、键盘(keyboard),可选通信接口73还可以包括标准的有线接口、无线接口。存储器74可以是高速ram存储器(random access memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器74可选的还可以是至少一个位于远离前述处理器71的存储装置。其中处理器71可以结合图6或图7所描述的装置,存储器74中存储应用程序,且处理器71调用存储器74中存储的程序代码,以用于执行上述任一方法步骤。
140.其中,通信总线72可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。通信总线72可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
141.其中,存储器74可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:ram);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard disk drive,缩写:hdd)或固态硬盘(英文:solid-state drive,缩写:ssd);存储器74还可以包括上述种类的存储器的组合。
142.其中,处理器71可以是中央处理器(英文:central processing unit,缩写:cpu),网络处理器(英文:network processor,缩写:np)或者cpu和np的组合。
143.其中,处理器71还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:asic),可编程逻辑器件(英文:programmable logic device,缩写:pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:cpld),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:fpga),通用阵列逻辑(英文:generic array logic,缩写:gal)或其任意组合。
144.可选地,存储器74还用于存储程序指令。处理器71可以调用程序指令,实现如本技术图1至3实施例中所示的尼日利亚皮软语语音模型的训练方法,或图4实施例中所示的尼日利亚皮软语语音的识别方法。
145.本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的尼日利亚皮软语语音模型的训练方法,或尼日利亚皮软语语音的识别方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,rom)、随机存储记忆体(random access memory,ram)、快闪存储器(flash memory)、硬盘(hard disk drive,缩写:hdd)或固态硬盘(solid-state drive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
146.虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1