语音识别模型的训练方法、装置、设备及存储介质与流程

文档序号：33106986发布日期：2023-02-01 01:34阅读：37来源：国知局

1.本技术涉及人工智能领域，特别涉及一种语音识别模型的训练方法、装置、设备及存储介质。

背景技术：

2.语音识别是人工智能发展过程中的一个重要突破。广义上讲，语音识别以语音为研究对象，目标是实现人与机器之间基于自然语言进行交互。狭义上讲，语音识别是一项让机器通过识别和理解过程将语音转换为文本或命令的技术。
3.目前语音识别技术已经广泛应用在诸如工业、家电、通信、汽车、电子、医疗、家庭服务等领域。其中，在语音识别过程中，语音识别的准确度至关重要，因为语音识别的准确度越高，用户的满意程度便越高。为此，如何准确地进行语音识别，以提升语音识别效果，便成为了本领域的一个研究热点。

技术实现要素：

4.本技术实施例提供了一种语音识别模型的训练方法、装置、设备及存储介质，能够提升语音识别质量，特别是提升了对连续相同文本单元的识别准确度。所述技术方案如下：
5.一方面，提供了一种语音识别模型的训练方法，所述方法包括：
6.获取样本音频集，所述样本音频集中包括多个样本音频；
7.基于初始语音识别模型，在所述样本音频集中筛选候选样本音频；
8.在所述候选样本音频中提取音频片段；其中，所述音频片段包括所述候选样本音频中与连续相同文本单元对齐的音频；且，所述初始语音识别模型在对所述候选样本音频进行语音识别时，未正确识别所述连续相同文本单元；
9.根据所述音频片段对所述初始语音识别模型进行再训练，得到目标语音识别模型。
10.在一些可能的实现方式中，所述样本音频集中还包括与所述样本音频对齐的标注文本；所述标注文本中包括至少一组连续相同文本单元；
11.所述基于初始语音识别模型，在所述样本音频集中筛选候选样本音频，包括：基于所述初始语音识别模型，对所述样本音频进行语音识别，得到所述样本音频的预测文本；
12.根据所述样本音频的标注文本和预测文本，在所述样本音频集中筛选所述候选样本音频。
13.在一些可能的实现方式中，所述音频片段包括相邻的第一音频、第二音频和第三音频；
14.其中，所述第一音频在时序上位于所述第二音频之前；所述第三音频在时序上位于所述第二音频之后；所述第二音频是所述候选样本音频中与所述连续相同文本单元对齐的音频；
15.所述根据所述音频片段对所述初始语音识别模型进行再训练，得到目标语音识别
模型，包括：
16.获取所述音频片段的标注文本；其中，所述音频片段的标注文本中包括所述连续相同文本单元和预设标签；
17.将所述音频片段的标注文本与所述音频片段进行对齐；
18.其中，所述预设标签与所述第一音频和所述第三音频对齐，所述连续相同文本单元与所述第二音频对齐；
19.根据所述音频片段和与所述音频片段对齐的标注文本，对所述初始语音识别模型进行再训练，得到所述目标语音识别模型。
20.在一些可能的实现方式中，所述在所述候选样本音频中提取音频片段，包括：
21.获取所述候选样本音频的预测文本；其中，所述预测文本中包括多个文本单元和所述多个文本单元在所述候选样本音频中的起止时间；
22.根据所述预测文本中各个文本单元的起止时间，确定第二音频的起止时间；
23.其中，所述第二音频是所述候选样本音频中与所述连续相同文本单元对齐的音频；
24.根据所述第二音频的起止时间，在所述候选样本音频中提取所述音频片段；
25.其中，所述音频片段包括相邻的第一音频、所述第二音频和第三音频；
26.所述第一音频在时序上位于所述第二音频之前；所述第三音频在时序上位于所述第二音频之后。
27.在一些可能的实现方式中，所述方法还包括：
28.获取待识别的输入音频；
29.对所述输入音频进行特征提取，得到所述输入音频的滤波器组特征和与说话人对应的身份认证向量；
30.对所述滤波器组特征进行离散余弦变换，得到所述输入音频的梅尔倒频谱系数；
31.将所述身份认证向量和所述梅尔倒频谱系数进行融合，得到所述输入音频的音频融合特征；
32.将所述音频融合特征输入所述目标语音识别模型，输出所述输入音频对应的语音识别结果。
33.在一些可能的实现方式中，所述方法还包括：
34.响应于所述语音识别结果包括第一数目位的连续数字，确定所述输入音频对应终端号码，显示第一选择菜单；其中，所述第一选择菜单包括多个选项，一个所述选项用于指示一个已安装应用；
35.响应于基于所述多个选项对目标应用的选中操作，基于所述目标应用与所述终端号码指示的终端进行通信。
36.在一些可能的实现方式中，所述响应于基于所述多个选项对目标应用的选中操作，基于所述目标应用与所述终端号码指示的终端进行通信，包括：
37.响应于所述目标应用为短信应用或通话应用，显示第二选择菜单；其中，所述第二选择菜单包括多个选项，一个所述选项用于指示一个用户识别卡；响应于基于所述多个选项对目标用户识别卡的选中操作，基于所述目标用户识别卡，采用所述目标应用对应的通信方式，与所述终端号码指示的终端进行通信；
38.或，响应于所述目标应用为社交应用，显示第三选择菜单；其中，所述第三选择菜单包括多个选项，一个所述选项用于指示所述社交应用的一种通信方式；响应于基于所述多个选项对目标通信方式的选中操作，基于所述目标通信方式与所述终端号码指示的终端进行通信；
39.其中，所述社交应用的通信方式包括发送应用消息、语音通话或视频通话。
40.在一些可能的实现方式中，所述方法还包括：
41.响应于所述语音识别结果包括社交应用的应用名称和通讯录上目标联系人的用户名称，以置于顶层的显示方式，通过所述社交应用显示信息交互页面；
42.其中，所述通讯录与所述社交应用对应；所述信息交互页面为与所述目标联系人进行信息交互的页面。
43.在一些可能的实现方式中，所述方法还包括：
44.响应于所述语音识别结果包括第二数目位的连续字符，且所述第二数目位的连续字符与多个物流订单号模板中的目标物流订单号模板匹配，确定所述输入音频对应物流订单号，获取所述物流订单号指示的物流订单的物流信息。
45.另一方面，提供了一种语音识别模型的训练装置，所述装置包括：
46.获取模块，被配置为获取样本音频集，所述样本音频集中包括多个样本音频；
47.筛选模块，被配置为基于初始语音识别模型，在所述样本音频集中筛选候选样本音频；
48.处理模块，被配置为在所述候选样本音频中提取音频片段；
49.其中，所述音频片段包括所述候选样本音频中与连续相同文本单元对齐的音频；且，所述初始语音识别模型在对所述候选样本音频进行语音识别时，未正确识别所述连续相同文本单元；
50.训练模块，被配置为根据所述音频片段对所述初始语音识别模型进行再训练，得到目标语音识别模型。
51.在一些可能的实现方式中，所述样本音频集中还包括与所述样本音频对齐的标注文本；所述标注文本中包括至少一组连续相同文本单元；
52.所述筛选模块，被配置为基于所述初始语音识别模型，对所述样本音频进行语音识别，得到所述样本音频的预测文本；根据所述样本音频的标注文本和预测文本，在所述样本音频集中筛选所述候选样本音频。
53.在一些可能的实现方式中，所述音频片段包括相邻的第一音频、第二音频和第三音频；其中，所述第一音频在时序上位于所述第二音频之前；所述第三音频在时序上位于所述第二音频之后；所述第二音频是所述候选样本音频中与所述连续相同文本单元对齐的音频；
54.所述训练模块，被配置为获取所述音频片段的标注文本；其中，所述音频片段的标注文本中包括所述连续相同文本单元和预设标签；将所述音频片段的标注文本与所述音频片段进行对齐；其中，所述预设标签与所述第一音频和所述第三音频对齐，所述连续相同文本单元与所述第二音频对齐；根据所述音频片段和与所述音频片段对齐的标注文本，对所述初始语音识别模型进行再训练，得到所述目标语音识别模型。
55.在一些可能的实现方式中，所述处理模块，被配置为获取所述候选样本音频的预
测文本；其中，所述预测文本中包括多个文本单元和所述多个文本单元在所述候选样本音频中的起止时间；根据所述预测文本中各个文本单元的起止时间，确定第二音频的起止时间；根据所述第二音频的起止时间，在所述候选样本音频中提取所述音频片段。
56.在一些可能的实现方式中，所述目标语音识别模型的使用过程包括：
57.获取待识别的输入音频；
58.对所述输入音频进行特征提取，得到所述输入音频的滤波器组特征和与说话人对应的身份认证向量；
59.对所述滤波器组特征进行离散余弦变换，得到所述输入音频的梅尔倒频谱系数；
60.将所述身份认证向量和所述梅尔倒频谱系数进行融合，得到所述输入音频的音频融合特征；
61.将所述音频融合特征输入所述目标语音识别模型，输出所述输入音频对应的语音识别结果。
62.在一些可能的实现方式中，所述目标语音识别模型的使用过程还包括：
63.响应于所述语音识别结果包括第一数目位的连续数字，确定所述输入音频对应终端号码，显示第一选择菜单；其中，所述第一选择菜单包括多个选项，一个所述选项用于指示一个已安装应用；
64.响应于基于所述多个选项对目标应用的选中操作，基于所述目标应用与所述终端号码指示的终端进行通信。
65.在一些可能的实现方式中，所述目标语音识别模型的使用过程还包括：
66.响应于所述目标应用为短信应用或通话应用，显示第二选择菜单；其中，所述第二选择菜单包括多个选项，一个所述选项用于指示一个用户识别卡；响应于基于所述多个选项对目标用户识别卡的选中操作，基于所述目标用户识别卡，采用所述目标应用对应的通信方式，与所述终端号码指示的终端进行通信；
67.或，响应于所述目标应用为社交应用，显示第三选择菜单；其中，所述第三选择菜单包括多个选项，一个所述选项用于指示所述社交应用的一种通信方式；响应于基于所述多个选项对目标通信方式的选中操作，基于所述目标通信方式与所述终端号码指示的终端进行通信；
68.其中，所述社交应用的通信方式包括发送应用消息、语音通话或视频通话。
69.在一些可能的实现方式中，所述目标语音识别模型的使用过程还包括：
70.响应于所述语音识别结果包括社交应用的应用名称和通讯录上目标联系人的用户名称，以置于顶层的显示方式，通过所述社交应用显示信息交互页面；
71.其中，所述通讯录与所述社交应用对应；所述信息交互页面为与所述目标联系人进行信息交互的页面。
72.在一些可能的实现方式中，所述目标语音识别模型的使用过程还包括：
73.响应于所述语音识别结果包括第二数目位的连续字符，且所述第二数目位的连续字符与多个物流订单号模板中的目标物流订单号模板匹配，确定所述输入音频对应物流订单号，获取所述物流订单号指示的物流订单的物流信息。
74.另一方面，提供了一种计算机设备，所述设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行以实现上述的
语音识别模型的训练方法。
75.另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行以实现上述的语音识别模型的训练方法。
76.另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述的语音识别模型的训练方法。
77.本技术实施例提供的语音识别模型的训练方案，首先基于初始语音识别模型，在样本音频集中筛选对连续相同文本单元未正确识别的候选样本音频；之后，在这些候选样本音频中进行音频片段提取；其中，提取的音频片段包括候选样本音频中与连续相同文本单元对齐的音频；接下来，本技术实施例会基于提取的音频片段对初始语音识别模型进行再训练，得到目标语音识别模型。由于模型重新学习了未正确识别的连续相同文本单元的音频特征，因此提升了模型在连续相同文本单元上的识别准确度。换言之，新训练得到的目标语音识别模型对于连续相同文本单元的音频特征的分类更准确，因此可以提升对连续相同文本单元的识别准确度，语音识别效果好，提升了语音识别质量。
附图说明
78.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
79.图1是本技术实施例提供的一种语音识别模型的训练方法涉及的实施环境的示意图；
80.图2是本技术实施例提供的一种语音识别模型的训练方法的流程图；
81.图3是本技术实施例提供的一种语音识别模型的训练方法的流程图；
82.图4是本技术实施例提供的一种语音识别模型的训练装置的结构示意图；
83.图5是本技术实施例提供的一种计算机设备的结构示意图；
84.图6是本技术实施例提供的另一种计算机设备的结构示意图。
具体实施方式
85.为使本技术的目的、技术方案和优点更加清楚，下面将结合附图对本技术实施方式作进一步地详细描述。
86.本技术中术语“第一”、“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。还应理解，尽管以下描述使用术语第一、第二等来描述各种元素，但这些元素不应受术语的限制。
87.这些术语只是用于将一个元素与另一个元素区别开。例如，在不脱离各种示例的范围的情况下，第一元素能够被称为第二元素，并且类似地，第二元素也能够被称为第一元
素。第一元素和第二元素都可以是元素，并且在某些情况下，可以是单独且不同的元素。
88.其中，至少一个是指一个或一个以上，例如，至少一个元素可以是一个元素、两个元素、三个元素等任意大于等于一的整数个元素。而多个是指两个或者两个以上，例如，多个元素可以是两个元素、三个元素等任意大于等于二的整数个元素。
89.需要说明的是，本技术所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
90.图1是本技术实施例提供的一种语音识别模型的训练方法涉及的实施环境的示意图。
91.参见图1，该实施环境包括：模型训练设备101和语音识别设备102。
92.其中，模型训练设备101用于进行语音识别模型训练，即执行本技术实施例提供的语音识别模型的训练方法；语音识别设备102用于基于训练好的目标语音识别模型进行语音识别，即基于目标语音识别模型完成语音识别。
93.模型训练设备101和语音识别设备102是具有机器学习能力的计算机设备。在一些可能的实现方式中，模型训练设备101和语音识别设备102可以是同一个设备，或者，模型训练设备101和语音识别设备102也可以是不同的设备。示例性地，当模型训练设备101和语音识别设备102是不同的设备时，模型训练设备101可以是个人电脑、服务器等固定式计算机设备，语音识别设备102可以是平板电脑、智能手机等移动式计算机设备，本技术在此不做限制。另外，当模型训练设备101和语音识别设备102是同一个设备时，模型训练设备101和语音识别设备102可以是个人电脑或服务器，本技术在此同样不做限制。
94.下面介绍本技术实施例提供的语音识别模型的训练方法的应用场景。
95.本技术实施例提供的语音识别模型的训练方法，能够提升模型对连续相同文本单元的识别准确度，进而提升语音识别效果。其中，文本单元可以是数字、字母、文字或者三者中至少两种的组合，本技术在此不做限制。相应地，连续相同文本单元可以是连续相同数字、连续相同字母、连续相同文字等。
96.示例性地，本技术实施例可以应用在终端号码识别或订单号码识别的场景下。在电话号码或订单号码的识别过程当中，有些连续相同数字容易漏识别，比如“11”识别成“1”，“55”识别成“5”。这是因为连续相同数字读起来语速偏快，而且它们的特征相似性较高，所以容易漏识别。
97.针对这种情况，本技术实施例首先基于初始语音识别模型，在样本音频集中筛选对连续相同文本单元未正确识别的候选样本音频；之后，在这些候选样本音频中进行音频片段提取；其中，提取的音频片段包括候选样本音频中与连续相同文本单元对齐的音频；接下来，本技术实施例会对提取的音频片段进行重新对齐，并利用重新对齐的音频片段对初始语音识别模型进行再训练，得到目标语音识别模型。由于模型重新学习了未正确识别的连续相同文本单元的音频特征，因此提升了模型在连续相同文本单元上的识别准确度。换言之，新训练得到的目标语音识别模型对于连续相同文本单元的音频特征的分类更准确，可以提升对连续相同文本单元的识别准确度，语音识别效果好，提升了语音识别质量。
98.图2是本技术实施例提供的一种语音识别模型的训练方法的流程图。参见图2，本
申请实施例提供的方法流程包括：
99.201、模型训练设备获取样本音频集；其中，该样本音频集中包括多个样本音频和与各个样本音频对齐的标注文本；该标注文本中包括至少一组连续相同文本单元。
100.本技术实施例首先需要构建样本音频集。示例性地，样本音频为具有无损压缩音频格式的音频文件，比如样本音频为wav格式的音频文件，本技术在此不做限制。
101.在一些可能的实现方式中，可以通过网络爬虫技术，从网络中对样本音频进行爬取，进而形成样本音频集；或者，还可以在安静环境下通过音频录制操作来制作样本音频，进而形成样本音频集；本技术在此不做限制。
102.在本技术实施例中，样本音频集中的样本音频是标注好至少一组连续相同文本单元的音频。以文本单元为数字为例，则每个标注文本中包括至少一组连续相同数字。即，样本音频集中的样本音频是标注好至少一组连续相同数字的音频。比如，样本音频集中的样本音频为数字音频。
103.其中，用于语音识别的样本音频集中包括样本音频及标注文本，但样本音频和标注文本是没有对齐的。例如，包含“你好”的样本音频，并不知道第几秒开始读“你”以及第几秒开始读“好”，因此需要通过音文对齐技术进行对齐。其中，音文对齐技术是指将音频和相应的文本进行对齐，以标定出文本中每个文本单元(比如数字、字母、文字)的发音时间。
104.在另一些可能的实现方式中，可以采用hmm(hidden markov model，隐马尔科夫模型)+gmm(gaussian mixed model，高斯混合模型)进行音文对齐；或者，采用ctc(connectionist temporal classification，连接时序分类器)方法进行音文对齐；或者，采用end2end方法进行音文对齐；本技术在此不做限制。
105.202、模型训练设备基于初始语音识别模型，在该样本音频集中筛选候选样本音频；其中，初始语音识别模型在对候选样本音频进行语音识别时，未正确识别其中的连续相同文本单元。
106.在获取到样本音频集后，本技术实施例会采用语音识别模型对这些样本音频进行语音识别；之后，基于语音识别模型输出的语音识别结果，在样本音频集中筛选候选样本音频。其中，为了与后续通过再训练得到的语音识别模型进行区分，此处的语音识别模型在本文中被称为初始语音识别模型。示例性地，本技术实施例采用的语音识别模型可以是端到端的语音识别模型，本技术在此不做限制。另外，在对样本音频进行特征提取之前，还可以对样本音频进行预处理；示例性地，预处理包括但不限于分帧、预增强、加窗、降噪、端点检测等。
107.在一些可能的实现方式中，基于初始语音识别模型，在样本音频集中筛选候选样本音频，包括但不限于采取如下方式：基于初始语音识别模型，对各个样本音频进行语音识别，得到各个样本音频的预测文本；根据各个样本音频的标注文本和预测文本，在样本音频集中筛选候选样本音频。
108.其中，筛选出来的候选样本音频的数量为多个；对于任意一个样本音频，由于该样本音频的标注文本和预测文本中均包括多个文本单元和各个文本单元在该样本音频中的起止时间，因此通过对比该样本音频标注文本和预测文本，便可确定初始语音识别模型是否正确识别其中的连续相同文本单元，进而根据对比结果便可在样本音频集中筛选候选样本音频。换言之，初始语音识别模型在对候选样本音频进行语音识别时，未能正确识别其中
的连续相同文本单元。以文本单元为数字，未正确识别为漏识别为例，则候选样本音频为连续相同数字漏识别的音频。
109.203、模型训练设备在候选样本音频中提取音频片段；其中，提取的音频片段包括候选样本音频中与连续相同文本单元对齐的音频。
110.对于任意一个候选样本音频，本步骤用于通过初始语音识别模型输出的语音识别结果中各个文本单元的起止时间，在该候选样本音频中定位未正确识别的连续相同文本单元所在的音频片段的起止时间。另外，出于容错性考虑，防止初始语音识别模型输出的语音识别结果不准确，在提取上述音频片段时，本技术实施例还会将进行提取的起始时间向前推t个音频帧，以及将进行提取的终止时间向后推t个音频帧。其中，t个音频帧可以为十几个音频帧、几十个音频帧等，本技术在此不做限制。
111.换言之，在候选样本音频中提取音频片段，包括但不限于采取如下方式：
112.获取候选样本音频的预测文本；根据该预测文本中各个文本单元的起止时间，确定第二音频的起止时间；其中，第二音频是候选样本音频中与连续相同文本单元对齐的音频；根据第二音频的起止时间，在候选样本音频中提取音频片段；其中，提取的音频片段包括相邻的第一音频、第二音频和第三音频；第一音频在时序上位于第二音频之前；第三音频在时序上位于第二音频之后。
113.204、模型训练设备根据提取的音频片段对初始语音识别模型进行再训练，得到目标语音识别模型。
114.本步骤首先通过音文对齐技术对提取的音频片段进行重新对齐，之后利用重新对齐的音频片段对初始语音识别模型进行再训练，得到目标语音识别模型。
115.在一些可能的实现方式中，根据提取的音频片段对初始语音识别模型进行再训练，得到目标语音识别模型，包括但不限于采取如下方式：
116.2041、获取提取的音频片段的标注文本；其中，提取的音频片段的标注文本中包括连续相同文本单元和预设标签。
117.在另一些可能的实现方式中，预设标签为《unk》标签。相应地，提取的音频片段的标注文本(也称对齐标签)则包括连续相同文本单元和《unk》标签。示例性地，以连续相同文本单元为“66”为例，则提取的音频片段的对齐标签为“《unk》66《unk》”。
118.2042、将提取的音频片段的标注文本与提取的音频片段进行对齐。
119.在本技术实施例中，预设标签与提取的音频片段中的第一音频和第三音频对齐，而连续相同文本单元则与提取的音频片段中的第二音频对齐。继续以步骤2041中的举例为例，则不属于“66”发音的音频帧会被对齐到《unk》标签。
120.2043、根据提取的音频片段和与提取的音频片段对齐的标注文本，对初始语音识别模型进行再训练，得到目标语音识别模型。
121.其中，再次进行模型训练时，本技术实施例仅使用与连续相同文本单元对应的音频特征来更新模型参数，而不使用与《unk》标签对应的音频特征来更新模型参数，这样新训练的目标语音识别模型对于连续相同文本单元的音频特征的分类更准确，能够提升模型对连续相同文本单元的识别准确度，大幅减少漏识别情况的出现。
122.本技术实施例提供的语音识别模型的训练方案，首先基于初始语音识别模型，在样本音频集中筛选对连续相同文本单元未正确识别的候选样本音频；之后，在这些候选样
本音频中进行音频片段提取；其中，提取的音频片段包括候选样本音频中与连续相同文本单元对齐的音频；接下来，本技术实施例会对提取的音频片段进行重新对齐，并利用重新对齐的音频片段对初始语音识别模型进行再训练，得到目标语音识别模型。由于模型重新学习了未正确识别的连续相同文本单元的音频特征，因此提升了模型在连续相同文本单元上的识别准确度。换言之，新训练得到的目标语音识别模型对于连续相同文本单元的音频特征的分类更准确，可以提升对连续相同文本单元的识别准确度，语音识别效果好，提升了语音识别质量。
123.图3是本技术实施例提供的一种语音识别模型的训练方法的流程图。参见图3，本技术实施例提供的方法流程包括：
124.301、模型训练设备获取样本音频集；其中，该样本音频集中包括多个样本音频和与各个样本音频对齐的标注文本；该标注文本中包括至少一组连续相同文本单元。
125.本步骤与上述步骤201同理，此处不再赘述。
126.302、模型训练设备基于初始语音识别模型，在该样本音频集中筛选候选样本音频；其中，初始语音识别模型在对候选样本音频进行语音识别时，未正确识别其中的连续相同文本单元。
127.本步骤与上述步骤202同理，此处不再赘述。
128.303、模型训练设备在候选样本音频中提取音频片段；其中，提取的音频片段包括候选样本音频中与连续相同文本单元对齐的音频。
129.本步骤与上述步骤203同理，此处不再赘述。
130.304、模型训练设备根据提取的音频片段对初始语音识别模型进行再训练，得到目标语音识别模型。
131.本步骤与上述步骤204同理，此处不再赘述。
132.305、在语音识别过程中，语音识别设备获取待识别的输入音频，并基于目标语音识别模型对该输入音频进行语音识别，得到该输入音频对应的语音识别结果。
133.在一些可能的实现方式中，基于目标语音识别模型对该输入音频进行语音识别，包括但不限于如下方式：首先，对该输入音频进行特征提取，得到该输入音频的滤波器组特征和与说话人对应的身份认证向量；之后，对该输入音频的滤波器组特征进行离散余弦变换，得到该输入音频的梅尔倒频谱系数；以及，将该输入音频的身份认证向量和梅尔倒频谱系数进行融合，得到该输入音频的音频融合特征；最后，将该输入音频的音频融合特征输入目标语音识别模型，得到该输入音频对应的语音识别结果。
134.在另一些可能的实现方式中，该输入音频可以是说话人的语音，该输入音频既可以是语音识别设备的麦克风采集到的语音，也可以是其他设备发送给语音识别设备的语音，本技术在此不做限制。另外，语音识别设备在对该输入音频进行特征提取之前，通常会对该输入音频进行预处理；示例性地，预处理包括但不限于分帧、预增强、加窗、降噪、端点检测等。
135.在本技术实施例中，滤波器组特征指代filter bank特征，也称fbank特征。身份认证向量指代i-vector。其中，i-vector不仅包括说话人差异信息，而且还包括信道差异信息。换言之，i-vector能够对说话人特征和信道特征进行有效表示，即i-vector用来对说话人和信道进行特征表示。
136.306、语音识别设备输出该输入音频对应的语音识别结果。
137.示例性地，语音识别设备包括显示屏，语音识别设备通过显示屏输出该输入音频对应的语音识别结果。
138.在一些可能的实现方式中，本技术实施例可以用于终端号码识别，比如识别连续相同数字。
139.详细来说，响应于该语音识别结果包括第一数目位的连续数字，语音识别设备确定该输入音频对应终端号码，显示第一选择菜单；其中，第一选择菜单包括多个选项，一个选项用于指示语音识别设备上的一个已安装应用；响应于用户基于多个选项对目标应用的选中操作，语音识别设备基于目标应用与识别出的终端号码指示的终端进行通信。
140.示例性地，目标应用可以是语音识别设备上的短信应用、通话应用或社交应用，本技术在此不做限制。在另一些可能的实现方式中，响应于用户基于多个选项对目标应用的选中操作，语音识别设备基于目标应用与识别出的终端号码指示的终端进行通信，包括但不限于如下两种情形。
141.情形一、响应于目标应用为短信应用或通话应用，显示第二选择菜单；其中，第二选择菜单包括多个选项，一个选项用于指示一个用户识别卡；响应于用户基于多个选项对目标用户识别卡的选中操作，基于目标用户识别卡，采用目标应用对应的通信方式，与识别出的终端号码指示的终端进行通信。
142.示例性地，语音识别设备为配置有用户识别卡的设备，且用户识别卡可以是多个，这多个用户识别卡可以来自相同的运营商，也可以来自不同的运营商，本技术在此不做限制。其中，响应于目标应用为短信应用，语音识别设备基于目标用户识别卡，采用发短信的方式与识别出的终端号码指示的终端进行通信；响应于目标应用为通话应用，语音识别设备基于目标用户识别卡，采用打电话的方式与识别出的终端号码指示的终端进行通信。
143.情形二、响应于目标应用为社交应用，显示第三选择菜单；其中，第三选择菜单包括多个选项，一个选项用于指示该社交应用的一种通信方式；响应于用户基于多个选项对目标通信方式的选中操作，语音识别设备基于目标通信方式与识别出的终端号码指示的终端进行通信；示例性地，该社交应用的通信方式包括但不限于发送应用消息、语音通话或视频通话，本技术在此不做限制。
144.在另一些可能的实现方式中，本技术实施例还可以用于订单号码识别，比如识别连续相同字符。
145.详细来说，响应于该语音识别结果包括第二数目位的连续字符，且第二数目位的连续字符与多个物流订单号模板中的目标物流订单号模板匹配，语音识别设备确定该输入音频对应物流订单号，并获取该物流订单号指示的物流订单的物流信息。
146.通常情况下，不同物流公司使用的物流订单号码模板不同，比如字符位数不同，或者，有些物流公司使用的物流订单号码模板中仅包括数字，而另外一些物流公司使用的物流订单号码模板同时包括数字和字母，因此需要将该语音识别结果中包括的第二数目位的连续字符与不同的物流订单号模板进行匹配。示例性地，语音识别设备可以从合作的物流公司的后台服务器，拉取物流订单的物流信息，本技术在此不做限制。
147.在另一些可能的实现方式中，本技术实施例还可以用于文字识别，比如识别连续相同文字。
148.详细来说，响应于该语音识别结果包括社交应用的应用名称和通讯录上目标联系人的用户名称，语音识别设备以置于顶层的显示方式，通过该社交应用显示信息交互页面；其中，此处提及的通讯录与该社交应用对应，即是该社交应用的通讯录；而该信息交互页面为与目标联系人进行信息交互的页面。
149.另外，置于顶层的显示方式，是指显示在全部页面之上，即显示在显示屏的最前端，没有被任何其他页面所覆盖。
150.本技术实施例提供的语音识别模型的训练方案，首先基于初始语音识别模型，在样本音频集中筛选对连续相同文本单元未正确识别的候选样本音频；之后，在这些候选样本音频中进行音频片段提取；其中，提取的音频片段包括候选样本音频中与连续相同文本单元对齐的音频；接下来，本技术实施例会对提取的音频片段进行重新对齐，并利用重新对齐的音频片段对初始语音识别模型进行再训练，得到目标语音识别模型。由于模型重新学习了未正确识别的连续相同文本单元的音频特征，因此提升了模型在连续相同文本单元上的识别准确度。换言之，新训练得到的目标语音识别模型对于连续相同文本单元的音频特征的分类更准确，可以提升对连续相同文本单元的识别准确度，语音识别效果好，提升了语音识别质量。
151.图4是本技术实施例提供的一种语音识别模型的训练装置的结构示意图。
152.参见图4，该装置包括：
153.获取模块401，被配置为获取样本音频集，所述样本音频集中包括多个样本音频；
154.筛选模块402，被配置为基于初始语音识别模型，在所述样本音频集中筛选候选样本音频；
155.处理模块403，被配置为在所述候选样本音频中提取音频片段；
156.其中，所述音频片段包括所述候选样本音频中与连续相同文本单元对齐的音频；且，所述初始语音识别模型在对所述候选样本音频进行语音识别时，未正确识别所述连续相同文本单元；
157.训练模块404，被配置为根据所述音频片段对所述初始语音识别模型进行再训练，得到目标语音识别模型。
158.本技术实施例提供的语音识别模型的训练方案，首先基于初始语音识别模型，在样本音频集中筛选对连续相同文本单元未正确识别的候选样本音频；之后，在这些候选样本音频中进行音频片段提取；其中，提取的音频片段包括候选样本音频中与连续相同文本单元对齐的音频；接下来，本技术实施例会基于提取的音频片段对初始语音识别模型进行再训练，得到目标语音识别模型。由于模型重新学习了未正确识别的连续相同文本单元的音频特征，因此提升了模型在连续相同文本单元上的识别准确度。换言之，新训练得到的目标语音识别模型对于连续相同文本单元的音频特征的分类更准确，因此可以提升对连续相同文本单元的识别准确度，语音识别效果好，提升了语音识别质量。
159.在一些可能的实现方式中，所述样本音频集中还包括与所述样本音频对齐的标注文本；所述标注文本中包括至少一组连续相同文本单元；
160.筛选模块402，被配置为基于所述初始语音识别模型，对所述样本音频进行语音识别，得到所述样本音频的预测文本；根据所述样本音频的标注文本和预测文本，在所述样本音频集中筛选所述候选样本音频。
161.在一些可能的实现方式中，所述音频片段包括相邻的第一音频、第二音频和第三音频；其中，所述第一音频在时序上位于所述第二音频之前；所述第三音频在时序上位于所述第二音频之后；所述第二音频是所述候选样本音频中与所述连续相同文本单元对齐的音频；
162.训练模块404，被配置为获取所述音频片段的标注文本；其中，所述音频片段的标注文本中包括所述连续相同文本单元和预设标签；将所述音频片段的标注文本与所述音频片段进行对齐；其中，所述预设标签与所述第一音频和所述第三音频对齐，所述连续相同文本单元与所述第二音频对齐；根据所述音频片段和与所述音频片段对齐的标注文本，对所述初始语音识别模型进行再训练，得到所述目标语音识别模型。
163.在一些可能的实现方式中，处理模块403，被配置为获取所述候选样本音频的预测文本；其中，所述预测文本中包括多个文本单元和所述多个文本单元在所述候选样本音频中的起止时间；根据所述预测文本中各个文本单元的起止时间，确定第二音频的起止时间；根据所述第二音频的起止时间，在所述候选样本音频中提取所述音频片段。
164.在一些可能的实现方式中，目标语音识别模型的使用过程包括：
165.获取待识别的输入音频；
166.对所述输入音频进行特征提取，得到所述输入音频的滤波器组特征和与说话人对应的身份认证向量；
167.对所述滤波器组特征进行离散余弦变换，得到所述输入音频的梅尔倒频谱系数；
168.将所述身份认证向量和所述梅尔倒频谱系数进行融合，得到所述输入音频的音频融合特征；
169.将所述音频融合特征输入所述目标语音识别模型，输出所述输入音频对应的语音识别结果。
170.在一些可能的实现方式中，目标语音识别模型的使用过程还包括：
171.响应于所述语音识别结果包括第一数目位的连续数字，确定所述输入音频对应终端号码，显示第一选择菜单；其中，所述第一选择菜单包括多个选项，一个所述选项用于指示一个已安装应用；
172.响应于基于所述多个选项对目标应用的选中操作，基于所述目标应用与所述终端号码指示的终端进行通信。
173.在一些可能的实现方式中，目标语音识别模型的使用过程还包括：
174.响应于所述目标应用为短信应用或通话应用，显示第二选择菜单；其中，所述第二选择菜单包括多个选项，一个所述选项用于指示一个用户识别卡；响应于基于所述多个选项对目标用户识别卡的选中操作，基于所述目标用户识别卡，采用所述目标应用对应的通信方式，与所述终端号码指示的终端进行通信；
175.或，响应于所述目标应用为社交应用，显示第三选择菜单；其中，所述第三选择菜单包括多个选项，一个所述选项用于指示所述社交应用的一种通信方式；响应于基于所述多个选项对目标通信方式的选中操作，基于所述目标通信方式与所述终端号码指示的终端进行通信；
176.其中，所述社交应用的通信方式包括发送应用消息、语音通话或视频通话。
177.在一些可能的实现方式中，目标语音识别模型的使用过程还包括：
178.响应于所述语音识别结果包括社交应用的应用名称和通讯录上目标联系人的用户名称，以置于顶层的显示方式，通过所述社交应用显示信息交互页面；
179.其中，所述通讯录与所述社交应用对应；所述信息交互页面为与所述目标联系人进行信息交互的页面。
180.在一些可能的实现方式中，目标语音识别模型的使用过程还包括：
181.响应于所述语音识别结果包括第二数目位的连续字符，且所述第二数目位的连续字符与多个物流订单号模板中的目标物流订单号模板匹配，确定所述输入音频对应物流订单号，获取所述物流订单号指示的物流订单的物流信息。
182.上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。
183.需要说明的是：上述实施例提供的语音识别模型的训练装置在进行语音识别模型的训练时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音识别模型的训练装置与语音识别模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。
184.图5是本技术实施例提供的一种计算机设备的结构示意图。示例性地，该计算机500可以表现为语音识别设备。
185.通常，计算机设备500包括有：处理器501和存储器502。其中，处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用dsp(digital signal processing，数字信号处理)、fpga(field programmable gate array，现场可编程门阵列)、pla(programmable logic array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称cpu(central processing unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一种可能的实现方式中，处理器501可以集成有gpu(graphics processing unit，图像处理器)，gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括ai(artificial intelligence，人工智能)处理器，该ai处理器用于处理有关机器学习的计算操作。
186.存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一种可能的实现方式中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器501所执行以实现本技术中方法实施例提供的语音识别模型的训练方法。
187.在一种可能的实现方式中，计算机设备500还可选包括有：外围设备接口503和至少一个外围设备。处理器501、存储器502和外围设备接口503之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口503相连。具体地，外围设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507和电源508中的至少一种。
188.外围设备接口503可被用于将i/o(input/output，输入/输出)相关的至少一个外围设备连接到处理器501和存储器502。在一种可能的实现方式中，处理器501、存储器502和外围设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器
502和外围设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。
189.射频电路504用于接收和发射rf(radio frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2g、3g、4g及5g)、无线局域网和/或wifi(wireless fidelity，无线保真)网络。在一种可能的实现方式中，射频电路504还可以包括nfc(near field communication，近距离无线通信)有关的电路，本技术对此不加以限定。
190.显示屏505用于显示ui(user interface，用户界面)。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一种可能的实现方式中，显示屏505可以为一个，设置在计算机设备500的前面板；在另一种可能的实现方式中，显示屏505可以为至少两个，分别设置在计算机设备500的不同表面或呈折叠设计；在另一种可能的实现方式中，显示屏505可以是柔性显示屏，设置在计算机设备500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用lcd(liquid crystal display，液晶显示屏)、oled(organic light-emitting diode,有机发光二极管)等材质制备。
191.摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一种可能的实现方式中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及vr(virtual reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一种可能的实现方式中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。
192.音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在计算机设备500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一种可能的实现方式中，音频电路507还可以包括耳机插孔。
193.电源508用于为计算机设备500中的各个组件进行供电。电源508可以是交流电、直流电、一次性电池或可充电电池。当电源508包括可充电电池时，该可充电电池可以是有线
充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
194.本领域技术人员可以理解，图5中示出的结构并不构成对计算机设备500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
195.图6是本技术实施例提供的另一种计算机设备600的结构示意图。示例性地，该计算机600可以表现为模型训练设备。
196.该计算机设备600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，cpu)601和一个或一个以上的存储器602，其中，所述存储器602中存储有至少一条程序代码，所述至少一条程序代码由所述处理器601加载并执行以实现上述各个方法实施例提供的语音识别模型的训练方法。当然，该计算机设备600还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备600还可以包括其他用于实现设备功能的部件，在此不做赘述。
197.在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由计算机设备中的处理器执行以完成上述实施例中的语音识别模型的训练方法。例如，所述计算机可读存储介质可以是只读存储器(read-only memory，rom)、随机存取存储器(random access memory，ram)、光盘只读存储器(compact disc read-only memory，cd-rom)、磁带、软盘和光数据存储设备等。
198.在示例性实施例中，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述语音识别模型的训练方法。
199.本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。
200.以上所述仅为本技术的可选实施例，并不用以限制本技术，凡在本技术的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本技术的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王宁李良斌
技术所有人：北京声智科技有限公司
我是此专利的发明人

上一篇：一种挡风玻璃安装结构的制作方法
上一篇：一种红外探测器冷屏及红外探测器的制作方法