唤醒优化模型的训练方法、唤醒优化的方法和相关设备与流程

文档序号：32043543发布日期：2022-11-03 06:10阅读：34来源：国知局

1.本技术涉及语音识别技术领域，特别是涉及到一种唤醒优化模型的训练方法、唤醒优化的方法和相关设备。

背景技术：

2.唤醒词、命令词模型在应用时，实时检测用户的语音，当检测到特定词汇时，即做出反馈。实际使用中，唤醒模型一般都提前训练好，而每个终端用户发音习惯都各不相同，无法保证每个用户都有一致的体验效果。一般的处理方式是在训练数据中加入尽可能多种类的正样本数据，来提升模型对不同口音不同场景的识别能力，但这种方式需要的数据量太大，语料收集成本高，模型训练时间过长。而且这种方式虽能提升模型效果，但无法穷举所有口音数据，因此无法从根本上解决每个用户体验效果不一致的问题。

技术实现要素：

3.本技术的主要目的为提供一种唤醒优化模型的训练方法、唤醒优化的方法和相关设备，旨在解决现有技术中语音唤醒效果不能根据不同用户自适应优化问题。
4.为了实现上述发明目的，本技术提出一种唤醒优化模型的训练方法，包括：获取标注数据，所述标注数据包括正样本和负样本；用所述标注数据训练所述分类模型，得到embedding模型的模版，其中，所述embedding模型的模版为所述分类模型输出的倒数第二层的权值的第一列；用所述标注数据和所述embedding模型的模版训练embedding模型；根据所述分类模型和所述embedding模型，得到唤醒优化模型。
5.本技术还提供了一种唤醒优化的方法，包括：当检测到终端被激活，接收到语音时，将所述语音输入分类模型，根据所述分类模型的输出和第一唤醒阈值，判断是否唤醒终端；若唤醒终端成功，则使用embedding模型提取所述语音的embedding向量；当终端唤醒成功的次数达到指定次数后，计算所述指定次数对应的所述embedding向量的平均，得到用户特定模板；得到所述用户特定模板后，降低分类模型的唤醒阈值为第二唤醒阈值；当接收到语音时，根据所述分类模型的输出和所述第二唤醒阈值，判断是否唤醒分类模型；当分类模型唤醒成功后，计算当次唤醒的平滑系数和最终判决分数，根据所述当次唤醒的平滑系数和所述最终判决分数判断是否唤醒终端。
6.本技术还提供了一种唤醒优化模型的训练装置，所述装置包括：数据获取模块，用于获取标注数据，所述标注数据包括正样本和负样本；
分类模型训练模块，用于用所述标注数据训练所述分类模型，得到embedding模型的模版，其中，所述embedding模型的模版为所述分类模型输出的倒数第二层的权值的第一列；embedding模型训练模块，用于用所述标注数据和所述embedding模型的模版训练embedding模型；唤醒优化模型生成模块，用于根据所述分类模型和所述embedding模型，得到唤醒优化模型。
7.本技术还提供了一种唤醒优化的装置，所述装置包括：第一终端唤醒模块，用于当检测到终端被激活，接收到语音时，将所述语音输入分类模型，根据所述分类模型的输出和第一唤醒阈值，判断是否唤醒终端；用户模版确定模块，用于若唤醒终端成功，则使用embedding模型提取所述语音的embedding向量；当终端唤醒成功的次数达到指定次数后，计算所述指定次数对应的所述embedding向量的平均，得到用户特定模板；唤醒阈值调整模块，用于得到所述用户特定模板后，降低分类模型的唤醒阈值为第二唤醒阈值；分类模型唤醒模块，用于当接收到语音时，根据所述分类模型的输出和所述第二唤醒阈值，判断是否唤醒分类模型；第二终端唤醒模块，用于当分类模型唤醒成功后，计算当次唤醒的平滑系数和最终判决分数，根据所述当次唤醒的平滑系数和所述最终判决分数判断是否唤醒终端。
8.本技术还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
9.本技术还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
10.本技术提供的一种唤醒优化模型的训练方法、唤醒优化的方法和相关设备，训练一个分类模型和一个embedding模型，根据分类模型的权值设定embedding模型的模板，训练的embedding模型对唤醒词的聚集度更好，且与非唤醒词间隔更大。两个模型训练好后，部署到终端设备上，终端用户激活使用后，先主要使用分类模型判断是否唤醒终端，再逐步过渡到embedding模型，生成用户模板。在得到用户模板后，每次唤醒时计算当前唤醒语音的相关参数，按照用户模板判断是否唤醒终端。可根据用户使用不断迭代自适应优化唤醒效果，使每个用户都能获得一致的效果体验，有效解决单一模型的不同场景适应能力不足的问题。
附图说明
11.图1是本技术一实施例中唤醒优化模型的训练方法的步骤示意图；图2是本技术一实施例中唤醒优化的方法的步骤示意图；图3是本技术一实施例中唤醒优化模型的训练装置的整体结构框图；图4是本技术一实施例中唤醒优化的装置的整体结构框图；
图5是本技术一实施例的计算机设备的结构示意框图。
12.本技术目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
13.为了使本技术的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本技术进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本技术，并不用于限定本技术。
14.参照图1，本技术实施例中提供一种唤醒优化模型的训练方法，包括步骤s1-s4，具体地：s1、获取标注数据，所述标注数据包括正样本和负样本。
15.具体地，对于步骤s1，训练系统时获取预先录入的标注数据，该标注数据包括正样本、负样本以及每个音频对应的文本。正样本是包含有唤醒词的音频数据；负样本包括aishell语料和dsn-challenge噪声语料。其中aishell语料是由400位来自中国不同口音区域的发音人参与录制，语料内容涵盖财经、科技、体育、娱乐、时事新闻，是为人工智能中文普通话语音识别设计的基础数据库。以aishell语料作为训练模型的口音数据，使得训练出的模型能够识别不同口音并进行处理，改善不同口音用户的唤醒体验。
16.s2、用所述标注数据训练所述分类模型，得到embedding模型的模版，其中，所述embedding模型的模版为所述分类模型输出的倒数第二层的权值的第一列。
17.具体地，对于步骤s2，分类模型中的分类网络使用tc-resnet，也可以使用其它网络如tdnn或rnn-attention等。分类模型倒数第二层的维数，需要与embedding模型的输出维数一致，比如都是48维，其它层的超参数不做限定，根据训练效果选择。分类模型训练完成后，可以得到embedding模型的模版。当输入的音频数据中有一个词时，分类模型会有两个输出节点，分别为管家管家节点和unknown节点。管家管家节点包括该词对应的判决分数，判决分数是0到1之间的概率值，根据判决分数的大小可以判断该词是否为需要识别的唤醒词。unknown节点包括分类模型未能识别的音频数据内容。
18.s3、用所述标注数据和所述embedding模型的模版训练embedding模型。
19.s4、根据所述分类模型和所述embedding模型，得到唤醒优化模型。
20.具体地，对于步骤s3和s4，根据embedding模型的模版，用所述标注数据训练embedding模型。相较于根据训练集正样本的embedding平均得到embedding模板的常规做法，实验验证本发明训练的embedding模型对唤醒词的聚集度更好，且与非唤醒词间隔更大。embedding就是把高维原始数据的物体（可以为图像、句子、词、商品和电影等），映射到低维流形，转换成一个低维的向量表示该物体。这个低维的embedding向量的性质是能使距离相近的向量对应的物体有相近的含义，从embedding空间中表达物体，可以揭示了物体间的潜在关系。应用到本发明中，embedding模型能将相近的发音内容生成的embedding向量，并在embedding空间中聚集到一起。因此本发明由embedding模型得到的用户特定模板能更好的表示该用户对该唤醒词的发音习惯。分类模型和embedding模型训练完成后，得到唤醒
优化模型。
21.在一个实施例中，上述获取标注数据之后，包括：s101、根据所述正样本的长度范围选取一个固定长度；s102、根据所述固定长度调整所述标注数据长度，确定帧数；s103、根据所述固定长度，对所述标注数据提取特征，得到所述帧数*特征维度大小的数据，作为模型输入数据。
22.具体地，对于步骤s101、s102和s103，所有音频数据根据正样本长度分布范围选取一个固定长度，并确定帧数，比如选择的固定长度为1.5s，则帧数为151。对所述标注数据提取特征，得到帧数*特征维度大小的数据，作为模型输入数据。比如1.5s音频，对应模型输入数据大小就为151*40。其中，特征维度为样本中的特征的数量。
23.在一个实施例中，上述用所述标注数据训练所述分类模型的步骤，包括：s201、将所述模型输入数据输入到分类模型中，得到分类模型的输出；s202、根据所述分类模型的输出和预设的目标值计算loss函数，根据所述loss函数优化分类模型的参数。
24.具体地，对于步骤s201和s202，分类模型输出节点有两种，分别为管家管家和unknown，若输入的模型输入数据包括了多个词，则分类模型会相应输出多个管家管家节点。管家管家节点包括分类模型对模型输入数据中每个词的判决分数，判决分数是0到1之间的概率值，根据判决分数的大小可以判断该词是否为需要识别的唤醒词。unknown是指分类模型未能识别的音频数据内容。loss函数即损失函数，作用就是描述模型的预测值与真实值之间的差距大小，指导模型在训练过程中朝着收敛的方向前进。本发明使用的loss函数选择cross-entropy（交叉熵），一般是用来量化两个概率分布之间差异的损失函数，常用于分类问题，衡量这个模型在测试集上的正确率。交叉熵作为损失函数还有一个好处是使用sigmoid函数在梯度下降时能避免均方误差损失函数学习速率降低的问题，因为学习速率可以被输出的误差所控制。根据所述分类模型的输出和预设的目标值计算loss函数，利用loss反向传播更新分类模型的参数。
25.在一个实施例中，上述用所述标注数据和所述分类模型的模版训练embedding模型的步骤s3，包括：s301、将所述模型输入数据输入到embedding模型中，根据分类模型的权值，得到embedding向量。
26.s302、计算所述embedding向量与所述embedding模型的模版之间的余弦相似度，根据所述余弦相似度优化embedding模型的参数。
27.具体地，对于步骤s301和s302，embedding模型的作用是将输入特征序列映射到embedding特征空间，例如，151*40大小的音频数据输入embedding模型后，得到48维的embedding向量。embedding向量的维数需要和分类模型的权值中的维数保持一致。余弦相似度的计算公式为，其中c是embedding模板，在此处即为模版；e是当前唤醒语音的embedding向量；w和b是可训练的
参数。利用余弦相似度反向传播更新embedding模型的参数，将所述余弦相似度值相似的embedding向量在embedding空间中尽量聚集到一起，即将唤醒词聚集到一起。实验验证本发明训练的embedding模型对唤醒词的聚集度更好，且与非唤醒词间隔更大。
28.参照图2，本技术实施例中提供一种唤醒优化的方法，包括步骤a1-a6，具体地：a1、当检测到终端被激活，接收到语音时，将所述语音输入分类模型，根据所述分类模型的输出和第一唤醒阈值，判断是否唤醒终端；a2、若唤醒终端成功，则使用embedding模型提取所述语音的embedding向量；a3、当终端唤醒成功的次数达到指定次数后，计算所述指定次数对应的所述embedding向量的平均，得到用户特定模板；a4、得到所述用户特定模板后，降低分类模型的唤醒阈值为第二唤醒阈值；a5、当接收到语音时，根据所述分类模型的输出和所述第二唤醒阈值，判断是否唤醒分类模型；a6、当分类模型唤醒成功后，计算当次唤醒的平滑系数和最终判决分数，根据所述当次唤醒的平滑系数和所述最终判决分数判断是否唤醒终端。
29.具体地，对于步骤a1，当终端被激活后，先使用分类模型判断是否唤醒终端。此时的唤醒阈值设置为第一阈值，每接收到语音时，分类模型得到会相应的输出，当输出大于第一阈值时，唤醒终端。
30.具体地，对于步骤a2和a3，每次根据分类模型的输出唤醒终端成功后，embedding模型会提取当前语音的embedding向量，这些embedding向量可以表示用户对该唤醒词的发音习惯。由于每次接收到语音时，分类模型的输出不一定大于第一阈值，即可能存在不唤醒终端的情况。此时的语音不能作为获得用户特定模版的数据，因此embedding模型不会提取该语音的embedding向量，以减少不必要的运算，仅对唤醒终端成功的语音进行提取embedding向量，作为计算用户特定模版的数据。当终端唤醒成功的次数达到指定次数后，计算指定次数的embedding向量的平均，得到用户特定模板。通过这种方式获得的用户模版可以很好的表示不同用户的发音习惯，相较于使用多种类的正样本数据来提升模型对不同口音不同场景的识别能力的常规做法，减少了大量的训练模型数据需求，且能够得到更适合当前用户的特定模版，能够使不同发音习惯的用户都能得到好的唤醒体验。
31.具体地，对于步骤a4，得到所述用户特定模板后，由分类模型和用户特定模版来共同判断是否唤醒终端。此时分类模型不再是唯一判断是否唤醒终端的依据，所以将降低分类模型的唤醒阈值为第二唤醒阈值，即使得分类模型变得更容易被唤醒，后续使用用户特定模版进行进一步判定。
32.具体地，对于步骤a5，当接收到语音时，若分类模型的输出大于第二唤醒阈值，则唤醒分类模型，即只要语音中包含有唤醒词的概率大于第二阈值，就唤醒分类模型。分类模型唤醒之后，根据当次唤醒的平滑系数和最终判决分数的计算结果判断是否唤醒终端。
33.具体地，对于步骤a6，当分类模型唤醒成功后，计算平滑系数，根据所述平滑系数计算最终判决分数。用户特定模版为最终判决分数中的其中一个参数。当计算得到的最终判决分数超过第三阈值时，唤醒终端。在这一步骤可以实现根据用户的发音习惯来判断是否唤醒终端。
34.在一个实施例中，上述计算当次唤醒的平滑系数和最终判决分数的步骤，包括：a101、计算平滑系数：a1=0.9*n/(1+β*n)，其中，β为可调节参数，n是当前唤醒的次数；a102、计算最终判决分数：，其中，为分类模型对当次唤醒的判决分数，a1为平滑系数，为当前唤醒语音的embedding向量与模版的余弦相似度，模版为embedding模型的模版，为当前唤醒语音的embedding向量与用户特定模版的余弦相似度。
35.具体地，对于步骤a101和a102，计算平滑系数的公式为：a1=0.9*n/(1+β*n)，其中，β为可调节参数，根据预估用户唤醒频率选定；n是当前唤醒的次数，是在得到用户模版之后，重新开始计数的次数，与之前仅使用分类模型判断是否唤醒终端的次数不进行叠加。计算最终判决分数的公式为：，其中为分类模型对当次唤醒的判决分数，a1为平滑系数，为当前唤醒语音的embedding与分类模型的模版的余弦相似度，为当前唤醒语音的embedding与用户特定模版的余弦相似度。此处余弦相似度的计算方法与训练embedding模型时的余弦相似度计算方法相同。
36.参照图3，是本技术一实施例中唤醒优化模型的训练装置结构框图，装置包括：数据获取模块100，用于获取标注数据，所述标注数据包括正样本和负样本；分类模型训练模块200，用于用所述标注数据训练所述分类模型，得到embedding模型的模版，其中，所述embedding模型的模版为所述分类模型输出的倒数第二层的权值的第一列；embedding模型训练模块300，用于用所述标注数据和所述embedding模型的模版训练embedding模型；唤醒优化模型生成模块400，用于根据所述分类模型和所述embedding模型，得到唤醒优化模型。
37.在一个实施例中，上述唤醒优化模型的训练装置，还包括：模型输入数据调整模块，用于根据所述正样本的长度范围选取一个固定长度；根据所述固定长度调整所述标注数据长度，并确定帧数；根据所述固定长度，对所述标注数据提取特征，得到所述帧数*特征维度大小的数据，作为模型输入数据。
38.在一个实施例中，上述唤醒优化模型的训练装置，还包括：
分类模型训练子模块，用于将所述模型输入数据输入到分类模型中，得到分类模型的输出；根据所述分类模型的输出和预设的目标值计算loss函数，根据所述loss函数优化分类模型的参数。
39.在一个实施例中，上述唤醒优化模型的训练装置，还包括：embedding模型训练子模块，用于将所述模型输入数据输入到embedding模型中，根据分类模型的权值，得到embedding向量；计算所述embedding向量与所述embedding模型的模版之间的余弦相似度，根据所述余弦相似度优化embedding模型的参数。
40.参照图4，是本技术一实施例中唤醒优化的装置结构框图，装置包括：第一终端唤醒模块500，用于当检测到终端被激活，接收到语音时，将所述语音输入分类模型，根据所述分类模型的输出和第一唤醒阈值，判断是否唤醒终端；用户模版确定模块600，用于若唤醒终端成功，则使用embedding模型提取所述语音的embedding向量；当终端唤醒成功的次数达到指定次数后，计算所述指定次数对应的所述embedding向量的平均，得到用户特定模板；唤醒阈值调整模块700，用于得到所述用户特定模板后，降低分类模型的唤醒阈值为第二唤醒阈值；分类模型唤醒模块800，用于当接收到语音时，根据所述分类模型的输出和所述第二唤醒阈值，判断是否唤醒分类模型；第二终端唤醒模块900，用于当分类模型唤醒成功后，计算当次唤醒的平滑系数和最终判决分数，根据所述当次唤醒的平滑系数和所述最终判决分数判断是否唤醒终端。
41.在一个实施例中，上述唤醒优化的装置，还包括：计算模块，用于计算平滑系数：a1=0.9*n/(1+β*n)，其中，β为可调节参数，n是当前唤醒的次数；计算最终判决分数：，其中，为分类模型对当次唤醒的判决分数，a1为平滑系数，为当前唤醒语音的embedding向量与模版的余弦相似度，模版为embedding模型的模版，为当前唤醒语音的embedding向量与用户特定模版的余弦相似度。
42.参照图5，本技术实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储唤醒优化模型的训练方法运行数据和唤醒优化的方法运行数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述任一实施例的一种唤醒效果自适应优化的方法。
43.本领域技术人员可以理解，图5中示出的结构，仅仅是与本技术方案相关的部分结构的框图，并不构成对本技术方案所应用于其上的计算机设备的限定。
44.本技术一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种唤醒效果自适应优化的方法。可以理解的是，本实施例中的计算机可读存储介质可以是易失性可读存储介质，也可以为非易失性可读存储介质。
45.本技术提供的一种唤醒优化模型的训练方法、唤醒优化的方法和相关设备，训练一个分类模型和一个embedding模型，根据分类模型的权值设定embedding模型的模板，训练的embedding模型对唤醒词的聚集度更好，且与非唤醒词间隔更大。两个模型训练好后，部署到终端设备上，终端用户激活使用后，先主要使用分类模型判断是否唤醒终端，再逐步过渡到embedding模型，生成用户模板。在得到用户模板后，每次唤醒时计算当前唤醒语音的相关参数，按照用户模板判断是否唤醒终端。可根据用户使用不断迭代自适应优化唤醒效果，使每个用户都能获得一致的效果体验，有效解决单一模型的不同场景适应能力不足的问题。
46.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本技术所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（rom）、可编程rom（prom）、电可编程rom（eprom）、电可擦除可编程rom（eeprom）或闪存。易失性存储器可包括随机存取存储器（ram）或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram（sram）、动态ram（dram）、同步dram（sdram）、双速据率sdram（ssrsdram）、增强型sdram（esdram）、同步链路（synchlink）dram（sldram）、存储器总线（rambus）直接ram（rdram）、直接存储器总线动态ram（drdram）、以及存储器总线动态ram（rdram）等。
47.需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个
……”
限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
48.以上所述仅为本技术的优选实施例，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王维王广新杨汉丹
技术所有人：深圳市友杰智新科技有限公司
我是此专利的发明人

上一篇：可降解片材生产用循环冷却设备的制作方法
上一篇：一种全程高温处理的烟气监测用预处理装置的制作方法