语音唤醒数据的处理方法、装置及存储介质与流程

文档序号：40780495发布日期：2025-01-24 21:22阅读：222来源：国知局

本公开涉及语音唤醒领域，尤其涉及语音唤醒数据的处理方法、装置及存储介质。

背景技术：

1、智能设备的语音唤醒一般包括一级唤醒和二级唤醒，一级唤醒为关键词检测，二级唤醒为声纹检测，二者分别对应不同的语音唤醒模型。唤醒通过一级后才能通过二级，一级唤醒的误唤醒率，会影响整个唤醒流程的误唤醒率。

2、相关技术中，训练一级唤醒的语音唤醒模型时，从模型特征中优化相关的参数，从而让模型学习到一般训练模型过程中忽略特征，忽略的特征会造成的特征逃逸，从而提高了一级唤醒的语音误唤醒率，并间接提高了整个唤醒流程的误唤醒率。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供一种语音唤醒数据的处理方法、装置及存储介质。

2、根据本公开实施例的第一方面，提供一种语音唤醒数据的处理方法，包括：采集第一误唤醒数据，并将所述第一误唤醒数据转化为第一频谱图；通过生成对抗网络处理所述第一频谱图，生成第二频谱图，所述第二频谱图中包含第二误唤醒数据，所述第二误唤醒数据的数量高于所述第一误唤醒数据的数量。

3、一种实施方式中，所述方法还包括：基于所述第二误唤醒数据训练第一唤醒网络。

4、一种实施方式中，所述通过生成对抗网络处理所述第一频谱图，生成第二频谱图，包括：通过所述生成对抗网络的编码路径，基于损失函数逐层提取所述第一频谱图的特征，获取不同深度层级的频谱特征图；通过生成对抗网络的解码路径，处理所述不同深度层级的频谱特征图中的最深层特征图，获取所述第二频谱图。

5、一种实施方式中，所述方法还包括：获取所述不同深度层级的频谱特征图中最深层频谱特征图之外的其他频谱特征图的细节信息；基于语义增强机制，处理所述不同深度层级的频谱特征图中层级最深的多张频谱特征图，获取语义信息。

6、一种实施方式中，所述通过生成对抗网络的解码路径，处理所述不同深度层级的频谱特征图中的最深层特征图，包括：基于所述生成对抗网络的上采样机制将所述细节信息逐层补充至所述最深层特征图中，并基于所述生成对抗网络的语义机制将语义信息逐层补充至所述最深层特征图中。

7、一种实施方式中，所述损失函数包括逐像素损失、自感应损失和相对对抗损失，所述逐像素损失、自感应损失和相对对抗损失分别对应不同的权重，所述损失函数采用如下方式确定：将所述逐像素损失与对应权重的乘积、自感应损失对应权重的乘积、相对对抗损失对应权重的乘积之和确定为所述损失函数。

8、根据本公开实施例的第二方面，提供一种语音唤醒数据的处理装置，包括：采集单元，用于采集第一误唤醒数据，并将所述第一误唤醒数据转化为第一频谱图；处理单元，用于通过生成对抗网络处理所述第一频谱图，生成第二频谱图，所述第二频谱图中包含第二误唤醒数据，所述第二误唤醒数据的数量高于所述第一误唤醒数据的数量。

9、一种实施方式中，所述处理单元还用于：基于所述第二误唤醒数据训练第一唤醒网络。

10、一种实施方式中，所述处理单元采用如下方式通过生成对抗网络处理所述第一频谱图，生成第二频谱图：通过所述生成对抗网络的编码路径，基于损失函数逐层提取所述第一频谱图的特征，获取不同深度层级的频谱特征图；通过生成对抗网络的解码路径，处理所述不同深度层级的频谱特征图中的最深层特征图，获取所述第二频谱图。

11、一种实施方式中，所述处理单元还用于：获取所述不同深度层级的频谱特征图中最深层频谱特征图之外的其他频谱特征图的细节信息；基于语义增强机制，处理所述不同深度层级的频谱特征图中层级最深的多张频谱特征图，获取语义信息。

12、一种实施方式中，所述处理单元采用如下方式通过生成对抗网络的解码路径，处理所述不同深度层级的频谱特征图中的最深层特征图：基于所述生成对抗网络的上采样机制将所述细节信息逐层补充至所述最深层特征图中，并基于所述生成对抗网络的语义机制将语义信息逐层补充至所述最深层特征图中。

13、一种实施方式中，所述损失函数包括逐像素损失、自感应损失和相对对抗损失，所述逐像素损失、自感应损失和相对对抗损失分别对应不同的权重，所述损失函数通过所述处理单元采用如下方式确定：将所述逐像素损失与对应权重的乘积、自感应损失对应权重的乘积、相对对抗损失对应权重的乘积之和确定为所述损失函数。

14、根据本公开实施例的第三方面，提供一种音唤醒数据的处理装置，包括：处理器：用于存储处理器可执行指令的存储器；其中，所述处理器被配置为：执行第一方面或者第以方面任意一种实施方式中所述的语音唤醒数据的处理方法。

15、根据本公开实施例的第四方面，提供一种存储介质，所述存储介质中存储有指令，当所述存储介质中的指令由处理器执行时，使得处理器能够执行第一方面或者第以方面任意一种实施方式中所述的语音唤醒数据的处理方法。

16、本公开的实施例提供的技术方案可以包括以下有益效果：采集实际场景中的误唤醒数据，通过生成对抗网络处理误唤醒数据，生成满足唤醒模型训练要求，训练一级唤醒网络的误唤醒数据。通过本公开，降低整个唤醒流程的误唤醒率。

17、应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

技术特征：

1.一种语音唤醒数据的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述通过生成对抗网络处理所述第一频谱图，生成第二频谱图，包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述通过生成对抗网络的解码路径，处理所述不同深度层级的频谱特征图中的最深层特征图，包括：

6.根据权利要求3所述的方法，其特征在于，所述损失函数包括逐像素损失、自感应损失和相对对抗损失，所述逐像素损失、自感应损失和相对对抗损失分别对应不同的权重，

7.一种语音唤醒数据的处理装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述处理单元还用于：

9.根据权利要求7所述的装置，其特征在于，所述处理单元采用如下方式通过生成对抗网络处理所述第一频谱图，生成第二频谱图：

10.根据权利要求9所述的装置，其特征在于，所述处理单元还用于：

11.根据权利要求10所述的装置，其特征在于，所述处理单元采用如下方式通过生成对抗网络的解码路径，处理所述不同深度层级的频谱特征图中的最深层特征图：

12.根据权利要求9所述的装置，其特征在于，所述损失函数包括逐像素损失、自感应损失和相对对抗损失，所述逐像素损失、自感应损失和相对对抗损失分别对应不同的权重，

13.一种语音唤醒数据的处理装置，其特征在于，包括：

14.一种存储介质，其特征在于，所述存储介质中存储有指令，当所述存储介质中的指令由处理器执行时，使得处理器能够执行权利要求1至6中任一项所述的语音唤醒数据的处理方法。

技术总结
本公开是关于一种语音唤醒数据的处理方法、装置及储存介质。语音唤醒数据的处理方法包括：采集第一误唤醒数据，并将所述第一误唤醒数据转化为第一频谱图。通过生成对抗网络处理所述第一频谱图，生成第二频谱图，所述第二频谱图中包含第二误唤醒数据，所述第二误唤醒数据的数量高于所述第一误唤醒数据的数量。通过本公开，降低整个唤醒流程的误唤醒率。

技术研发人员：李俊辉
受保护的技术使用者：北京小米移动软件有限公司
技术研发日：
技术公布日：2025/1/23

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李俊辉
技术所有人：北京小米移动软件有限公司
我是此专利的发明人

上一篇：定位方法、装置、设备和存储介质与流程
下一篇：一种以太网PHY芯片Link时间的测试方法和网络设备与流程

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！