用于提供定制唤醒短语训练的系统和方法与流程

文档序号：24156306发布日期：2021-03-05 11:56阅读：来源：国知局

技术特征：
1.一种用于训练针对虚拟助手的定制短语发现器可执行程序的计算系统，所述计算系统包括处理器和与所述处理器通信的存储器，所述存储器存储指令，所述指令在由所述处理器执行时将所述计算系统配置为：接收针对训练定制短语发现器可执行程序的请求和特定虚拟助手的标识；响应于接收到所述请求，接收与定制唤醒短语的口述音频相对应的一个或多个正音频样本；使用所述正音频样本来训练用于定制唤醒短语音频的模型；以及编译包括所述模型的所述定制短语发现器可执行程序，使得当所述模型被部署在由所述标识所标识的所述特定虚拟助手上时，所述定制短语发现器可执行程序识别所述定制唤醒短语。2.根据权利要求1所述的计算系统，其中，所述指令在由所述处理器执行时还将所述计算系统配置为：接收与所述定制唤醒短语相对应的文本；在存储在所述计算系统的数据库上的音频样本的语料库内搜索与所述文本相对应的一个或多个存储的正音频样本；以及将这些存储的正音频样本包括在所述模型的训练中。3.根据权利要求1所述的计算系统，其中，所述指令在由所述处理器执行时还将所述计算系统配置为：接收与所述定制唤醒短语相对应的文本；将文本到语音(tts)应用于所述文本以生成所述定制唤醒短语的合成的正音频样本；以及将所述合成的正音频样本包括在所述模型的训练中。4.根据权利要求1所述的计算系统，其中，所述指令在由所述处理器执行时还将所述计算系统配置为：响应于接收到所述请求，接收一个或多个负音频样本，所述负音频样本与所述正音频样本具有可听相似性但不是所述定制唤醒短语；以及将所述负音频样本包括在所述模型的训练中。5.根据权利要求1所述的计算系统，其中，所述指令在由所述处理器执行时还将所述计算系统配置为：在存储在所述计算设备的数据库上的音频样本的语料库内搜索一个或多个存储的负音频样本，所述存储的负音频样本与所述正音频样本具有可听相似性但不是所述定制唤醒短语；以及将所述存储的负音频样本作为负样本包括在所述模型的训练中。6.根据权利要求2所述的计算系统，其中，所述指令在由所述处理器执行时还将所述计算系统配置为：根据所述文本来生成所述定制唤醒短语的音素表示；在所述数据库内搜索与所述音素表示共享语音特征的发音上相似的唤醒短语，并且从所述数据库中取回与所述发音上相似的唤醒短语相对应的存储的正音频样本；以及，在所述模型的训练中利用该存储的正音频样本。
7.根据权利要求1所述的计算系统，其中，所述指令在由所述处理器执行时还将所述计算系统配置为：在存储在所述计算系统上的数据库中的音频样本的语料库内搜索具有所述定制唤醒短语的替代发音但为所述定制唤醒短语的准确表示的存储的正音频样本；以及，将所述存储的正音频样本包括在所述模型的训练中。8.根据权利要求1所述的计算系统，其中，所述正音频样本包括以下各项中的一项：经由所述计算系统的开发者界面直接提供的口述输入；以及提供给所述开发者界面的音频文件。9.根据权利要求1所述的计算系统，其中，用于所述定制唤醒短语音频的模型包括神经网络，所述神经网络用于接收所述正音频样本的输入音频特征并且输出针对所述输入音频特征的一个或多个子短语单元，并且所述模型还包括子短语单元序列检测器，所述子短语单元序列检测器用于在所输出的一个或多个子短语单元内检测所述定制唤醒短语。10.根据权利要求1所述的计算系统，其中，所述定制唤醒短语音频包括第一唤醒短语音频和第二唤醒短语音频，所述模型包括神经网络，所述神经网络用于接收所述第一唤醒短语音频和所述第二唤醒短语音频两者的所述正音频样本的输入音频特征并且输出针对所述输入音频特征的一个或多个子短语单元，并且所述模型还包括第一子短语单元序列检测器和第二子短语单元序列检测器，所述第一子短语单元序列检测器和所述第二子短语单元序列检测器中的每一个分别用于检测所述第一唤醒短语音频和所述第二唤醒短语音频中的任一个在所输出的一个或多个子短语单元内的存在。11.根据权利要求1所述的计算系统，其中，所述定制唤醒短语音频包括多个唤醒短语音频，所述模型包括递归神经网络，所述递归神经网络用于接收所述多个唤醒短语音频中的每一个唤醒短语音频的所述正音频样本的输入音频特征并且输出一个或多个隐藏音频特征，所述模型被配置为检测所述多个唤醒短语音频中的任何唤醒短语音频的存在。12.一种用于训练定制短语发现器可执行程序的计算机实现的方法，所述方法包括：接收针对训练定制短语发现器可执行程序的请求；接收与定制唤醒短语的口述音频相对应的一个或多个正音频样本；使用所述正音频样本来训练用于所述定制唤醒短语的模型；以及编译包括所述模型的所述定制短语发现器可执行程序，使得当为虚拟助手部署所述模型时，所述定制短语发现器可执行程序识别所述定制唤醒短语。13.根据权利要求12所述的方法，还包括：接收与所述定制唤醒短语相对应的文本；在音频样本的语料库内搜索与所述文本相对应的一个或多个存储的正音频样本；以及将所述存储的正音频样本包括在所述模型的训练中。14.根据权利要求12所述的方法，还包括：接收与所述定制唤醒短语相对应的文本；将文本到语音(tts)应用于所述文本以生成所述定制唤醒短语的合成的正音频样本；以及将所述合成的正音频样本包括在所述模型的训练中。15.根据权利要求12所述的方法，还包括：
接收一个或多个负音频样本，所述一个或多个负音频样本与所述正音频样本具有可听相似性但不是所述定制唤醒短语；以及将所述负音频样本包括在所述模型的训练中。16.根据权利要求12所述的方法，还包括：在音频样本的语料库内搜索一个或多个存储的负音频样本，所述存储的负音频样本与所述正音频样本具有可听相似性但不是所述定制唤醒短语；以及将所述存储的负音频样本包括在所述模型的训练中。17.根据权利要求12所述的方法，还包括：在音频样本的语料库内搜索一个或多个存储的正音频样本，所述存储的正音频样本在声学上类似于接收到的一个或多个正音频样本；以及将所述存储的正音频样本包括在所述模型的训练中。18.根据权利要求12所述的方法，其中，用于所述定制唤醒短语的模型包括：神经网络，所述神经网络用于接收所述正音频样本的输入音频特征，并且输出针对所述输入音频特征的一个或多个子短语单元；以及子短语单元序列检测器，所述子短语单元序列检测器在所输出的一个或多个子短语单元内检测所述定制唤醒短语。19.根据权利要求12所述的方法，其中，所述正音频样本包括第一唤醒短语音频的音频样本和第二唤醒短语音频的音频样本，所述模型包括：神经网络，所述神经网络用于接收所述第一唤醒短语音频和所述第二唤醒短语音频两者的所述正音频样本的输入音频特征并且输出针对所述输入音频特征的一个或多个子短语单元；以及第一子短语单元序列检测器和第二子短语单元序列检测器，所述第一子短语单元序列检测器和所述第二子短语单元序列检测器中的每一个分别用于检测所述第一唤醒短语音频和所述第二唤醒短语音频中的任一个在所输出的一个或多个子短语单元内的存在。20.根据权利要求12所述的方法，其中，所述正音频样本包括多个唤醒短语音频的音频样本，所述模型包括递归神经网络，所述递归神经网络用于接收所述多个唤醒短语音频中的每一个唤醒短语音频的所述正音频样本的输入音频特征并且输出一个或多个隐藏音频特征，所述模型被配置为检测所述多个唤醒短语音频中的任何唤醒短语音频的存在。21.一种非暂时性计算机可读介质，其存储用于训练针对虚拟助手的定制短语发现器可执行程序的软件开发工具包(sdk)的代码，所述代码能够由处理器执行，并且所述代码在由处理器执行时，使得sdk：接收针对训练定制短语发现器可执行程序的请求；接收与定制唤醒短语的口述音频相对应的一个或多个正音频样本；使用所述正音频样本来训练用于所述定制短语发现器可执行程序的模型；以及编译包括所述模型的所述定制短语发现器可执行程序，使得当所述模型被部署在所述虚拟助手上时，所述定制短语发现器可执行程序识别所述定制唤醒短语。22.一种用于训练针对虚拟助手的定制短语发现器可执行程序的计算系统，所述计算系统包括处理器和与所述处理器通信的存储器，所述存储器存储指令，所述指令在由所述处理器执行时，将所述计算系统配置为：
接收针对训练定制短语发现器可执行程序的请求和特定虚拟助手的标识；响应于接收到所述请求，接收与所述定制唤醒短语相对应的文本；在存储在所述计算系统的数据库上的音频样本的语料库内搜索与所述文本相对应的一个或多个存储的正音频样本；以及使用所述正音频样本来训练用于定制唤醒短语音频的模型；以及编译包括所述模型的所述定制短语发现器可执行程序，使得当所述模型被部署在由所述标识所标识的所述特定虚拟助手上时，所述定制短语发现器可执行程序识别所述定制唤醒短语。23.根据权利要求22所述的计算系统，其中，所述指令在由所述处理器执行时还将所述计算系统配置为：将文本到语音(tts)应用于所述文本以生成所述定制唤醒短语的合成的正音频样本；以及将所述合成的正音频样本包括在所述模型的训练中。24.根据权利要求22所述的计算系统，其中，所述指令在由所述处理器执行时还将所述计算系统配置为：在存储在所述计算设备的数据库上的音频样本的语料库内搜索一个或多个负音频样本，所述负音频样本与所述正音频样本具有可听相似性但不是所述定制唤醒短语；以及将所述负音频样本包括在所述模型的训练中。25.根据权利要求22所述的计算系统，其中，所述指令在由所述处理器执行时还将所述计算系统配置为：从开发者接收指示修改所述模型的修改请求的输入；响应于所述修改请求，在存储在所述计算设备的数据库上的音频样本的语料库内搜索与附加定制唤醒短语相对应的一个或多个附加存储的正音频样本；以及将所述附加存储的正音频样本包括在所述模型的训练中。26.根据权利要求22所述的计算系统，其中，所述指令在由所述处理器执行时还将所述计算系统配置为：在所述模型的部署之后，从开发者接收反馈，所述反馈指示用于所述短语发现器可执行程序的模型将不正确的音频样本识别为所述定制唤醒短语；以及通过将所述不正确的音频样本包括为负样本来动态地重新训练所述模型以生成更新的模型。27.根据权利要求22所述的计算系统，其中，所述用于定制唤醒短语音频的模型包括神经网络，所述神经网络用于接收所述正音频样本的输入音频特征并且输出针对所述输入音频特征的一个或多个子短语单元，所述模型还包括：子短语单元序列检测器，用于在所输出的一个或多个子短语单元内检测所述定制唤醒短语。28.根据权利要求22所述的计算系统，其中，所述定制唤醒短语音频包括多个唤醒短语音频，所述模型包括递归神经网络，所述递归神经网络用于接收所述多个唤醒短语音频中的每一个唤醒短语音频的所述正音频样本的输入音频特征并且输出一个或多个隐藏音频特征，所述模型被配置为检测所述多个唤醒短语音频中的任何唤醒短语音频的存在。

完整全部详细技术资料下载

当前第2页1 2 3