1.一种方法,包括:
生成多个合成训练数据项,其中,所述多个合成训练数据项的合成训练数据项包括:a)合成语句的文本表示,以及b)所述合成语句的一个或多个转码,所述一个或多个转码包括包含于所述合成语句中的一个或多个实体和一个或多个动作,其中所述一个或多个实体与所述一个或多个动作相关联;
对于所述多个合成训练数据项的每个合成训练数据项,将所述合成训练数据项的合成语句的文本表示转换成表示所述合成语句的音素序列;以及
将第一机器学习模型训练为转码器,所述转码器根据所述音素序列确定包括动作和关联的实体的转码,其中,使用第一训练数据集来执行所述训练,所述第一训练数据集包括包含有如下项的多个合成训练数据项:a)表示合成语句的音素序列,以及b)所述合成语句的转码。
2.根据权利要求1所述的方法,还包括:
接收包括多个数据项的第二训练数据集,其中,所述多个数据项的每个数据项包括从话语的音频数据得出的声学特征和所述话语的文本表示;
对于所述多个数据项的每个数据项,将所述话语的文本表示转换成表示所述话语的音素序列;以及
将第二机器学习模型训练为声学模型,所述声学模型根据从话语的音频数据得出的声学特征来生成音素序列,其中,使用修改后的第二训练数据集执行所述训练,所述修改后的第二训练数据集包括多个修改后的数据项,所述多个修改后的数据项包括:a)话语的音频数据的声学特征,以及b)表示所述话语的音素序列。
3.根据权利要求2所述的方法,还包括:
在被训练为声学模型的所述第二机器学习模型处接收新话语的新声学特征;
使用所述第二机器学习模型处理所述新话语的声学特征,以产生表示所述新话语的新的音素序列;
使用被训练为转码器的所述第一机器学习模型来处理所述新的音素序列,以确定一个或多个新转码,所述一个或多个新转码包括一个或多个新动作和一个或多个新的关联的实体;
由业务逻辑处理包括所述一个或多个新动作和所述一个或多个新的关联的实体的所述一个或多个新转码,以确定要执行的一个或多个操作以满足所述一个或多个动作;以及
执行所述一个或多个操作。
4.根据权利要求3所述的方法,其中,由所述第二机器学习模型产生的所述新的音素序列包括后验概率图,所述后验概率图包括向量序列,其中,所述向量序列中的每个向量是包括多个值的稀疏向量,其中,所述多个值中的每个值表示特定音素的概率。
5.根据权利要求2所述的方法,还包括:
对于所述多个数据项的一个或多个数据项,通过将背景混响、背景噪声或背景音乐中的至少一个添加到所述音频数据来使所述音频数据失真,其中,所述修改后的第二训练数据集包括具有未失真的音频数据的第一组数据项和具有失真的音频数据的第二组数据项。
6.根据权利要求1所述的方法,还包括:
对于所述多个训练数据项的一个或多个训练数据项,执行以下中的至少一个:a)在将所述一个或多个训练数据项的合成语句的文本表示转换成所述音素序列之前,使所述文本表示失真,或者b)在将所述文本表示转换成所述音素序列之后,使所述音素序列失真。
7.根据权利要求6所述的方法,其中,使所述音素序列失真包括执行以下中的至少一个:a)替换所述音素序列中的一个或多个音素,b)移除所述音素序列中的一个或多个音素,或者c)将一个或多个音素插入到所述音素序列中。
8.根据权利要求1所述的方法,其中,生成合成训练数据项包括:
生成表示约束域内的意图的意图对象;
使用一个或多个重写规则以上下文无关语法扩展类别;
在执行所述扩展的同时标识约束类别;以及
确定如何根据所述意图对象扩展所述约束类别,其中,所述约束类别被扩展到特定实体。
9.根据权利要求8所述的方法,还包括:
通过从所述意图对象删除所述特定实体来修改所述意图对象。
10.根据权利要求1所述的方法,其中,生成合成训练数据项包括:
生成表示约束域内的意图的意图对象;
使用一个或多个重写规则以上下文无关语法扩展类别;
在执行所述扩展的同时标识叶子;以及
基于所述意图对象确定如何将所述叶子转换为文本或一个或多个转码中的至少一个。
11.一种系统,包括:
一个或多个存储器,用于存储指令;以及
一个或多个处理装置,连接到所述存储器,所述一个或多个处理装置用于执行指令以:
生成多个合成训练数据项,其中,所述多个合成训练数据项的合成训练数据项包括:a)合成语句的文本表示,以及b)所述合成语句的一个或多个转码,所述一个或多个转码包括包含于所述合成语句中的一个或多个实体和一个或多个动作,其中所述一个或多个实体与所述一个或多个动作相关联;
对于所述多个合成训练数据项的每个合成训练数据项,将所述合成训练数据项的合成语句的文本表示转换成表示所述合成语句的音素序列;以及
将第一机器学习模型训练为转码器,所述转码器根据所述音素序列确定包括动作和关联的实体的转码,其中,使用第一训练数据集来执行所述训练,所述第一训练数据集包括包含有如下项的多个合成训练数据项:a)表示合成语句的音素序列,以及b)所述合成语句的转码。
12.根据权利要求11所述的系统,其中,所述一个或多个处理装置还用于:
接收包括多个数据项的第二训练数据集,其中,所述多个数据项的每个数据项包括话语的音频数据和所述话语的文本表示;
对于所述多个数据项的每个数据项,将所述话语的文本表示转换成表示所述话语的音素序列;以及
将第二机器学习模型训练为声学模型,所述声学模型根据话语的音频数据生成音素序列,其中,使用修改后的第二训练数据集执行所述训练,所述修改后的第二训练数据集包括多个修改后的数据项,所述多个修改后的数据项包括:a)话语的音频数据的声学特征,以及b)表示所述话语的音素序列。
13.根据权利要求12所述的系统,其中,所述一个或多个处理装置还用于:
对于所述多个数据项的一个或多个数据项,通过将背景混响、背景噪声或背景音乐中的至少一个添加到所述音频数据来使所述音频数据失真,其中,所述修改后的第二训练数据集包括具有未失真的音频数据的第一组数据项和具有失真的音频数据的第二组数据项。
14.根据权利要求12所述的系统,其中,所述一个或多个处理装置还用于:
对于所述多个训练数据项的一个或多个训练数据项,执行以下中的至少一个:a)在将所述一个或多个训练数据项的合成语句的文本表示转换成所述音素序列之前,使所述文本表示失真,或者b)在将所述文本表示转换成所述音素序列之后,使所述音素序列失真。
15.根据权利要求11所述的系统,其中,生成合成训练数据项包括:
生成表示约束域内的意图的意图对象;
使用一个或多个重写规则以上下文无关语法扩展类别;
使用上下文无关语法初始化所述合成语句的表示,其中,初始表示包括一个或多个变量;
在执行所述扩展的同时标识约束类别;以及
确定如何根据所述意图对象扩展所述约束类别,其中,所述约束类别被扩展到特定实体。
16.根据权利要求15所述的系统,其中,所述一个或多个处理装置还用于:
通过从所述意图对象删除所述特定实体来修改所述意图对象。
17.根据权利要求11所述的系统,其中,生成合成训练数据项包括:
生成表示约束域内的意图的意图对象;
使用一个或多个重写规则以上下文无关语法扩展类别;
在执行所述扩展的同时标识叶子;以及
基于所述意图对象确定如何将所述叶子转换为文本或一个或多个转码中的至少一个。
18.一种方法:包括:
在第一机器学习模型处接收话语的声学特征,所述第一机器学习模型基于第一训练数据集被训练为声学模型,所述第一训练数据集包括多个数据项,每个数据项包括:a)话语的音频数据的声学特征,以及b)表示所述话语的音素序列;
由所述第一机器学习模型输出表示所述话语的第一音素序列;
使用第二机器学习模型处理所述第一音素序列,所述第二机器学习模型基于第二训练数据集被训练为转码器,所述第二训练数据集包括多个合成训练数据项,所述多个合成训练数据项包括:a)表示合成语句的音素序列,以及b)所述合成语句的转码;
由所述第二机器学习模型输出包括一个或多个动作和一个或多个关联的实体的一个或多个转码;
由业务逻辑处理包括所述一个或多个动作和所述一个或多个关联的实体的所述一个或多个转码,以确定要执行的一个或多个操作以满足所述一个或多个动作;以及
执行所述一个或多个操作。
19.根据权利要求18所述的方法,还包括:
生成所述第二训练数据集,所述生成包括:
生成多个合成训练数据项,其中,所述多个合成训练数据项的合成训练数据项包括:a)合成语句的文本表示,以及b)所述合成语句中的一个或多个转码,所述一个或多个转码包括包含于所述合成语句中的一个或多个实体和一个或多个动作,其中所述一个或多个实体与所述一个或多个动作相关联;
对于所述多个合成训练数据项的每个合成训练数据项,将所述合成语句的文本表示转换成表示所述合成语句的音素序列;以及
使用所述第二训练数据集将所述第二机器学习模型训练为所述转码器。
20.根据权利要求18所述的方法,还包括:
生成所述第一训练数据集,所述生成包括:
接收包括多个数据项的初始第二训练数据集,其中,所述多个数据项的每个数据项包括话语的音频数据和所述话语的文本表示;以及
对于所述多个数据项的每个数据项,将所述话语的文本表示转换成表示所述话语的音素序列;以及
使用所述第一训练数据集将所述第一机器学习模型训练为所述声学模型。