话语分类器的制作方法

文档序号：20274845发布日期：2020-04-03 19:30阅读：来源：国知局

技术特征：

1.一种计算机实现的方法，包括：

接收与话语相对应的音频数据；

获得话语的转录；

生成所述音频数据的表示；

生成所述话语的转录的表示；

向分类器提供(i)所述音频数据的表示和(ii)所述话语的转录的表示，所述分类器基于音频数据的给定表示和话语的转录的给定表示，被训练以输出关于与给定表示相关联的话语可能指向自动辅助还是可能不指向自动辅助的指示；

从所述分类器接收关于与所接收的音频数据相对应的话语可能指向自动辅助还是可能不指向自动辅助的指示；以及

至少基于关于与所接收的音频数据相对应的话语可能指向自动辅助还是可能不指向自动辅助的指示来选择性地指示自动辅助。

2.根据权利要求1所述的计算机实现的方法，其中，向所述分类器提供(i)所述音频数据的表示和(ii)所述话语的转录的表示，还包括：

生成(i)所述音频数据的表示与(ii)所述话语的表示之间的连接的输入表示；以及

将所述连接的输入表示提供给所述分类器。

3.根据权利要求2所述的计算机实现的方法，其中，生成(i)所述音频数据的表示与(ii)所述话语的转录的表示之间的连接的所述输入表示，还包括：

生成一个或多个数字向量，所述数字向量从在所述话语的转录的表示中识别出的一个或多个词转换而来；以及

生成包含所述一个或多个数字向量的数字向量矩阵，以提供给所述分类器。

4.根据前述权利要求中的任一项所述的计算机实现的方法，还包括：

在词嵌入模型处从语音识别器接收与所述话语相对应的可识别文本；

在所述词嵌入模型处从所述可识别的文本中生成所述话语的转录；以及

从所述词嵌入模型提供所述话语的转录到所述分类器。

5.根据权利要求4所述的计算机实现的方法，还包括：

由所述词嵌入模型的最大池化层提供包含嵌入单元的所述话语的转录；

由声学神经网络提供包含音频单元的所述音频数据的表示；

将所述嵌入单元和所述音频单元连接到表示单元输入；以及

提供所述表示单元输入作为对所述分类器的输入。

6.根据前述权利要求中的任一项所述的计算机实现的方法，其中，所述音频数据的表示包含声学梅尔频率倒谱系数mfcc值。

7.根据前述权利要求中的任一项所述的计算机实现的方法，其中，选择性地指示所述自动辅助，还包括：

当所述分类器提供关于与所接收的音频数据相对应的话语可能指向自动辅助的指示时，选择性地指示自动辅助处理话语；以及

当所述分类器提供关于与所接收的音频数据相对应的话语可能不指向自动辅助的指示时，选择性地指示自动辅助不处理话语。

8.根据权利要求7所述的计算机实现的方法，其中，当所述分类器提供关于与所接收的音频数据相对应的话语可能指向自动辅助的指示时，选择性地指示自动辅助处理话语，还包括：

从接收到可能指向自动辅助的音频数据开始，在预定的时间段内接收与附加话语相对应的附加音频数据。

9.根据前述权利要求中的任一项所述的计算机实现的方法，其中，所述分类器在通过网络与所述自动辅助进行通信的服务器上实现。

10.一种系统，包括：

一个或多个计算机和存储指令的一个或多个存储设备，当所述指令由所述一个或多个计算机运行时，所述指令可操作使得所述一个或多个计算机执行包括以下的操作：

接收与话语相对应的音频数据；

获得所述话语的转录；

生成所述音频数据的表示；

生成所述话语的转录的表示；

向分类器提供(i)所述音频数据的表示和(ii)所述话语的转录的表示，所述分类器基于所述音频数据的给定表示和话语的转录的给定表示，被训练以输出关于与给定表示相关联的话语可能指向自动辅助还是可能不指向自动辅助的指示；

从所述分类器接收关于与所接收的音频数据相对应的话语可能指向自动辅助还是可能不指向自动辅助的指示；以及

至少基于关于与所接收的音频数据相对应的话语可能指向自动辅助还是可能不指向自动辅助的指示来选择性地指示自动辅助。

11.根据权利要求10所述的系统，其中，向所述分类器提供(i)所述音频数据的表示和(ii)所述话语的转录的表示，还包括：

生成(i)所述音频数据的表示与(ii)所述话语的表示之间的连接的输入表示；以及

将所述连接的输入表示提供给所述分类器。

12.根据权利要求11所述的系统，其中，生成(i)所述音频数据的表示与(ii)所述话语的转录的表示之间的连接的所述输入表示，还包括：

生成一个或多个数字向量，所述数字向量从在所述话语的转录的表示中识别出的一个或多个词转换而来；以及

生成包含所述一个或多个数字向量的数字向量矩阵，以提供给所述分类器。

13.根据权利要求10至12中的任一项所述的系统，还包括：

在词嵌入模型处从语音识别器接收与所述话语相对应的可识别文本；

在所述词嵌入模型处从所述可识别的文本中生成所述话语的转录；以及

从所述词嵌入模型提供所述话语的转录到所述分类器。

14.根据权利要求13所述的系统，还包括：

由所述词嵌入模型的最大池化层提供包含嵌入单元的所述话语的转录；

由声学神经网络提供包含音频单元的所述音频数据的表示；

将所述嵌入单元和所述音频单元连接到表示单元输入；以及

提供所述表示单元输入作为对所述分类器的输入。

15.根据权利要求10至14中的任一项所述的系统，其中，所述音频数据的表示包含声学梅尔频率倒谱系数mfcc值。

16.根据权利要求10至15中的任一项所述的系统，其中，选择性地指示所述自动辅助，还包括：

当所述分类器提供关于与所接收的音频数据相对应的话语可能指向自动辅助的指示时，选择性地指示自动辅助处理话语；以及

当所述分类器提供关于与所接收的音频数据相对应的话语可能不指向自动辅助的指示时，选择性地指示自动辅助不处理话语。

17.根据权利要求16所述的系统，其中，当所述分类器提供关于与所接收的音频数据相对应的话语可能指向自动辅助的指示时，选择性地指示自动辅助处理话语，还包括：

从接收到可能指向自动辅助的音频数据开始，在预定的时间段内接收与附加话语相对应的附加音频数据。

18.根据权利要求10所述的系统，其中，所述分类器在通过网络与所述自动辅助进行通信的服务器上实现。

19.一种存储软件的非暂时性计算机可读介质，所述软件包括可由一个或多个计算机运行的指令，所述指令在被运行时使得所述一个或多个计算机执行权利要求1至9中的任一项所述的方法。

完整全部详细技术资料下载

当前第2页1 2 3