1.一种用于关键短语分割的方法,该方法包括:
由神经网络基于特征向量的累加生成一组声学评分,所述特征向量是从音频信号的时间分段提取的,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;
由关键短语模型解码器生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;
由关键短语分割电路分析评分状态序列的所述进展,以检测与所述进展相关联的模式;以及
由所述关键短语分割电路基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。
2.如权利要求1所述的方法,还包括:基于所述声学评分组中的声学评分的累加和传播,检测所述关键短语。
3.如权利要求2所述的方法,其中,所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。
4.如权利要求1-3中任一项所述的方法,其中,所述神经网络是深度神经网络,并且所述关键短语模型解码器是隐马尔可夫模型解码器。
5.如权利要求1-3中任一项所述的方法,其中,所述语音类别是语音单元、子语音单元、三音素状态、以及单因素状态中的至少一者。
6.如权利要求1-3中任一项所述的方法,还包括:将所述起始点和所述结束点提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者。
7.如权利要求1-3中任一项所述的方法,其中,所述神经网络、关键短语模型解码器、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。
8.一种关键短语分割系统,该系统包括:
特征提取电路,所述特征提取电路从音频信号的时间分段提取特征向量;
累加电路,所述累加电路对所提取的特征向量中的选定数目的特征向量进行累加;
声学模型评分神经网络,所述声学模型评分神经网络基于所累加的特征向量生成一组声学评分,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;
关键短语模型评分电路,所述关键短语模型评分电路生成评分模型状态序列的进展,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;以及
关键短语分割电路,所述关键短语分割电路分析评分状态序列的所述进展以检测与所述进展相关联的模式,并基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点。
9.如权利要求8所述的系统,其中,所述关键短语模型评分电路还基于所述声学评分组中的声学评分的累加和传播检测所述关键短语。
10.如权利要求9所述的系统,其中,所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。
11.如权利要求10所述的系统,其中,所述声学模型评分神经网络是深度神经网络,并且所述关键短语模型评分电路实现隐马尔可夫模型解码器。
12.如权利要求8-11中任一项所述的系统,其中,所述语音类别是语音单元、子语音单元、三音素状态、和单音素状态中的至少一者。
13.如权利要求8-11中任一项所述的状态,其中,所述特征提取电路、累加电路、声学模型评分神经网络、关键短语模型评分电路、以及关键短语分割电路中的每一者是利用一个或多个处理器执行的指令实现的。
14.至少一种非暂态计算机可读存储介质,其上编码有指令,所述指令在被一个或多个处理器执行时使得用于关键短语分割的处理被执行,所述处理包括:
对从音频信号的时间分段提取的特征向量进行累加;
基于所累加的特征向量生成一组声学评分,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;
生成评分模型状态序列的进展,每个评分模型状态语音单元基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;
分析评分状态序列的所述进展,以检测与所述进展相关联的模式;以及
基于检测模式与期望模式的对齐,确定用于关键短语的分割的起始点和结束点。
15.如权利要求14所述的计算机可读存储介质,所述处理还包括:基于所述声学评分组中的声学评分的累加和传播,检测所述关键短语。
16.如权利要求15所述的计算机可读存储介质,其中,所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。
17.如权利要求14-16中任一项所述的计算机可读存储介质,其中,所述一组声学评分由深度神经网络生成,并且评分模型状态序列的所述进展是使用隐马尔可夫模型解码器生成的。
18.如权利要求14-16中任一项所述的计算机可读存储介质,其中,所述语音类别是语音单元、子语音单元、三音素状态、和单因素状态中的至少一者。
19.如权利要求14-16中任一项所述的计算机可读存储介质,所述处理还包括:将所述起始点和所述结束点提供给声学波束形成系统、自动语音辨认系统、说话人识别系统、文本相关说话人识别系统、情绪辨认系统、性别检测系统、年龄检测系统、以及噪声估计系统中的至少一者。
20.如权利要求19所述的计算机可读存储介质,所述处理还包括:缓存所述音频信号并将所缓存的音频信号提供给所述声学波束形成系统、所述声学语音辨认系统、所述说话人识别系统、所述文本相关说话人识别系统、所述情绪辨认系统、所述性别检测系统、所述年龄检测系统、以及所述噪声估计系统中的至少一者,其中,所缓存的音频信号的持续时间在2至5秒范围内。
21.如权利要求19所述的计算机可读存储介质,所述处理还包括:缓存所述特征向量并将所缓存的特征向量提供给所述声学波束形成系统、所述自动语音辨认系统、所述说话人识别系统、所述文本相关说话人识别系统、所述情绪辨认系统、所述性别检测系统、所述年龄检测系统、以及所述噪声估计系统中的至少一者,其中,所缓存的特征向量对应于所述音频信号的2至5秒范围内的持续时间。
22.一种用于关键短语分割的装置,该装置包括:
用于基于特征向量的累加生成一组声学评分的装置,所述特征向量是从音频信号的时间分段提取的,所述一组声学评分中的每个声学评分代表与所述时间分段相关联的语音类别的可能性;
用于生成评分模型状态序列的进展的装置,所述评分模型状态序列中的每个评分模型状态序列基于与从所述音频信号的所述时间分段生成的声学评分组中的相应的一组声学评分相关联的语音单元的检测;
用于分析评分状态序列的所述进展,以检测与所述进展相关联的模式的装置;以及
用于基于检测模式与期望模式的对齐确定用于关键短语的分割的起始点和结束点的装置。
23.如权利要求22所述的装置,还包括:用于基于所述声学评分组中的声学评分的累加和传播,检测所述关键短语的装置。
24.如权利要求23所述的装置,其中,所述起始点的确定进一步基于与所述关键短语的检测相关联的所述时间分段之一。
25.如权利要求22-24中任一项所述的装置,其中,用于生成所述一组声学评分的装置包括深度神经网络,并且用于生成评分模型状态序列的所述进展的装置包括隐马尔可夫模型解码器。