1.一种基于语音的角色分离方法,其特征在于,包括:
从语音信号中逐帧提取特征矢量,得到特征矢量序列;
为特征矢量分配角色标签;
利用具有角色标签的特征矢量训练深度神经网络DNN模型;
根据所述DNN模型和利用特征矢量训练得到的隐马尔科夫模型HMM,判定特征矢量序列对应的角色序列,并输出角色分离结果;
其中,所述DNN模型用于根据输入的特征矢量输出对应每个角色的概率,HMM用于描述角色间的跳转关系。
2.根据权利要求1所述的基于语音的角色分离方法,其特征在于,在所述从语音信号中逐帧提取特征矢量的步骤之后、在所述为特征矢量分配角色标签的步骤之前,执行下述操作:通过识别并剔除不包含语音内容的音频帧、将所述语音信号切分为语音段;
所述为特征矢量分配角色标签包括:为各语音段中的特征矢量分配角色标签;所述判定特征矢量序列对应的角色序列包括:判定各语音段所包含的特征矢量序列对应的角色序列。
3.根据权利要求2所述的基于语音的角色分离方法,其特征在于,所述为各语音段中的特征矢量分配角色标签包括:通过建立高斯混合模型GMM和HMM,为各语音段中的特征矢量分配角色标签;其中所述GMM用于针对每个角色、根据输入的特征矢量输出该特征矢量对应于所述角色的概率;
所述根据所述DNN模型和利用特征矢量训练得到的HMM,判定各语音段所包含的特征矢量序列对应的角色序列包括:根据所述DNN模型和为各语音段中的特征矢量分配角色标签所采用的HMM,判定所述各语音段所包含的特征矢量序列对应的角色序列。
4.根据权利要求3所述的基于语音的角色分离方法,其特征在于,所述通过建立高斯混合模型GMM和HMM,为各语音段中的特征矢量分配角色标签,包括:
按照预设的初始角色数量选择相应数量的语音段,并为每个语音段分别指定不同角色;
利用指定角色的语音段中的特征矢量,训练针对每个角色的GMM以及 HMM;
根据训练得到的GMM和HMM进行解码,获取输出各语音段所包含的特征矢量序列的概率值排序靠前的角色序列;
判断所述角色序列对应的概率值是否大于预设阈值;若是,按照所述角色序列为各语音段中的特征矢量分配角色标签。
5.根据权利要求4所述的基于语音的角色分离方法,其特征在于,当所述判断所述角色序列对应的概率值是否大于预设阈值的结果为否时,执行下述操作:
根据所述角色序列,为每个语音段指定对应的角色;
根据每个语音段中的特征矢量以及对应的角色,训练针对每个角色的GMM以及HMM;
转到所述根据训练得到的GMM和HMM进行解码的步骤执行。
6.根据权利要求5所述的基于语音的角色分离方法,其特征在于,所述根据所述角色序列,为每个语音段指定对应的角色,包括:
针对每个语音段,将其中各特征矢量对应的角色的众数指定为所述语音段的角色。
7.根据权利要求5所述的基于语音的角色分离方法,其特征在于,所述根据每个语音段中的特征矢量以及对应的角色,训练针对每个角色的GMM以及HMM,包括:在上一次训练得到的模型基础上采用增量方式训练所述GMM以及HMM。
8.根据权利要求5所述的基于语音的角色分离方法,其特征在于,当所述判断所述角色序列对应的概率值是否大于预设阈值的结果为否时,执行下述操作:
判断在当前角色数量下训练GMM和HMM的次数是否小于预设的训练次数上限;
若是,执行所述根据所述角色序列为每个语音段指定对应的角色的步骤;
若否,执行下述操作:
调整角色数量,选择相应数量的语音段并为每个语音段分别指定不同角色;
并转到所述利用指定角色的语音段中的特征矢量,训练针对每个角色的 GMM以及HMM的步骤执行。
9.根据权利要求8所述的基于语音的角色分离方法,其特征在于,当所述判断在当前角色数量下训练GMM和HMM的次数是否小于预设的训练次数上限的结果为否时,执行下述操作:
判断当前角色数量是否符合预设要求;若是,转到所述按照所述角色序列为各语音段中的特征矢量分配角色标签的步骤执行,若否,则执行所述调整角色数量的步骤。
10.根据权利要求8所述的基于语音的角色分离方法,其特征在于,所述预设的初始角色数量为2,所述调整角色数量包括:为当前角色数量加1。
11.根据权利要求1所述的基于语音的角色分离方法,其特征在于,所述从语音信号中逐帧提取特征矢量,得到特征矢量序列包括:
按照预先设定的帧长度对语音信号进行分帧处理,得到多个音频帧;
提取各音频帧的特征矢量,得到所述特征矢量序列。
12.根据权利要求11所述的基于语音的角色分离方法,其特征在于,所述提取各音频帧的特征矢量包括:提取MFCC特征、PLP特征、或者LPC特征。
13.根据权利要求2所述的基于语音的角色分离方法,其特征在于,所述识别并剔除不包含语音内容的音频帧包括:采用VAD技术识别所述不包含语音内容的音频帧、并执行相应的剔除操作。
14.根据权利要求13所述的基于语音的角色分离方法,其特征在于,在采用VAD技术执行所述识别及剔除操作、并将所述语音信号切分为语音段之后,执行下述VAD平滑操作:
将时长小于预设阈值的语音段与相邻语音段合并。
15.根据权利要求1所述的基于语音的角色分离方法,其特征在于,所述利用具有角色标签的特征矢量训练深度神经网络DNN模型包括:采用反向传播算法训练所述DNN模型。
16.根据权利要求1所述的基于语音的角色分离方法,其特征在于,所述根据所述DNN模型和利用特征矢量训练得到的隐马尔科夫模型HMM,判定特征矢量序列对应的角色序列,包括:根据所述DNN模型和HMM执行解码操作,获取输出所述特征矢量序列的概率值排序靠前的角色序列,并将所述角色序列作为与所述特征矢量序列对应的角色序列。
17.根据权利要求1所述的基于语音的角色分离方法,其特征在于,所述输出角色分离结果包括:根据特征矢量序列对应的角色序列,针对每个角色输出与其对应的特征矢量所属音频帧的起止时间信息。
18.根据权利要求4或8所述的基于语音的角色分离方法,其特征在于,所述选择相应数量的语音段,包括:选择时长满足预设要求的、所述数量的语音段。
19.一种基于语音的角色分离装置,其特征在于,包括:
特征提取单元,用于从语音信号中逐帧提取特征矢量,得到特征矢量序列;
标签分配单元,用于为特征矢量分配角色标签;
DNN模型训练单元,用于利用具有角色标签的特征矢量训练DNN模型,其中所述DNN模型用于根据输入的特征矢量输出对应每个角色的概率;
角色判定单元,用于根据所述DNN模型和利用特征矢量训练得到的HMM,判定特征矢量序列对应的角色序列并输出角色分离结果,其中所述HMM用于描述角色间的跳转关系。
20.根据权利要求19所述的基于语音的角色分离装置,其特征在于,还包括:
语音段切分单元,用于在所述特征提取单元提取特征矢量后、在触发所述标签分配单元工作之前,通过识别并剔除不包含语音内容的音频帧、将所述语音信号切分为语音段;
所述标签分配单元具体用于,为各语音段中的特征矢量分配角色标签;
所述角色判定单元具体用于,根据所述DNN模型和利用特征矢量训练得到的HMM,判定各语音段所包含的特征矢量序列对应的角色序列并输出角色分离结果。
21.根据权利要求20所述的基于语音的角色分离装置,其特征在于,所述标签分配单元具体用于,通过建立GMM和HMM,为各语音段中的特征矢量分配角色标签,其中所述GMM用于针对每个角色、根据输入的特征矢量输出该特征矢量对应于所述角色的概率;
所述角色判定单元具体用于,根据所述DNN模型和为各语音段中的特征矢量分配角色标签所采用的HMM,判定所述各语音段所包含的特征矢量序列对应的角色序列。
22.根据权利要求21所述的基于语音的角色分离装置,其特征在于,所述标签分配单元包括:
初始角色指定子单元,用于按照预设的初始角色数量选择相应数量的语音段,并为每个语音段分别指定不同角色;
初始模型训练子单元,用于利用指定角色的语音段中的特征矢量,训练针对每个角色的GMM以及HMM;
解码子单元,用于根据训练得到的GMM和HMM进行解码,获取输出各语音段所包含的特征矢量序列的概率值排序靠前的角色序列;
概率判断子单元,用于判断所述角色序列对应的概率值是否大于预设阈值;
标签分配子单元,用于当所述概率判断子单元的输出为是时,按照所述角色序列为各语音段中的特征矢量分配角色标签。
23.根据权利要求22所述的基于语音的角色分离装置,其特征在于,所述标签分配单元还包括:
逐语音段角色指定子单元,用于当所述概率判断子单元的输出为否时,根据所述角色序列,为每个语音段指定对应的角色;
模型更新训练子单元,用于根据每个语音段中的特征矢量以及对应的角色,训练针对每个角色的GMM以及HMM,并触发所述解码子单元工作。
24.根据权利要求23所述的基于语音的角色分离装置,其特征在于,所述逐语音段角色指定子单元具体用于,针对每个语音段,将其中各特征矢量对应的角色的众数指定为所述语音段的角色。
25.根据权利要求23所述的基于语音的角色分离装置,其特征在于,所述模型更新训练子单元具体用于,在上一次训练得到的模型基础上采用增量方式训练所述GMM以及HMM。
26.根据权利要求23所述的基于语音的角色分离装置,其特征在于,所述标签分配单元还包括:
训练次数判断子单元,用于当所述概率判断子单元的输出为否时,判断在当前角色数量下训练GMM和HMM的次数是否小于预设的训练次数上限,并在判断结果为是时,触发所述逐语音段角色指定子单元工作。
角色数量调整子单元,用于当所述训练次数判断子单元的输出为否时,调 整角色数量,选择相应数量的语音段并为每个语音段分别指定不同角色,并触发所述初始模型训练子单元工作。
27.根据权利要求26所述的基于语音的角色分离装置,其特征在于,所述标签分配单元还包括:
角色数量判断子单元,用于当所述训练次数判断子单元的输出为否时,判断当前角色数量是否符合预设要求,若符合则触发所述标签分配子单元工作,否则触发所述角色数量调整子单元工作。
28.根据权利要求19所述的基于语音的角色分离装置,其特征在于,所述特征提取单元包括:
分帧子单元,用于按照预先设定的帧长度对语音信号进行分帧处理,得到多个音频帧;
特征提取执行子单元,用于提取各音频帧的特征矢量,得到所述特征矢量序列。
29.根据权利要求28所述的基于语音的角色分离装置,其特征在于,所述特征提取执行子单元具体用于,提取各音频帧的MFCC特征、PLP特征、或者LPC特征,得到所述特征矢量序列。
30.根据权利要求20所述的基于语音的角色分离装置,其特征在于,所述语音段切分单元具体用于,通过采用VAD技术识别并剔除所述不包含语音内容的音频帧、将所述语音信号切分为语音段。
31.根据权利要求30所述的基于语音的角色分离装置,其特征在于,还包括:
VAD平滑单元,用于在所述语音段切分单元采用VAD技术切分语音段后,将时长小于预设阈值的语音段与相邻语音段合并。
32.根据权利要求19所述的基于语音的角色分离装置,其特征在于,所述DNN模型训练单元具体用于,采用反向传播算法训练所述DNN模型。
33.根据权利要求19所述的基于语音的角色分离装置,其特征在于,所述角色判定单元具体用于,根据所述DNN模型和HMM执行解码操作,获取输出所述特征矢量序列的概率值排序靠前的角色序列,并将所述角色序列作为与所述特征矢量序列对应的角色序列。
34.根据权利要求19所述的基于语音的角色分离装置,其特征在于,所述 角色判定单元采用如下方式输出角色分离结果:根据特征矢量序列对应的角色序列,针对每个角色输出与其对应的特征矢量所属音频帧的起止时间信息。
35.根据权利要求22或26所述的基于语音的角色分离装置,其特征在于,所述初始角色指定子单元或所述角色数量调整子单元具体通过如下方式选择相应数量的语音段:选择时长满足预设要求的、所述数量的语音段。