本公开涉及信息处理装置、程序以及信息处理方法。
背景技术:
1、一直以来,进行识别语音的语音识别处理。通常,语音识别处理受到目标语音以外的噪声的影响,因此,当包含噪声时,语音识别的精度大幅下降。于是,需要从混合了噪声的语音中提取目标语音。
2、例如,非专利文献1提出了使用神经网络(nn)来学习混合语音与目标语音的配对数据并从混合语音中提取目标语音的方法。
3、现有技术文献
4、非专利文献
5、非专利文献1:felix weniger,外1名,“discriminatively trained recurrentneural networks for single-channel speech separation”,ieee global conferenceon signal and information processing (globalsip),february 2015
技术实现思路
1、发明要解决的问题
2、但是,在以往的对语音和非语音混合后的声音进行学习的方法中存在如下问题:对于未学习的非语音,语音强调性能下降。
3、于是,本公开的一个或多个方案的目的在于,即便是不包含在学习数据中的未知的噪声,也能够实施语音强调。
4、用于解决问题的手段
5、本公开的一方案的信息处理装置的特征在于,具备:声响成分计算部,其使用预先决定的函数,根据混合语音数据来计算声响成分,该混合语音数据包含成为强调对象的目标语音以及与所述目标语音混合的噪声即混合噪声,该声响成分是所述目标语音和所述混合噪声的成分;声响特征量估计部,其通过将所述声响成分输入到为了估计语音和噪声的声响特征量而学习后的特征估计模型,来估计声响特征量;噪声成分计算部,其使用所述预先决定的函数,根据不包含所述目标语音而包含噪声的噪声数据来计算噪声的成分即噪声成分;噪声特征量估计部,其通过将所述噪声成分输入到为了估计噪声的声响特征量而学习后的噪声估计模型,来估计噪声特征量;相关性估计部,其通过将所述声响特征量和所述噪声特征量输入到为了估计语音及噪声的声响特征量与噪声的声响特征量的相关性而学习后的相关性估计模型,来估计所述声响特征量与所述噪声特征量的相关性;特征量综合部,其利用估计出的所述相关性对所述声响特征量进行加权,从而计算综合特征量;掩蔽估计部,其通过将所述综合特征量输入到为了估计用于强调语音的掩蔽而学习后的语音强调模型,来估计目标语音掩蔽;以及语音恢复部,其根据所述声响成分和所述目标语音掩蔽,来恢复强调了所述目标语音的语音。
6、本公开的一方案的程序的特征在于,使计算机作为以下各部发挥功能:声响成分计算部,其使用预先决定的函数,根据混合语音数据来计算声响成分,该混合语音数据包含成为强调对象的目标语音以及与所述目标语音混合的噪声即混合噪声,该声响成分是所述目标语音和所述混合噪声的成分;声响特征量估计部,其通过将所述声响成分输入到为了估计语音和噪声的声响特征量而学习后的特征估计模型,来估计声响特征量;噪声成分计算部,其使用所述预先决定的函数,根据不包含所述目标语音而包含噪声的噪声数据来计算噪声的成分即噪声成分;噪声特征量估计部,其通过将所述噪声成分输入到为了估计噪声的声响特征量而学习后的噪声估计模型,来估计噪声特征量;相关性估计部,其通过将所述声响特征量和所述噪声特征量输入到为了估计语音及噪声的声响特征量与噪声的声响特征量的相关性而学习后的相关性估计模型,来估计所述声响特征量与所述噪声特征量的相关性;特征量综合部,其利用估计出的所述相关性对所述声响特征量进行加权,从而计算综合特征量;掩蔽估计部,其通过将所述综合特征量输入到为了估计用于强调语音的掩蔽而学习后的语音强调模型,来估计目标语音掩蔽;以及语音恢复部,其根据所述声响成分和所述目标语音掩蔽,来恢复强调了所述目标语音的语音。
7、本公开的一方案的信息处理方法的特征在于,使用预先决定的函数,根据混合语音数据来计算声响成分,该混合语音数据包含成为强调对象的目标语音以及与所述目标语音混合的噪声即混合噪声,该声响成分是所述目标语音和所述混合噪声的成分,通过将所述声响成分输入到为了估计语音和噪声的声响特征量而学习后的特征估计模型,来估计声响特征量,使用所述预先决定的函数,根据不包含所述目标语音而包含噪声的噪声数据,来计算噪声的成分即噪声成分,通过将所述噪声成分输入到为了估计噪声的声响特征量而学习后的噪声估计模型,来估计噪声特征量,通过将所述声响特征量和所述噪声特征量输入到为了估计语音及噪声的声响特征量与噪声的声响特征量的相关性而学习后的相关性估计模型,来估计所述声响特征量与所述噪声特征量的相关性,利用估计出的所述相关性对所述声响特征量进行加权,从而计算综合特征量,通过将所述综合特征量输入到为了估计用于强调语音的掩蔽而学习后的语音强调模型,来估计目标语音掩蔽,根据所述声响成分和所述目标语音掩蔽,来恢复强调了所述目标语音的语音。
8、发明的效果
9、根据本公开的一个或多个方案,即便是未包含在学习数据中的未知的噪声,也能够实施语音强调。
1.一种信息处理装置,其特征在于,
2.根据权利要求1所述的信息处理装置,其特征在于,
3.根据权利要求1所述的信息处理装置,其特征在于,
4.根据权利要求1至3中的任意一项所述的信息处理装置,其特征在于,
5.根据权利要求4所述的信息处理装置,其特征在于,
6.根据权利要求5所述的信息处理装置,其特征在于,
7.根据权利要求5所述的信息处理装置,其特征在于,
8.一种程序,其特征在于,
9.一种信息处理方法,其特征在于,