信息处理装置、程序以及信息处理方法与流程

文档序号：40452377发布日期：2024-12-27 09:17阅读：170来源：国知局

技术简介：
本专利针对传统语音增强技术在面对未知噪声时性能下降的问题，提出多模型协同处理方案。通过计算混合语音的声响成分与噪声成分，结合特征估计模型、噪声估计模型及相关性估计模型，动态加权综合特征量，最终实现对目标语音的精准掩蔽与恢复，提升未知噪声环境下的语音识别效果。
关键词：语音增强,噪声抑制

本公开涉及信息处理装置、程序以及信息处理方法。

背景技术：

1、一直以来，进行识别语音的语音识别处理。通常，语音识别处理受到目标语音以外的噪声的影响，因此，当包含噪声时，语音识别的精度大幅下降。于是，需要从混合了噪声的语音中提取目标语音。

2、例如，非专利文献1提出了使用神经网络(nn)来学习混合语音与目标语音的配对数据并从混合语音中提取目标语音的方法。

3、现有技术文献

4、非专利文献

5、非专利文献1：felix weniger，外1名，“discriminatively trained recurrentneural networks for single-channel speech separation”，ieee global conferenceon signal and information processing (globalsip)，february 2015

技术实现思路

1、发明要解决的问题

2、但是，在以往的对语音和非语音混合后的声音进行学习的方法中存在如下问题：对于未学习的非语音，语音强调性能下降。

3、于是，本公开的一个或多个方案的目的在于，即便是不包含在学习数据中的未知的噪声，也能够实施语音强调。

4、用于解决问题的手段

5、本公开的一方案的信息处理装置的特征在于，具备：声响成分计算部，其使用预先决定的函数，根据混合语音数据来计算声响成分，该混合语音数据包含成为强调对象的目标语音以及与所述目标语音混合的噪声即混合噪声，该声响成分是所述目标语音和所述混合噪声的成分；声响特征量估计部，其通过将所述声响成分输入到为了估计语音和噪声的声响特征量而学习后的特征估计模型，来估计声响特征量；噪声成分计算部，其使用所述预先决定的函数，根据不包含所述目标语音而包含噪声的噪声数据来计算噪声的成分即噪声成分；噪声特征量估计部，其通过将所述噪声成分输入到为了估计噪声的声响特征量而学习后的噪声估计模型，来估计噪声特征量；相关性估计部，其通过将所述声响特征量和所述噪声特征量输入到为了估计语音及噪声的声响特征量与噪声的声响特征量的相关性而学习后的相关性估计模型，来估计所述声响特征量与所述噪声特征量的相关性；特征量综合部，其利用估计出的所述相关性对所述声响特征量进行加权，从而计算综合特征量；掩蔽估计部，其通过将所述综合特征量输入到为了估计用于强调语音的掩蔽而学习后的语音强调模型，来估计目标语音掩蔽；以及语音恢复部，其根据所述声响成分和所述目标语音掩蔽，来恢复强调了所述目标语音的语音。

6、本公开的一方案的程序的特征在于，使计算机作为以下各部发挥功能：声响成分计算部，其使用预先决定的函数，根据混合语音数据来计算声响成分，该混合语音数据包含成为强调对象的目标语音以及与所述目标语音混合的噪声即混合噪声，该声响成分是所述目标语音和所述混合噪声的成分；声响特征量估计部，其通过将所述声响成分输入到为了估计语音和噪声的声响特征量而学习后的特征估计模型，来估计声响特征量；噪声成分计算部，其使用所述预先决定的函数，根据不包含所述目标语音而包含噪声的噪声数据来计算噪声的成分即噪声成分；噪声特征量估计部，其通过将所述噪声成分输入到为了估计噪声的声响特征量而学习后的噪声估计模型，来估计噪声特征量；相关性估计部，其通过将所述声响特征量和所述噪声特征量输入到为了估计语音及噪声的声响特征量与噪声的声响特征量的相关性而学习后的相关性估计模型，来估计所述声响特征量与所述噪声特征量的相关性；特征量综合部，其利用估计出的所述相关性对所述声响特征量进行加权，从而计算综合特征量；掩蔽估计部，其通过将所述综合特征量输入到为了估计用于强调语音的掩蔽而学习后的语音强调模型，来估计目标语音掩蔽；以及语音恢复部，其根据所述声响成分和所述目标语音掩蔽，来恢复强调了所述目标语音的语音。

7、本公开的一方案的信息处理方法的特征在于，使用预先决定的函数，根据混合语音数据来计算声响成分，该混合语音数据包含成为强调对象的目标语音以及与所述目标语音混合的噪声即混合噪声，该声响成分是所述目标语音和所述混合噪声的成分，通过将所述声响成分输入到为了估计语音和噪声的声响特征量而学习后的特征估计模型，来估计声响特征量，使用所述预先决定的函数，根据不包含所述目标语音而包含噪声的噪声数据，来计算噪声的成分即噪声成分，通过将所述噪声成分输入到为了估计噪声的声响特征量而学习后的噪声估计模型，来估计噪声特征量，通过将所述声响特征量和所述噪声特征量输入到为了估计语音及噪声的声响特征量与噪声的声响特征量的相关性而学习后的相关性估计模型，来估计所述声响特征量与所述噪声特征量的相关性，利用估计出的所述相关性对所述声响特征量进行加权，从而计算综合特征量，通过将所述综合特征量输入到为了估计用于强调语音的掩蔽而学习后的语音强调模型，来估计目标语音掩蔽，根据所述声响成分和所述目标语音掩蔽，来恢复强调了所述目标语音的语音。

8、发明的效果

9、根据本公开的一个或多个方案，即便是未包含在学习数据中的未知的噪声，也能够实施语音强调。

技术特征：

1.一种信息处理装置，其特征在于，

2.根据权利要求1所述的信息处理装置，其特征在于，

3.根据权利要求1所述的信息处理装置，其特征在于，

4.根据权利要求1至3中的任意一项所述的信息处理装置，其特征在于，

5.根据权利要求4所述的信息处理装置，其特征在于，

6.根据权利要求5所述的信息处理装置，其特征在于，

7.根据权利要求5所述的信息处理装置，其特征在于，

8.一种程序，其特征在于，

9.一种信息处理方法，其特征在于，

技术总结
语音强调装置(130)具备：根据混合语音数据来计算声响成分的声响成分计算部(138)；通过将声响成分输入到特征估计模型来估计声响特征量的声响特征量估计部(139)；根据噪声数据来计算噪声成分的噪声成分计算部(140)；通过将噪声成分输入到噪声估计模型来估计噪声特征量的噪声特征量估计部(141)；通过将声响特征量和噪声特征量输入到相关性估计模型来估计声响特征量与噪声特征量的相关性的相关性估计部(142)；利用估计出的相关性对声响特征量进行加权从而计算综合特征量的特征量综合部(143)；通过将综合特征量输入到语音强调模型来估计目标语音掩蔽的掩蔽估计部(144)；以及根据声响成分和目标语音掩蔽来恢复强调了目标语音的语音的语音恢复部(145)。

技术研发人员：相原龙
受保护的技术使用者：三菱电机株式会社
技术研发日：
技术公布日：2024/12/26

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：相原龙
技术所有人：三菱电机株式会社
我是此专利的发明人

网友询问留言留言:0条

还没有人留言评论。精彩留言会获得点赞！

文明留言，给您点赞！