双耳录音中语音的检测和增强的制作方法

文档序号:35446469发布日期:2023-09-14 03:14阅读:124来源:国知局

本公开涉及一种用于增强双耳录音中的语音的方法、一种用于执行该方法的系统以及一种存储有用于执行该方法的指令的非暂时性计算机可读介质。


背景技术:

1、耳塞是与诸如电话和平板电脑的智能设备配对的无线入耳式耳机;它们正成为智能电话用户收听音频的流行选择,并且由于添加了内置麦克风,还可以捕获用户的话音以进行实时通信或录制话音消息。对于想要进行采访、创建视频日志(vlog)或播客内容、或者只是录制话音笔记的人来说,耳塞是一种无需专用麦克风即可录制语音的便捷替代方案。


技术实现思路

1、在本公开中,表达“自身语音”用于指代佩戴耳塞的人的语音,而表达“外部语音”用于指代来自除佩戴耳塞的人以外的其他人的语音。

2、由于麦克风位于佩戴耳塞的人的耳朵中,因此在录制自身语音时,声音从嘴传播到耳塞,结合嘴的方向性,会对话音频谱造成显著改变,即与放置在嘴前的传统麦克风相比,高频能量损失将会增加。当录制外部语音时,与自身语音的响度相比,每个外部说话人的距离都会导致电平损失。这两个因素(电平损失和高频损失)都会导致自身语音与外部语音之间响度和音调的显著差异。对这些影响的补偿得益于对自身语音和外部语音的识别、对录音的分段以及使用最优设置处理每个部分。

3、多年来,说话人分段和聚类一直是活跃的研究领域,其具有完善的统计方法,诸如贝叶斯信息准则(bic)和最近的基于ai的技术。虽然这些技术可有效检测说话人或声学条件的改变,但它们无法提供额外的信息,诸如语音是自身语音的还是外部语音。特别地,它们处理单耳信号(单声道录音),因此它们不考虑嵌入在双耳录音中的声音的空间方面。事实证明,诸如到达方向和左右双耳麦克风信号之间的相似度的空间方面包含了区分自身语音和外部语音任务的重要信息,但出于分段目的,这种线索通常会被忽略。

4、虽然存在语音增强的自动解决方案,但它们不检测也不使用说话人分段信息,因此它们不允许对自身语音和外部语音进行优化、定制处理以实现平衡的音调和响度。

5、本公开描述了一种通过识别与自身语音和外部语音相对应的部分、对录音进行相应地分段、并随后将独立增强应用于每个片段、以及根据自身语音条件或外部语音条件进行最优设置来改进语音的双耳录音的方法。

6、以双耳信号作为输入,应用时频变换以将信号分成频带。同时,将信号发送到话音活动检测器以识别信号的哪些部分包含语音,以避免处理非语音部分。

7、从信号的时频表示中提取频谱特征,并用于逐帧地分类为自身语音和外部语音。同时,将这些特征中的一些发送到相异度分段单元,所述相异度分段单元使用统计方法来查找说话人身份或声学条件发生改变的帧。分段单元从分类和相异度分段单元接收信息,并通过多数表决将其组合成每个片段的决策(自身或外部)。分段用于将录音处理为多个独立的录音,每个录音都具有从自身语音和外部语音的分类中得到的适当设置。



技术特征:

1.一种方法,包括:

2.如权利要求1所述的方法,包括使用话音活动检测(vad)计算每个帧的相应语音概率,其中,仅考虑对语音概率大于预定义值的帧进行分类和分段。

3.如权利要求1所述的方法,其中,所述特征包括每个频带的能量、预定义频率范围内的频谱斜率、每个频带的声道间相干性或梅尔频率倒谱系数中的至少一个。

4.如权利要求1-3中任一项所述的方法,其中,所述分类器是支持向量机。

5.如权利要求1-3中任一项所述的方法,其中,所述相异度函数是通过将贝叶斯信息准则(bic)应用于所述特征的子集而获得的。

6.如权利要求5所述的方法,包括保留所述相异度函数的峰值,条件是所述相异度函数的值大于预定义值,并且与最近的峰值的距离大于另一个预定义值。

7.如权利要求1所述的方法,其中,确定相应整体类别包括:

8.如权利要求7所述的方法,包括使用表达式abs(ce-cs)/n为每个片段指派相应分类置信度值,n是所述片段中的总帧数。

9.如权利要求8所述的方法,包括将置信度值小于预定义值的片段指定为不确定的。

10.如权利要求9所述的方法,包括:

11.如权利要求1-10中任一项所述的方法,其中,利用语音增强链处理每个片段包括以下一项或多项:

12.如权利要求11所述的方法,其中:

13.如权利要求11所述的方法,包括:

14.一种系统,包括:

15.一种存储有指令的非暂时性计算机可读介质,所述指令在由一个或多个处理器执行时使得一个或多个处理器执行权利要求1-13中任一项所述的操作。


技术总结
本文公开了用于将语音的双耳录音分段成包含自身语音的部分和包含外部语音的部分,并使用不同设置处理每个种类以获得增强的整体呈现的方法、系统和计算机程序产品。基于以下组合进行分段:i)基于特征的逐帧分类,和ii)通过统计方法检测相异度。分段信息随后被语音增强链使用,其中独立设置用于处理自身语音部分和外部语音部分。

技术研发人员:G·琴加莱,马远星
受保护的技术使用者:杜比实验室特许公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 留言:0条
  • 还没有人留言评论。精彩留言会获得点赞!
1