音频处理的制作方法

文档序号：36050394发布日期：2023-11-17 19:30阅读：39来源：国知局

本发明涉及一种计算机实施的方法、服务器、视频会议端点以及非暂时性存储介质。

背景技术：

1、在视频通话期间，诸如厨房噪声、狗吠声或来自不是通话的部分的其他人的干扰性讲话的噪声可能会让通话参与者感到厌烦和分心，并扰乱会议。对于在相机视图中不可见的噪声源尤其如此，因为人类听觉系统不太能够滤除未同时被视觉系统检测到的噪声。

2、该问题的现有解决方案是将多个传声器信号组合到空间滤波器(或波束形成器)中，所述空间滤波器能够滤除来自被称为波束外的某些方向的声学信号，例如来自相机视图外部的声学信号。如果视频系统在室外或声学上非常干燥的房间(即，声学反射极弱的房间)中使用，则该技术很好地抑制了波束外噪声源。然而，在使用视频会议系统的大多数房间中，波束外噪声源会产生来自波束内方向的大量声学反射。噪声源的这些波束内反射未被空间滤波器滤除，并且因此未衰减地传输到远端参与者。因此，即使对于理想的空间滤波器，波束外噪声仍可能被传输并扰乱视频会议。

3、us2016/0066092 a1提出了通过使用非线性方法基于定向滤波器系数从输出中过滤源信号来解决该问题。springer,cham.在owens a.,efros a.a.(2018)audio-visualscene analysis with self-supervised multisensory features.in:ferrari v.,hebert m.,sminchisescu c.,weiss y.(eds)computer vision–eccv 2018.eccv2018.lecture notes in computer science,第11210卷中提出了通过应用基于深度学习的模型来解决该问题。

技术实现思路

1、因此，在第一方面中，本发明的实施方案提供了一种处理音频信号的计算机实施的方法，所述方法包括：

2、从两个或更多个传声器接收相应的音频信号；

3、从所述接收的音频信号中导出以频率为索引的多个时频信号，并且对于所述时频信号中的每一者：

4、确定所述音频信号的波束内分量；以及

5、对所述接收的音频信号执行后处理，所述后处理包括：

6、基于所述音频信号计算参考电平；

7、基于所述音频信号的确定的波束内分量计算波束内电平；

8、根据所述参考电平和所述波束内电平计算要应用于所述波束内分量的后处理增益；以及

9、将所述后处理增益应用于所述波束内分量。

10、上述方法允许抑制波束外噪声源，因此提高波束内音频源的清晰度。

11、现在将陈述本发明的任选特征。这些可单独地或与本发明的任何方面以任何组合形式应用。

12、本发明包括所描述的各方面和优选特征的组合，除非这种组合是明确不允许的或明确避免的。

13、确定所述音频信号的波束内分量可以包括对所述接收的音频信号应用波束形成过程。所述波束形成过程可以包括将波束内信号估计为来自所述多个传声器中的每一者的时频信号的线性组合。所述线性组合可以采用以下形式：

14、xib(t，f)＝w1(f)·x1(t，f)+w2(f)·x2(t，f)+…wn(f)·xn(t，f)，其中wi是复数组合权重，和xi(t，f)是时频信号，n个传声器中的每一者有一个时频信号。

15、在一些示例中，波束内信号xib(t，f)(不一定使用上述方程式计算)对应于波束内电平，因此计算波束内电平涉及计算波束内信号，并且计算后处理增益可以包括利用波束内电平来计算用于后处理增益的进一步参数。在其他示例中，使用波束内信号xib(t，f)来计算波束内电平。下文更详细地讨论了两种变体。

16、所述两个或更多个传声器中的至少一个传声器可以是单向传声器，并且所述两个或更多个传声器中的另一个传声器可以是全向传声器，并且确定所述音频信号的波束内分量可以包括利用由所述单向传声器作为空间滤波器接收的音频信号。

17、传声器可以安装在视频会议端点内。

18、所述参考电平可以被计算为：

19、lref(t，f)＝γ×|xi(t，f)|p+(1-γ)×lref(t-1，f)；

20、其中γ是平滑因子，p是可以取值1或2的正数，并且xi(t，f)是由所述接收的音频信号的离散傅里叶变换产生的时频分量。平滑因子可以取0至1之间的值，包括端点。

21、所述波束内电平可以被计算为：

22、lib(t，f)＝γ×|xib(t，f)|p+(1-γ)×lib(t-1，f)；

23、其中γ是平滑因子，p是可以取值1或2的正数，并且xib(t，f)是由所述接收的音频信号的离散傅里叶变换器产生的波束内时频分量。平滑因子可以取0至1之间的值，包括端点。

24、所述后处理增益可以被计算为：

25、g(t，f)＝lib(t，f)/lref(t，f)。

26、所述方法还可以包括将挤压函数应用于后处理增益，使得后处理增益取至少为0且不超过1的值。挤压函数可以利用阈值t，并且可以采用以下形式：

27、h(s)＝0如果s＜0

28、h(s)＝β.sα如果0≤s≤t

29、h(s)＝1如果s＞t

30、其中α和β是正实数值。在一些示例中，α＝1并且β＝1。在其他示例中，挤压函数是广义逻辑函数的实施方式。

31、在另一个示例中，当lib(t，f)≤t·lref(t，f)时，所述后处理增益被计算为：

32、

33、其中α和β是正实数，否则所述后处理增益被计算为：

34、g(t，f)＝1。

35、将后处理增益应用于波束内分量可以包括将后处理增益乘以波束内分量。

36、在另一个示例中，所述波束内电平可以用于计算所述音频信号的确定的波束内分量与所述接收的音频信号之间的协方差c(t，f)，并且其中所述计算的协方差用于计算所述后处理增益。例如，所述协方差可以被计算为：

37、

38、其中xi(t，f)是由接收的音频信号的离散傅里叶变换产生的参考时频分量，xib(t，f)是与波束内电平相对应的由接收的音频信号的离散傅里叶变换产生的波束内时频分量，并且是参考时频信号的复共轭。

39、在这种情况下，所述后处理增益可以被计算为

40、g(t，f)＝c(t，f)/lref(t，f)。

41、挤压函数也可以应用于后处理增益的这种变体，使得后处理增益取至少为0且不超过1的值。因此，后处理增益是：

42、

43、其中h(s)是挤压函数。例如，使用阈值t，如上文针对h(s)所述。使用协方差c(t，f)可以提高后处理滤波器的性能，因为波束内信号xib(t，f)可能与接收的波束外信号xob(t，f)＝xi(t，f)-xib(t，f)相关，这将反映在协方差c(t，f)中。

44、替代地，可以使用线性或宽线性滤波器来计算后处理增益。这可能涉及使用伪参考电平和伪协方差来计算后处理增益。例如，所述后处理增益可以被计算为：

45、

46、其中g0(t，f)被计算为：

47、

48、g1(t，f)被计算为：

49、

50、lpref(t，f)是伪参考电平，例如，被计算为：

51、lpref(t，f)＝γ×xi(t，f)2+(1-γ)×lpref(t-1，f)；

52、cp(t，f)是伪协方差，例如，被计算为：

53、cp(t，f)＝γ×xi(t，f)×xib(t，f)+(1-γ)×cp(t-1，f)；

54、和h是挤压函数，使得所述后处理增益取0至1之间的值。

55、所述方法还可以包括根据所述多个时频信号中的一者或多者计算公共增益因子并将所述公共增益因子作为所述后处理增益应用于所述其他时频信号中的一者或多者。应用公共增益因子可以包括在将后处理增益应用于其他时频信号中的一者或多者之前将公共增益因子乘以后处理增益。

56、所述方法还可以包括将来自所述接收的音频信号的样本帧作为输入并将所述帧乘以窗口函数。所述方法还可以包括通过应用离散傅里叶变换将所述加窗帧变换到频域，所述变换的音频信号包括多个时频信号。

57、确定所述音频信号的波束内分量可以包括从摄像机接收视野，并将波束内定义为与由所述摄像机覆盖的所述视野相对应的空间区域。

58、在第二方面中，本发明的实施方案提供了一种服务器，所述服务器包括处理器和存储器，所述存储器包含指令，所述指令使所述处理器：

59、接收多个音频信号；

60、从所述接收的音频信号中导出以频率为索引的多个时频信号，并且对于所述时频信号中的每一者：

61、确定所述音频信号的波束内分量；以及

62、对所述接收的音频信号执行后处理，所述后处理包括：

63、基于所述音频信号计算参考电平；

64、基于所述音频信号的所述确定的波束内分量计算波束内电平；

65、根据所述参考电平和所述波束内电平计算要应用于所述波束内分量的后处理增益；以及

66、将所述后处理增益应用于所述波束内分量。

67、第二方面的存储器可以包含机器可执行指令，所述机器可执行指令在由处理器执行时使所述处理器执行第一方面的方法，包括参考其列出的任选特征中的任一者或其组合，前提是它们兼容。

68、在第三方面中，本发明的实施方案提供了一种视频会议端点，其包括：

69、多个传声器；

70、摄像机；

71、处理器；以及

72、存储器，其中所述存储器包含机器可执行指令，所述机器可执行指令当在所述处理器上执行时使所述处理器：

73、从每个传声器接收相应的音频信号；

74、从所述接收的音频信号中导出以频率为索引的多个时频信号，并且对于所述时频信号中的每一者：

75、确定所述音频信号的波束内分量；以及

76、对所述接收的音频信号执行后处理，所述后处理包括：

77、基于所述音频信号计算参考电平；

78、基于所述音频信号的所述确定的波束内分量计算波束内电平；

79、根据所述参考电平和所述波束内电平计算要应用于所述波束内分量的后处理增益；以及

80、将所述后处理增益应用于所述波束内分量。

81、第三方面的存储器可以包含机器可执行指令，所述机器可执行指令在由处理器执行时使所述处理器执行第一方面的方法，包括参考其列出的任选特征中的任一者或其组合，前提是它们兼容。

82、在第四方面中，本发明的实施方案提供了一种计算机，其包含处理器和存储器，其中所述存储器包含机器可执行指令，所述机器可执行指令当在所述处理器上执行时使所述处理器执行第一方面的方法，包括参考其列出的任选特征中的任一者或其组合，前提是它们兼容。计算机可以是例如视频会议端点并且可以被配置为通过网络接收多个音频信号。

83、本发明的其他方面提供了：一种包括代码的计算机程序，所述代码当在计算机上运行时使所述计算机执行第一方面的方法；一种计算机可读介质，所述计算机可读介质存储包括代码的计算机程序，所述代码当在计算机上运行时使所述计算机执行第一方面的方法；以及一种计算机系统，所述计算机系统被编程为执行第一方面的方法。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：埃斯坦
技术所有人：简洁框架有限公司
我是此专利的发明人

上一篇：一种伺服钻孔机的专用钻头夹持装置的制作方法
上一篇：一种适用于小河边坡的割草船的制作方法