使麦克风信号静音和取消静音的方法与流程

文档序号:30598032发布日期:2022-07-01 21:05阅读:1060来源:国知局
使麦克风信号静音和取消静音的方法与流程

1.本发明总体涉及对麦克风信号的静音和取消静音,并且更具体地涉及使用语音活动检测器对麦克风信号进行静音和取消静音。


背景技术:

2.麦克风在语音或视频通话(例如电话通话或互联网通话(带或不带视频,使用诸如zoom、skype和microsoft teams的通信软件))期间被使用。通常,麦克风在通话期间始终处于启用状态。但是,始终启用的麦克风会从环境中拾取不需要的背景噪音或非预期音频,从而对通话中的远程方造成干扰和影响。为了防止这个问题,通常在通话期间,用户会在他不说话时将他的麦克风静音,这样通话中的其他远程方就不会听到背景声音/噪音。麦克风也可以被默认静音,以尽量减少对其他用户的干扰。很多时候,用户可能会在开始说话时忘记取消麦克风静音。
3.因此,可见需要一种在用户不说话和用户说话时分别使麦克风信号静音和取消静音的方法。此外,根据随后的详细描述和所附权利要求,结合附图和本公开的该背景,其他期望的特征和特性将变得明显。


技术实现要素:

4.在本发明的一个方面,提供了一种用于使麦克风静音和取消静音的方法。该方法包括提供处理器,接收输入麦克风信号,以采样率测量输入麦克风信号的响度(loudness)水平,计算静音阈值水平,检查响度水平是否高于等于静音阈值水平,以及在确定响度水平高于等于静音阈值水平时重置静音延迟定时器并获得输入麦克风信号,或者在确定响度水平不高于等于静音阈值水平时检查静音延迟定时器是否正在运行,如果静音延迟定时器未运行,则衰减输入麦克风信号,或者如果静音延迟定时器仍在运行,则获得输入麦克风信号,并将输入麦克风信号或衰减的输入麦克风信号写入输出缓冲器。
5.在本发明的另一方面,提供了一种软件产品,包括处理器可读的非暂态存储介质,该非暂态存储介质上存储了一组用于使输入麦克风信号静音和取消静音的指令。该软件产品包括第一指令序列,当由处理器执行时使所述处理器接收输入麦克风信号,第二指令序列,当由处理器执行时使所述处理器以采样率测量输入麦克风信号的响度水平,第三指令序列,当由处理器执行时使所述处理器计算静音阈值水平,第四指令序列,当由处理器执行时使所述处理器检查响度水平是否高于等于静音阈值水平,以及在确定响度水平高于等于静音阈值水平时重置静音延迟定时器并获得输入麦克风信号,或者在确定响度水平不高于等于静音阈值水平时检查静音延迟定时器是否正在运行,如果静音延迟定时器未运行,则衰减输入麦克风信号,或者如果静音延迟定时器仍在运行,则获得输入麦克风信号,以及第五指令序列,当由处理器执行时使所述处理器将输入麦克风信号或衰减的输入麦克风信号写入输出缓冲器。
附图说明
6.图1是描绘根据各种实施例的用于使麦克风信号静音和取消静音的方法的流程图。
具体实施方式
7.以下详细说明本质上仅是示例性的,并不用于限制本发明或本发明的应用和用途。此外,无意受本发明的前述背景或以下详细描述中提出的任何理论的束缚。各种实施例的意图是呈现一种使麦克风信号静音和取消静音的方法。
8.参考图1,示出了描绘根据各种实施例的用于使麦克风信号静音和取消静音的方法的流程图100。设备设置有处理器。处理器在步骤110接收输入麦克风信号,并且在步骤120测量麦克风信号的响度水平。在一个实施例中,输入麦克风信号可以在频域中。可以通过将复数输入麦克风信号的均方根(rms)乘以幅度缩放因子来测量来自频带的麦克风信号的频带幅度。频带可以从下限频率(例如250hz)到上限频率(例如输入麦克风信号的奈奎斯特频率或8000hz,以较低者为准)。幅度缩放因子考虑了音频的采样率。在一个实施例中,幅度缩放因子可以是采样率和帧大小的函数的平方根的倒数。通过乘以幅度缩放因子,频带幅度变为对于不同的采样率和帧大小是不变的。
9.当前响度水平是通过使用利用触发响应(attack response)时间和释放响应时间的平滑函数来平滑频带幅度而获得的。触发响应是平滑值与其先前值相比将增加得多快/慢的响应,释放响应是平滑值与其先前值相比将减少得多快/慢的响应。在一个实施例中,触发响应时间和释放响应时间为16毫秒。实时测量麦克风信号的响度水平,采样率为16khz,帧大小为512,触发响应时间为16毫秒,释放响应时间为16毫秒,这样麦克风信号的响度水平可以每32毫秒确定一次。有利地,这将允许麦克风信号几乎立即被取消静音而不会丢失语音,如下文将进一步详述的。根据系统资源和限制,也可以使用其他合适的采样率和帧大小。例如,48khz的采样率和512的帧大小允许每10.67毫秒确定一次麦克风信号的响度水平。
10.在步骤130中,处理器基于语音活动检测(vad)设置计算静音阈值水平。在一个实施例中,静音阈值水平是基于五种不同的vad模式之一来设置的。模式有自动校准、按预设手动校准、按预设水平手动校准、按自定义值手动校准和实时自动调整。在一个实施例中,默认设置的优选模式为实时自动调整模式。
11.当模式被设置为自动校准时,用户在音频校准正在进行时被要求在一段时间内(例如至少3秒)保持沉默。在自动校准期间,处理器测量峰值环境噪音水平并基于测量的水平调整静音阈值水平。可以每200ms测量麦克风信号的峰值噪音并将其存储在大小为8的循环缓冲器中。这与获取最后1.6秒(8x200ms)的峰值噪音相同,该峰值噪音每200ms更新一次。可以为用户提供按钮来开始校准。虽然自动校准可以更准确地测量环境声音/噪音水平,但它需要用户在每次通话开始时都进行此校准。
12.当模式设置被为按预设手动校准时,要求用户考虑他的语音水平(例如洪亮、中等、柔和)、环境噪音水平(例如高、中或低背景噪音)和使用的麦克风(例如耳机、耳塞、前置麦克风、远场麦克风)选择不同的预设。静音阈值水平是基于预定义的预设值设置的,这些预设值经过本地预调以与选定的预设相对应。
13.当模式设置为按预设水平手动校准时,要求用户选择自定义预设,例如但不限于特定的麦克风类型和型号,以及环境类型。例如,可以向用户呈现麦克风选项,例如“creative labs live!cam sync hd 1080p webcam麦克风”、“lewitt lct 640ts麦克风”、“audio technica ae2300麦克风”、“panasonic dynamic麦克风wm-530”等。还可以为用户呈现环境选择选项,例如“市场”、“购物中心”、“办公室”等。静音阈值水平是基于与所选自定义预设相对应的预设水平设置的。
14.当模式被设置为按自定义值手动校准时,静音阈值水平是基于本底噪音和用户定义的固定偏移来设置的。可以向用户呈现滑块以允许用户调整用于vad的偏移值。本底噪音可以通过跟踪频带幅度的最小水平、使用利用慢触发响应和快释放响应的平滑函数来测量。触发响应是平滑值与其先前值相比将增加得多快/慢的响应,释放响应是平滑值与其先前值相比将减少得多快/慢的响应。在优选实施例中,触发响应时间为10秒,释放响应时间为50毫秒。
15.当模式被设置为实时自动调整时,静音阈值水平会实时持续更新。在静音状态期间,静音阈值水平基于瞬时峰值噪音。在优选实施例中,使用1毫秒的触发响应时间和2000毫秒的释放响应时间来应用平滑。可以每200ms测量麦克风信号的峰值噪音并将其存储在大小为8的循环缓冲器中。这与获取最后1.6秒(8x200ms)的峰值噪音相同,该峰值噪音每200ms更新一次。在静音到取消静音过渡期间,静音阈值水平的先前值可以被存储为静音阈值(最小)值。在取消静音到静音过渡期间,循环缓冲器被清除。在取消静音状态期间,静音阈值水平基于平均响度水平。在优选实施例中,通过使用200毫秒的触发响应时间和200毫秒的释放响应时间来平滑所测量的频带幅度而计算平均响度水平。如果计算出的平均响度水平加上固定的预定义偏移低于所存储的静音阈值(最小)值,则将使用静音阈值(最小)值。在优选实施例中,使用2000毫秒的触发响应时间和2000毫秒的释放响应时间来应用平滑。有利地,在自动调整模式中没有供用户设置或选择的配置设置。
16.在步骤140中,处理器检查响度水平是否大于等于静音阈值水平。当检查表明响度水平大于等于静音阈值水平时,在步骤150中重置静音延迟定时器。当测量的响度水平低于静音阈值水平时,静音延迟定时器控制麦克风将何时自动静音(通过衰减麦克风信号)。在步骤150中,每当测量的响度水平高于等于静音阈值水平时,重置静音延迟定时器。当测量的响度水平低于静音阈值水平时,静音延迟定时器将在步骤180中继续运行直到定时器超时。当定时器超时时,在步骤190中,输入麦克风信号将被充分衰减,以达到麦克风静音的效果。静音延迟定时器设置适用于所有五种模式,并且用户可以设置偏好值。在一个实施例中,默认值为1秒。1秒的静音延迟意味着如果1秒内没有检测到语音活动,麦克风将静音。静音延迟定时器有利地允许减少由于用户在通话期间暂时停顿他的讲话而导致的不必要的麦克风暂时静音,这极大地增强了通话的整体体验。在步骤160中,获得原始麦克风信号,并在步骤170中写入输出缓冲器,然后返回到步骤110。当原始麦克风信号写入输出缓冲器时,达到了对麦克风信号取消静音的效果。当麦克风信号在步骤190中被衰减并在步骤170中写入输出缓冲器时,就达到了对麦克风信号静音的效果。
17.另一方面,当在步骤140中响度水平不大于等于静音阈值水平时,处理器将在步骤180中检查静音延迟定时器是否正在运行。当检查表明静音延迟定时器正在运行时,过程进行到步骤160,接着是步骤170。另一方面,当静音延迟定时器没有运行(超时)时,在步骤190
中通过衰减麦克风信号来使麦克风静音,并且过程进行到步骤170,之后返回到步骤110。流程图100中的方法连续地测量输入麦克风信号。
18.在一个实施例中,为用户显示视觉指示符以了解当前静音状态。当用户选择和调整他的vad设置时,麦克风信号将同时被分析并显示静音状态,以便用户可以相应地更改vad设置。由于用户在选择和调整其vad设置时的环境状况可能与实际通话期间的实际环境状况不同,因此在整个通话持续时间期间显示当前静音状态可以让用户了解实时静音状态,并且如有必要,用户可以相应地更改vad设置。
19.在静音状态期间,麦克风信号会衰减以产生类似于静音麦克风的效果。在优选实施例中,实现了动态衰减技术,该技术考虑了实时麦克风信号的强度,而不是应用固定衰减来使麦克风信号静音。当用户没有说话且麦克风信号水平低时(例如在背景噪音低的情况下),将应用较少衰减以实现麦克风信号的目标静音音频水平。当用户没有说话且麦克风信号水平高时(例如在背景噪音水平高的情况下),将应用更多衰减以实现麦克风信号的目标静音音频水平。麦克风信号的目标静音音频水平被确定为使得该水平足够低以致人类无法听到音频,但足够高以致通信应用仍然可以检测到衰减的麦克风信号的存在。衰减水平是基于输入麦克风信号在静音状态期间的目标音频水平(例如大约-66db)和当前测量的响度水平(使用2000毫秒的触发响应时间和200毫秒的释放响应时间应用平滑)来计算的。有利的是,这防止了某些通信应用认为用户的麦克风或音频系统设置可能存在问题,因为在通信期间无法检测到麦克风信号的存在。
20.尽管流程图中的步骤是按顺序给出的,但应该理解,一些步骤可以同时执行,或以不同的顺序执行。所描述的步骤可以在硬件、软件、固件或其任何组合中实现。
21.因此,可见已经提供了分别在用户不说话和用户说话时将麦克风信号静音和取消静音的方法。本发明的优点在于,它提供了一种设备在用户不说话和用户说话时分别自动使麦克风静音和取消静音的方式。有利地,麦克风几乎是瞬间解除静音而不会丢失语音。
22.尽管在本实施例的前述详细描述中已经呈现了示例性实施例,但是应当理解存在大量变型。还应当理解,示例性实施例仅是示例,并不旨在以任何方式限制本发明的范围、适用性、操作或配置。相反,前述详细描述将为本领域技术人员提供用于实现本发明示例性实施例的便利路线图,应当理解,可以对示例性实施例中描述的步骤的功能和布置以及操作方法进行各种改变,而不背离所附权利要求中阐述的本发明范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1