语音增强感知模式的制作方法

文档序号：15308014发布日期：2018-08-31 21:19阅读：199来源：国知局

本申请要求保护2015年12月30日提交的美国专利申请no.14/985112的权益和优先权，其全部内容通过引用并入于此。

本申请总体上涉及音频处理，并且更具体地说，涉及用于环境感知的系统和方法。

背景技术：

噪声隔离耳机被设计成，提供与耳机外部(周围)环境中的声音(包括语音和其它噪声)的高度隔离。然而，存在其中佩戴噪声隔离耳机的用户可能想要或需要听到来自周围环境的声音的许多情况。典型的噪声隔离耳机可以提供用于允许外部噪声进入的简单手动解决方案(例如，用于关闭噪声抑制或噪声消除的按钮)。然而，在需要时可能很难找到该按钮。另外，在一些情况下，噪声隔离耳机佩戴者(用户)例如可能听不到警告他或她有危险的警报声。因此，希望更好控制噪声隔离耳机中的噪声抑制和噪声消除。

技术实现要素：

提供该发明内容，以按简化形式介绍构思的选择，所述构思在下面详细描述中进一步描述。本发明内容不是旨在标识所要求保护的主题的关键特征或必要特征，也不是旨在被用作在确定所要求保护的主题的范围时的帮助。

提供了用于环境感知的系统和方法。提供了一种示例方法，该示例方法包括以下步骤：接收声学信号。所述声学信号可以包括至少一个捕获的环境声音。所述示例方法包括以下步骤：至少基于下列项中的一个确定至少一个触发事件已经发生：所述声学信号、用户概况(userprofile)以及用户背景。响应于所述确定，所述示例方法基于所述至少一个触发事件修改包括所述至少一个捕获的环境声音的所述声学信号。所述示例方法允许将修改的声学信号提供给用户的至少一个耳道。

在一些实施方式中，所述修改的步骤包括以下步骤：基于所述用户概况调节对所述声学信号执行的噪声抑制。在某些实施方式中，所述触发事件包括检测到移动物体。在一些实施方式中，所述触发事件包括在所述声学信号中检测到特定声音。根据一些实施方式，所述特定声音可以包括下列项中的一个或更多个：人声、包括人名的说话声、说出至少一个预定词语、汽车喇叭声、汽笛(siren)声以及婴儿哭声。

在某些实施方式中，修改所述声学信号的步骤包括以下步骤：将所述声学信号分离成语音分量和噪声分量。在抑制所述噪声分量的同时，可以在所述声学信号中保留所述语音分量。

在一些实施方式中，该方法包括以下步骤：基于所述触发事件向所述用户提供下列项中的至少一个：警报信号和警告消息。

在其它实施方式中，所述用户背景包括下列项中的一个或更多个：用户日历中的日程表、用户位置、一周中的一天、一天中的时间、当前用户位置，以及当前用户移动。

在一些实施方式中，所述用户概况包括所述至少一个触发事件的至少一个定义、以及用于在所述至少一个触发事件发生时修改所述声学信号的至少一个规则。在某些实施方式中，所述方法提供用于定制所述用户概况的、例如用于智能电话的应用。所述至少一个触发事件可以基于所述声学信号、所述用户概况以及所述用户背景中的至少两个的组合。

根据本公开的另一示例实施方式，用于环境感知的方法的步骤被存储在包括指令的非暂时性机器可读介质上，该指令在由一个或更多个处理器实现时执行所述步骤。

根据结合附图采取的下列描述，本公开的其它示例实施方式和方面将变清楚。

附图说明

实施方式在附图的图中通过示例而非限制的方式进行了例示，其中，相同标记指示相似部件。

图1是可以使用本文所描述的系统和方法的系统和环境的框图。

图2是根据示例实施方式的适于实现本技术的耳机的框图。

图3是例示根据示例实施方式的用于提供环境感知的系统的框图。

图4是例示根据示例实施方式的用于提供环境感知的方法的步骤的流程图。

图5例示了可以被用于实现所公开的技术的实施方式的计算机系统的示例。

具体实施方式

本技术提供用于环境感知的系统和方法，其可以克服或基本上消除在希望用户听到一些环境声音时与使用噪声隔离耳机相关联的问题。本技术的各种实施方式可以利用被配置成接收和/或提供音频的任何基于耳塞的音频装置(如但不限于，蜂窝电话、mp3播放器、电话手机以及耳机)来实践。虽然本技术的一些实施方式参照蜂窝电话的操作来进行描述，但本技术可以利用任何音频装置来实践。

在戴着噪声隔离耳机时，对于佩戴者来说，关闭或减少噪声隔离并允许一些环境声音透过可能是有用的。各种实施方式有助于通过基于某些触发事件配置噪声抑制来控制透过耳机的环境声音的量。该触发事件可以基于对环境声音、用户概况以及用户背景的分析来确定。而且，该触发事件可以利用语音检测、移动物体的接近检测、用户日历中的事件、用户的位置等。

用于环境感知的一示例方法包括以下步骤：接收声学信号。该声学信号包括至少一个捕获的环境声音。该方法包括以下步骤：至少基于下列项中的一个确定至少一个触发事件已经发生：所述声学信号、用户概况以及用户背景。响应于所述确定，该方法包括以下步骤：基于所述至少一个触发事件修改该声学信号(其包括所述至少一个捕获的环境声音)。

下面，参照图1，示出了适于实现用于提供环境感知及其周围环境的方法的一示例系统100的框图。该实施系统100至少包括：内部麦克风106、外部麦克风108、数字信号处理器(dsp)112以及无线电或有线接口114。内部麦克风106位于用户的耳道104内并且相对于外部声学环境102被遮蔽。外部麦克风108位于用户耳道104的外部并且暴露于外部(周围)声学环境102。

在各种实施方式中，麦克风106和108是模拟的或者数字的。在任一情况下，来自麦克风的输出以合适的采样频率被转换成同步脉冲编码调制(pcm)格式，并连接到dsp112的输入端口。信号xin和xex分别是指表示由内部麦克风106和外部麦克风108捕获的声音的信号。

根据一些实施方式，dsp112执行恰当信号处理任务以改善麦克风信号xin和xex的质量。dsp112的输出(被称为发出信号(sout))通过无线电或有线接口114发送至希望目的地，例如，发送至网络或主机装置116(参见标识为sout上行链路的信号)。

在某些实施方式中，如果需要双向语音通信，那么通过网络或主机装置116从合适的源(例如，经由无线电或有线接口114)接收信号。这可以被称为接收侧输入(receive-in)信号(rin)(在网络或主机装置116处标识为rin下行链路)。该接收侧输入信号可以经由无线电或有线接口114联接至dsp112以供以进行必要处理。所得信号(被称为接收侧输出(receive-out)信号(rout))由数模转换器(dac)110转换成模拟信号，然后连接到扬声器118，以便向用户呈现。在一些实施方式中，扬声器118与内部麦克风106位于同一耳道104中。在其它实施方式中，扬声器118位于与耳道104相对的耳道中。在图1的示例中，发现扬声器118与内部麦克风106位于同一耳道104中，因此，可能需要声学回声消除器(aec)来防止所接收信号反馈至另一端。可选地，在一些实施方式中，如果不需要对所接收信号加以进一步处理，那么接收侧输入信号(rin)可以联接至扬声器而不经过dsp112。

在一些实施方式中，接收侧输入信号rin包括用于回放给用户的音频内容。该音频内容可以存储在主机装置上或者由网络或主机装置116从通信网络接收。

图2示出了适于实现本公开的方法的示例耳机200。该耳机200包括用于用户的每只耳朵的示例耳内(ite)模块202以及耳后(bte)模块204和206。ite模块202被配置成插入到用户的耳道中。bte模块204和206被配置成放置在用户的耳朵后面。在一些实施方式中，耳机200通过蓝牙无线电链路与主机装置通信。蓝牙无线电链路可以符合蓝牙低能耗(ble)或其蓝牙标准，并且可以针对隐私进行各种加密。

在各种实施方式中，ite模块202包括都相对于耳道面向内的内部麦克风106和扬声器118(如图1所示)。ite模块202可以在耳道104与外部声学环境102(也在图1中示出)之间提供声学隔离。

在一些实施方式中，每个bte模块204和206都包括至少一个外部麦克风。bte模块204可以包括：dsp、控制按钮，以及针对主机装置的蓝牙无线电链接。bte模块206可以包括具有充电电路的合适电池。

外部麦克风信号xex可以被用于执行噪声抑制(例如，主动噪声消除)以消除ite模块202内部的外部环境噪声。在其它实施方式中，外部麦克风信号xex的处理由dsp112(在图1中示出)执行。在某些实施方式中，外部麦克风信号xex的处理由网络或主机装置116执行。

在一些实施方式中，bte模块204和206包括一个或更多个传感器(包括但不限于，加速度计、磁强计、陀螺仪、惯性测量单元(imu)、温度传感器、高度传感器、接近传感器、气压计、湿度传感器。色彩传感器、光传感器、压力传感器、全球定位系统(gps)模块、信标、wifi传感器、超声传感器、红外传感器，以及触摸传感器)。在某些实施方式中，bte模块204和206可操作以从耳机200所联接至的音频装置接收传感器数据和用户数据。

图3是例示根据一示例实施方式的用于提供环境感知的系统300的框图。在一些实施方式中，系统300可操作以控制对耳机(例如，ite模块202)的耳塞内的环境声音的噪声抑制。系统300可以包括触发确定模块310和信号修改模块320。系统300的模块310和320可以在dsp112和/或网络或主机装置116内实现(如图1中的示例所示)。

在一些实施方式中，信号修改模块320可操作以接收外部麦克风信号xex。基于外部麦克风信号xex生成前馈信号。当通过耳塞内的扬声器回放时，对应于前馈信号的声学信号消除泄漏到耳塞中的外部环境噪声。在某些实施方式中，基于内部麦克风信号xin生成反馈信号。该反馈信号可以在耳塞内部播放以消除耳塞内的一些不需要的噪声。在一些实施方式中，内部麦克风信号和外部麦克风信号都被用于噪声消除。在一些其它实施方式中，仅将内部或外部麦克风信号中的一个用于噪声消除。在其它实施方式中，响应于确定已经发生了特定触发事件，控制对外部环境声音的噪声抑制或消除的量。

适于执行噪声抑制的一示例音频处理系统在2010年7月8日提交的题名为“methodforjointlyoptimizingnoisereductionandvoicequalityinamonoormulti-microphonesystem”的美国专利申请no.12/832901(现为美国专利no.8473287)中进行了更详细讨论，其公开出于所有目的通过引用而并入于此。通过示例而非限制的方式，噪声抑制方法在2008年6月30日提交的题名为“systemandmethodforprovidingnoisesuppressionutilizingnullprocessingnoisesubtraction”的美国专利申请no.12/215980(现为美国专利no.9185487)中和在2007年1月29日提交的题名为“systemandmethodforutilizingomni-directionalmicrophonesforspeechenhancement”的美国专利申请no.11/699732(现为美国专利no.8194880)中进行了描述，其全部内容通过引用而并入于此。

在一些实施方式中，触发确定模块310可操作以确定至少一个触发事件(也称为触发)已经发生，并且响应于该确定，控制由信号修改模块320执行的对外部环境声音的修改(例如，噪声抑制或环境声音透过的量)。环境感知是指最小噪声抑制状态，其中，环境(外部)声音透过以使用户可以听到它们。在环境感知模式期间仍可以执行一定量的环境声音处理，例如，压缩或均衡(eq)平衡化。在一些实施方式中，噪声抑制是变化的，使得很少或没有环境声音透过。在其它实施方式中，响应于触发事件，将语音增强应用于由外部麦克风捕捉的环境声音。该环境声音可以被选择性地滤波以使语音分量通过，同时减少环境声音中存在的噪声的量。在嘈杂的环境中进行对话期间，语音增强可能会有所帮助。例如，嘈杂环境可以包括飞机声音。当机组乘务员讲话时，在用户的耳机中可以充分降低飞机声音，使得用户可以主要听到机组乘务员的语音。类似地，在其它嘈杂环境中，例如，街道环境，可以强调其它重要声音，同时减少用户耳机中的街道噪声。仍在其它实施方式中，环境声音的修改包括均衡、电平修改、时间和频率的变化，以及其它恰当变化(修改)。多个麦克风(例如，外部麦克风和内部麦克风)可以被用于噪声抑制。在美国专利申请no.12/832901(现在的美国专利no.8473287)中更详细地讨论了用于利用多个麦克风来执行噪声抑制的一示例系统。

在一些实施方式中，利用运行在以通信方式联接至耳机的装置(例如，智能电话或计算机)上的应用来配置触发的数量和触发对噪声抑制的效果。触发事件可以由用户利用智能电话应用来选择，例如，通过婴儿哭声、汽笛声某些背景(如用户讲话而不是正在进行电话通话)或某些其它选定声音来触发。

触发确定可以包括接近检测。在某些实施方式中，系统300包括接近检测器模块332。接近检测器模块332可操作以标识按超过预定阈值的速度朝着耳机200的用户移动的物体(例如，车辆)。物体的检测可以利用耳机附带的接近传感器来进行，其可以是各种红外接近传感器、超声接近传感器，以及其它合适的接近传感器。在检测到移动物体时，可以静音rin的音频内容，并且可以关闭环境声音的噪声抑制以将环境声音透过耳机的耳塞。代替关闭，在一些实施方式中，音频内容被均衡或者音频内容的音量被降低以使音频内容对环境声音的干扰较小。如果接近物体移动得比该预定阈值更快，那么可以发出警报，例如可以播放警告声音。

在一些实施方式中，系统300包括音频场景分析模块334。在其它实施方式中，系统300可操作以基于音频场景分析的结果来上下调节噪声抑制。在某些实施方式中，音频场景分析包括语音活动检测。语音检测可以由包括语音活动检测的麦克风提供。在2015年7月13日提交的题名为“microphoneapparatusandmethodwithcatch-upbuffer”的美国专利申请no.14/797310中更详细地讨论了示例性麦克风，其公开出于所有目的通过引用而并入于此。

语音检测可以通过区分各种声音的声音处理来执行。用于声音处理的一示例系统在2010年7月8日提交的题名为“methodforjointlyoptimizingnoisereductionandvoicequalityinamonoormulti-microphonesystem”的美国专利申请no.12/832901(现为美国专利no.8473287)中进行了更详细讨论，其公开出于所有目的通过引用而并入于此。语音活动检测可以与语音识别一起使用。例如，如果有人正确地念耳机200的用户的名字或者该用户发出语音命令，则触发确定模块310可以发出控制命令来向修改模块320发信号以使环境声音透过耳机200的耳塞。在各种实施方式中，音频场景分析包括识别其它声音，如检测到喇叭嘟嘟声、预定口语词语、有人呼叫用户的名字、婴儿哭声等。

在某些实施方式中，系统300包括用户的语音检测。当用户开始讲话时，同时没有检测到正在进行的电话通话，系统300可操作以启用环境感知。

在一些实施方式中，系统300包括背景感知模块336。背景感知可以被用来控制噪声抑制。例如，当用户正在参加电话会议通话时，周围声音可以保持被抑制。如果用户在工作时间以外呆在家中，那么噪声抑制可以被降低。在各种实施方式中，背景感知模块336可操作以生成基于一周中的一天、一天中的时间、用户日历中的会议、用户的位置(例如，由全球定位系统(gps)确定，与无线网络或蜂窝电话网络相关联的标识符)等的触发事件。在其它实施方式中，背景感知可以包括针对背景的运动感知。例如，运动感知可以包括关于用户是否在驾驶、行走，坐着等等的确定。在2015年6月24日提交的题名为“contextawarefalseacceptanceratereduction”的美国专利申请no.14/749425中更详细地讨论了包括语音识别、背景感知以及滤波的示例性系统，其公开出于所有目的通过引用而并入于此。

在各种实施方式中，环境声音的处理导致仅允许语音透过噪声隔离耳机。利用滤波进行的语音活动检测可以被用于限制环境声音透过至语音频带。在某些实施方式中，将例如基于声源方向的更复杂处理应用于环境声音以仅允许语音透过。用于利用滤波进行的语音活动检测的示例性系统和方法也在上面引用的美国专利申请no.14/749425中进行了更详细讨论。

在一些实施方式中，关于触发事件是否已经发生以便启用环境感知的确定是基于用户概况和偏好330。用户概况和偏好330可以包括默认配置，该默认配置包括触发事件的定义以及针对在该触发事件发生时要采取的动作的规则。在其它实施方式中，允许用户利用运行在网络或主机装置116(图1中示出)上的应用来定制用户概况和参考。在一些实施方式中，该定制包括设定透过噪声抑制的环境声音的量，确定什么类型的环境声音被允许透过噪声抑制，以及哪些事件触发环境感知模式。

图4是示出根据各种示例实施方式的用于提供环境感知模式的方法400的步骤的流程图。方法400在操作402开始，接收声学信号。在这个示例中，该声学信号表示至少一个捕获的环境声音。在框404中，方法400包括以下步骤：至少基于该声学信号、用户概况和用户背景中的一个确定至少一个触发事件已经发生。在一些实施方式中，该声学信号、用户概况以及用户背景的全部或各种组合是用于触发事件的基础。在框406中，响应于所述确定，方法400继续进行，基于所述至少一个触发事件修改表示所述至少一个捕获的环境声音的声学信号。在框408中，该修改声学信号可以被提供给用户的至少一个耳道。

图5示出了可以被用于实现本发明的一些实施方式的示例性计算机系统500。图5的计算机系统500可以在诸如计算系统、网络、服务器，或其组合的背景下实现。图5的计算机系统500包括一个或更多个处理器单元510和主存储器520。主存储器520部分地存储供处理器单元510执行的指令和数据。在这个示例中，主存储器520在处于操作中时存储可执行代码。图5的计算机系统500还包括：海量数据存储部530、便携式存储装置540、输出装置550、用户输入装置560、图形显示系统570，以及外围装置580。

图5所示的组件被描绘为经由单个总线590连接。这些组件可以通过一个或更多个数据传输装置连接。处理器单元510和主存储器520经由本地微处理器总线连接，而海量数据存储部530、外围装置580、便携式存储装置540以及图形显示系统570经由一个或更多个输入/输出(i/o)总线连接。

海量数据存储部530(其可以利用磁盘驱动器、固态驱动器，或光盘驱动器来实现)是用于存储供处理器单元510使用的数据和指令的非易失性存储装置。海量数据存储部530存储用于实现本公开的实施方式的系统软件，用于将该软件加载到主存储器520中的目的。

便携式存储装置540结合便携式非易失性存储介质操作，如闪速驱动器、软盘、光盘、数字视频盘，或通用串行总线(usb)存储装置，以向和从图5的计算机系统500输入和输出数据和代码。用于实现本公开的实施方式的系统软件存储在这种便携式介质上，并且经由便携式存储装置540输入至计算机系统500。

用户输入装置560可以提供用户接口的一部分。用户输入装置560可以包括：一个或多个麦克风、用于输入字母数字和其它信息的诸如键盘的字母数字混编小键盘、或者诸如鼠标器、轨迹球、触控笔或光标方向键的定点装置。用户输入装置560还可以包括触摸屏。另外，如图5所示的计算机系统500包括输出装置550。合适的输出装置550包括：扬声器、打印机、网络接口，以及监视器。

图形显示系统570包括液晶显示器(lcd)或其它合适的显示装置。图形显示系统570可设置成接收文本和图形信息并处理该信息以供输出至显示装置。

外围装置580可以包括用于向计算机系统添加附加功能的任何类型的计算机支持装置。

设置在图5的计算机系统500中的组件是通常在可以适用于本公开的实施方式的计算机系统中发现的那些，并且旨在表示本领域公知的这种计算机组件的广泛类别。由此，图5的计算机系统500可以是个人计算机(pc)、手持式计算机系统、电话、移动计算机系统、工作站、平板电脑、平板式手机、移动电话、服务器、迷你计算机、大型计算机、可佩戴物，或者任何其它计算机系统。该计算机还可以包括不同的总线配置、联网平台、多处理器平台等。可以使用各种操作系统，包括unix、linux、windows、macos、palmos、qnxandroid、ios、chrome、tizen，以及其它合适的操作系统。

针对各种实施方式的处理可以按基于云的软件来实现。在一些实施方式中，计算机系统500被实现为基于云的计算环境，如在一计算云内操作的虚拟机。在其它实施方式中，计算机系统500本身可以包括基于云的计算环境，其中按分布式方式执行计算机系统500的功能。由此，计算机系统500在被配置为计算云时，可以包括采用各种形式的多种计算装置，如将在下面更详细描述的。

一般而言，基于云的计算环境是通常将一大组处理器(如在web服务器内)的计算能力相结合的资源和/或组合一大组计算机存储器或存储装置的存储容量的资源。提供基于云的资源的系统可以由其所有者专门使用，或者这种系统可以被在该计算基础设施内部署应用以获得大的计算或存储资源的益处的外部用户访问。

该云例如可以由包括诸如计算机系统500的多个计算系统的web服务器的网络形成，其中每个服务器(或至少其多个)提供处理器和/或存储资源。这些服务器可以管理由多个用户(例如，云资源客户或其他用户)提供的工作负载。典型地讲，每个用户有时显著地将工作负载需求放在实时变化的云上。这些变化的性质和范围通常取决于与用户相关联的业务类型。

上面参照示例实施方式对本技术进行了描述。因此，针对本示例实施方式的其它变型例旨在被本公开所覆盖。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：托马斯·E·米勒;S·加多尼克斯
技术所有人：美商楼氏电子有限公司
我是此专利的发明人