基于语音方向的麦克风控制的制作方法

文档序号:26012829发布日期:2021-07-23 21:33阅读:72来源:国知局
基于语音方向的麦克风控制的制作方法



背景技术:

诸如电话会议和视频会议应用之类的电信应用可以促进在多个远程定位的用户之间的通信,以通过因特网协议网络、通过基于陆地的电话网络和/或通过蜂窝网络彼此通信。特别地,电信应用可以使得音频针对每个用户被本地捕捉并且被传送到其他用户,使得用户可以经由这些网络听到其他用户的话音。一些电信应用还可以使用户的静止和/或视频图像能够被本地捕捉并且被传送到其他用户,使得用户可以经由这些网络查看其他用户。

附图说明

本公开的特征通过示例的方式示出并且不在(一个或多个)以下附图中受到限制,其中,相同的数字指示相同的元素,其中:

图1示出了可以基于在用户说话时用户是否可能正面对麦克风来自动控制麦克风的解除静音(unmute)的示例装置的框图;

图2a示出了可以包括图1中描绘的示例装置的特征的示例系统的框图;

图2b示出了可以在捕捉的音频信号的训练阶段和推断(inference)阶段期间执行的操作的示例过程框图;

图3示出了可以基于在用户说话时用户是否可能正面对麦克风来自动控制麦克风的解除静音的示例装置的框图;

图4和图5分别描绘了用于基于关于在用户说话时用户是否正面对麦克风的确定来自动对麦克风解除静音的示例方法;以及

图6示出了示例非暂时性计算机可读介质的框图,该计算机可读介质可以具有存储在其上的机器可读指令,当由处理器执行时,该机器可读指令可以使处理器基于在用户说话时用户可能正面对麦克风的确定来提示用户对麦克风解除静音。

具体实施方式

为了简单和说明的目的,通过主要参考本公开的示例来描述本公开的原理。在以下描述中,阐述了许多具体细节以便提供对示例的理解。然而,对于本领域的普通技术人员来说将清楚的是,可以在不局限于这些具体细节的情况下实施示例。在一些情况下,没有详细描述公知的方法和/或结构,以免不必要地模糊对示例的描述。此外,可以以各种组合一起使用示例。

贯穿本公开,术语“一”和“一个”旨在表示特定元素中的一个或特定元素中的多个。如本文所用,术语“包括”意味着包括但不限于,术语“包含”意味着包含但不限于。术语“基于”可以意味着部分地基于。

当音频会议应用被激活时,麦克风可以以静音状态开始。通常,用户可能没有意识到他们的麦克风是处于静音状态的,并且因此可能在对他们的麦克风解除静音之前就开始讲话。这可能导致电话会议开始时的混乱。这也可能发生在在音频会议期间或在其他应用期间用户有意使其麦克风静音并且在再次讲话之前忘记对其麦克风解除静音之时。

本文公开的是用于基于用户意图使用户的语音被捕捉的确定来自动对麦克风解除静音的装置、系统和方法。例如,处理器可以确定在用户说话时用户是否正面对静音的麦克风并且基于该确定而自动地对麦克风解除静音。处理器可以通过分析由麦克风捕捉的音频信号的频谱或频率内容来进行该确定。此外或替代地,处理器可通过对所捕捉音频信号应用机器学习模型来进行该确定。在一些示例中,处理器可以实现话音活动检测技术以确定所捕捉的音频信号是否包括用户的话音。在一些示例中,关于用户是否正面对静音的麦克风的确定可以以训练全连接神经网络(fcnn)或卷积神经网络(cnn)来标识语音的方向性为前提。

在一些示例中,可以利用由第二麦克风捕捉的第二音频信号来分析由第二麦克风捕捉的第二音频信号的特性,以确定在用户说话时用户是否可能正面对麦克风和第二麦克风。在这些示例中,处理器可基于上文所讨论的关于用户是否正面对麦克风的确定和基于音频信号与第二音频信号的特性的分析的确定来确定是否对麦克风和第二麦克风解除静音。

通过实施本文所公开的装置、系统和方法,可基于在用户说话时用户正面对静音的麦克风的确定而自动地对麦克风解除静音和/或可提示用户对麦克风解除静音。因此,例如,用户的语音可以被定向到应用以用于分析、存储、翻译或诸如此类。作为另一示例,用户的语音可被定向到通信接口以在音频会议期间输出。在任何方面,在麦克风被静音时捕捉的音频可以被存储并用于应用和/或音频会议,这可以减少可以被执行以捕捉、分析和存储可能在先前捕捉的音频丢失或丢弃的情况中被重复的音频的附加处理。

首先参考图1、2a和2b。图1示出了可以基于在用户说话时用户是否可能正面对麦克风来自动控制麦克风的解除静音的示例装置100的框图。图2a示出了可以包括图1中描绘的示例装置100的特征的示例系统200的框图。图2b示出了可以在捕捉的音频信号222的训练阶段和推断阶段期间执行的操作的示例过程框图250。应当理解,图1、2a和2b中描绘的示例装置100、示例系统200和/或示例过程框图250可以包括附加部件并且可以在不脱离本文公开的示例装置100、示例系统200和/或示例过程框图250的范围的情况下去除和/或修改本文描述的部件中的一些。

装置100可以是计算设备或其他电子设备,例如个人计算机、膝上型计算机、平板计算机、智能电话或诸如此类,其可以基于用户220在说话时用户220正面对麦克风204的确定来促进麦克风204的自动解除静音。也就是说,装置100可以在麦克风204被静音时捕捉用户的语音的音频信号222,并且可以基于在用户220说话时用户220正面对麦克风204的确定而自动地对麦克风204解除静音。另外,基于在用户说话时用户220正面对麦克风204的确定,装置100可以存储所捕捉的音频222,可以激活语音口述应用,可以例如经由网络230与远程定位的系统240传送所捕捉的音频信号222和/或诸如此类。

根据示例,处理器102可以选择性地通过通信接口208传送捕捉的音频222的音频信号,例如包括音频信号的数据文件。通信接口208可以包括软件和/或硬件部件,通过这些部件,装置100可以传送和/或接收数据文件。例如,通信接口208可以包括装置100的网络接口。数据文件可以包括音频和/或视频信号,例如,与音频和/或视频信号相对应的数据包。

根据示例,装置100,并且更具体地,装置100的处理器102可以确定音频信号222是否包括用户220意图例如经由音频或视频会议应用的执行而传送到另一用户的音频,并且可以基于用户220意图将音频传送到另一用户的确定来传送音频信号。然而,基于用户可能不意图传送音频的确定,处理器102可以不传送音频信号。处理器102可以以如本文所讨论的各种方式来确定用户关于是否要传送音频的意图。

如图1中所示,装置100可以包括可以控制装置100的操作的处理器102。处理器102可以是基于半导体的微处理器、中央处理单元(cpu)、专用集成电路(asic)、现场可编程门阵列(fpga)、图形处理单元(gpu)和/或其他硬件设备。装置100还可以包括非暂时性计算机可读介质110,其可以具有其上存储的、处理器102可以执行的机器可读指令112-118(其也可以称为计算机可读指令)。非暂时性计算机可读介质110可以是包括或存储可执行指令的电子、磁、光或其他物理存储设备。非暂时性计算机可读介质110可以是例如随机存取存储器(ram)、电可擦除可编程只读存储器(eeprom)、存储设备、光盘以及诸如此类。术语“非暂时性”不包含暂时性传播信号。

如图2a中所示,系统200可以包括图1中描绘的处理器102和计算机可读介质110。系统200还可以包括数据存储202、麦克风204、输出设备(或多个输出设备)206和通信接口208。电信号可以经由链路210在系统200的部件102、110、202-208中的一些或全部之间传送,该链路210可以是通信总线、导线和/或诸如此类。

处理器102可以执行或以其他方式实现电信应用,以促进用户220可以是其参与者的电话会议或视频会议。处理器102还可以或替代地实现可以使用和/或存储用户语音的另一类型的应用。在任何方面,麦克风204都可以捕捉音频(或者等同地,声音、音频信号等),并且在一些示例中,可以经由通信接口208通过网络230传送所捕捉的音频222。网络230可以是ip网络、电话网络和/或蜂窝网络。此外,捕捉的音频222可以跨网络230被传送到远程系统240,使得捕捉的音频222可以在远程系统240处输出。捕捉的音频222可以被转换和/或存储在数据文件中,并且通信接口208可以通过网络230传送数据文件。

在操作中,麦克风204可以捕捉音频222并且可以将所捕捉的音频222传送到数据存储202和/或处理器102。另外,麦克风204或另一部件可以转换捕捉的音频222,或者可以将捕捉的音频222存储在数据文件中。例如,捕捉的音频222可以被存储或封装在ip包中。在一些示例中,麦克风204可以在麦克风204处于静音状态时捕捉音频信号222。也就是说,当处于静音状态时,麦克风204可以继续捕捉音频信号222,并且处理器102可以继续处理所捕捉的音频信号222,但是可能不自动地将所捕捉的音频信号222发送到通信接口208。当处于解除静音的状态时,麦克风204可以捕捉音频信号222,并且处理器102可以处理所捕捉的音频222,并且可以将所捕捉的音频222发送到通信接口208,以便所捕捉的音频222通过网络230进行传送。

处理器102可以获取、解码和执行指令112以访问在麦克风204处于静音状态时由麦克风204捕捉的用户220的语音的音频信号222。如本文所讨论的,当麦克风204处于静音状态时,麦克风204可以捕捉音频信号222并且可以将捕捉的音频信号222存储在数据存储202中。这样,例如,处理器102可以从数据存储202访问捕捉的音频信号222。

处理器102可以获取、解码和执行指令114以分析所访问的音频信号222的频谱或频率内容,来确定在用户220说话时用户220所处的方向。即,例如,处理器102可以执行对所访问的音频信号222的频谱和/或频率内容分析,以确定在用户220说话时用户220是否正面对麦克风。例如,当用户220背对麦克风204时,所捕捉的音频222可由于高频率滚降(roll-off)而在高频率范围中具有较低强度。通过使用与来自不同方向的语音样本相对应的,例如与用户在用户的语音期间的方向相对应的训练数据以及与来自不同用户的语音样本相对应的训练数据来训练分类器,用户220的语音方向可被分类为朝向麦克风204或远离麦克风204,例如,朝向麦克风204的一侧。即,可使用面对麦克风的用户的语音样本和不面对麦克风的用户的语音样本来训练ml模型,并且ml模型可捕捉语音样本的频谱和/或频率内容的差异,以能够区分所捕捉的音频信号222是否包括与面对麦克风204的用户的语音一致的频谱和/或频率内容。当在ip语音(voip)系统上的会议呼叫开始期间在推断期间部署ml模型时,这可能特别有用。ml模型还可用于在会议呼叫期间在静音和解除静音之间切换。

ml模型还可使用来自话音活动检测器(vad)的输入,话音活动检测器(vad)可检测音频信号中人类语音的存在或不存在。ml模型可在每帧上采用手动设计的特征,诸如高于阈值频率的频谱滚降、所测量频谱中的平均电平、帧上的差异频谱和/或诸如此类。替代地,采用诸如卷积神经网络(cnn)、与全连接神经网络(fcnn)级联的长短期记忆(lstm)或诸如此类的深度神经网络(dnn)的深度学习模型可用于自动提取深度特征以训练机器学习模型来在面对前方和面对侧面(利用头部运动)简档(profile)之间分类。

处理器102可以获取、解码和执行指令116以基于用户220说话时用户220正面对麦克风204的确定来使麦克风204解除静音。处理器102可以基于用户220在用户说话时正面对麦克风204的确定来解除对麦克风204的静音,因为用户220在用户说话时正面对麦克风204可能是用户220意图使用户的语音被捕捉的指示。在一些情况中,诸如在会议呼叫开始时,麦克风204可以默认为静音状态并且用户220可能在没有首先将麦克风改变为解除静音状态的情况下开始讲话。结果,用户220可能需要重复用户220所说的内容,用户220可能发现这是不经济的。通过实现指令112-116,当用户220面对麦克风204时,麦克风204被静音时所捕捉的用户220的语音在被确定可能已经发出时,所述语音可能仍然被使用,这可以使得用户220能够继续讲话而不必重复较早的语音。

在一些示例中,处理器102可能远离麦克风204。在这些示例中,处理器102可以经由网络230从可以连接到麦克风204的远程定位的电子设备访问捕捉的音频信号222。另外,处理器102还可以经由网络230向远程定位的电子设备输出指令以使麦克风204解除静音。响应于接收到该指令,远程定位的电子设备可以使麦克风204解除静音。

系统200中所示的(一个或多个)输出设备206可以包括例如扬声器、显示器以及诸如此类。(一个或多个)输出设备206可以输出例如从远程系统240接收的音频。(一个或多个)输出设备206还可以输出从远程系统240接收的图像和/或视频。

现在转到图2b,示出了处理器102可以执行以确定用户语音的方向的示例过程框图250。如所示,处理器102可以在训练阶段252和推断阶段254期间操作。特别地,由麦克风204捕捉的音频222可以从模拟信号转换为数字信号,并且该数字信号可以被过滤260。在训练阶段252期间,训练阶段252例如是机器学习模型训练阶段252,特征提取262可以被应用于经转换和过滤的信号。经转换和过滤的信号的所提取的特征可以用于生成说话者模型264。说话者模型264可以捕捉经转换和过滤的信号的频谱和/或频率内容中的差异,以能够区分所捕捉的音频信号222包括与面对麦克风204的用户的语音一致的频谱和/或频率内容,还是包括与不面对麦克风204的用户的语音一致的频谱和/或频率内容。因此,例如,多个经转换和过滤的信号可用于在训练阶段252期间生成说话者模型264。

在推断阶段254期间,可以提取266经转换和过滤的信号的特征。另外,可以对所提取的特征应用部署的方向性模型268。部署的方向性模型268可以使用说话者模型264来生成并且可以用于确定在捕捉音频222时用户220说话的方向。基于所部署的方向性模型268的应用,可以做出关于用户语音的方向272、例如,当捕捉音频222时用户是否正在面对麦克风204的决定270。另外,用户语音的方向272可以被输出,例如,可以被输出以控制麦克风204的操作。如本文所讨论的,用户语音的方向272可用于确定是否要对静音的麦克风204解除静音。

现在参考图1-3。图3示出了可以基于用户220在用户220说话时是否可能正面对麦克风204来自动控制麦克风204的解除静音的示例装置300的框图。应当理解,图3中描绘的示例装置300可以包括附加部件并且可以在不脱离本文公开的示例装置300的范围的情况下去除和/或修改本文描述的部件中的一些部件。

装置300可以类似于图1中描绘的装置100,并且因此可以包括可以类似于处理器102的处理器302,以及可以类似于非暂时性计算机可读介质110的非暂时性计算机可读介质310。计算机可读介质310可以具有在其上存储的、处理器302可以执行的机器可读指令312-322(也可以称为计算机可读指令)。

处理器302可以获取、解码和执行指令312以访问以访问由麦克风204捕捉的用户220的语音的音频信号222。如本文所讨论的,麦克风204可以在麦克风204处于静音状态时捕捉音频信号222。另外,麦克风204可以捕捉音频信号222并且可以将捕捉的音频信号222存储在数据存储202中。这样,例如,处理器102可以从数据存储202访问捕捉的音频信号222。在处理器302远离麦克风204的其他示例中,处理器302可以经由网络230访问音频信号222。

处理器302可以获取、解码和执行指令314以确定当用户220说话时用户220是否正面对麦克风204,例如生成捕捉的音频222。如本文所讨论的,处理器302可以执行对所访问的音频信号222的频谱和/或频率内容分析,以确定在用户220说话时用户220是否正面对麦克风。此外或替代地,处理器302可以对捕捉的音频信号222应用如本文所讨论的机器学习模型,以确定当用户220说话时用户220是否可能正面对麦克风204。

在一些示例中,处理器302可以确定在麦克风204捕捉用户220的话音的音频信号222时麦克风204是否处于静音状态。在这些示例中,处理器302可以基于麦克风204处于静音状态的确定来确定用户220在用户220说话时是否正面对麦克风204。另外,当麦克风204捕捉用户220的话音的音频信号222时,处理器302可以基于麦克风204不处于静音状态、例如处于解除静音状态的确定,输出捕捉的音频信号222,而不分析捕捉的音频信号222的频谱或频率内容。

处理器302可以获取、解码和执行指令316以基于用户220在用户220说话时正面对麦克风204的确定来使麦克风204解除静音。处理器302可以基于用户220在用户说话时正面对麦克风204的确定来使麦克风204解除静音,因为用户220在用户说话时正面对麦克风204可能是用户220意图用户的语音被捕捉的指示。

处理器302可以获取、解码和执行指令318以基于用户220在说话时用户220正面对麦克风204的确定来输出所捕捉的音频信号222。例如,处理器302可以将捕捉的音频信号222输出到通信接口208,使得通信接口208可以经由网络230将捕捉的音频信号222输出到远程系统240。此外或替代地,处理器302可将所捕捉音频信号222输出到应用或设备以便所捕捉的音频信号222被存储、翻译或诸如此类。

处理器302可以获取、解码和执行指令320以基于用户220说话时用户220没有面对麦克风204的确定来将麦克风204维持在静音状态和/或丢弃所捕捉的音频信号222。也就是说,例如,除了将麦克风204维持在静音状态之外,处理器302还可以基于用户220在用户220说话时没有面对麦克风204的确定而不输出所捕捉的音频信号222。

处理器302可以获取、解码和执行指令322,以访问在第二麦克风226处于静音状态时由第二麦克风226捕捉的用户220的语音的第二音频信号224,第二麦克风226与麦克风204间隔开。例如,第二麦克风226可以距离麦克风204至少几英寸定位,使得在用户220正面对麦克风204和第二麦克风226中的一个或两个的一侧的情况下,声波可以在与麦克风204不同的时间到达第二麦克风226。通过特定示例,第二麦克风226可以例如位于膝上型计算设备的一侧并且麦克风204可以位于膝上型计算设备的相对侧。

处理器302可以获取、解码和执行指令314以分析由麦克风204捕捉的音频信号222和由第二麦克风226捕捉的第二音频信号224的特性。例如,处理器302可以确定麦克风204捕捉音频信号222的时机(timing)和第二麦克风226捕捉第二音频信号224的时机。例如,处理器302可以实现到达时间差技术以检测所捕捉的音频222、224的方向。

处理器302可以获取、解码和执行指令314以还基于所分析的特性来确定在用户220说话时用户220是否正面对麦克风204和第二麦克风226。例如,处理器302可以基于麦克风204在第二麦克风226捕捉第二音频224的预定义时间段内捕捉音频信号222的确定,来确定用户220在用户220说话时正面对麦克风204和第二麦克风226。预定义时间段可以基于使用各种用户语音的测试和/或训练。另外,处理器302可以基于麦克风204在第二麦克风226捕捉第二音频224的预定义时间段之外捕捉音频信号222的确定来确定用户220没有面对麦克风204和第二麦克风226。

处理器302可以获取、解码和执行指令314以进一步基于通过分析所访问的音频信号222的频谱或频率内容的用户220正面对麦克风204的确定以及基于所分析的特性的用户220正面对麦克风204和第二麦克风226的确定两者来确定是否对麦克风304和第二麦克风226解除静音。

关于图4和图5中描绘的方法400更详细地讨论可以实现装置100、300的各种方式。特别地,图4和图5分别描绘了用于基于关于用户200说话时用户200是否正面对麦克风204的确定而对麦克风204自动解除静音的示例方法400和500。对于本领域普通技术人员来说清楚的是,示例方法400和500可以表示一般化的说明,并且可以添加其他操作或者可以去除、修改或重新布置现有操作而不脱离方法400和500的范围。

为了说明的目的,参考图1-3中所示的装置100、300来进行方法400和500的描述。应当理解,可以实现具有其他配置的装置以执行方法400和/或500而不脱离方法400和/或方法500的范围。

在框402处,处理器102、302可以访问由麦克风204捕捉的用户220的话音的音频信号222。在框404处,处理器102、302可确定当麦克风204捕捉用户220的话音的音频信号222时麦克风204是否处于静音状态。基于当麦克风204捕捉用户220的话音的音频信号222时麦克风204未处于静音状态的确定,在框406处,处理器102、302可输出所捕捉的音频信号222。处理器102、302可以以本文描述的任何方式输出捕捉的音频信号222。

然而,基于当麦克风204捕捉用户的话音的音频信号222时麦克风204处于静音状态的确定,在框408处,处理器102、302可以对所捕捉的音频信号222应用机器学习模型以确定当用户220说话时用户220是否可能正面对麦克风204。基于用户220在用户220说话时可能正面对麦克风204的确定,在框412处,处理器102、302可以使麦克风204解除静音。另外,在框406处,处理器102、302可输出捕捉的音频信号。然而,基于用户220在用户220说话时可能不面对麦克风204的确定,在框414处,处理器102、302可以丢弃所捕捉的音频信号414。

现在转到图5,在框502处,处理器102、302可以访问由麦克风204和第二麦克风226捕捉的音频信号。也就是说,处理器102、302可以访问由麦克风204捕捉的音频信号,例如包含音频信号的音频文件,以及由第二麦克风226捕捉的第二音频信号224。在一些示例中,可在麦克风204和第二麦克风226中的每个都处于静音状态时捕捉音频信号222、224。另外,如本文所讨论的,第二麦克风226可以与麦克风204间隔开。

在框504处,处理器102、302可以分析由麦克风204捕捉的音频222和由第二麦克风226捕捉的第二音频224的特性。例如,处理器102、302可以分析所捕捉的音频222、224以确定捕捉音频信号222、224的时机。

在框506处,处理器102、302可以基于所分析的特性来确定在用户220说话时用户220是否可能正面对麦克风204和第二麦克风226。例如,处理器102、302可以基于时机在预定义时间段内来确定用户可能正面对麦克风204和第二麦克风226。

在框508处,处理器102、302可基于通过应用机器学习模型的用户220正面对麦克风204的确定以及基于所分析的特性的用户220正面对麦克风204和第二麦克风226的确定两者来确定是否将麦克风204和第二麦克风226置于解除静音状态。即,处理器102302可以在通过应用机器学习模型并且通过分析音频信号222和224用户220已经被确定为在用户说话时可能已经面对麦克风204时来确定用户220正面对麦克风204和第二麦克风226。然而,处理器102、302可以在通过应用机器学习模型并且通过分析音频信号222和224用户220尚未被确定为在用户说话时可能已经面对麦克风204时来确定用户220没有面对麦克风204或第二麦克风226。

基于当用户220说话时用户220可能正面对麦克风204和第二麦克风226的确定,在框510处,处理器102、302可以使麦克风204和第二麦克风226解除静音。然而,基于用户220说话时用户220可能没有面对麦克风204和第二麦克风226的确定,在框512处,处理器102、302可丢弃所捕捉的音频信号222和第二所捕捉的音频信号224。

方法400和/或500中阐述的一些或所有操作可以作为工具(utility)、程序或子程序包括在任何期望的计算机可访问介质中。另外,方法400和/或500中阐述的一些或所有操作可以通过计算机程序来体现,其可以以活跃和不活跃两者的多种形式存在。例如,它们可以作为机器可读指令存在,包括源代码、目标代码、可执行代码或其他格式。上述内容中的任何内容都可以在非暂时性计算机可读存储介质上体现。非暂时性计算机可读存储介质的示例包括计算机系统ram、rom、eprom、eeprom以及磁性或光学的盘或带。因此,应当理解,能够执行上述功能的任何电子设备都可以执行上面列举的那些功能。

现在转到图6,示出了可以具有在其上存储的机器可读指令的示例非暂时性计算机可读介质600的框图,所述机器可读指令在由处理器执行时可以使处理器基于用户220在用户说话时可能正面对麦克风204的确定来提示用户220对麦克风204解除静音。应当理解,图6中描绘的非暂时性计算机可读介质600可以包括附加指令,并且可以在不脱离本文公开的非暂时性计算机可读介质600的范围的情况下去除和/或修改本文描述的指令中的一些。为了说明的目的,参考图1-3中所示的装置100、300来进行非暂时性计算机可读介质600的描述。

非暂时性计算机可读介质600可以具有其上存储的机器可读指令602-608,诸如图1中描述的处理器102之类的处理器可以执行这些指令。非暂时性计算机可读介质600可以是包含或存储可执行指令的电子、磁、光或其他物理存储设备。非暂时性计算机可读介质600可以是例如随机存取存储器(ram)、电可擦除可编程只读存储器(eeprom)、存储设备、光盘以及诸如此类。术语“非暂时性”不包含暂时性传播信号。

处理器可以获取、解码和执行指令602以访问由麦克风204捕捉的用户的语音的音频文件。处理器可以获取、解码并执行指令604以确定当麦克风204捕捉用户的语音时麦克风204是否处于静音状态。处理器可以获取、解码和执行指令606以基于麦克风204在麦克风204捕捉用户的语音时处于静音状态的确定来对所捕捉的用户的语音应用机器学习模型来确定在用户说话时用户是否可能正面对麦克风204,机器学习模型是使用分类器生成的,分类器是使用与在用户的语音期间的用户的方向相对应的训练数据来训练的。另外,处理器可以获取、解码和执行指令608以基于用户220在用户220说话时可能正面对麦克风204的确定来针对用户220输出将麦克风204置于解除静音状态的指示。

尽管图6中未示出,但是非暂时性计算机可读介质还可以包括如下指令,所述指令可以使处理器基于在用户说话时用户可能正面对麦克风的确定而通过通信接口输出所捕捉的音频文件。此外或替代地,非暂时性计算机可读介质还可以包括如下指令,所述指令可使处理器访问在第二麦克风226处于静音状态时由第二麦克风226捕捉的用户的语音的第二音频,第二麦克风226与麦克风204间隔开,分析由麦克风204捕捉的音频和由第二麦克风226捕捉的第二音频的特性,基于所分析的特性确定在用户220说话时用户220是否正面对麦克风204和第二麦克风226,以及基于通过应用机器学习模型的用户220正面对麦克风204的确定以及基于所分析的特性的用户220正面对麦克风204和第二麦克风226的确定两者来确定麦克风204将被置于解除静音状态还是保持在静音状态。

尽管贯穿本公开的整体具体地进行了描述,但是本公开的代表性示例在广泛的应用上具有效用,并且以上讨论不旨在并且不应被解释为限制性的,而是被提供作为本公开的各方面的说明性讨论。

在此已经描述和示出的是本公开的示例连同其一些变型。在此使用的术语、描述和附图仅通过说明的方式进行了阐述并且不是意味着进行限制。在本公开的范围内,许多变型是可能的,本公开的范围旨在由以下权利要求及其等同物来限定,其中,所有术语都意味着其最广泛的合理意义,除非另有说明。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1