Electronicdevicesandmethodsthatadaptfilteringofamicrophonesignal...的制作方法

文档序号:2831924阅读:286来源:国知局
专利名称:Electronic devices and methods that adapt filtering of a microphone signal ...的制作方法
技术领域
本发明涉及能够记录麦克风信号的电子设备,更具体地涉及在蜂窝终端、摄录机 和其他电子设备内对麦克风信号进行滤波。
背景技术
各种各样的电子设备正逐渐具备音频记录能力。例如,大多数蜂窝移动通信终端 及数字相机都能够记录音频及视频以提供摄录机型功能。背景噪声会对所记录的音频造成 很多不利的影响。例如,背景噪声可能使设备操作者想要记录的特定人的声音变模糊或被 掩蔽。背景噪声可以包括风噪和诸如车辆的其他噪声源、来自除用户之外的人的话音和/ 或背景首乐。

发明内容
本发明的实施方式涉及响应于对目标说明人话音的识别对麦克风信号进行自适 应滤波的电子设备及方法。根据本发明的某些实施方式,一种电子设备包括麦克风和声音处理器。该麦克风 响应于进入的声音而生成麦克风信号。该声音处理器被设置为识别麦克风信号内的目标说 话人话音,并响应于对所述目标说话人话音的识别而调整对所述麦克风信号的滤波。在某些其他实施方式中,所述声音处理器包括说话人表征电路、自适应声音滤波 器电路和说话人识别电路。该说话人表征电路被设置为在训练模式下工作以学习所述麦克 风信号中的所述目标说话人话音成分的特征,并存储所习得的特征。该自适应声音滤波器 电路被设置为响应于控制信号对所述麦克风信号进行自适应滤波。该说话人识别电路被设 置为使用所习得的特征来识别所述麦克风信号中存在所述目标说话人话音,并对所述控制 信号进行调整以使所述自适应声音滤波器电路进行自适应滤波,从而相对于所述麦克风信 号中的其他成分来增大所述目标说话人话音成分。在某些其他实施方式中,所述自适应声音滤波器电路包括可变带通滤波器,该可 变带通滤波器具有响应于所述控制信号而变化的带通频率。所述说话人识别电路进一步被 设置为,通过使用所习得的特征来确定所述目标说话人话音的频率范围,并通过响应于所 确定的所述目标说话人话音的频率范围来调整所述控制信号以改变所述可变带通滤波器 的带通频率,对识别出所述麦克风信号中存在所述目标说话人话音作出响应。在某些其他实施方式中,所述自适应声音滤波器电路包括高通滤波器,该高通滤 波器具有响应于所述控制信号而变化的截止频率。所述说话人识别电路进一步被设置为, 通过使用所习得的特征来确定所述目标说话人话音的低频范围,并通过响应于所确定的低 频范围来调整所述控制信号以改变所述高通滤波器的截止频率,对识别出所述麦克风信号 中存在所述目标说话人话音作出响应。在某些其他实施方式中,所述说话人表征电路进一步被设置为,在所述训练模式期间工作以在所述目标说话人发出特定歌曲/语音时从所述麦克风信号中的所述目标说 话人话音成分中学习所述目标说话人话音的时变频谱模式。所述说话人识别电路进一步被 设置为使用所习得的时变频谱模式来识别所述麦克风信号中存在发出所述特定歌曲/语 音的所述目标说话人话音;通过在所述歌曲/语音期间使用所习得的时变频谱模式来随时 间改变所述控制信号以动态地调节(time)所述自适应声音滤波器电路从而跟踪所述目标 说话人话音的预计时变频谱模式并且相对于所述麦克风信号中的其他成分来增大所述目 标说话人话音成分,来对识别出所述麦克风信号中存在所述目标说话人话音作出响应。在某些其他实施方式中,所述自适应声音滤波器电路包括可变带通滤波器,该可 变带通滤波器具有响应于所述控制信号而变化的带通频率。所述说话人表征电路进一步 被设置为,通过在所述目标说话人发出所述特定歌曲/语音时对所述麦克风信号中所述目 标说话人话音的频率范围随时间的差异进行表征(characterize),来学习所述时变频谱模 式。所述说话人识别电路进一步被设置为,在所述特定歌曲/语音期间,使用所习得的时变 频谱模式来调整所述带通滤波器的带通频率使之遵循(follow)所述目标说话人话音的频 率范围随时间的差异,从而相对于所述麦克风信号中的其他成分来增大所述目标说话人话 音成分。在某些其他实施方式中,所述说话人表征电路进一步被设置为学习间隙的定时 (timing of gaps),在所述间隙中,当所述目标说话人发出所述特定歌曲/语音时,所述麦 克风信号中的所述目标说话人话音低于阈值幅度。所述说话人识别电路进一步被设置为, 使用所习得的间隙的定时来随时间改变所述控制信号,以在各个间隙期间相对于所述麦克 风信号中的所述目标说话人话音成分来增大所述麦克风信号的其他成分,而在各个间隙之 间相对于所述麦克风信号中的所述其他成分来增大所述目标说话人话音成分。在某些其他实施方式中,所述自适应声音滤波器电路包括可变增益放大器,该可 变增益放大器放大所述麦克风信号并具有响应于所述控制信号而变化的增益。所述说话人 表征电路进一步被设置为,在所述训练模式期间工作,以在所述目标说话人发出特定歌曲/ 语音时从所述麦克风信号中的所述目标说话人话音成分中学习所述目标说话人话音的时 变幅度模式。所述说话人识别电路进一步被设置为,在所述歌曲/语音期间,通过使用所习 得的时变幅度模式随时间改变所述控制信号,以动态地调节所述可变增益放大器的增益, 从而跟踪所述目标说话人话音的预计时变幅度模式,来对识别出存在所述目标说话人话音 作出响应。在某些其他实施方式中,该电子设备进一步包括射频接收器和距离确定电路。该 射频接收器被设置为从所述目标说话人携带的远程发射器接收无线通信信号。该距离确定 电路被设置为确定所接收的通信信号的信号强度,并响应于接收信号强度来估计从所述电 子设备到所述远程发射器的距离。所述说话人表征电路进一步被设置为,在对所述麦克风 信号进行滤波期间,响应于所估计出的从所述电子设备到所述远程发射器的距离,对所习 得的所述目标说话人话音的特征进行自适应,以补偿距离对所述目标说话人话音成分的特 征的预计影响。在某些其他实施方式中,该电子设备进一步包括图像传感器和距离确定电路。该 图像传感器被设置为生成图像信号。该距离确定电路被设置为识别所述图像信号中存在预 计与所述目标说话人相对应或位置接近所述目标说话人的人,并响应于此人相对于多个阈值的大小来估计从所述电子设备到此人的距离。所述说话人表征电路进一步被设置为,在 对所述麦克风信号进行滤波期间,响应于所估计的从所述电子设备到所识别的人之间的距 离,对所习得的所述目标说话人话音的特征进行自适应,以补偿距离对所述目标说话人话 音成分的特征的预计影响。在某些其他实施方式中,该射频接收器被设置为从所述目标说话人携带的远程发 射器接收无线通信信号。该距离确定电路被设置为确定所接收的通信信号的信号强度,并 响应于接收信号强度来估计从所述电子设备到所述远程发射器的距离。所述麦克风包括具 有多个麦克风单元以及可控相位组合器电路的缩放/波束可调麦克风,所述可控相位组合 器电路响应于相位控制信号对来自所述麦克风单元的信号之间的相对相位进行调节,并对 相位调节后的信号进行组合以生成所述麦克风信号。所述说话人识别电路进一步被设置 为,响应于识别出所述麦克风信号中存在所述目标说话人话音以及估计出的从所述电子设 备到所述远程发射器的距离来调整所述相位控制信号,以相对于所述麦克风信号中的其他 成分来增大所述目标说话人话音成分。在某些其他实施方式中,该图像传感器被设置为生成图像信号。该距离确定电路 被设置为识别所述图像信号中是否存在人,并响应于此人相对于多个阈值的大小来估计从 所述电子设备到此人的距离。所述麦克风包括具有多个麦克风单元以及可控相位组合器电 路的缩放/波束可调麦克风,所述可控相位组合器电路响应于相位控制信号对来自所述麦 克风单元的信号之间的相对相位进行调节,并对相位调节后的信号进行组合以生成所述麦 克风信号。所述说话人识别电路进一步被设置为,响应于识别出所述麦克风信号中存在所 述目标说话人话音以及估计出的从所述电子设备到所识别的人的距离来调整所述相位控 制信号,以相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分。在某些其他实施方式中,该电子设备进一步包括音频记录器,该音频记录器记录 来自所述自适应声音滤波器的经滤波的麦克风信号。本发明的某些实施方式涉及一种方法,该方法包括计算机实现的如下步骤对麦 克风信号内的目标说话人话音进行识别,并响应于对所述目标说话人话音的识别来调整对 所述麦克风信号的滤波。在某些其他实施方式中,该方法进一步包括计算机实现的如下步骤在训练模式 期间学习所述麦克风信号中的所述目标说话人话音成分的特征,以及使用所习得的特征来 识别所述麦克风信号中存在所述目标说话人话音并对控制信号进行调整以使所述自适应 声音滤波器电路对所述麦克风信号的滤波进行自适应,从而相对于所述麦克风信号中的其 他成分来增大所述目标说话人话音成分。在某些其他实施方式中,该方法进一步包括计算机实现的如下步骤在所述训练 模式期间,当所述目标说话人发出特定歌曲/语音时学习所述麦克风信号中所述目标说话 人话音的频率范围随时间的特征差异。该方法还包括计算机实现的如下步骤在所述特定 歌曲/语音期间,通过使用所习得的所述目标说话人话音的频率范围随时间的特征差异随 时间来改变所述控制信号,以动态地调节所述自适应声音滤波器电路从而跟踪所述目标说 话人话音的频率范围随时间的预计特征差异,并相对于所述麦克风信号中的其他成分来增 大所述目标说话人话音成分,对识别出所述麦克风信号中存在所述目标说话人话音作出响 应。
在某些其他实施方式中,该方法进一步包括计算机实现的如下步骤在所述训练 模式期间,当所述目标说话人发出特定歌曲/语音时学习所述麦克风信号中所述目标说话 人话音的幅度模式随时间的特征差异。该方法还包括计算机实现的如下步骤在所述特定 歌曲/语音期间,通过使用所习得的所述目标说话人话音的幅度模式随时间的特征差异随 时间改变所述控制信号,来动态地调节所述自适应声音滤波器电路中对所述麦克风信号进 行放大的可变增益放大器的增益,从而跟踪所述目标说话人话音的幅度模式随时间的预计 特征差异,来对识别出所述麦克风信号中存在所述目标说话人话音作出响应。在某些其他实施方式中,该方法进一步包括计算机实现的如下步骤在所述训练 模式期间学习间隙的定时,在所述间隙中,当所述目标说话人发出所述特定歌曲/语音时, 所述麦克风信号中的所述目标说话人话音低于阈值幅度。该方法还包括计算机实现的如下 步骤通过使用所习得的间隙的定时随时间改变所述控制信号,以动态地调节所述自适应 声音滤波器电路,从而在各个间隙期间相对于所述麦克风信号中的所述目标说话人话音成 分来增大所述麦克风信号中的其他成分,而在各个间隙之间相对于所述麦克风信号中的所 述其他成分来增大所述目标说话人话音成分,对识别出所述麦克风信号中存在所述目标说 话人话音作出响应。在某些其他实施方式中,该方法进一步包括计算机实现的如下步骤响应于电子 设备从所述目标说话人携带的远程发射器接收到的信号的强度,估计从所述电子设备到所 述远程发射器的距离。该方法还包括计算机实现的如下步骤在对所述麦克风信号进行滤 波期间,响应于所估计的从所述电子设备到所述远程发射器的距离对所习得的所述目标说 话人话音的特征进行自适应,以补偿距离对所述目标说话人话音成分的特征的预计影响。本发明的某些其他方面涉及一种电子设备,其包括麦克风、说话人表征电路、自适 应声音滤波器电路以及说话人识别电路。该麦克风响应于进入的声音而生成麦克风信号。 该说话人表征电路被设置为在训练模式下工作,以在目标说话人发出特定歌曲/语音时从 所述麦克风信号中的所述目标说话人话音成分中学习所述目标说话人话音的频率范围的 时变差异和/或幅度模式的时变差异。该自适应声音滤波器电路被设置为响应于控制信 号对所述麦克风信号进行自适应滤波。所述自适应声音滤波器电路包括可变带通滤波器和 /或可变增益放大器,该可变带通滤波器具有响应于所述控制信号而变化的带通频率,该可 变增益放大器具有响应于所述控制信号而变化的增益。该说话人识别电路被设置为使用所 习得的所述目标说话人话音的频率范围的时变差异和/或幅度模式的时变差异来识别所 述麦克风信号中存在发出所述特定歌曲/语音的所述目标说话人话音,并通过使用所述目 标说话人话音的频率范围的时变差异和/或幅度模式的时变差异来随时间改变所述控制 信号,以动态地调节所述带通滤波器的带通频率使之遵循所述目标说话人话音的频率范围 随时间的差异,和/或动态地调节所述可变增益放大器的增益使之遵循所述目标说话人话 音的幅度模式随时间的差异,来对识别出所述麦克风信号中存所述目标说话人话音作出响 应。本领域技术人员在阅读了以下附图及详细描述后可以想到根据本发明实施方式 的其他电子设备和/或方法。旨在将所有这种附加电子设备及方法包括在本说明书中,落 入本发明的范围内,并受到所附权利要求书的保护。


附图被包括进来以提供对本发明的进一步理解,并且被包含而构成了本申请的一 部分,附图例示了本发明的特定实施方式。在附图中图1是根据本发明一些实施方式的包括无线通信终端的无线通信系统的框图,该 无线通信终端被设置为响应于识别出目标说话人话音而对麦克风信号进行自适应滤波;图2是图1的无线通信终端的根据本发明一些实施方式而设置的若干个部件的框 图,这些部件包括声音处理器;图3是例示了根据本发明一些实施方式的,在训练模式期间可以由图1的无线通 信终端执行以在目标说话人发出特定歌曲/语音时学习该目标说话人的各种特征的操作 和方法的流程图;图4是例示了根据本发明一些实施方式的,在记录模式期间可以由图1的无线通 信终端执行以响应于根据训练模式习得的特征通过自适应声音滤波器电路进行自适应滤 波/动态调节的操作和方法的流程图;图5是例示了根据本发明一些实施方式的,在记录模式期间可以由图1的无线通 信终端执行以响应于估计出的该终端与目标说话人携带的远程发射器之间的距离对根据 训练模式习得的各种特征进行自适应的操作和方法的流程图;图6是例示了根据本发明一些实施方式的,在记录模式期间可以由图1的无线通 信终端执行以响应于估计出的该终端与在图像流中识别出的人(其可能是目标说话人或 位置接近目标说话人的人)之间的距离,对根据训练模式习得的各种特征进行自适应的操 作和方法的流程图。
具体实施例方式下面将参照附图更全面地描述本发明的各种实施方式。然而,本发明不应当理解 为限于此处描述的实施方式。而是,这些方式被提供用于使公开充分和完整,并向本领域技 术人员表达本发明的范围。应理解的是,此处所使用的措辞“包括”是开放式的,并且包含一个或更多个所述 的元素、步骤和/或功能,但不排除一个或更多个未说明的元素、步骤和/或功能。除非上 下文中另有说明,此处所使用的单数形式的“一个”和“该”旨在也包括复数形式。措辞“和 /或”以及“/”包括关联列出的一项或更多项的任意及全部组合。在附图中,可能出于清楚 的目的而夸大了区域的大小及相对大小。通篇用相同的附图标记指代相同的元素。某些实施方式可以用硬件和/或软件(包括固件、驻留软件、微代码等)来具体实 现。因而,此处使用的术语“信号”可以呈连续波形和/或离散值的形式,诸如存储器或寄 存器中的数字值。此外,各个实施方式的形式可以为计算机可用或计算机可读存储介质上 的计算机产品,在该介质中包含有计算机可用或计算机可读程序代码以供指令执行系统使 用或与指令执行系统相结合地使用。因而,此处使用的术语“电路”和“控制器”可以呈诸 如由指令处理设备(例如通用微处理器和/或数字信号微处理器)执行的计算机可读程序 代码之类的数字电路形式,和/或模拟电路形式。因此,以下针对图4至6描述的操作至少 可以部分地实现为由计算机(例如微处理器)执行的计算机可读程序代码。下面参照框图和操作流程图对实施方式进行描述。应理解的是,在框中注明的功能/动作可以按照与所例示的操作不同的顺序发生。例如,接连示出的两个框可以实际上 大致同时执行,或者取决于所涉及的功能/动作,这两个框有时可以按相反顺序执行。尽管 某些图在通信路径上包括用于示出通信的主要方向的箭头,但应理解的是,通信可以在与 所示箭头相反的方向上发生。根据本发明的多种实施方式,一种电子设备包括麦克风和声音处理器。麦克风响 应于进入的声音而生成麦克风信号。声音处理器被设置为识别麦克风信号内的目标说话人 话音并响应于对目标说话人话音的识别而调整对麦克风信号的滤波。仅出于例示和说明的目的,此处在包括局域网(WLAN)并具有蓝牙通信能力的诸 如蜂窝终端的示例性无线移动通信终端(“终端”)的背景下描述多种实施方式。然而,应 理解的是,本发明不限于这种实施方式,并且通常可以在根据此处描述的至少一种实施方 式工作并且对诸如麦克风信号进行滤波的任何电子设备内具体实施本发明,该电子设备例 如是声音(“音频”)记录设备或音频及视频记录器(例如摄录机)。其他的非限制性示例 性电子设备包括数字音频记录器、个人数据助理(PDA)、数字摄像机及膝上型/掌上型/台 式计算机。图1是包括终端110的无线通信系统100的框图,该终端110被设置为响应于目 标说话人话音的识别对麦克风信号进行自适应滤波。参照图1,终端Iio包括麦克风112、 声音处理器114、摄像机116和视频及声音记录器118。终端110由此可以被设置为对视频 及声音都进行记录的视频_声音记录器。终端110可以进一步包括无线通信协议控制器120、蜂窝收发器122、WLAN收发 器124 (例如与IEEE 802. lla-g标准中的一个或更多个兼容)以及蓝牙收发器126。蜂 窝收发器122可以被设置为利用一个或更多个蜂窝通信标准进行通信,这些蜂窝通信标准 例如是全球移动通信(GSM)、通用分组无线业务(GPRS)、增强数据速率GSM演进(EDGE)、集 成数字增强网络(iDEN)、码分多址(CDMA)、宽带CDMA、CDMA2000和/或通用移动通信系统 (UMTS)。由此,终端110可以被设置为通过无线空中接口与蜂窝收发器基站136进行通信 并经由WLAN收发器124和/或蓝牙收发器126与另一终端138进行通信。终端110可以进一步包括能够对终端110的多种其他部件进行控制的通用控制器 128,并且通用控制器128可以被设置为对用户输入界面132作出响应的用户可选择应用, 以控制视频及声音记录器118来通过扬声器130及显示器134提供声音及视频记录和播放 功能。下面参照图2的框图来描述声音处理器114和麦克风112的各个示例性部件及操作。参照图2,声音处理器114被设置为对来自麦克风112的麦克风信号140内的目 标说话人话音进行识别,并响应于对目标说话人话音的识别来调整对麦克风信号140的滤 波。声音处理器114包括自适应声音滤波器电路150和话音识别控制器160。自适应声音 滤波器电路150被设置为响应于控制信号152对麦克风信号140进行自适应滤波。话音识 别控制器160包括说话人识别电路162、说话人表征(characterization)电路164,以及存 储有习得说话人特征的库166。库166可以包括一个或更多个半导体存储器和/或其他数 据存储装置,如硬盘驱动器和/或CD/DVD驱动器。说话人表征电路164被设置为工作在训练模式下以学习麦克风信号140中的目标 说话人话音成分的特征,并将习得的特征存储在库166中。说话人表征电路164习得的特 征可以包括但不限于说话人话音的平均/最大/最小频谱(带宽)、音调(pitch)和/或节奏(cadence)。说话人识别电路162被设置为在记录模式期间使用习得的特征来识别麦克风信 号140中存在目标说话人话音,其中该记录模式可位于学习模式之后。响应于这种识别,说 话人识别电路162可以调整控制信号152以使自适应声音滤波器电路150进行自适应滤 波,从而相对于提供给视频及声音记录器118内的音频记录器170的经滤波信号142中的 其他成分来增大目标说话人话音成分。在某些实施方式中,自适应声音滤波器电路150包括可变带通滤波器,该可变带 通滤波器的带通频率(例如上、下衰减转角频率)响应于控制信号152而变化。说话人识 别电路162可以通过使用习得的特征(来自于库166)确定目标说话人话音的频率范围,并 通过响应于所确定的频率范围来调整控制信号152以改变可变带通滤波器的带通频率,来 对识别出麦克风信号140内存在目标说话人话音作出响应。因而,可以将该带通滤波器调 节为响应于识别出存在目标说话人话音及其相关联的习得特征,相对于经滤波信号142中 的其他成分来增大目标说话人话音成分。在某些其他实施方式中,自适应声音滤波器150包括对麦克风信号140进行滤波 的高通滤波器。该高通滤波器具有响应于控制信号152而变化的截止频率。说话人识别电 路162可以通过使用习得的特征确定目标说话人话音的低频范围,并通过响应于所确定的 低频范围对该控制信号进行调整以改变该高通滤波器的截止频率,来对识别出麦克风信号 140中存在目标说话人话音作出响应。在某些进一步的实施方式中,说话人表征电路164可以被设置为在目标说话人发 出特定歌曲/语音时学习该说话人话音的与时变模式相关联的特征。图3是根据本发明多 种实施方式的在学习模式期间可以由识别控制器160执行的示例性操作及方法300的流程 图。参照图3,说话人表征电路164可以在显示器134上生成指令(操作302),该指令命令操 作者让目标说话人移动到与将要在后续目标记录期间使用的终端110相距期望距离处。这 样,训练模式期间说话人的话音将经受与后续记录模式期间类似的衰减和其他距离效应。 说话人表征电路164接收麦克风信号140中的目标说话人话音的离散样本(操作304)。说话人表征电路164被进一步设置为在目标说话人发出特定歌曲/语音时学习麦 克风信号140中目标说话人话音成分的时变频谱模式。说话人表征电路164可以被设置为 在目标说话人发出特定歌曲/语音时对麦克风信号140中的目标说话人话音的频谱随时间 的差异进行表征(操作306)。另选地或另外地,说话人表征电路164可以被设置为在目标 说话人发出特定歌曲/语音时对麦克风信号140中的目标说话人话音的幅度随时间的差异 进行表征(操作308)。另选地或另外地,说话人表征电路164可以被设置为学习如下间隙 的定时(操作310),在这些间隙中,当目标说话人发出特定歌曲/语音时麦克风信号140中 目标说话人话音的幅度低于阈值幅度。习得的特征可以存储在库166中(操作312)以供 随后在记录模式期间由说话人识别电路162使用。图4是例示了记录模式期间的示例性操作和方法400的流程图,可以由说话人识 别电路162执行这些操作和方法以响应于根据训练模式习得的特征通过自适应声音滤波 器电路150对滤波进行半静态自适应或进行动态调节。参照图4,说话人识别电路162利 用来自库166的习得特征搜索(操作402)采样麦克风信号以尝试识别其中存在目标说话 人话音成分。说话人识别电路162可以被设置为使用习得的目标说话人话音的时变频谱模式(如习得的频率范围随时间的变化)来识别麦克风信号中存在目标说话人话音,该操作 可以在说话人正发出先前训练过的歌曲/语音时进行。当确定出采样麦克风信号中存在目标说话人话音时(操作404),随后进一步确定 (操作406)识别控制器160是否工作在歌曲/语音模式下。例如可以由用户(通过界面 132)来设置歌曲/语音模式以表明将动态调节对已经习得了话音特征的歌曲/语音的滤 波。当歌曲/语音模式未被启用时,说话人识别电路162可以使用(操作416)来自库 166的习得特征借助于自适应声音滤波器电路150对滤波进行半静态自适应(例如响应于 初次识别出存在目标说话人话音进行自适应),以相对于经采样麦克风信号中的其他成分 来增大目标说话人话音成分。例如,如上所述,说话人识别电路162可以通过响应于目标说话人话音的频率范 围特征,改变位于自适应声音滤波器电路150内的可变带通滤波器的带通频率和/或高通 滤波器的高通频率,来对识别出目标说话人话音成分作出响应。自适应声音滤波器电路150 可以被设置为,通过利用快速傅里叶变换(FFT)将经时间采样的麦克风信号变换为多个频 率窗口(frequency bin),并对频率窗口内位于习得的目标说话人话音的频谱范围之外的 信号能量进行衰减,来执行谱减。在歌曲/语音模式启用的情况下,在歌曲/语音期间,说话人识别电路162可以使 用(操作408)来自库166的习得特征来动态调节自适应声音滤波器电路150,以跟踪目标 说话人话音的频率范围和/或幅度随时间的预计特征变化,从而相对于经采样麦克风信号 中的其他成分来增大目标说话人话音成分。例如,说话人识别电路162可以调节控制信号 152,以使自适应声音滤波器电路150动态地改变带通滤波器的频率范围和/或改变高通滤 波器的高通频率,从而跟踪在经训练的歌曲/语音期间目标说话人话音特征随时间的预计 变化。另选地或另外地,说话人识别电路162可以调整控制信号152以动态地调节自适应 声音滤波器电路150中对麦克风信号140进行放大的可变增益放大器的增益,从而在经训 练的歌曲/语音期间动态地补偿(例如跟踪)目标说话人话音的幅度随时间的预计变化。 例如,说话人识别电路162可以通过增大放大增益而对特定时刻目标说话人话音的预计下 降进行补偿,该放大增益被施加给麦克风信号140中的所有成分或者被提供给麦克风信号 140中已经被习得作为该时刻目标说话人话音的特征的特定频谱成分。说话人识别电路162还可以使用(操作410)从库166取出的习得间隙的定时来 动态调节自适应声音滤波器电路150,以在各个间隙之间相对于采样麦克风信号的其他成 分来增大目标说话人话音成分,而在各间隙期间相对于这些其他成分来减小目标说话人话 音成分。因此,当基于习得的特征预计目标说话人在特定时刻没有唱歌/说话或者轻声地 (例如低于阈值幅度)歌唱/说话时,可以将自适应声音滤波器电路150调节为减小对麦 克风信号140的滤波或稍微偏向目标说话人特征更中性地(neutrally)进行滤波。例如, 在各个间隙期间,说话人识别电路162可以调整控制信号152以使自适应声音滤波器电路 150扩展带通滤波器的频率范围、降低高通滤波器的高通频率,和/或增大/减小放大器所 施加的增益。当习得的特征表明(操作412)话音/歌曲预计尚未结束时,说话人识别电路162可以返回并重复操作408及410。相反,当习得的特征表明话音/歌曲已经结束时,进一步 确定(操作414)记录模式是否仍启用,并且当确定记录模式仍启用时,说话人识别电路162 可以返回并重复确定操作406及相关的后续操作。再来参照图2,声音处理器114可以进一步包括距离确定电路180,该距离确定电 路180被设置为确定终端110与目标说话人所携带的远程发射器之间的距离。距离确定电 路180可以包括基于接收信号强度(RSS)的测距电路182,该测距电路182被设置为确定例 如由WLAN收发器124和/或蓝牙收发器126接收的通信信号的信号强度。基于RSS的测 距电路182可以响应于RSS来估计从终端110到远程发射器的距离。图5是例示了示例性操作和方法500的流程图,该操作和方法可以由声音处理器 114执行以确定终端110与目标说话人所携带的远程发射器之间的距离,并响应于此,对如 何使用库166中的多种习得特征进行自适应,以控制自适应声音滤波器电路150来补偿距 离对麦克风信号140内的目标说话人话音成分的特征的预计影响。参照图5,从可由目标说话人携带的远程发射器接收(操作502)无线通信信号。 例如,终端110和远程发射器可以通过无线局域网(WLAN)和/或分别经由WLAN收发器124 和蓝牙收发器126通过蓝牙网络进行通信。因而,该远程发射器可以是具有蓝牙收发器和 /或WLAN收发器的蜂窝电话或PDA,该蜂窝电话或PDA与终端110联网并且例如可能位于 目标说话人的衣服口袋内。基于RSS的测距电路182确定接收信号的强度(操作504),并响应于接收信号的 强度来估计(操作506)从终端110到远程发射器的距离。基于RSS的测距电路182可以 利用远程发射器所发射信号的预计强度与终端110所接收信号的强度之间的规定关系对 该距离进行估计。例如,预计远程发射器内的蓝牙收发器和/或WLAN收发器能够以相对恒 定的信号强度进行发射。因而,可以定义一种关系,基于RSS的测距电路182可以响应于远 程发射器所发射信号的预计强度以及蓝牙收发器126和/或WLAN收发器124所接收信号 的强度,利用这种关系来确定终端110与远程发射器之间的距离。基于发射模式以及发射 天线及接收天线的相关增益,可以借助于距离的平方或距离的立方将发射信号强度与接收 信号强度关联起来。说话人表征电路164和/或说话人识别电路162还可以进一步被设置为响应于所 估计的从终端110到远程发射器的距离对习得的目标说话人话音的特征进行自适应(操作 508),以补偿距离对麦克风信号140内的目标说话人话音成分的特征的预计影响。随着到 目标说话人的距离的增大,可以(经由电路160和180)对自适应声音滤波器电路150进行 调节以增大对麦克风信号140施加的放大增益,从而补偿在确定的距离处目标说话人话音 幅度的预计减小。另选地或者另外地,随着到目标说话人的距离的增大,例如通过移动带通 滤波器的转角频率以使经滤波信号142的通过频率范围变窄从而对应于在所确定的距离 处目标说话人话音的频率范围的预计减小,可以(经由电路160和180)将自适应声音滤波 器电路150调节到在该距离处目标说话人话音的预计频率范围。另选地或者另外地,随着 到目标说话人的距离的增大,可以(经由电路160和180)调节自适应声音滤波器电路150 以减小带通滤波器的高通频率,从而使低频能够通过该滤波信号142以补偿在所确定的距 离处目标说话人话音频率的预计降低。图6是例示了另外的或另选的示例性操作及方法500的流程图,在记录模式期间可以由声音处理器114执行该操作及方法以确定终端110与来自摄像机116的图像流内的 人之间的距离,并响应于此,对如何使用库166内的多种习得特征进行自适应,以控制自适 应声音滤波器电路150来补偿距离对麦克风信号140内的目标说话人话音成分的特征的预 计影响。参照图2和图6,距离确定电路180可以包括电路184,该电路184确定来自摄像 机116的图像信号中人图像的大小,并响应于此,基于人图像的大小来确定终端110与来 自摄像机116的图像流中的人图像之间的距离。如图所示,还可以将该图像信号发送到视 频及声音记录器118内的视频记录器172以将其记录于此。电路184被设置为识别(操作 602)图像信号中存在可能与目标说话人相对应或位置接近目标说话人的人。电路184还 可以进一步响应于此人相对于多个阈值的大小来估计(操作604)从终端110到此人的距 离,其中这些阈值可以将图像大小与预计距离关联起来。电路184可以进一步考虑在距离 估计期间摄像机116的变焦设置(有的话)。说话人表征电路164和/或说话人识别电路 162可以进一步被设置为响应于估计出的从终端110到此人的距离对习得的目标说话人话 音特征进行自适应(操作606),以补偿距离对麦克风信号140中的目标说话人话音的特征 的预计影响,正如以上针对图5的操作508所述的那样。再来参照图2,麦克风112可以被设置为具有多个麦克风单元190a和190b以及可 控相位组合器电路192的缩放/波束可调麦克风,该可控相位组合器电路192响应于相位 控制信号194调节来自麦克风单元190a和190b的信号之间的相对相位,并对经相位调节 的信号进行组合以生成麦克风信号140。识别控制器160可以被设置为响应于识别出麦克 风信号140中存在目标说话人话音以及估计出的从终端110到远程发射器和/或到在图像 信号中识别出的人之间的距离,来调整相位控制信号194,以响应于到目标说话人的距离来 缩放或调整麦克风单元190a和190b的组合后的灵敏度。由此,麦克风112可以被控制为 辅助相对于麦克风信 号140中的其他成分来增大目标说话人话音成分。附图和说明书中公开了本发明的示例性实施方式。然而,在不实质上脱离本发明 的原理的情况下,可以对这些实施方式做出许多变型和修改。因而,尽管使用了特定术语, 但这些术语仅在一般性和描述性的意义上使用,而不是出于限制性目的,因此本发明的范 围由所附权利要求书限定。
权利要求
一种电子设备,该电子设备包括麦克风,其响应于进入的声音而生成麦克风信号;以及声音处理器,其被设置为识别所述麦克风信号内的目标说话人话音,并响应于对所述目标说话人话音的识别而调整对所述麦克风信号的滤波。
2.根据权利要求1所述的电子设备,其中,所述声音处理器包括说话人表征电路,其被设置为在训练模式下工作以学习所述麦克风信号中的目标说话 人话音成分的特征,并存储所习得的特征;自适应声音滤波器电路,其被设置为响应于控制信号对所述麦克风信号进行自适应滤 波;以及说话人识别电路,其被设置为使用所习得的特征来识别所述麦克风信号中存在所述目 标说话人话音,并对所述控制信号进行调整以使所述自适应声音滤波器电路进行自适应滤 波,从而相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分。
3.根据权利要求2所述的电子设备,其中所述自适应声音滤波器电路包括可变带通滤波器,该可变带通滤波器具有响应于所述 控制信号而变化的带通频率;并且所述说话人识别电路进一步被设置为,通过使用所习得的特征来确定所述目标说话人 话音的频率范围,并通过响应于所确定的所述目标说话人话音的频率范围来调整所述控制 信号以改变所述可变带通滤波器的带通频率,来对识别出所述麦克风信号中存在所述目标 说话人话音作出响应。
4.根据权利要求2所述的电子设备,其中所述自适应声音滤波器电路包括高通滤波器,该高通滤波器具有响应于所述控制信号 而变化的截止频率;并且所述说话人识别电路进一步被设置为,通过使用所习得的特征来确定所述目标说话人 话音的低频范围,并通过响应于所确定的低频范围来调整所述控制信号以改变所述高通滤 波器的截止频率,来对识别出所述麦克风信号中存在所述目标说话人话音作出响应。
5.根据权利要求2至4中任意一项所述的电子设备,其中所述说话人表征电路进一步被设置为,在所述训练模式期间工作以在目标说话人发出 特定歌曲/语音时从所述麦克风信号中的所述目标说话人话音成分中学习所述目标说话 人话音的时变频谱模式;并且所述说话人识别电路进一步被设置为使用所习得的时变频谱模式来识别所述麦克风 信号中存在发出所述特定歌曲/语音的所述目标说话人话音;通过在所述歌曲/语音期间 使用所习得的时变频谱模式来随时间改变所述控制信号以动态地调节所述自适应声音滤 波器电路从而跟踪所述目标说话人话音的预计时变频谱模式并且相对于所述麦克风信号 中的其他成分来增大所述目标说话人话音成分,来对识别出所述麦克风信号中存在所述目 标说话人话音作出响应。
6.根据权利要求2至5中任意一项所述的电子设备,其中所述自适应声音滤波器电路包括可变带通滤波器,该可变带通滤波器具有响应于所述 控制信号而变化的带通频率;所述说话人表征电路进一步被设置为,通过在所述目标说话人发出所述特定歌曲/语音时对所述麦克风信号中所述目标说话人话音的频率范围随时间的差异进行表征,来学习 所述时变频谱模式;并且所述说话人识别电路进一步被设置为,在所述特定歌曲/语音期间,使用所习得的时 变频谱模式来调整所述带通滤波器的带通频率使之遵循所述目标说话人话音的频率范围 随时间的差异,从而相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成 分。
7.根据权利要求2至6中任意一项所述的电子设备,其中所述说话人表征电路进一步被设置为学习间隙的定时,在所述间隙中,当所述目标说 话人发出所述特定歌曲/语音时,所述麦克风信号中的所述目标说话人话音低于阈值幅 度;并且所述说话人识别电路进一步被设置为,使用所习得的间隙的定时来随时间改变所述控 制信号,以在各个所述间隙期间相对于所述麦克风信号中的所述目标说话人话音成分来增 大所述麦克风信号中的其他成分,而在各个所述间隙之间相对于所述麦克风信号中的所述 其他成分来增大所述目标说话人话音成分。
8.根据权利要求2至7中任意一项所述的电子设备,其中所述自适应声音滤波器电路包括可变增益放大器,该可变增益放大器放大所述麦克风 信号并具有响应于所述控制信号而变化的增益;所述说话人表征电路进一步被设置为,在所述训练模式期间工作,以在所述目标说话 人发出特定歌曲/语音时从所述麦克风信号中的所述目标说话人话音成分中学习所述目 标说话人话音的时变幅度模式;并且所述说话人识别电路进一步被设置为,在所述歌曲/语音期间,通过使用所习得的时 变幅度模式随时间改变所述控制信号,以动态地调节所述可变增益放大器的增益从而跟踪 所述目标说话人话音的预计时变幅度模式,来对识别出存在所述目标说话人话音作出响 应。
9.根据权利要求2至8中任意一项所述的电子设备,该电子设备还包括射频接收器,其被设置为从所述目标说话人携带的远程发射器接收无线通信信号;以及距离确定电路,其被设置为确定所接收的通信信号的信号强度,并响应于接收信号强 度来估计从所述电子设备到所述远程发射器的距离,其中,所述说话人表征电路进一步被设置为,在对所述麦克风信号进行滤波期间,响应 于所估计的从所述电子设备到所述远程发射器的距离,对所习得的所述目标说话人话音的 特征进行自适应,以补偿距离对所述目标说话人话音成分的特征的预计影响。
10.根据权利要求2至8中任意一项所述的电子设备,该电子设备还包括图像传感器,其被设置为生成图像信号;距离确定电路,其被设置为识别所述图像信号中存在预计与所述目标说话人相对应或 位置接近所述目标说话人的人,并响应于此人相对于多个阈值的大小来估计从所述电子设 备到此人的距离;其中,所述说话人表征电路进一步被设置为,在对所述麦克风信号进行滤波期间,响应 于所估计的从所述电子设备到所识别的人之间的距离,对所习得的所述目标说话人话音的特征进行自适应,以补偿距离对所述目标说话人话音成分的特征的预计影响。
11.根据权利要求2至8中任意一项所述的电子设备,该电子设备还包括射频接收器,其被设置为从所述目标说话人携带的远程发射器接收无线通信信号;以及距离确定电路,其被设置为确定所接收的通信信号的信号强度,并响应于接收信号强 度来估计从所述电子设备到所述远程发射器的距离,其中,所述麦克风包括具有多个麦克风单元以及可控相位组合器电路的缩放/波束可 调麦克风,所述可控相位组合器电路响应于相位控制信号对来自所述多个麦克风单元的信 号之间的相对相位进行调节,并对相位调节后的信号进行组合以生成所述麦克风信号;并 且其中,所述说话人识别电路进一步被设置为,响应于识别出所述麦克风信号中存在所 述目标说话人话音以及所估计的从所述电子设备到所述远程发射器的距离来调整所述相 位控制信号,以相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分。
12.根据权利要求2至8中任意一项所述的电子设备,该电子设备还包括图像传感器,其被设置为生成图像信号;以及距离确定电路,其被设置为识别所述图像信号中存在人,并响应于此人相对于多个阈 值的大小来估计从所述电子设备到此人的距离,其中,所述麦克风包括具有多个麦克风单元以及可控相位组合器电路的缩放/波束可 调麦克风,所述可控相位组合器电路响应于相位控制信号对来自所述多个麦克风单元的信 号之间的相对相位进行调节,并对相位调节后的信号进行组合以生成所述麦克风信号;并 且所述说话人识别电路进一步被设置为,响应于识别出所述麦克风信号中存在所述目标 说话人话音以及所估计的从所述电子设备到所识别的人的距离来调整所述相位控制信号, 以相对于所述麦克风信号中的其他成分来增大所述目标说话人话音成分。
13.根据权利要求2至12中任意一项所述的电子设备,该电子设备还包括音频记录器, 该音频记录器记录来自所述自适应声音滤波器的经滤波的麦克风信号。
14.一种方法,该方法包括计算机实现的以下步骤对麦克风信号内的目标说话人话音进行识别;以及响应于识别出所述目标说话人话音 来调整对所述麦克风信号的滤波。
15.根据权利要求14所述的方法,该方法还包括计算机实现的以下步骤在训练模式期间学习所述麦克风信号中的所述目标说话人话音成分的特征;以及使用 所习得的特征来识别所述麦克风信号中存在所述目标说话人话音并对控制信号进行调整 以使自适应声音滤波器电路对所述麦克风信号的滤波进行自适应,从而相对于所述麦克风 信号中的其他成分来增大目标说话人话音成分。
16.根据权利要求15所述的方法,该方法还包括计算机实现的以下步骤在所述训练模式期间,当目标说话人发出特定歌曲/语音时学习所述麦克风信号中所 述目标说话人话音的频率范围随时间的特征差异;以及在所述特定歌曲/语音期间,通过使用所习得的所述目标说话人话音的频率范围随时 间的特征差异随时间来改变所述控制信号,以动态地调节所述自适应声音滤波器电路从而跟踪所述目标说话人话音的频率范围随时间的预计特征差异并相对于所述麦克风信号中 的其他成分来增大所述目标说话人话音成分,来对识别出所述麦克风信号中存在所述目标 说话人话音作出响应。
17.根据权利要求15或16所述的方法,该方法还包括计算机实现的以下步骤 在所述训练模式期间,当所述目标说话人发出特定歌曲/语音时学习所述麦克风信号中所述目标说话人话音的幅度模式随时间的特征差异;.以及在所述特定歌曲/语音期间,通过使用所习得的所述目标说话人话音的幅度模式随时 间的特征差异随时间改变所述控制信号,以动态地调节所述自适应声音滤波器电路中对所 述麦克风信号进行放大的可变增益放大器的增益,从而跟踪所述目标说话人话音的幅度模 式随时间的预计特征差异,来对识别出所述麦克风信号中存在所述目标说话人话音作出响 应。
18.根据权利要求15至17中任意一项所述的方法,该方法还包括计算机实现的以下步骤在所述训练模式期间学习间隙的定时,在所述间隙中,当所述目标说话人发出所述特 定歌曲/语音时,所述麦克风信号中的所述目标说话人话音低于阈值幅度;以及通过使用所习得的间隙的定时随时间改变所述控制信号,以动态地调节所述自适应声 音滤波器电路,从而在各个所述间隙期间相对于所述麦克风信号中的所述目标说话人话音 成分来增大所述麦克风信号中的其他成分,而在各个所述间隙之间相对于所述麦克风信号 中的其他成分来增大所述目标说话人话音成分,来对识别出所述麦克风信号中存在所述目 标说话人话音作出响应。
19.根据权利要求15至18中任意一项所述的方法,该方法还包括计算机实现的以下步骤响应于电子设备从所述目标说话人携带的远程发射器接收到的信号的强度,估计从所 述电子设备到所述远程发射器的距离;以及在对所述麦克风信号进行滤波期间,响应于所估计的从所述电子设备到所述远程发射 器的距离对所习得的所述目标说话人话音的特征进行自适应,以补偿距离对所述目标说话 人话音成分的特征的预计影响。
20.一种电子设备,该电子设备包括麦克风,其响应于进入的声音而生成麦克风信号;说话人表征电路,其被设置为在训练模式下工作,以在目标说话人发出特定歌曲/语 音时从所述麦克风信号中的所述目标说话人话音成分中学习所述目标说话人话音的频率 范围的时变差异和/或幅度模式的时变差异;自适应声音滤波器电路,其被设置为响应于控制信号对所述麦克风信号进行自适应滤 波,其中,所述自适应声音滤波器电路包括可变带通滤波器和/或可变增益放大器,该可变 带通滤波器具有响应于所述控制信号而变化的带通频率,该可变增益放大器具有响应于所 述控制信号而变化的增益;以及说话人识别电路,其被设置为使用所习得的所述目标说话人话音的频率范围的时变差 异和/或幅度模式的时变差异来识别所述麦克风信号中存在发出所述特定歌曲/语音的所 述目标说话人话音,并通过使用所述目标说话人话音的频率范围的时变差异和/或幅度模式的时变差异来随时间改变所述控制信号,以动态地调节所述带通滤波器的带通频率使之遵循所述目标说话人话音的频率范围随时间的差异,和/或动态地调节所述可变增益放大 器的增益使之遵循所述目标说话人话音的幅度模式随时间的差异,来对识别出所述麦克风 信号中存所述目标说话人话音作出响应。
全文摘要
文档编号G10L17/00GK101952884SQ20088012743
公开日2011年1月19日 申请日期2008年9月2日 优先权日2008年2月27日
发明者Bengtsson Henrik 申请人:Sony Ericsson Mobile Comm Ab
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1