包括集成语音分析的麦克风单元的制作方法

文档序号:22919714发布日期:2020-11-13 16:06阅读:108来源:国知局
包括集成语音分析的麦克风单元的制作方法

本申请是于2015年12月22日提交的名称为“包括集成语音分析的麦克风单元”的发明专利申请201580076624.4的分案申请。

本公开内容涉及降低数字麦克风的接口上的数据比特率,例如以使永远开启(always-on)话音模式下的功率消耗最小化,但是仍然传递足够的信息以允许下游的关键字检测或语音识别功能。



背景技术:

音频功能在便携式设备中正变得越来越普遍。这样的功能不仅存在于诸如依赖音频技术的电话的设备中,而且存在于可以由话音控制的其他可穿戴装备或设备(例如,话音响应玩具,诸如听-说泰迪熊)中。这样的设备,包括电话,将几乎不占用它们实际传输语音的时间,但是一个或可能地多个麦克风可能被持久地启用,以接听某个话音命令。甚至一个可穿戴附件可以是连续开启的,等待话音命令,并且将具有很小的用于电池的空间,或可能依赖于一些太阳能采集或机械能采集,因此在连续待机模式下以及在低占空比操作模式下具有苛刻的功率消耗要求。

麦克风换能器和放大器技术已经改进,但是通常麦克风封装件需要将其输出信号驱动一些距离。数字传输提供了包括噪声抗扰的优点,但是用于从麦克风传输数字数据的常规格式在一些方面不是特别有效率,所述一些方面为信号线路活动和随之而来的在每一逻辑电平转变时通过供电电压对寄生电容充电时所消耗的功率。

在包含一个或多个数字麦克风的便携式设备(诸如,电话或平板电脑)中,数字麦克风信号沿着带状线缆或电线(flex)或甚至横跨密集填入的印刷电路板、从麦克风到集中化智能编解码器芯片等具有一些距离。更糟糕的这样的应用是,其中麦克风可以在头戴式受话器或耳塞内或在用户的衣服上某个声学期望的位置中,远离分布式设备的手持设备或主模块。

然而,即使当原本在很大程度上不活动时,也可能存在复杂的信号处理要被执行,例如在话音触发的唤醒期间的说话人识别,所以诸如极大地降低其中的adc的分辨率这样的解决方案可能导致不可接受的下游处理结果。

因此,要求降低横跨有线数字传输链路来发送数字麦克风数据时所消耗的功率,同时仍然在所传输的信号中传达足够的有用信息,以允许下游的功能(诸如,语音识别)。

图1例示了与主机设备20(例如,电话)中的智能编解码器22通信的常规数字麦克风10,且图2例示了常规数字麦克风接口中的操作波形。主机设备20通常以诸如3mhz的频率将时钟clk传输到麦克风10,该麦克风10使用此时钟对adc12计时,且从数字缓冲器接口dout14时钟输出1-比特过采样δ-σ流dat,所述1-比特过采样δ-σ流dat表示麦克风换能器16的声学信号输入px,提供adc输入。在该系统中,主机20传输此时钟信号clk消耗功率,特别是麦克风以平均1.5mhz的转变速率发送数据流dat消耗功率。

可以通过以较低的时钟速率(例如,768khz)操作来降低功率,但是这大大增加了带内量化噪声,且相反地限制了特定噪声水平的可用带宽。即使这样,仅仅将功率降低到了1/4,所以功率消耗仍然是显著的,特别是在较大形状因素(formfactor)设备中或长线缆走线时。

相比于传输串行多比特脉码调制流,传输δ-σ流在数据比特率和转变速率方面显著更低效,但是串行多比特脉码调制流通常要求一个附加的时钟线来传输时钟,以标记每个多比特字的开始。

其次,我们注意到,降低δ-σ采样时钟速率的令人遗憾的副作用会是将可用带宽在背景量化噪声方面限制到例如8khz而非例如20khz。这会增加用于话音关键字检测(vkd)的字差错率(wer)。这转而会导致误报(falsepositive)的发生率较高,并且系统可能在其唤醒模式下花费更多的时间,从而显著影响了平均完整系统功率消耗。

此外,还存在对需要甚至更精确的输入音频数据流的功能(诸如,说话人辨识)作为话音触发唤醒功能的一部分的普遍要求。已知的是,使用较宽带宽用于说话人辨识会捕获较多语音信号分量,从而放宽对高信噪比(snr)的需求(例如,放宽对低声学背景噪声的需求,或认真优化麦克风位置的需求),从而得到足够高的精确度用于生物识别目的。即使在高snr环境中,相对宽的信号带宽可以提高说话人的验证精确度。这与降低数字麦克风时钟的频率以降低功率消耗的概念不一致。



技术实现要素:

根据本发明的第一方面,提供了一个麦克风单元,包括:

一个换能器,用于由所接收到的声学信号生成电气音频信号;

一个语音编码器,用于从所述音频信号获得压缩语音数据;以及

一个数字输出,用于供应表示所述压缩语音数据的数字信号。

在本发明的一个实施方案中,所述麦克风单元包括一个经封装的麦克风,例如mems麦克风,具有片上或共同封装的集成语音编码器电路系统。此电路系统经由pcb迹线或可能地经由头戴式受话器线缆将数据传输离开此封装件,且传输至下游的可以执行更复杂的功能(诸如,语音识别)的电路系统,所传输的数据表示以低比特率且以语音压缩格式所编码的语音信息,以降低物理传输数据时所消耗的功率。

在此公开内容中,未压缩数据可以被视为均匀采样系统中样本的数值表示,其中带内信号是音频输入波形在音频带内的近似,而压缩数据通常由未压缩数据导出以使得数字流不再直接表示未压缩数据,且具有较低的比特率。

语音编码是包含语音的数字音频信号的数据压缩的应用。语音编码使用语音专用参数估计来将语音信号建模,且可以与通用数据压缩算法结合来表示紧凑比特流中的所得到的建模参数,所述语音专用参数使用音频信号处理技术。

因此,压缩语音数据可以是表示音频信号的数据(通常是数字数据),该音频信号的语音专用参数从该信号计算。例如,这可以是一组非均匀间隔的频率区段(frequencybin)中的信号能量,或可以经由例如每个子带的adpcm来使用子带编码。数据压缩技术之后可以被应用至这些时变参数,例如根据某个码本(codebook)重新编码标量或向量。

作为示例,本发明的实施方案可以使用任何语音压缩标准,例如使用mdct、mdct-混合子带、celp、acelp、两级噪声反馈编码(tsnfc)、vselp、rpe-ltp、lpc、变换编码或mlt的语音压缩标准,其中合适的实施例是aac、ac-3、alac、als、ambe、amr、amr-wb、amr-wb+、apt-x、atrac、broadvoice、celt、codec2、enhancedac-3、flac、g.7xx标准组中的任何一个标准、gsm-fr、ilbc、isac、monkey’saudio、mp2、mp3、musepack、nellymoserasao、opus、shorten、silk、siren7、speex、svopc、tta、twinvq、vorbis、wavpack或windowsmediaaudio。

附图说明

图1例示了一个音频处理系统。

图2例示了图1的音频处理系统中的信号。

图3例示了一个包括主机设备和附件的系统。

图4例示了一个音频处理系统。

图5例示了一个麦克风单元的一个部分。

图6例示了一个麦克风单元的一个部分。

图7例示了一个麦克风单元的一个部分。

图8例示了一个压缩语音编码器。

图9例示了一个音频处理系统。

图10例示了一个音频处理系统。

图11例示了图10的音频处理系统中的麦克风单元的一个部分。

具体实施方式

图3示出了一个音频系统,仅作为使用本文所描述的方法的系统的一个实施例。

具体地,图3示出了设备30,该设备30在此实施例中采取智能电话或平板计算机的形式。本文所描述的方法可以与任何设备一起使用,但是本文参考该设备是便携式通信设备的一个具体实施例来描述所述方法。因此,在此实施例中,主机设备30具有音频处理能力。

图3示出了音频输入32,在该音频输入32附近定位有一个麦克风,该麦克风在设备30的主体内,因此在图3中是不可见的。在其他设备中,可以存在多个麦克风。图3还示出了附件设备34,该附件设备34在此实施例中采取一对耳机的形式,但是该附件设备34可以是任何设备,特别是任何音频附件设备。在此实施例中,该对耳机具有两个听筒36、38,所述听筒中的每个包括一个扬声器,所述扬声器用于响应于从主机设备30所传送的音频信号而重现声音。听筒36、38中的每个还包括至少一个麦克风,例如用于检测穿戴者附近的环境噪声。

表示环境声音的信号之后从耳机被传送到主机设备30。该主机设备之后执行多种功能。例如,该主机设备可以使用算法来执行噪声消除功能,且生成抗噪声信号,该主机设备将该抗噪声信号传送到耳机用于回放。回放抗噪声信号的效果是降低由穿戴者听到的环境噪声的水平,因此也使从主机30所传送的所想要的声音(音乐、语音等)更可听。

附件设备34在此实施例中还包括麦克风40,当用户戴着耳机时,所述麦克风40位于用户的嘴附近。麦克风40适合于检测用户的语音。附件设备34可以通过线缆42连接到主机设备30。线缆42从便携式通信设备和音频附件中的至少一个是可拆卸的。在一些实施方案中,线缆42被持久地附接到附件设备34,并且可以被设置有插头44,以允许经由设置在主机设备上的插座46而机械连接和电气连接到主机设备或从主机设备断开。线缆可以是以任何合适的形式。

主机设备30包括用于从设备30的主体内的一个或多个麦克风和/或从听筒36、38内的麦克风和/或麦克风40接收信号的电路系统。该电路系统例如可以包括编解码器52、音频dsp或其他处理电路系统,它们转而可以被连接到主机设备30内的电路系统(诸如,应用处理器),和/或可以被连接到远程处理器。

例如,处理电路系统能够执行语音处理功能,诸如识别由麦克风中的一个或多个所接收的语音输入中的触发短语的存在、辨识语音输入的说话人和/或识别口语命令的内容,从而能够基于用户的口语命令来控制主机设备或另一所连接的设备。

图4示出了一个实施方案,其中麦克风单元50具有数字传输格式和方法,用于与下游的智能编解码器52、音频dsp或其他处理电路系统通信。

麦克风单元50包括换能器54、模拟-信息转换器(aic)56和数字输出驱动器58。

模拟-信息转换器56或语音编码器或特征提取块可以采取多种形式。公知的是,音频信号的蛮力数字化在所传达的或通常需要的有用信息方面极其低效,所述有用信息被例如人耳和脑或某一机器等同物解读。基本理念是提取音频信号中、对于下游解读会特别有用的特征,如图4中由数据流fx例示的。数字接口58之后将携带此编码的语音信号的数据流fdat传输到编解码器52。在一个实施方案中,编解码器52中的时钟识别块60从输入数据恢复某个时钟,之后,特征处理块62对所接收的特征信息操作,以执行如下功能,诸如话音活动检测或说话人识别、递送适当的标记vdet至下游的处理电路系统,或控制或配置其自身的某个进一步处理或后续处理。编解码器52可以包括时钟生成电路66,或可以从主机设备内的其他地方接收系统时钟。

优选地,aic56在操作中是异步的或自定时的,因此不需要时钟,并且数据传输之后也可以是异步的,这可能是在对由编解码器所接收的特征数据进行处理的至少早期阶段。它可以包括异步adc,例如异步δ-σ调制器(adsm),之后是用于数字信号处理的其他模拟异步电路系统或自定时逻辑电路系统。

然而,如果所选定的aic电路结构或fdat数据格式需要,则麦克风可以生成其自身的时钟。

在一些实施方案中,麦克风单元可以从编解码器或其他地方接收至少一个低频时钟,诸如系统实时时钟,以通过使用例如锁定环路技术来同步或调节其内部时钟发生器。然而,如下面将讨论的,待被传输的特征数据通常可以是一帧,该帧以标称如30hz或10hz产生,并且任何语音处理功能(例如,语音识别)的设计可能需要适应宽范围的音调和口语词速率。因此,与音乐需要以精确的音调记录且任何抖动可能导致非音乐相互调制的使用实例相比,时钟在话音识别模式下不需要精确的或低抖动的采样时钟,所以片上未校准的低功率时钟64可能足以胜任。

在一些实施方案中,数据可以作为数据帧或数据向量以某个相对高的比特率传输,使得在每个下一帧之前无转变间隔(transitionlessinterval)。

本文描述的所有实施方案中,麦克风单元包括一个换能器和一个特征提取块,该换能器可以包括一个mems麦克风,其中该mems麦克风和该特征提取块被设置在单个集成电路中。

该麦克风单元可以包括一个经封装的麦克风,例如mems麦克风,所述经封装的麦克风具有片上的或共同封装的集成语音编码器电路系统或特征提取块。

此语音编码器电路系统或特征提取块可以在pcb迹线或可能地线缆(诸如,头戴式受话器线缆)将数据传输离开封装件,且传输至下游的电路系统,所述下游的电路系统可以执行更复杂的功能(诸如,语音识别),所传输的数据表示以低比特率且以语音压缩格式进行编码的语音信息,以降低物理传输数据时所消耗的功率。

图5例示了aic56的一个实施方案,其中模拟输入信号被呈递给adc70(例如,1-比特δ-σadc),所述adc70由标称768khz的采样时钟ckm计时。δ-σ数据流dx之后被传递到抽取器、加窗块(windowblock)和成帧器72,以抽取数据值例如16ks/s的采样速率、合适地加窗且之后成帧,从而呈递给fft块74,以导出一组傅立叶系数,该组傅立叶系数表示一组等间隔的频率区段的每个频率区段中的信号的功率(或幅度)。之后,此频谱信息被传递通过梅尔频率滤波器组76,以提供对一组非等间隔的频带的每个频带中的信号能量的估计。

此组能量估计自身可以被用于输出。替代地,这些能量估计中的每个能量估计被传递通过对数块78以压缩扩展该估计,之后被传递通过离散余弦变换块80来提供倒谱系数,该倒谱系数被称为梅尔频率倒谱分量(mfcc)。

在一个实施例中,输出倒谱系数在30ms的帧周期包括12-比特字的15个信道,从而将数据速率从原始的3mbs/s或786kb/s的1-比特δ-σ速率降低到6kb/s。

图6例示了aic56的另一实施方案,与图5相比,图6在信号路径中具有一些额外的功能块。在一些其他实施方案中,并非所有的这些块都可以存在。

来自换能器元件90的模拟输入信号被呈递给adc92(例如,1-比特δ-σadc),所述adc92由通过本地时钟发生器94所生成的标称768khz的采样时钟ckm计时,该采样时钟ckm例如可以与系统32khz的实时时钟同步,或该采样时钟ckm可以是独立的。

δ-σ数据流dx之后在抽取器96中被抽取至例如16ks/s的采样速率。

它之后可以被传递到预加重块98,以使以低频分量为主的语音信号在频谱上均衡,该预加重块98包括高通滤波器。此步骤在降低低频背景噪声(例如,风噪声或机械声学背景噪音)的效果中也会是有利的。就此点而言,如下面讨论的,还可以存在频率相关的降噪块,以降低频带中最明显的噪声。

该信号之后可以被传递到加窗块100,该加窗块100可以应用例如汉明窗或可能地某一其他窗功能,以提取短持续时间帧,例如持续时间为10ms到50ms的帧,在所述短持续时间帧的每个帧中,语音可被认为是固定的。通过使汉明窗沿着语音信号滑动例如帧长度的一半或例如使25ms的窗滑动10ms,加窗块提取短持续时间帧的流,从而以每秒100帧的帧率提供加窗数据帧。

fft块102之后对每帧的一组加窗样本执行快速傅立叶变换(fft),以提供一组傅立叶系数,该组傅立叶系数表示一组等间隔的频率区段的每个频率区段中的信号的功率(或幅度)。

这些逐帧的多组信号频谱分量中的每组信号谱分量之后通过梅尔滤波器组104处理,该梅尔滤波器组104映射且组合这些线性间隔的谱分量至如下频率区段上,其中所述频率区段被分布成更密切对应于人耳的非线性频率灵敏度,其中在低频处比在高频处具有更大的区段密度。例如,可能存在23个这样的区段,每个区段具有一个三角形带通响应,其中最低的频率信道以125hz为中心并且横跨125khz,而最高的频率信道以3657hz为中心并且横跨656hz。在一些实施方案中,可以采用其他数目的信道或其他非线性频率标度,诸如bark标度。

对数块106之后对从每一梅尔频率区段所报告的能量应用对数缩放。这有助于降低对非常响亮的声音或非常安静的声音的灵敏度,以类似于人类听觉的非线性振幅灵敏度的方式。

对数压缩的区段能量之后作为一组样本被传递到离散余弦变换块dct108,该离散余弦变换块dct108对每组对数压缩的区段能量应用离散余弦变换。这用于将缓慢变化的频谱包络(或声道)信息与较快变化的语音激励分开。缓慢变化的频谱包络在语音识别中更有用,所以可以丢弃较高的系数。然而,在一些实施方案中,这些较高的系数可以被保留,或可能地通过加权相加来组合,以针对较高频率提供能量的至少某一度量,从而帮助区分齿擦音(sibilant)或为说话人辨识提供更多线索。在一些实施方案中,高阶(3)系数可以与低阶系数并行地生成。

dct块108还可以提供另一输出数据。例如,一个分量输出可以是来自每一信道的所有对数能量的总和,但这也可以通过从未预加重的数据所供给的并行总能量估计器est110导出。

还可以存在一个动态系数发生器,该动态系数发生器可以基于系数的一阶或二阶帧间差来生成其他系数。

均衡器(eq)块112可以相对于平谱,适应性地使多个分量均衡,例如使用lms算法。

在传输之前,数据速率可以通过数据压缩器(dc)块114而被进一步降低,可能地是利用由于语音信号的性质所期望的系数之间的冗余或相关性。例如,分裂向量量化压缩mfcc向量。在一个实施例中,维数14的特征向量例如可以被分裂成成对的子向量,以10ms的帧周期、例如用相应的码本将每个子向量量化成5或6比特。这可将数据速率降低到4.4kb/s或更低,例如如果使用30ms的帧周期,则可以将数据速率降低到1.5kb/s。

附加地或替代地,数据压缩器可以采用其他的标准数据压缩技术。

因此,通过采用至少部分地依赖于已知的语音波形的一般特性以及人类语音感知的一般特性的压缩技术(例如,在使用非线性间隔的滤波器组和对数压缩,或使用上文提及的使声道信息从激励信息分开时),携带关于声学输入信号的语音内容的有用信息所必需的数据速率已经被降低到实际波形的简单多比特或过采样时域表示所必需的数据速率以下。输出的数据流可以被认为是压缩的语音数据,因为已经以特别适合于语音且适合于语音波形传达信息的参数的通信的方式从输入信号压缩了输出数据,而非以适合于信号数字化通用技术和压缩任意数据流通用技术的方式。

已经生成了压缩的语音数据,此数据现在需要被物理地传输到编解码器或其他下游的电路系统。在附件通过线缆连接到主机设备的情况下(诸如,包含多个麦克风的头戴式受话器34被连接到音频设备30,如图1中示出的),可以简单地使用两根导线传输输出数据,一根导线携带数据(例如,每30ms180比特,在图5的实施例中),并且第二根导线携带每30ms一个同步脉冲或边沿。与数据线的已经很低的功率消耗相比,此低时钟速率时钟线的额外功率是可忽略的。类似地,双导线链路可以被用在设备(诸如,移动电话)主体内的麦克风和编解码器之间,或类似地被用在电话的内部的电路板上。

可以使用标准数据格式诸如soundwiretm或slimbustm,或标准三导线接口诸如i2s。

替代地,可以采用单导线串联接口,以循环的预定帧序列传输数据,在该循环的预定帧序列中,一个独特的同步模式可以在字的每一帧的开始被发送,且该独特的同步模式可以通过简单且低功率的数据和目标设备中的时钟恢复电路系统来恢复。该时钟优选地是麦克风内部的低功率时钟,该时钟的准确频率和抖动是不重要的,因为特征数据远不及全分辨率pcm那样时钟严格。

可以使用诸如公布的美国专利申请(us2013/0197920(a1))中所公开的脉冲长度调制(plm)的单导线或双导线格式发送数据的半字节。可以用具有固定前沿的脉冲序列发送数据,其中每个脉冲的长度指示二进制数。固定前沿使时钟恢复变得简单。

输出数据流结构(plm或非plm)中的一些时隙(slot)可以被保留,以用于辨识功能或控制功能。在此应用中,对于连续的数据流,偶然的数据比特误差可能不具有严重影响。然而,在一些应用中,期望的是通过一些误差检测和/或校正方案来至少保护控制数据,例如基于嵌入在该流中的循环冗余校验位。

因此,用以降低数据速率从而降低物理总线上的平均转变速率的语音编码可以大大降低系统的功率消耗。此功率节省可能一定程度上被语音编码自身所消耗的功率抵消,但是此处理可能必须以其他方式在系统中的某些地方执行,以在任何情况下提供关键字检测或说话人识别或更一般的语音识别功能。此外,随着晶体管尺寸的减小,执行给定数字计算任务所需的功率随时间而迅速下降。

已知的是,在存在加性噪声时,梅尔频率倒谱分量(mfcc)值并不是非常鲁棒的。这会导致来自下游的话音关键字检测器的误报,可能导致此块频繁地触发后面的电路系统的无效上电,对平均系统功率消耗具有显著作用。

在一些实施方案中,可以修改生成方法,例如通过将对数梅尔振幅(由图5中所示出的实施方案中的块78,或由图6中所示出的实施方案中的块106生成)升高到合适的功率(在2或3左右),之后进行dct(在图5中所示出的实施方案中的块80,或在图6中所示出的实施方案中的块108中),这降低了低能量分量的影响。

在一些实施方案中,可以根据所检测或所估计的信噪比或其他与输入信号相关联的信号相关参数或噪声相关参数来修改特征提取的参数。例如,可以修改倒谱频率区段的数目和中心频率,在所述倒谱频率区段中提取梅尔频率能量。

在一些实施方案中,倒谱编码块可以包括降噪块或在其之前是降噪块,所述降噪块例如直接在提取块72或96之后,或在可能已经去除了一些低频噪声的预加重块98之后,或对由块100所产生的加窗帧数据进行操作。在必要时,可以通过噪声检测块启用此降噪块。该噪声检测块可以是模拟的,并且监控输入信号ax,或该噪声检测块可以是数字的,并且对adc输出dx进行操作。该噪声检测块可以在如下情况下进行标记:当所接收的信号的水平或频谱或其他特性表明高噪声水平时,或当峰值信号或平均信号与噪声的比率下降到一阈值以下时。

降噪电路系统可以起作用,以对信号滤波从而抑制这样的频率区段:在该频率区段中,在存在信号的时间,噪声(如由话音活动检测器所监控的,在似乎不存在话音的时间周期中所监控到的噪声)可能超过该信号。例如,维纳滤波器设置可以被用来在逐帧的基础上抑制噪声。维纳滤波器系数可以在逐帧的基础上更新,并且在应用到实际信号之前,经由梅尔频率滤波器组进行系数平滑,之后经过逆离散余弦变换。在一些实施方案中,维纳降噪可以包括两个阶段。每个阶段可以纳入某个动态噪声增强特征,其中所执行的降噪水平取决于所估计的信噪比或信号的另外的信号相关的参数或特征或噪声相关的参数或特征。

多种信号编码技术,特别是使用mfcc编码的倒谱特征提取,与许多已知的下游话音识别或说话人识别算法兼容,在所述多种信号编码技术中,从与每个滤波器组相关联的信号能量中导出所传输的输出数据,其中所述滤波器组具有非均匀间隔的中心频率。在一些情况下,mfcc数据实际上可以从编解码器转发(例如,以etsi-标准mfcc形式),用于在主机设备中进行信号处理,或被传输到远程服务器,用于“在云中”处理。后者可以降低传输所需的数据带宽,并且可以用来在较差的传输条件下保留语音质量。

然而,在一些实施方案中,可能需要麦克风来递送更常规的输出信号,所述常规的输出信号以例如16ks/s或48ks/s以例如16-比特格式对瞬时输入音频信号进行数字化。

还可能存在需要某种其他格式的信号的其他应用。常规地,对信号的此处理和重新格式化可以发生在电话应用处理器或具有dsp能力的智能编解码器内。然而,考虑到麦克风单元中存在dsp电路系统,必需降低待机模式或“永远开启”模式下的数字传输功率,此dsp电路系统可以用来在其他使用实例中执行其他语音编码方法。因为半导体制造工艺随着不断减小的特征尺寸而发展,且因为这些工艺中的每个工艺的成本随时间且随成熟度而降低,所以在麦克风单元自身中实际集成此功能变得更可行,让系统中其他地方中任何更强大的处理能力更自由,从而执行高水平的任务。或者,实际上在一些最终应用中,可以去除对其他信号处理dsp的要求,以允许使用某个或许更简单的非dsp控制器处理器。

图7例示了麦克风单元130,该麦克风单元130可以在多种模式下操作,具有信号编码或压缩的多种程度和方法。因此,图7示出了若干不同的功能块。在一些其他实施方案中,仅存在这些块的一个子集。

来自换能器元件132的模拟输入信号被呈递给adc134(例如,1-比特δ-σadc),且所得到的δ-σ数据流dx之后被传递到一个或多个功能块,如下面所描述的。

该adc可以由采样时钟ckm计时,该采样时钟ckm可以由本地时钟发生器136生成,或可以根据操作模式而在时钟输入138上被接收。

该麦克风单元可以第一低功率模式和第二较高功率模式操作,在第一低功率模式中,该麦克风单元使用内部生成的时钟且提供压缩的语音数据,在第二较高功率模式中,该麦克风单元接收外部时钟且提供未压缩的数据。

操作模式可以经由控制输入终端140上所接收的信号、通过下游的控制处理器来控制。这些输入可以单独的,或可以通过使数字输出线双向来提供。在一些实施方案中,操作模式可以由该麦克风单元中的电路系统来自动确定。控制块142接收控制输入,且确定哪些功能块被激活。

因此,图7示出的是,数据流dx可以被传递到pdm格式化块144,该pdm格式化块144允许麦克风的数字化时域输出被直接输出作为pdm流。pdm格式化块144的输出被传递到多路复用器146,所述多路复用器146在控制块142的控制下操作,且多路复用器输出被传递到驱动器148,以生成数字输出dat。

图7还示出了被传递到特征提取块150的数据流dx,以例如用于获得基于使用非线性间隔的频率区段的值(例如,mfcc值)。

图7还示出了被传递到压缩采样块152数据流dx,以例如用于导出输入信号的稀疏表示。

图7还示出了被传递到有损压缩块154数据流dx,以例如用于执行自适应差分脉码调制(adpcm)或类似形式编码。

图7还示出了被传递到抽取器156的数据流dx。

在一些实施方案中,数据流dx还被传递到无损编码块,以提供合适的输出数据流。

图7示出了压缩采样块152、有损压缩块154和抽取器156的输出被连接到相应的数据缓冲存储器块158、160、162。这些数据缓冲存储器块允许存储由这些块所生成的较高质量的数据。因此,如果对较低功率数据流的分析表明,如果需要,功率可以被耗费在传输较高质量的数据,以用于需要这样的较高质量的数据的某个进一步处理或检查。

例如,对较低功率数据流的分析可能表明,音频信号包含在特定时间周期中由设备所识别出的用户说出的触发短语。在该情况下,可以从缓冲存储器块中的一个读出与相同时间周期有关的较高质量的数据,且对那个数据执行进一步分析,例如以确认是否实际上说出该触发短语,或该触发短语是否由所识别到的用户说出,或在唤醒下游系统的更大部分之前执行更详细的关键字检测。因此,较高质量的数据可被用于需要更好数据的下游操作,例如下游的语音识别。

图7还示出了特征提取块150、压缩音频处理块152和有损压缩块154的输出经由相应的脉冲长度调制(plm)编码块164、166、168且经由多路复用器146和驱动器148而被输出,所述多路复用器146在控制块142的控制下操作。图7还示出了抽取器156的输出经由脉码调制(pcm)编码块170且经由多路复用器146和驱动器148而被输出,所述多路复用器146在控制块142的控制下操作。

根据所选择的操作模式,所传输的输出的物理形式可以不同。例如可以使用低压差分信令来传输高数据速率模式,以用于噪声抗扰,且数据可以被扰乱以降低发射。在另一方面,在低数据速率模式下,信号可以是低带宽的,并且不那么易于受噪声和传输线反射等的影响,优选地,信号是无端接的,以节省与驱动终端电阻相关联的功率消耗。在较低功率模式下,可以减小信号摆动,即数字驱动器供电电压。

电路的其他操作参数也可以根据信号模式而更改。例如,在低数据速率模式中,dsp操作的速度要求可以是适度的,因此,与结合较高速率编码执行更复杂的操作时相比,可以使电路系统在较低的逻辑供电电压或主时钟分频频率下操作。

尽管基于以上方案的aic或特征提取可以提供编码和传输音频信号中的重要信息的特别有效率的方法,但是可能要求麦克风单元也能够操作,从而提供更常规的数据格式,例如用于通过本地电路系统处理或向前传输以用于在云中处理,其中这样的处理可能不会理解更复杂的信号表示,或其中例如当前的使用情况是用于以高质量记录音乐。

在此情况下,有利的是,adc中的初始转换是高质量的,要求高质量低抖动时钟,且优选地与编解码器dsp主时钟同步,以避免采样速率转换与编解码器主时钟同步和/或与标准输出数字pcm格式的参考采样速率同步的问题。因此,麦克风单元可以第一模式和第二模式操作,在第一模式中执行特征提取和/或数据压缩,在第二模式中(例如)从编解码器供应一个时钟,并且该单元以与图1中示出的方式类似的方式操作。

因此,数字麦克风单元能够以至少两种模式操作,所述至少两种模式为adc(模拟-数字转换)或aic(模拟-信息转换)。在adc模式中,传输来自adc的pcm数据,在aic模式中,从adc输出所提取的数据被编码,特别是对于语音。

在其他实施方案中,麦克风单元可以一种模式操作,以执行有损低比特率pcm编码。例如,该单元可以包括一个有损编解码器,诸如adpcm编码器,具有在一些实施方案中可选择的采样速率,例如在8ks/s-24ks/s之间。

在一些实施方案中,麦克风单元具有编码块,用于执行μ律编码和/或a律编码,或编码至某个其他电话标准。例如,在一些实施方案中,麦克风单元具有用于mdct、mdct-混合子带、celp、acelp、两级噪声反馈编码(tsnfc)、vselp、rpe-ltp、lpc、变换编码或mlt编码的编码块。

在其他实施方案中,麦克风单元可以一种它输出压缩采样pcm数据模式操作,或以利用信号稀疏性的任何方案操作。

图8例示了压缩语音编码器的一个实施方案,所述压缩语音编码器可以在本文所描述的或例示的实施方案中的任一个中使用。adc190的输出被传递通过抽取器192,以以16ks/s或48ks/s提供(例如)12比特数据。以例如仅48hz或1khz的平均采样速率对此数据进行采样,但是其中采样时间由合适的随机数发生器或随机脉冲发生器194随机化。

因此,采样电路以小于输入信号带宽的采样速率对输入信号采样,导致采样时刻在时间上随机分布。

图9示出了使用这样的压缩语音编码器的系统。因此,包括压缩adc202的麦克风单元200被连接,以将非常低数据速率的数据供应到编解码器204。在信号统计的现有知识的帮助下,下游的电路系统206可以执行局部重构(在计算上便宜),以在低功率模式中进行稀疏特征提取,或执行完整重构(计算上花费较大),以得到乃奎斯特类型的话音,用于向前传输。注意,存在已知的后续处理算法块,诸如块208,用于执行与这样的压缩采样格式兼容的“稀疏识别”。在这样的算法中,信号的稀疏表示与来自预定字典的几个原子的线性组合相匹配,所述原子可以通过使用机器学习技术来学习直接来自数据的主要信号(原子)的超完备字典来先验地获得,以使得信号的最相关的属性可以被有效地捕获。

在存在噪声时,稀疏提取在执行特征提取方面具有一些益处。噪声不被识别为包括任何原子分量,所以不出现在编码数据中。这样的对输入噪声的忽略从而可以避免下游的电路系统的非必需激活,且避免相对于安静的环境在嘈杂的环境中增加的功率消耗。

图10例示了一个实施方案,在该实施方案中,麦克风单元210被连接以将非常低数据速率的数据供应到编解码器212,并且在该实施方案中,为了进一步降低功率消耗,使用模拟信号处理(asp)执行特征提取中的一些(如果不是全部)。在麦克风单元210中,此来自麦克风换能器的信号被传递到模拟信号处理器214,之后传递到一个或多个模拟-数字转换器216,之后传递到可选的数字信号处理器218。之后,在编解码器212中执行特征识别220。

图11更详细地示出了麦克风单元210的一个实施方案内部的处理,在该实施方案中,通过模拟电路系统而非数字电路系统执行信号处理的很大一部分。因此,输入信号被传递通过多个带通滤波器(仅仅通过例示的方式在图11中示出了三个)240、242、246。带通滤波器是常量q,并且在梅尔频率中等间隔。输出被传递到对数函数块248、250、252,这可以使用标准模拟设计技术来实现,所述标准模拟设计技术例如基于经由电压-电流转换信号而将输入信号应用到具有对数电流-电压转变的i-v双端口电路(诸如,半导体二极管)。输出被传递到多个并行adc252、254、256。adc可以包括压控振荡器,该压控振荡器的频率被用作它们相应的输入信号的表示。这些adc是简单的并且低功率的,并且它们的线性度在此应用中不重要。与主adc相比,这些简单的adc可以具有显著甚至完全降低的功率和面积。在例如在人工耳蜗领域中,类似的电路块的现有技术水平在20微瓦以下。

本文描述的所有实施方案中,麦克风、adc和语音编码电路系统可以有利地被定位成紧靠在一起,以在数据速率降低之前降低数字数据的高数据速率信号路径。所有三个部件可以被封装在一起。这三个部件中的至少两个可以被共同集成在一个集成电路上。

麦克风可以是mems换能器,该mems换能器可以是电容式的、压电式的或压阻式的,并且至少与adc共同集成。

本领域技术人员将认识到,上文所描述的装置和方法的多个实施方案可以(至少部分地)使用可编程部件而非专用硬件部件来实施。因此,所述装置和方法的实施方案可以至少部分地体现为处理器控制代码,例如在非易失性载体介质(诸如,磁盘、cd-rom或dvd-rom、程序化存储器,诸如只读存储器(固件))上或在数据载体(诸如,光学信号载体或电信号载体)上。在一些应用中,本发明的实施方案可以至少部分地通过dsp(数字信号处理器)、asic(专用集成电路)或fpga(现场可编程门阵列)来实施。因此,代码可以包括常规程序代码或微代码,或例如用于设立或控制asic或fpga的代码。代码还可以包括用于动态地配置可重新配置的装置(诸如,可重新编程逻辑门阵列)的代码。类似地,代码可以包括硬件描述语言(诸如,verilogtm或vhdl(超高速集成电路硬件描述语言))的代码。如本领域技术人员将理解,代码可以被分布在彼此通信的多个耦合的部件之间。在适当的情况下,还可以使用在现场可(重新)编程模拟阵列或类似的设备上运行以配置模拟硬件的代码来实施所述实施方案。

应理解,尤其是得益于此公开内容的本领域普通技术人员应理解,本文描述的多种操作,特别是参考附图描述的多种操作,可以通过其他电路系统或其他硬件部件来实施。给定方法的每一操作执行的顺序可以被改变,且本文中例示的系统的多个元件可以被添加、被重排顺序、被组合、被省略、被修改等。此公开内容意在包含所有这样的修改和改变,因此,上文的描述应被认为具有例示性意义而非限制性意义。

类似地,尽管此公开内容参考具体实施方案,但是在不背离此公开内容的覆盖范围的前提下,可以对这些实施方案进行修改和改变。此外,本文关于具体实施方案所描述的任何益处、优点或问题的解决方案不意在被理解为关键的、必需的或基本的特征和要素。

受益于此公开内容,本领域普通技术人员同样将明了另一些实施方案,并且这样的实施方案应被视为包含在本文中。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1