使用频率-幅度-调制-编码策略改善音频信号的人工耳蜗与装置/方法

文档序号:7743749阅读:268来源:国知局
专利名称:使用频率-幅度-调制-编码策略改善音频信号的人工耳蜗与装置/方法
技术领域
本发明涉及用于改善声音信号的装置和方法,更具体地说,涉及从声音信号中提取幅度变化和频率变化,并使用这些提取的变化来提供高质量音频信号的装置和方法,本发明可用于听觉修复(auditoryprostheses)以及电信设备中。
背景技术
所有声音的特征都在于幅度和频率的变化。人类和许多哺乳动物的听觉系统都对幅度和频率的变化敏感。在迄今可用的人工耳蜗技术中,只对幅度变化进行了提取和编码。
现有技术的人工耳蜗通常使用了两种类型的声音编码策略。在一种类型中,只提取幅度调制,并对固定速率的载波进行调制。可参见Wilson等人的“Better Speech Recognition With Cochlear Implants”,Nature(使用人工耳蜗的更好的语音识别《自然》杂志),1991 Jul18;352(6332)236-8。在另一类型中,将滤波后的原始模拟波形(包括幅度、频率调制和许多其它分量)直接送到电极,以激励神经细胞。参见Eddington等人的“Auditory Prostheses Research With MultipleChannel Intracochlear Stimulation In Man(使用人体多通道耳蜗内激励的听觉修复研究)”,Ann Otol Rhinol Laryngol,1978,87(8 Pt 2),1-39。
也有人在人工耳蜗中试图对基频(Fo)进行编码。参见Geurts L和Wouters J.的“Coding Of The Fundamental Frequency In ContinuousInterleaved Sampling Processors for cochlear Implants”,J.Acoust.Soc.Am.(在人工耳蜗的连续交织采样处理器中对基频进行编码《美国声学协会杂志》),2001 Feb;109(2)713-26;Faulkner A.,Rosen S.和SmithC.的“Effects Of The Salience Of Pitch And Periodicity Information OnThe Intelligibility Of Four-Channel Vocoded SpeechImplications ForCochlear Implants”,J.Acoust.Soc.Am.(基于四通道声码器语音清晰度的基音和周期性信息的显著效果人工耳蜗的推断《美国声学协会杂志》),2000 Oct;108(4)1877-87。
在音频压缩中,近来有一些使用幅度和频率调制来编码语音的研究。参见Potaminanos A和Maragos P.的“Speech Analysis And SynthesisUsing An AM-FM Modulation Model”,Speech Communication(使用AM-FM调制模型的语音分析和合成《语音通信》),199928,195-209。他们的研究通常用于在或接近共振峰频率处提取和追踪频率调制,该频率调制独立地变化并且必须在传输期间进行编码。本策略将只提取和编码在窄带的固定中心频率上的频率调制,该频率调制在编码器和解码器中都是先验知识,并且不需要被传输。
在人工耳蜗中,对幅度调制(单独)或模拟波形进行编码。其中之一提供了太少的不可辨别的信息(在仅用AM时),而另一个则提供了太多的不可辨别的信息。在音频编码中,除了掩码(masking)之外,通常是从语音产生角度和和少许感觉信息出发来考虑编码策略的。
虽然在基本听觉研究中存在非常多的有关频率调制的知识;但只针对人工耳蜗(或任何其它神经修复设备)中频率调制进行编码以及将其用于音频压缩中做了很少的工作或者没有做什么工作。

发明内容
本发明使用频率-幅度-调制-编码(FAME)来为人工耳蜗用户改善声音感觉的质量,并且用于压缩音频信号,以便可以通过窄带传输信道实现宽带音质。
FAME策略提取重要的信息(幅度和频率的变化)并且能够使用窄带的容量来提供宽带(即,高质量)音频信号,该策略可用于听觉修复和电信。
在人工耳蜗中,宽带音频信号首先被分成若干窄带。从每个频带中单独地提取出频率和幅度调制,然后通过滤波和压缩进行处理,以产生频率和幅度调制的信号,该信号适合于人工耳蜗使用者的感觉能力或传输信道的带宽限制。可使用特殊频带的频率和幅度调制来直接激励植入到人的头部中的电极,或者重新合成以恢复原始音频信号。
在音频编码中,对10,000-10,300Hz的信号进行编码是很具挑战性的,但是对以该频率为中心的变化(300Hz)进行编码就容易得多。由于幅度和频率变化是独立的,并且包含时间信息,FAME策略实质上将一个3维(幅度、频率和时间)编码问题转化成了一个2维问题。
基频编码策略和本发明的FAME策略的差别在于在基频编码策略中,只使用基频在某些或全部频带上对载波进行调制;而在根据本发明的FAME的应用中,将提取特殊频带的频率调制(可能携带或不携带基频信息)并将其用于对相应频带中的载波频率进行调制。
频率-幅度-调制-编码(FAME)策略的目标是改善对音乐、音调语言语音以及多讲话者背景中的语音(“鸡尾酒会效应”)的感知。也可以使用相同的策略来压缩用于所有通信用途的音频信号,包括有线或无线和因特网信号传输、存储和音频信息的恢复。


图1是表示FAME策略的声激励的流程图。
图2是示出在人工耳蜗中实现FAME策略的方法的流程图。
图3是示出使用FAME来对一般音频信号进行编码的方法的流程图。
图4是根据本发明用于处理声音的方法的流程图,其中结合了本发明的最新算法。
图4A是图4的原始声音图(幅度--时间)。
图4B是图4的声音在进行了“预加重”和“4-24巴特沃兹带通滤波器”步骤之后的信道图(幅度--时间)。
图4C是图4方法中的AM包络的4信道图(幅度--时间)。
图4D是如图4所示的本发明的FAME算法应用和处理步骤所产生的FM信号的信道图(频率--时间)。
具体实施例方式
图1示出了FAME策略的声激励。首先将宽带信号(语音、音乐或任何其它音频信号)进行处理,以使其具有一个理想的带宽和频谱形状,例如20-20000Hz和对于语音进行频谱平滑(flattening)处理。然后将预处理的音频信号滤波成N个窄频带。N将基于最优识别和压缩来确定。将对窄带信号(仅以频带1为例)进行幅度和频率调制的并行提取。幅度调制可以通过如图所示的简单整流和低通滤波或数字希尔伯特变换来提取。频率调制可以通过计算微细结构(finestructure)的瞬时相位角(频率)或窄带信号的过零点来提取。FM可具有一个宽的瞬时频率范围,将根据正常听觉和人工耳蜗收听者的感觉评估(perceptual evaluations)来滤波和/或压缩。在本发明的实现中,只有300Hz的FM范围被用于对与分析带通滤波器的中心频率(fcl)相等的正弦频率进行调制。注意到,FM改变了该载波的频率,但是没有改变生成波形的幅度。然后,将提取的时域包络(temporalenvelope)[A1(t)]幅度调制到FM载波,从而生成特定频带的频率-幅度-调制波形。这些来自所有N个频带的波形将被相加,以产生FAME策略的声激励。
图2示出了在人工耳蜗中FAME策略的执行过程。所有的初始处理步骤都与声激励(图1)中相同,除了在这个例子中载波包括双相脉冲之外。这些脉冲首先进行频率调制,以使相互的脉冲间隔根据频率调制(慢-快-慢)模式变化。如本发明情况,将对FM脉冲序列(pulse train)进行幅度调制。因为感觉的位置基音(place pitch)主要是由耳蜗内的电极位置来进行编码的,载波的中心频率可以是窄带的中心频率(fcn)或者是固定速率(例如1000Hz)的脉冲序列。可替换地,只对FM进行幅度调制,以产生最终的频率-幅度-调制脉冲。为了避免电极之间的脉冲交叠,脉冲的具体位置将是变化的,以形成非同时的电极间激励。将开发一种算法来将由于每个电极信道内以及所有信道间的脉冲位置的微小变化而造成的FM的变化最小化。图4的流程图中示出了一个这种算法的实例。
图3示出了使用FAME对一般音频信号进行编码。对特殊频带FM和AM进行提取和压缩,以通过有线或无线信道进行编码传输。因为在编码和解码端,中心频率都已知,所以它们不需要被传输。传输的FM和AM将被恢复和合成,以重新获得原始的音频信号。对于每个信道,AM将需要200比特/秒(8比特×25Hz),FM将需要300比特/秒(1比特过零点×300Hz),从而需要总共500比特/秒。因为8-10信道可足够提供高质量音频信号,通信信道的宽范围内可以使用总计4.8k比特/秒。
本发明(即,使用FAME策略)的人工耳蜗和音频压缩系统相比仅对幅度调制进行编码的现有技术策略提供了相当大的改善。对幅度调制进行编码的策略虽然提供噪声环境中的良好语音识别,并不适于处理噪声环境中语音、音乐感觉和音调语言感知。另一方面,模拟波形理论上包含所有幅度和频率调制,但是人工耳蜗的使用者并不能以未经处理的方式得到关于这些调制的信息。因此,FAME策略对于人工耳蜗和音频信号的应用具有十分显著和创造性的进步。
图4-4D示出了本发明方法的例子,其中对声音(图4A)进行处理以产生AM(包络)信号(图4C)和FM信号(图4D),这是通过使用根据本发明的FAME算法的FAME策略而实现的。
权利要求
1.一种用于改善经过数字处理的模拟声音信号的声音质量的方法,所述方法包括步骤a)提取所述模拟声音信号的至少一个窄带的幅度调制和频率调制;和b)对在步骤(a)中提取的调制进行滤波和压缩,以产生被数字化处理的幅度调制的和频率调制的声音信号,从而提供类似于所述模拟声音信号的声音信号。
2.如权利要求1所述的方法,其中,所述方法用于改善具有人工耳蜗的人所感觉到的声音质量,并且所述方法还包括步骤c)通过特殊频带的频率和幅度调制来激励所述人工耳蜗的电极。
3.如权利要求1所述的方法,其中,所述方法用于从幅度和频率调制的窄带传输恢复所述模拟声音信号的宽带质量,且所述方法还包括步骤c)重新合成所述幅度和频率调制,以产生感觉上与所述模拟声音信号相似的声音信号。
4.如权利要求1所述的方法,还包括步骤将所述模拟声音信号划分成至少一个窄带声音信号。
5.如权利要求1所述的方法,其中,所述提取幅度调制的步骤包括对所述模拟声音信号的窄带进行整流和低通滤波的步骤。
6.如权利要求1所述的方法,其中,所述提取频率调制的步骤包括在声音信号的幅度大致为零的区域计算所述模拟声音信号的窄带的瞬时相位角的步骤。
7.如权利要求1所述的方法,其中,步骤(b)包括将从步骤(a)提取的时域包络的幅度调制到频率调制载波上以产生特殊频带频率-幅度调制波形的步骤。
8.如权利要求7所述的方法,其中,对提取的时域包络的幅度进行调制的步骤包括计算第一时间点的第一幅度的平方与第二时间点的第二幅度的平方的和的平方根的步骤。
9.如权利要求7所述的方法,还包括步骤将来自多个窄带的声音波形求和以产生声音激励。
10.如权利要求6所述的方法,其中,所述方法包括在第一时间测量第一幅度和在第二时间测量第二幅度,并计算所述第二幅度和所述第一幅度的商的反正切。
11.一种人工耳蜗,其包括至少一个电极,其被构造成可位于患者的耳蜗中;和声音信号编码器,其与至少一个电极相连以激励所述电极,所述声音信号编码器通过下面的操作来对声音信号进行编码(a)提取模拟声音信号的至少一个窄带的幅度和频率调制;和(b)对在步骤(a)中提取的调制进行滤波和压缩以产生幅度和频率调制的声音信号,该幅度和频率调制的声音信号用于激励所述人工耳蜗的所述至少一个电极。
12.如权利要求11所述的人工耳蜗,包括频率调制器,其对声音信号的频率进行调制,以使所述声音信号的脉冲间隔根据频率调制模式而变化。
13.如权利要求11所述的人工耳蜗,包括幅度调制器。
14.如权利要求11所述的人工耳蜗,包括多个电极。
15.如权利要求14所述的人工耳蜗,包括脉冲控制器,其控制由所述信号编码器产生的频率-幅度-调制脉冲的定位以减少所述多个电极上的同时激励。
16.一种音频信号压缩系统,其包括至少一个传输器,其构成用于接收音频信号;多个数据通信信道;至少一个接收器,其与所述至少一个传输器在所述多个数据通信信道上通信相连;和音频信号编码器,其通过下面的步骤来对音频信号进行编码(a)提取模拟声音信号的至少一个窄带的幅度和频率调制;和(b)对步骤(a)中提取的所述调制进行滤波和压缩以产生幅度和频率调制的声音信号,所述幅度和频率调制声音信号在所述数据通信信道上传输到所述至少一个接收器。
17.如权利要求16所述的系统,其中,所述数据通信信道是无线信道。
18.如权利要求16所述的系统,其中,所述接收器配置用来恢复和合成所述幅度和频率调制信号,以产生声音类似于所述传输器所接收的所述音频信号的音频信号。
19.如权利要求16所述的系统,其中,所述传输器压缩所述音频信号,以使信号信息以不大于大约5k比特/秒的速率在所述数据通信信道上传输。
20.如权利要求16所述的系统,其中,所述传输器传输不含有所述音频信号的中心频率信息的信号信息。
全文摘要
本发明公开一种用于改善经过数字处理的音频信号的声音质量的方法,该方法包括如下步骤从音频信号的一个或多个窄带中提取幅度和频率调制,对这些调制进行滤波和压缩,以产生经数字化处理的幅度和频率调制的音频信号,从而提供类似于原始音频信号的声音信号。本方法可用于听觉修复和电信系统中。
文档编号H04H20/48GK1561587SQ02819349
公开日2005年1月5日 申请日期2002年8月27日 优先权日2001年8月27日
发明者曾凡钢, 聂开宝 申请人:加利福尼亚大学董事会
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1