具有基频修改的助听装置的制作方法

文档序号:14718672发布日期:2018-06-16 23:25阅读:239来源:国知局

本发明的实施例涉及助听装置。本发明的其他实施例涉及用于处理话音信号的方法。其他实施例涉及用于在计算机上通过处理器、微控制器或可比较的装置执行用于处理话音信号的方法的计算机程序。其他实施例涉及针对助听器和可植入听觉假体的音调范围扩展或音高范围扩大以改善对语言的韵律特征的感知。



背景技术:

据估计到目前为止(2013年11月),全世界约250,000的人已经接受了耳蜗植入器。耳蜗植入器是可植入听觉假体的最常见的形式。耳蜗植入器使具有中等至严重的感觉神经听力残疾的人能够感知声音,并且提供了足够的听觉信息以实现安静环境下的相当充分的听力理解。在植入期间,将电极阵列引入耳蜗,其中,电极阵列通过电脉冲来激励听觉神经。在听觉神经受损的情况下,功能与耳蜗植入器的功能非常类似的脑干植入器是比可植入听觉假体更好的选择。然而,在话音感知方面,脑干植入器通常不能达到耳蜗植入器的效率。

与在可植入听觉假体中使用的电极阵列(其中,每一个电极对应于特定的频带)相比,完整的耳蜗包括多于3,000个内毛细胞,这实现了远远更好的频率分辨率(与常见耳蜗植入器的约10-50个电极或频带相比)。

除了可植入听觉假体(植入的听觉假体)的用户之外,约4千万具有低级别至严重听力缺损的人使用非植入的助听器。虽然在特定情况(主要与低范围的听力缺损相关)下的助听器能够以较高水平恢复听力能力,但是在大多数情况下,助听器支持的听力仍然落后于正常听力。

当前,助听器、耳蜗植入器和脑干植入器的话音处理器使用大量预处理算法,包括:自动增益和灵敏度控制、动态范围的优化、背景噪声降低、风噪声降低等。如今,通过助听器和可植入听力假体进行的治疗集中于改善对词和句子的感知。然而,诸如声调等的提取(伴随)信息对于助听器用户是降低的,并且通常对于植入器用户是不可感知的。因此,这些用户不能感知被编码为韵律的背景信息的重要元素或说话者用语言表达的感情。通常,植入器用户通常甚至不能确定句子是疑问还是陈述,这可能导致不确定性和社交孤立。



技术实现要素:

本发明的目的是针对助听器用户改善对诸如韵律等的语言背景信息和/或感情的感知,并且通过这样做,改善与其他人的交谈的参与。

该目的和/或其他目的是通过独立权利要求来解决的。

本发明的实施例提供了一种助听装置,具有:频率分析设备、统计评估设备、基频修改器和话音信号产生器。频率分析设备被配置为针对话音信号的时间部分来确定话音信号的瞬时基频值。统计评估设备被配置为在多个时间部分上确定话音信号的平均基频值。基频修改器被配置为将瞬时基频值修改为经修改的基频值,使得瞬时基频值|关于平均基频值|[WU1]的差值或商数根据特定函数而改变,从而修改基频值改变的频率范围。话音信号产生器被配置为基于经修改的基频值来产生关于基频修改的话音信号。

本发明的实施例基于这样的认识,即,由于助听器尤其是可植入听力假体的相对粗糙的频率分辨率,因此对诸如韵律(尤其是与之一起传递的话音旋律和感情)等语言附加信息的感知对这种助听器的用户仅在非常有限的范围内是可能的。特别地,可能存在以下情况:特定的人说出的句子仅通过少量电极再现,这是因为语言特别是基频仅在有限的频率范围内改变,但是具有正常听力的人可以完全识别音高的清晰改变。相比之下,由于使用了少量电极,因此尤其是植入听觉假体的用户通常难以检测到音高的改变,尤其是对于分辨疑问和陈述并且用于识别句子边界而言很重要的音高的改变。为了解决该问题,本发明提出了对特定说话者的基频改变的频率范围进行扩展,以例如指示疑问、陈述和句子边界,从而抑制对话音信号的复杂且通常错误的句法分析。因此,本发明的至少一些实施例还基于以下附加或备选认识,即,日常使用的助听器的实际困难在于通过计算机执行的算法对话音信号进行可靠的句法分析以接下来对基频进行修改。与日常生活使用助听器的这些需求相比,本领域的科学研究已经始终手动地调整句子的手动选择部分的基频,以一方面由某人随意支配良好定义的测试数据,并且另一方面检查基频变化对助听器用户的理解能力的影响。相比之下,本发明现在提议增大(放大)原始话音信号中存在的基频的音高变化,使得特定说话者的基频的变化范围增加。因此,本发明尤其解决了助听器可以如何确定应当关于其基频改变话音信号的哪些时间部分并且应当以何种方式改变(增加基频、减小基频、实质上维持基频)的问题。本发明通过确定当前说话者的平均基频以及他/她的当前说话方式(例如,中立、安静、兴奋、高兴、愤怒等)来解决该问题。然后,该平均基频用作用于修改基频的参考频率(类似于“基准”)。

对基频值的修改用于确定经修改的基频值。可以通过瞬时基频值与平均基频值之间的差值被反映为自变数的函数或(数学)映射来完成所述修改。可以通过一个或多个参数来对该函数或(数学)映射进行参数化。作为参数的一个示例,应当提到音高范围因子(PRF),其指示应当对瞬时基频值与平均基频之间的差值缩放或扩展多少。替代差值,瞬时基频值与平均基频值之间的不同关系(商数)也是可行的。

根据一些实施例,助听装置还可以包括:用于对有声时间部分和无声时间部分进行分类的设备,频率分析设备和统计评估设备被配置为通过话音信号的被分类为有声的时间部分来确定瞬时基频值和平均基频值。在很多情况下,确定和改变基频仅在话音信号的有声时间部分内是有意义的,使得通过区分有声时间部分和无声时间部分,通过有声部分可以极大地避免确定瞬时基频值和平均基频值的失真。

根据一些实施例,频率分析设备可以是用于线性预测编码分析(LPC)的设备的一部分,并且话音信号产生器可以是用于线性预测编码合成的设备。线性预测编码相当现实地对人类自然产生话音信号进行建模。在线性预测编码分析的上下文内,基频值被确定为通常几个信号参数中的一个信号参数。在线性预测编码合成中,根据信号参数来再现与原始话音信号实质上匹配或者至少与原始话音信号不会相差太大的话音信号。通过这样做,基频用于初始产生所谓的源信号。在一些情况下,残差信号也用于产生源信号。接下来,对源信号进行滤波,这涉及通过共振参数(根据说话者的声道,即,他/她的喉咙和口腔区域)对相应滤波器进行建模。在滤波器输出端处,输出通过这种方式(LPC-合成话音信号)再现的话音信号。因为在LPC分析的上下文中在合成中独立于共振参数反映了基频值,因此可以通过在实质上不改变再现的话音信号的共振频率和/或幅度的情况下修改基频值来实现再现的话音信号的音高改变。因为未对共振频率进行修改,因此特别是元音(a、e、i、o、u)和类似的声音保持像往常一样可理解。此外,语音仍然听起来很自然,仅话音旋律表现得更明显。

根据一些实施例,话音信号产生器可以基于快速傅里叶变换(FFT)或PSOLA(音高同步叠加)。原则上,这些方法提供了允许在对话音信号进行合成时独立于共振频率反映基频的可能性,使得话音信号的基频可以逐个时间部分地改变而实质上不会使共振峰失真。

根据一些实施例,话音信号产生器可以被配置为实质上不改变话音信号的共振频率。如前所述,尤其对元音和其他有声或部分有声声音的可理解性因而被维持。

根据一些实施例,基频修改器可以被配置为使平均修改基频值保持与平均基频值实质上相等。因此,仍然向助听器用户提供了用于区分各个说话者及其属性(男性、女性、儿童)的基准。换言之,助听器用户实质上仍然具有区分性别并且识别说话者的可能性,这在具有两个或更多个交谈方的情形下对于助听器用户可以是有帮助的。

根据一些实施例,通过其改变差值或商数的特定函数可以是具有比例因子(PRF)的线性函数,使得通过比例因子对差值或商数进行缩放。备选地,诸如s型(sigmoid)函数等的其他函数也是可能的。

根据一些实施例,基频修改器可以被配置为将经修改的基频值限制在下限值和上限值中的至少一个。在说话者已经具有显著的话音旋律的情形中,助听器用户可以甚至在不修改基频的情况下感知与原始话音信号内的韵律和感情有关的足够信息,和/或基频的无限制修改将可以导致经修改的话音信号内的音高的过度变化。此外,可以通过这种方式来实现对可听的和/或技术上可行的频率范围的限制,使得经修改的基频例如不能落入50Hz以下或者甚至0Hz以下。

根据一些实施例,统计评估设备可以被配置为确定多个时间部分的基频值的时间一致性,并且仅当时间一致性高于最小值时才向基频修改器发送平均基频值。例如,可以通过随着最少数量的所考虑的时间部分的基频值的标准偏差来表达时间一致性(标准偏差越高,时间一致性越低,反之亦然)。

根据一些实施例,助听装置还可以包括:说话者改变检测器,被配置为检测何时在话音信号内发生从第一说话者到另一说话者的改变,统计评估设备和基频修改器被配置为中断针对第一说话者的数据处理,直到说话者改变检测器检测到改变回第一说话者为止。在由此得到的实施例中,可以提供用于多个说话者的数据存储器。说话者改变检测器可以被配置为通过特性特征(例如,基频、共振频率、话音速度(例如,通过两个有声时间部分之间的时间间隔))来识别数据存储器中存储的说话者,并且在识别之后立即继续通过使用数据存储器中存储的值进行统计评估设备和基频修改器内的数据处理——实质上没有任何延迟。

实施例提供了一种用于处理话音信号的方法。该方法包括:针对话音信号的时间部分确定话音信号的瞬时基频值,以及在多个时间部分上确定话音信号的平均基频值。瞬时基频值被修改为经修改的基频值,使得瞬时基频值关于平均基频值的差值或商数根据特定函数而改变,从而修改所述基频值改变的频率范围。该方法还包括:基于经修改的基频值来产生关于基频修改的话音信号。

实施例提供了一种计算机程序,用于通过计算机、处理器、微控制器或任何其他可编程信号处理装置来执行用于处理话音信号的方法。

附图说明

下面将通过附图解释本发明的实施例,其中:

图1示出了所提出的音高范围扩展器的一般概述的示意性框图;

图2示出了本文提出的使用LPC(线性预测编码)的音高范围扩展器的实施例的示意性框图;

图3示出了话音信号的时间序列和针对音高范围因子PRF的不同值的话音信号以及修改的话音信号的多个频谱图;

图4示出了针对使用音高范围因子PRF=40%(实际上音高范围减小)进行线性音高范围缩放的基频和经修改的基频的示意性序列;

图5示出了针对使用音高范围因子PRF=150%进行线性音高范围缩放的基频和经修改的基频的示意性序列;

图6示出了针对使用音高范围因子PRF=200%进行线性音高范围缩放的基频和经修改的基频的示意性序列;以及

图7示出了根据实施例用于处理话音信号的方法的示意性流程图。

具体实施方式

在通过附图详细解释本发明的实施例之前,应当注意的是,相同或相等的元件或结构具有相同的附图标记,使得其描述相互适用和/或可互换。

在本说明书和权利要求的上下文中,术语“助听器”表示用于改善难以听见或听力受损的人的听力能力的技术装置的一般术语。在助听器组内,尤其是可植入听觉假体以及不可植入听觉假体可以被表示为子组。如上所述,在可植入听觉假体的子组内,尤其可以区分耳蜗植入器和脑干植入器。

当前,用于助听器(特别是用于耳蜗植入器和脑干植入器)的话音处理器使用大量预处理算法,包括:自动增益和灵敏度控制、动态范围的优化、背景噪声降低、风噪声降低等。然而,目前,用于改善韵律指示并且因此用于改善对韵律的感知的预处理算法是未知的。本文所述的方法和装置填补了这个缺口。

在语言学中,韵律包括话音的节奏、重读和声调这些方面。虽然助听器支持的听力受损的聆听者相对较好地感知节奏和重读,但是听觉和听力研究开始特别关注于弄清较差的声调感知及其负面影响的原因。

主要用音高变化来对声调的声学特征进行编码。本发明的实施例提供了一种方法和装置,以便:

-通过增加音高变化来改善声调的声学特征,

-以将包括在助听器的预处理链中的方式,

-这意味着对数字化的话音的逐块处理是可行的,

-并且使聆听者能够在说话者的声音未失真或被篡改时识别性别和说话者;

-这是通过以下方式来实现的:以适合的方式改变基频F0及其谐波

-并且不显著改变共振频率。

图1示出了所提出的音高范围扩展器的一般概述。有声话音样本块用作输入数据。该块表示例如由说话者创建并且由助听装置的麦克风检测的话音信号的时间部分。可以执行对话音信号的时间采样和接下来的模数转换,以获得大量单个数字化的话音样本。

可以作为助听装置的一部分的音高范围扩展器包括分析设备110,具体地,该分析设备110可以是频率分析设备。所述频率分析设备110被配置为针对话音信号的时间部分来确定话音信号的瞬时基频值(瞬时F0),本文的时间部分对应于有声话音样本块。然而,话音样本块与时间部分之前的其他关系也是可能的。瞬时基频F0被提供给统计评估设备120,统计评估设备120被配置为确定话音信号在多个时间部分上的平均基频值F0*。该瞬时基频值F0和平均基频值F0*被发送到合成设备或话音信号产生器130,从而获得与来自频率分析设备110的话音信号有关的附加信号参数作为进一步的输入数据。现在,基于瞬时基频值F0、平均基频值F0*和控制参数来确定经修改的基频。为此,根据特定的预定义函数来改变瞬时基频值F0关于平均基频F0*的差值或商数,以修改基频值在大量时间部分上发生改变的频率范围。在该上下文中,控制参数定义了修改的程度。合成设备130使用经修改的基频值来产生相应时间部分内的经修改的话音信号。因此,合成设备130在每一种情况下逐块地输出经音高范围扩展的有声话音样本块。换言之,合成设备130被配置为基于经修改的基频值来产生关于基频修改的话音信号。

图2示出了使用线性预测编码(LPC)的所提出的方法的实施例的示意性框图。与在图1中一样,由频率分析设备110来对有声话音样本块进行分析,以确定瞬时基频值。例如,该块可以具有大小N,从而包括N个声音样本。图2中的频率分析设备110是LPC分析,其除了提供对于当前块有效的话音信号的瞬时基频之外,还提供一系列其他LPC参数,特别是关于话音信号的相应时间部分或块的调声的系数、增益、信息。从分析设备110向基频修改器125发送LPC参数,基频修改器125执行音高位移或基频改变(F0改变)。为此,基频修改器125还从统计评估设备120获得平均基频值F0*。与在图1中一样,还提供了设置音高范围改变的程度的至少一个控制参数。在图2的实施例中,向话音信号产生器130发送包括经修改的基频值的LPC参数,其中话音信号产生器130执行LPC合成。话音产生器根据针对当前块的LPC参数来创建经修改的话音信号的N个声音样本块和/或经音高范围扩展的有声话音符号块。

在图2所示的实施例中,由此通过线性预测编码技术来对数字化的声音样本块进行分析。针对短声音部分来确定系数集、增益、基频F0和有声/无声参数。基于(有声信号部分的)连续块的瞬时基频来构建F0统计数据。具体地,计算输入声音的平均基频值(其可以是例如中值),其被指示为F0*。基频修改器或音高位移单元125还维持已知处理的数据的平均值F0(例如,指示为F0**)。以如下方式来扩展音高范围:基频的平均值保持近似相同,也即是说,F0*≈F0**,但是根据PRF因子来对F0*与瞬时基频F0之间的差值进行缩放。因此,PRF=100%意味着不存在改变,而PRF=200%意味着F0范围(最大F0-最小F0)加倍。高PRF值可能需要约束或限制最小可能F0和/或最大可能F0。此外,可能必须在不实际改变音高的情况下首先构建F0(在高达几百毫秒内的)统计数据。如果必要的话,可以以这种方式来扩展系统:当几个说话者同时说话时系统旁路(bypass)处理(特别是对基频的改变和对统计数据的更新)。另一种可能的系统扩展可以在于系统检测说话者的突然改变。

取代LPC(如图2所示),可以使用不同的共振-保留音高改变方法。这些可以基于FFT(快速傅里叶变换)、PSOLA(音高同步叠加)或其他技术。

在根据图1和图2的实施例中,控制参数指定音高范围的扩展程度,如图3中示意性地表示的。控制参数可以例如是音高范围因子PRF。

在上部,图3示出了表示短德语句子“BrittakauftSchuhe?”的话音信号的时间波形。(“Britta在买鞋?”)被发音为疑问(基频接近最后一个音节出现)。四个下部子示意图显示了在针对话音范围因子PRF使用不同值(具体地,PRF=40%(基频的音高范围减小)、PRF=100%(原始话音信号未改变)、PRF=150%(基频的音高范围适当增加)、以及PRF=200%(基频的音高范围显著增加)作为控制参数进行处理之后语言表达的频谱图。由黑点来指示共振频率的演变。针对频谱图和共振频率,左侧的从0Hz到5000Hz的频率刻度是有效的。由白线来指示基频的演变(右侧的从75Hz到800Hz的频率刻度)。仅针对已经被分类为有声的时间部分显示了基频的演变。针对被分类为无声的时间部分,未显示基频的演变。

图3清楚地示出了特别是在PRF=150%和PRF=200%的情况下与在PRF=100%的未改变情况下相比基频在接近句子末端处明显更强地增加。由此,具有助听器的人能够更容易地识别出当前句子是疑问。在图3中,同样显而易见的是,由黑点表示的共振频率几乎未改变。

基于先前的临床研究和发明人的首次自主试验,针对根据所提出的方法处理的话音信号可以预期对声调的感知的显著改善。所提出的临床研究使用经手动处理的话音信号,其中,特定的词或音节关于其音高被手动地改变。对于执行手动改变的某人,如果所述人已知相应语言(德语、英语、中文、日语……)并且在音频信号处理方面具有基本知识,则在图形表示的信号波形中标记相应词并且使所述信号部分经历具有经修改的基频的线性预测编码是不成问题的。为了进行手动处理,考虑的人具体地使用他/她对相应语言的语义和句法的知识。然而,针对助听器中的应用,可以期望在对将伴随计算机辅助语义和句法分析的存储的数据和数据量没有较高计算支出和较高要求的情况下进行该操作。此外,针对每一种语言(德语、英语……)的计算机辅助的语义和句法分析将使得执行不同的程序或者至少加载不同的配置成为必要,这一方面可能令具有助听器的人感到讨厌,并且另一方面意味着在语义和句法分析中对人进行编程和训练涉及大量努力。然而,所提出的本发明可以普遍地且独立于说话者的语言被使用,可靠地传递期望的结果,并且仅需要助听器中的少量附加信号处理工作。

图4至图6示意性地示出了针对PRF值40%、150%和200%将原始基频F0修改为经修改的基频F0*。这些图中的每一个在时间轴上示出了50个块。每一个块可以包括N个样本。在图4至图6表示的所有情况下,平均基频始终处于150Hz并且被表示为虚线。应当注意的是,确定平均基频可以被实现为例如移动平均,使得平均基频可以(略微)从一个块改变到另一个块。

在图5中,用图形表示了差值Δ=F0-F0*和经修改的差值Δ·PRF=(F0-F0*)以用于说明的目的。取代差值,还可以使用瞬时基频F0与平均基频F0*之间的不同关系,例如,商数F0/F0*。

图7示出了根据本发明的实施例用于处理话音信号的方法的示意性流程图。在步骤71,针对话音信号的时间部分来确定话音信号的瞬时基频值F0。在接下来的步骤72,确定话音信号在多个时间部分上的平均基频值F0*。然后,在步骤73,将瞬时基频值F0修改为经修改的基频值。为此,根据例如特定函数来改变瞬时基频值F0关于平均基频值F0*的差值或商数。由此,可以修改基频值改变的频率范围(特别是频率范围的宽度)。在步骤74,基于经修改的基频值来产生关于基频修改的话音信号。

根据其他实施例,该方法可以包括:对有声时间部分和无声时间部分进行分类,所述确定瞬时基频值和平均基频值必须通过话音信号的已经被分类为有声的时间部分来执行。然而,已经被分类为无声的时间部分通常不用于确定瞬时基频值和平均基频值。

可以在线性预测编码分析(LPC)的上下文中执行对瞬时基频值的确定。可以根据线性预测编码合成、使用经修改的基频值来产生经修改的话音信号。根据其备选实施例,产生经修改的话音信号可以基于快速傅里叶变换或PSOLA(音高同步叠加)。

根据实施例,实质上不改变话音信号的共振频率。通常,这主要涉及产生经修改的话音信号。

根据实施例,在修改瞬时基频值的步骤期间,必须小心以确保平均修改基频值保持与平均基频值实质上相等。

通过其改变差值或商数的特定函数可以例如是具有比例因子(PRF)的线性函数,使得通过比例因子来对差值或商数进行缩放。

根据实施例,经修改的基频值可以被限制在下限值和上限值中的至少一个,以防止基频的过量或过度改变。

根据实施例,该方法还可以包括:确定多个时间部分内的基频值的时间一致性。仅当时间一致性高于预置(配置)的最小值时,才基于平均基频值来修改瞬时基频值。由此,可以防止例如在说话者改变的情况下的转变效应以不期望的方式影响基频值的修改。

根据其他可能的实施例,该方法可以包括检测说话者的改变的步骤。因此,可以检测何时在话音信号中发生从第一说话者到另一说话者的改变。针对第一说话者确定平均基频和修改瞬时基频值可以被中断,直到检测到说话者再一次改变回第一说话者为止。

即使已在设备的上下文中描述了一些方面,应当理解的是,所述方面还表示了对相应方法的描述,使得设备的块或结构组件还被理解为相应的方法步骤或方法步骤的特征。通过与之类比,在方法步骤的上下文中或者作为方法步骤已经描述的方面也表示对相应设备的相应块或细节或特征的描述。方法步骤中的一些或全部可以由硬件设备(或在使用硬件设备的同时)来执行,例如微处理器、可编程计算机或电子电路。在一些实施例中,最重要的方法步骤中的一些或若干可以由这种设备来执行。

从而根据本发明的一些实施例包括数据载体,该数据载体包括能够与可编程计算机系统合作以执行本文描述的任何方法的电可读控制信号。

一般而言,本发明的实施例可以被实现为具有程序代码的计算机程序产品,该程序代码用于当计算机程序产品在计算机上运行时执行任何方法。

该程序代码还可以存储在例如机器可读载体上。

其他实施例包括用于执行本文描述的任何方法的计算机程序,所述计算机程序存储在机器可读载体上。

换言之,本发明方法的实施例从而是具有程序代码的计算机程序,该程序代码用于当计算机程序在计算机上运行时执行本文描述的任何方法。

本发明方法的另一实施例从而是数据载体(或数字存储介质或计算机可读介质),其上记录有用于执行本文描述的任何方法的计算机程序。

本发明方法的另一实施例从而是表示用于执行本文描述的任何方法的计算机程序的数据流或信号序列。数据流或信号序列可以被配置为例如经由数据通信链路(例如,经由互联网)来传输。

另一实施例包括例如计算机或可编程逻辑器件之类的处理装置,其被配置为或适于执行本文描述的任何方法。

另一实施例包括其上安装有用于执行本文描述的任何方法的计算机程序的计算机。

根据本发明的另一实施例包括被配置为向接收机发送用于执行本文描述的至少一个方法的计算机程序的设备或系统。该发送可以是例如电子的或光学的。接收机可以是例如计算机、移动设备、存储器设备或类似设备。该设备或系统可以包括例如用于向接收机发送计算机程序的文件服务器。

在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列FPGA)可以用于执行本文描述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器协作,以执行本文描述的任何方法。一般而言,在一些实施例中,方法由任何硬件设备来执行。所述硬件设备可以是任何通用硬件,例如计算机处理器(CPU),或者可以是方法专用的硬件,例如ASIC。

上述实施例仅表示对本发明的原理的说明。应当理解的是,本领域其他技术人员将意识到本文描述的布置和细节的修改和变化。这就是为什么本发明预期仅由所附权利要求的范围来限制,而非本文借助对实施例的描述和讨论所给出的具体细节来限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1