具有骨传导传感器的听力设备的制作方法

文档序号:28752249发布日期:2022-02-08 01:04阅读:141来源:国知局
具有骨传导传感器的听力设备的制作方法

1.本发明涉及一种包括骨传导传感器的听力设备。


背景技术:

2.在涉及头戴式听力装置(诸如耳机、有源听力保护器和听力仪器或助听器)的许多通信应用中,获取干净的语音信号是相当重要的。一旦获取,干净的语音信号可以例如经由无线数据通信链路供应给干净的语音信号的远端接收方,以便提供更易理解和/或听起来更舒适的语音信号。通常期望获得干净的语音信号,该干净的语音信号例如在电话交谈期间为远端接收方提供更好的语音清晰度和/或更好的舒适度,作为语音识别系统、话音控制系统等的输入。
3.然而,头戴式听力装置的用户所处的声音环境经常受到多种噪声源(诸如干扰说话者、交通噪声、嘈杂的音乐、来自机械的噪声等)的破坏或影响。当记录空气传播声音的麦克风拾取说话者的声音时,此类环境噪声源可能导致目标语音信号的信噪比比较低。此类麦克风可能对来自用户声音环境的各个方向的声音敏感,并且因此倾向于不加区别地拾取所有环境声音,并将其作为受噪声影响的语音信号传输到远端接收方。虽然可以通过使用具有特定方向特性的麦克风或使用所谓的悬臂麦克风(通常用于耳机)在一定程度上缓解环境噪声问题,但本领域需要一种听力设备,该其具有通过例如无线数据通信链路传输到远端接收方的用户语音的改进信号质量,特别是改进的信噪比。通信链路可包括蓝牙链路或网络、wi-fi链路或网络、gsm蜂窝链路、有线连接等。
4.ep3188507公开了一种头戴式听力装置,其检测并利用在用户耳道中拾取的用户自身声音的骨传导分量,以在特定声音环境条件下提供具有改进的信噪比的混合语音/话音信号以用于传输到远端接收者。除了用户自身话音的骨传导分量之外,混合语音信号还可包括由头戴式听力装置的环境麦克风布置拾取的用户自身话音的分量/贡献。从环境麦克风布置衍生的该附加话音分量可包括用户自身话音的高频分量,以至少部分地恢复混合麦克风信号中的用户话音的原始频谱。
5.wo 00/69215公开了一种话音声音传输单元,该话音声音传输单元具有适于插入到用户外耳道中的耳机,该耳机具有骨传导传感器和空气传导传感器两者。骨传导传感器适于接触外耳道的一部分以将话音声音信息的骨振动转换成电信号。空气传导传感器驻留在耳道内并且将话音声音信息的空气振动转换成电信号。在其优选形式中,语音处理器对来自骨传导传感器和空气传导传感器的输出进行采样以对噪声进行滤波并选择纯话音声音信号以用于传输。话音声音信号的传输可通过无线链接并且还可被配备扬声器和接收器以实现双向通信。
6.虽然骨传导信号具有声音和环境噪声对骨传导信号影响很小或没有影响的优点,但当使用骨传导信号表示说话者的声音时,骨传导信号存在许多缺陷。骨传导信号常常听起来很模糊;由于声音的身体传导和空气传导,它经常错过较高的频率和/或受到其他人工制品的影响。此外,骨传导信号可包括其他声音,诸如来自吞咽、下颌运动、耳-耳机摩擦等
的声音。由于耳机装配或机械耦接不完善,骨传导信号可能容易受到其他传感器噪声(嘶嘶)的影响。
7.为了改进由骨振动传感器产生的信号的质量,已经进行了各种尝试。为此,提出了各种滤波技术。例如,由t.tamiya和t.shimamura撰写的文章“reconstruction filter design for bone-conducted speech”,interspeech 2004-icslp 8
th international conference on spoken language processing,icc jeju,jeju island,korea,october 4-8,2004,涉及用于重建从说话者获取的骨传导语音信号的质量的数字滤波器。
8.然而,仍然期望提供一种听力设备来提高从具有骨传导传感器的听力设备获得的语音信号的质量,和/或提供其替代方案。


技术实现要素:

9.根据第一方面,本发明涉及一种听力设备,包括:
[0010]-骨传导传感器,所述骨传导传感器被配置为记录指示由所述听力设备的佩戴者的骨骼传导的骨传导振动的骨传导信号;
[0011]-信号处理单元,所述信号处理单元被配置为实现合成语音生成过程,所述合成语音生成过程实现语音模型;
[0012]
其中所述合成语音生成过程接收所述骨传导信号的表示作为控制输入并且输出合成语音信号,其中所述合成语音生成过程实现时间序列预测器,所述时间序列预测器被配置为根据所述时间序列的一个或多个先前样本预测所述时间序列的当前样本,所述时间序列表示语音波形,其中所述预测以所述骨传导信号的所述表示为条件。
[0013]
发明人已经认识到,可通过采用创建合成语音的合成语音模型并且使用来自骨传导传感器的骨传导信号来指导合成语音构建过程来获得高质量的语音重建。具体地,合成语音生成过程被配置为生成人工人类语音。合成语音生成过程可合成表示人工语音的音频信号的波形。信号处理单元的实施例因此实现了用于人类语音的人工产生的语音合成器。语音合成器包括语音模型,即语音生成过程知道如何生成语音信号。语音合成器的一些实施例即使在没有任何控制输入的情况下也能够生成语音信号。
[0014]
在一些实施例中,语音模型是在操作期间定义限定状态的语音模型,其中内部状态随时间推移而演变。因此,语音模型表现出时间动态行为,从而促进了表示音频信号波形的时间序列的创建。
[0015]
在一些实施例中,语音模型是经训练的机器学习模型。具体地,机器学习模型可在训练阶段期间基于多个训练语音示例来进行训练。每个训练语音示例可包括表示说话者的语音的训练骨传导信号和表示由环境麦克风记录的空气传播声音的对应训练麦克风信号,记录所述扬声器的语音的空气传播声音,具体地与训练骨传导信号的记录同时记录。因此,机器学习模型可由机器学习算法训练,以在由训练骨传导信号控制时创建近似训练麦克风信号的合成语音。因此,训练麦克风信号用作训练阶段中的目标信号。一旦机器学习模型被训练,它可仅基于骨传导信号生成合成语音,即当作为语音合成器操作时,不需要环境麦克风信号作为经训练语音模型的输入。因此,语音模型被配置为仅基于骨传导信号生成合成语音,所生成的合成语音近似于空气传导话音声音。合成语音生成过程将骨传导信号的表示作为输入馈送到语音模型中。该表示可表示骨传导信号或其一个或多个特征,特别是骨
传导信号的一个或多个与时间相关特征。合成语音生成过程不需要对语音进行任何识别,即其不要求该过程推断语音的含义。
[0016]
机器学习语音模型的建立只需要实际语音的很少假设和极少的关于待重建语音特征的先验知识。相反,模型是基于训练示例池来创建的。具体地,训练示例可包括表示听力设备的特定用户的语音的骨传导信号和环境麦克风信号。因此,听力设备可适用于特定用户并且可训练语音模型以合成特定用户的话音。
[0017]
经训练的语音模型可用于在接收到骨传导信号时合成人工语音。具体地,语音模型可被配置为基于作为其唯一输入、特别是其唯一控制输入的骨传导信号来合成人工语音。控制输入可以是表示语音模型的条件信号的输入;其中语音模型被配置为预测以控制信号为条件的合成语音,即控制信号可用作概率语音模型的条件,例如被配置为预测表示合成语音的波形的概率时间序列预测过程的条件。
[0018]
在一些实施例中,机器学习模型包括神经网络模型。具体地,在一些实施例中,神经网络模型包括分层神经网络模型的一个或多个层,诸如至少两层,诸如至少三层。神经网络可以是包括至少三个网络层(诸如至少四个网络层)的深度神经网络。将理解的是,层的数量可基于模型的期望设计准确度来选择。还将理解的是,其他实施例可采用其他类型的机器学习模型。
[0019]
一个或多个层中的一者可以是递归神经网络,任选地后面跟着一个或多个附加层,例如包括softmax层或另一个硬或软分类或决策层。在一些实施例中,递归神经网络以密度估计模式操作。
[0020]
在一些实施例中,语音模型包括自回归语音模型。具体地,语音模型可输出表示合成语音波形的预测样本序列。合成语音创建过程可被配置为将预测样本序列的一个或多个先前样本作为反馈输入馈送到自回归语音模型,并且自回归语音模型可被配置为根据一个或多个先前样本并且进一步以骨传导信号表示的一个或多个样本为条件来预测该预测样本序列的当前样本。通常,合成语音生成过程和/或语音模型实现时间序列预测器,该时间序列预测器被配置为根据时间序列的一个或多个先前样本来预测表示语音波形的时间序列的当前样本,其中预测以骨传导信号的表示为条件,例如其中骨传导信号的表示用作根据条件概率计算语音信号的条件,该条件概率以骨传导信号的表示为条件。
[0021]
语音模型的自回归输入信号可以多种方式进行编码,例如作为连续变量或使用一种热编码。编码可以是线性、u法则、高斯等。
[0022]
由语音模型输出的预测样本序列的预测样本可表示为在多个输出类上的采样概率分布。因此,在一些实施例中,语音模型计算多个输出类上的概率分布,每个输出类表示采样音频波形的样本的样本值。例如,每个类可表示预测音频信号的值,该预测音频信号表示合成语音。例如,如果音频信号被编码为8位信号,则语音模型可具有256个输出。可对概率分布进行采样,并且可将样本作为合成语音生成过程的输出来传递。样本还可被传递到语音模型的输入端以用于预测后续样本。
[0023]
为了指导合成语音模型,例如作为条件预测过程的条件,骨传导信号可以多种方式表示。因此,本文使用的骨传导信号的引用一般指骨传导信号的合适表示,即原始骨传导信号或骨传导信号的合适处理版本,例如骨构造信号的滤波和/或向上或下采样版本,和/或骨传导信号的合适变换版本,例如骨传导信号的时间和/或频率表示。骨传导信号的表示
可表示以合适的时间尺度变化的波形。骨传导信号的表示可以是包含语音信号的包络形状的信息的表示。在一些实施例中,信号处理单元被配置为处理骨传导信号以提供骨传导信号的梅尔变换。使用梅尔表示可允许一些语音合成算法的“无缝”集成。此外,由于在梅尔变换中嵌入的人类听力(对数频率)的了解,梅尔表示可能是有益的。
[0024]
在另一个实施例中,骨传导信号被直接提供为单个连续信号的采样版本,从而获得低延迟。可以与预测样本序列相同的速率或更低的速率对信号进行采样。在此类实施例中,语音模型可以匹配采样率利用骨传导信号中存在的整个信息。
[0025]
听力设备可被实现为单个听力设备,例如头戴式听力装置,或者被实现为包括彼此可通信地耦接的多个设备的装置。头戴式听力装置可包括骨传导传感器和第一通信接口。
[0026]
具体地,在一些实施例中,听力设备包括头戴式听力装置,该头戴式听力装置包括骨传导传感器、第一通信接口和信号处理。在该实施例中,头戴式装置可被配置为经由第一通信接口将合成语音信号传送到头戴式听力装置外部的外部装置。
[0027]
在其他实施例中,听力设备包括头戴式装置和信号处理装置。头戴式听力装置包括骨传导传感器和用于将骨传导信号传送到信号处理装置的第一通信接口。信号处理装置包括用于接收骨传导信号的第二通信接口和实现合成语音生成过程的信号处理单元的至少一部分,诸如全部。因此,减少了头戴式听力装置的处理要求。
[0028]
头戴式听力装置和信号处理装置之间的通信可以是有线或无线的。在一些实施例中,听力设备包括无线通信接口,例如包括天线和无线收发器。类似地,信号处理装置可包括无线通信接口,例如包括天线和无线收发器。
[0029]
无线通信可经由无线数据通信链路,诸如双向或单向数据链路。无线数据通信链路可在工业科学医疗(ism)射频范围或频带(诸如2.40-2.50ghz频带或902-928mhz频带)中操作,例如使用蓝牙低能量通信或其他合适的短程射频通信技术。
[0030]
有线通信可经由有线数据通信接口,该有线数据通信接口可例如包括符合usb、iic或spi的数据通信总线,其用于将骨传导信号传输到单独的无线数据传输器或通信设备(诸如智能手机或平板电脑)。
[0031]
听力设备可被配置为将所生成的合成语音信号应用于后续处理阶段,例如由听力设备实现(诸如由信号处理装置)的后续处理阶段,和/或应用于由听力设备外部的设备实现的后续处理阶段。
[0032]
为此,听力设备可以各种方式提供所创建的合成语音信号作为输出。例如,在信号处理单元包括在头戴式听力装置中的实施例中,头戴式听力装置可将所创建的合成语音信号传送到用户附件设备,诸如移动电话、平板计算机和等。为此,头戴式听力装置可经由有线或无线通信链路传送所创建的合成语音信号,例如,如上所述。用户附件设备可例如使用所接收的合成语音信号作为话音可控功能的输入,例如在用户附件设备上执行的话音可控软件应用程序。另选地或附加地,用户附件设备可例如经由蜂窝通信网络或经由另一个有线或无线通信链路(诸如蓝牙低能量链路)、经由蜂窝通信网络等向远程系统发送合成语音信号。
[0033]
类似地,在信号处理单元包括在与头戴式听力装置分离的信号处理装置中的实施例中,信号处理装置本身可使用所接收的合成语音信号作为信号处理装置的话音可控功能
(例如,在信号处理装置上执行的话音可控软件应用程序)的输入。另选地或附加地,信号处理装置可例如经由蜂窝通信网络或经由另一个有线或无线通信链路(诸如蓝牙低能量链路)、经由蜂窝通信网络等向远程系统发送合成语音信号。
[0034]
因此,在一些实施例中,听力设备包括输出接口,该输出接口被配置为提供所生成的合成语音信号作为听力设备的输出。输出接口可以是扬声器或通信接口,诸如被配置为例如经由有线或无线通信链路将生成的合成语音信号传输到一个或多个远程系统的有线或无线通信接口。在实施例中,其中听力设备被实现为包括信号处理单元的头戴式听力装置,头戴式听力装置还可包括输出单元。在实施例中,其中听力设备包括头戴式听力装置和单独的信号处理装置,信号处理装置可包括输出单元。
[0035]
后续处理阶段的示例可包括话音识别阶段、用于将人工语音信号与一个或多个附加信号组合的混频器阶段、滤波阶段等。
[0036]
骨传导传感器被配置为在听力设备、特别是头戴式听力装置的佩戴者说话时,记录指示由听力设备、特别是头戴式听力装置的佩戴者的骨骼传导的骨传导振动的骨传导信号。骨传导传感器提供指示记录的振动的骨传导信号。通常,听力设备的佩戴者,特别是头戴式装置,也将被称为听力设备的用户。当用户说话时,骨骼振动承载听力设备用户的话音声音的信息。将理解的是,一些骨传导振动可具有其他来源,诸如源自吞咽、下颌运动、耳-耳机摩擦等的声音。为了本说明书的目的,这些可被认为是噪声。因此,为了本说明的目的,由骨传导信号转换的骨振动也将被称为话音声音的振动,因为当用户说话时,它们承载关于用户的话音声音的信息。骨传导传感器可以是耳道麦克风、加速度计、振动传感器、或用于在听力设备的佩戴者说话记录时骨传导振动的另一个合适传感器。在ep3188507和wo 00/69215中公开了骨传导传感器的合适示例。
[0037]
在一些实施例中,听力设备包括环境麦克风,该环境麦克风被配置为记录由听力设备的用户所说的空气传播语音并且提供指示所记录的空气传播语音的环境麦克风信号。在一些实施例中,头戴式听力装置包括环境麦克风。另选地或附加地,在其中听力设备包头戴式听力装置和单独的信号处理装置的实施例中,信号处理装置可包括输出单元信号处理装置可包括环境麦克风,从而减小了头戴式听力装置和信号处理装置之间的通信链路的传输要求。
[0038]
在一些实施例中,信号处理单元被配置为接收环境麦克风信号作为在用于训练语音模型的训练阶段期间使用的目标信号。另选地或附加地,信号处理单元可在正常操作期间接收环境麦克风信号,并且根据所生成的合成语音信号和环境麦克风信号创建输出语音信号。
[0039]
具体地,当在训练阶段期间使用环境麦克风信号时,信号处理单元可被配置为可以记录模式和/或训练模式操作。当以记录模式和/或训练模式操作时,信号处理单元接收骨传导信号和环境麦克风信号,其中环境麦克风信号与骨传导信号同时记录以表示包括骨传导信号和环境麦克风信号的信号对,这些信号各自表示听力设备的佩戴者的相同语音。因此,骨传导信号和环境麦克风信号可被记录为相应波形对。为此,可指示用户在低噪声环境中说不同的句子或其他语音部分,在该低噪声环境中扬声器的骨传导声音信号由骨传导传感器记录,并且空气传播声音由环境麦克风信号同时记录。
[0040]
因此,听力设备可包括存储器,所述存储器用于存储训练数据,所述训练数据包括
一个或多个信号对,每个信号对包括由所述骨传导传感器记录的训练骨传导信号,以及在记录所述信号对的所述训练骨传导信号的同时由所述环境麦克风记录的训练环境麦克风信号。
[0041]
当以训练模式操作时,信号处理单元可被配置为接收并任选地存储表示不同语音部分的一个或多个此类信号对,诸如表示所记录的语音的区段的波形。
[0042]
因此,一个或多个记录的信号对可用作机器学习过程中的训练数据,以用于适配语音模型,特别是用于适配语音模型的可调整模型参数。机器学习过程可由信号处理单元和/或由外部数据处理系统执行。
[0043]
因此,在一些实施例中,所述信号处理单元被配置为以训练模式操作;其中所述信号处理单元;在以所述训练模式操作时,被配置为基于所述合成语音生成过程在接收到训练骨传导信号时的结果并且根据模型适配规则来适配所述语音模型的一个或多个模型参数以便确定适配的语音模型,所述适配的语音模型提供所创建的合成语音和对应的训练环境麦克风信号之间的改进匹配。
[0044]
当训练处理由外部数据处理系统执行时,信号处理单元可将所记录的训练数据传输到外部数据处理系统。外部数据处理系统可基于训练数据创建语音模型或适配现有语音模型,并且将所创建或适配的语音模型的对应创建或适配的模型参数返回给信号处理单元。信号处理单元可例如经由合适的有线或无线数据通信链路连续地将训练示例转发到外部数据处理系统。另选地,信号处理单元可将训练数据存储在听力设备的存储器中,并且例如经由有线或无线通信链路和/或通过将训练数据存储在可移动数据载体等上来将所存储的训练数据提供给外部数据处理系统。
[0045]
当信号处理单元本身执行机器学习过程时,这可在线或离线进行。当执行在线训练时,信号处理单元可在记录训练数据时连续地适配语音模型。当执行离线训练时,信号处理单元可例如在以记录模式操作时,将训练数据池存储在听力设备的存储器中,该池包括多个固定或可变长度的信号对。当以训练模式操作时,信号处理单元可基于所存储的训练数据池执行训练过程。将理解的是,在线和离线训练的各种组合是可能的,例如,由外部数据处理系统或信号处理单元基于大初始训练集结合初始语音模型的后续在线或离线适配对初始语音模型进行离线训练。通过单独的信号处理装置或甚至通过远程数据处理系统执行训练过程的至少一部分减少了对头戴式听力装置中的计算能力的需要。
[0046]
在任何情况下,在当前语音模型接收到一个或多个记录的训练骨传导信号作为控制输入(例如,作为概率时间序列预测过程的条件)时,训练过程的实施例可使用当前语音模型来创建合成语音。训练过程还可将由此创建的合成语音以及与相应的训练骨传导信号同时记录的对应的一个或多个训练环境麦克风信号进行比较。训练过程还可响应于比较的结果并根据模型适配规则适配当前语音模型的一个或多个模型参数以便确定适配的语音模型,所述适配的语音模型提供所创建的合成语音和对应的训练环境麦克风信号之间的改进匹配。过程可以迭代的方式重复,例如直到满足预定的模型质量标准,从而产生经训练的语音模型。优选地,至少初始训练过程基于训练数据的大数据集,该大数据集覆盖广泛的语音和语音相关伪像(诸如牙齿点击、下颌移动、吞咽等)。
[0047]
另选地或附加地,环境麦克风信号可在听力设备的正常操作期间使用,即在语音模型训练之后并与经训练的语音模型结合。具体地,在一些实施例中,可训练合成语音模型
以重建环境麦克风信号的滤波版本。滤波版本可通过第一滤波器(例如,低通滤波器)获得。在使用经训练的语音模型的听力设备的后续正常操作期间,信号处理单元可接收来自骨传导传感器的骨传导信号和来自环境麦克风的同时记录的环境麦克风信号。信号处理单元可使用经训练的语音模型来创建合成语音信号。信号处理单元还可使用与所述第一滤波器互补的第二滤波器来创建所接收的环境麦克风信号的滤波版本。例如,当第一滤波器是具有第一截止频率的低通滤波器时,第二滤波器可以是具有小于或等于第一截止频率的第二截止频率的高通滤波器。信号处理单元还可被配置为将所创建的合成语音信号与环境麦克风信号的滤波版本组合,特别是混合,并提供组合的信号作为输出语音信号。
[0048]
因此,在一些实施例中,所述语音模型被配置为当语音模型接收骨传导信号作为控制输入特别是有条件的输入时,生成对应于由第一滤波器滤波的语音信号的合成滤波语音信号;并且其中所述信号处理单元被配置为从所述环境麦克风接收环境麦克风信号,所述环境麦克风信号与所述骨传导信号同时被记录;使用与所述第一滤波器互补的第二滤波器来创建所接收的环境麦克风信号的滤波版本,以及将所生成的合成滤波信号与所接收的环境麦克风信号的所创建的滤波版本组合以创建输出语音信号。
[0049]
具体地,已经证明骨传导振动对于重建说话的语音的低频特别有用,而骨传导信号对于重建语音信号的高频可能不太有用。因此,在一些实施例中,合成语音的重建低频部分与实际环境麦克风信号的高频部分组合。
[0050]
本领域技术人员将理解,上述过滤功能中的每一者可以多种方式实现。在某些实施例中,低通和/或高通滤波功能包括具有预定频率响应或可调节/可适配频率响应的一个或多个fir或iir滤波器。低通和/或高通滤波功能的替代实施例包括滤波器组,诸如数字滤波器组。滤波器组可包括布置在音频范围的至少一部分上的多个相邻带通滤波器。信号处理单元可被配置为生成或提供低通滤波功能和/或高通滤波功能,作为在信号处理器的可编程微处理器实施例上运行的预定可执行程序指令集。使用数字滤波器组,可通过选择多个相邻带通滤波器的第一子集的相应输出来执行低通滤波功能;和/或高通滤波功能可包括选择多个相邻带通滤波器的第二子集的相应输出。滤波器组的相邻带通滤波器的第一子集和第二子集可基本上不重叠,除了在下面讨论的各自截止频率处。
[0051]
低通滤波功能可具有例如在800赫兹和2.5khz之间选择,诸如在1khz和2khz之间的截止频率;和/或高通滤波功能可具有在800hz和2.5khz之间,诸如在1khz和2khz之间的截止频率。在一个实施例中,低通滤波功能的截止频率基本上与高通滤波功能的截止频率相同。根据另一个实施例,至少在重叠区域中,低通滤波功能和高通滤波功能的相应输出信号的总和量值基本上为一。低通和高通滤波功能的后两个实施例通常将导致滤波功能的求和输出的相对平坦的量值。
[0052]
头戴式听力装置可以是听力仪器或助听器、耳机、耳机、听力保护设备等。通常,头戴式听力装置可以是戴在用户耳朵处、后面和/或其中的设备。具体地,在一些实施例中,头戴式听力装置可以是助听器,其被配置为经由扬声器接收听力损失补偿的音频信号并将其传递给用户或患者。助听器可以是耳后(bte)型、耳内(ite)型、耳道内(itc)型、耳道内接收器(ric)型或耳内接收器(rite)型。通常,从听力设备的电源中只能获得非常有限的功率量。例如,在助听器中,电源通常由常规zno2电池提供。在头戴式听力装置的设计中,尺寸和功耗是重要的考虑因素。头戴式听力装置可包括一个或多个环境麦克风,其被配置为基于
由环境麦克风记录的记录周围环境声音输出音频信号。头戴式听力装置可包括用于执行信号和/或数据处理的处理单元。具体地,处理单元可包括听力损失处理器,其被配置为补偿头戴式听力装置的用户的听力损失并输出听力损失补偿的音频信号。听力损失补偿音频信号可适于恢复响度,使得正常收听者将感知到的所施加信号的响度与用户感知到的听力损失补偿信号的响度基本匹配。头戴式听力装置还可包括输出换能器,诸如接收器或扬声器、植入换能器等,其被配置为基于可由人类听觉系统接收的听力损失补偿音频信号输出听觉输出信号,由此用户听到声音。
[0053]
通常,听力设备的实施例的信号处理单元可包括或可通信地耦接到用于存储语音模型的模型参数的存储器。除了在语音模型的训练期间可适配的可适配模型参数之外,模型参数可包括在语音模型的训练期间不适配的静态参数。静态模型参数可指示模型结构,例如神经网络架构的网络拓扑。此类静态模型参数可例如包括分层网络结构的网络层的数量和特征、相应层中的节点的数量、连接相应层的节点的权重的连通性拓扑等。然而,将理解的是,一些训练过程可包括例如通过修剪权重等的对模型拓扑的至少一部分的适配。
[0054]
在任何情况下,模型参数包括在训练过程期间可适配的多个可适配模型参数。例如,在基于神经网络的语音模型中,可适配的网络参数包括神经网络的权重,其值或强度在训练过程期间响应于实际模型输出与目标输出的比较并基于预定的训练规则来进行适配。训练规则的示例包括错误反向传播和/或在机器学习领域中已知的其他训练规则。
[0055]
如上所述,在一些实施例中,听力设备包括与头戴式听力装置分离的信号处理装置。信号处理装置可包括信号处理单元,该信号处理单元可被实现为适当编程的中央处理单元。信号处理装置还可包括存储单元和通信接口,其各自可通信地连接到信号处理单元。存储器单元可包括一个或多个可移除和/或不可移除数据存储单元,包括但不限于只读存储器(rom)、随机存取存储器(ram)等。存储单元可具有存储在其上的计算机程序,该计算机程序包括用于致使信号处理装置执行本文所述的合成语音生成过程并可选地执行本文所述的语音模型训练过程的程序代码。通信接口可包括天线和无线收发信机,例如,被配置用于以2.4-2.5ghz范围内或在另一个合适频率范围内的频率进行无线通信。通信接口可被配置为例如使用蓝牙低能量与头戴式听力装置进行通信,诸如无线通信。通信接口可用于从头戴式装置接收骨传导信号以及可选地接收环境麦克风信号。在一些实施例中,通信接口还可用作用于输出所创建的合成语音信号的输出接口。另选地或附加地,信号处理装置可包括用于输出所生成的合成语音信号的另一个输出接口,例如,被配置用于经由蜂窝通信网络进行数据通信的蜂窝通信单元和/或另一有线或无线数据通信接口。信号处理装置可以是移动设备,诸如便携式通信设备,例如智能手机、智能手表、平板计算机或其他处理设备或系统。
[0056]
在一些实施例中,听力设备包括被配置成将空气传播振动转换成麦克风信号的环境麦克风,其中合成语音生成过程除了骨传导信号之外还接收麦克风信号作为控制输入。在此类实施例中,麦克风信号和骨传导信号都被输入到合成语音生成过程。具体地,语音模型可将麦克风和骨传导信号映射到“干净的语音”。干净的语音通常被认为是在没有噪声的情况下的语音信号。这将进一步帮助清洁语音的重建,因为额外的相关信号可用于干净的语音信号的预测。当语音模型还具有麦克风信号作为输入时,训练语音示例可包括噪声分量,和/或语音模型可被配置为估计麦克风信号中的噪声分量并对所述噪声分量进行滤波。
[0057]
将理解的是,在一些实施例中,信号处理单元可分布在听力设备和信号处理装置之间,例如,使得信号处理的一部分(例如由骨传导传感器提供的骨传导信号的预处理)由头戴式听力装置执行,而信号处理的其余部分由信号处理装置执行。
[0058]
不管信号处理单元是作为头戴式听力装置的一部分还是作为单独的信号处理装置的一部分来实现,信号处理单元可包括可编程微处理器,诸如可编程数字信号处理器,其执行预定的程序指令集合以执行合成语音生成过程。因此,由信号处理器执行的信号处理功能或操作可由专用硬件实现,或者可在一个或多个信号处理器中实现,或者在专用硬件和一个或多个信号处理器的组合中执行。例如,信号处理器可以是asic集成处理器、fpga处理器、通用处理器、微处理器、电路组件或集成电路。
[0059]
周围环境传声器信号可作为数字传声器输入信号提供,该数字传声器输入信号由耦接到传声器的换能器元件的a/d转换器生成。类似地,骨传导信号可作为由耦接到骨传导传感器的换能器元件或其他感测元件的a/d转换器生成的数字骨传导信号提供。上述a/d转换器中的一者或两者可在例如公共半导体衬底上与信号处理单元分离或集成。环境麦克风信号和骨传导信号中的每一者可在合适的采样频率和分辨率下以数字格式提供。这些数字信号中的每一者的采样频率可介于2khz和48khz之间。本领域技术人员将理解,一个或多个相应的信号处理功能(诸如滤波、组合等)可由预定的可执行程序指令集和/或由专用和适当配置的数字硬件执行。在一些实施例中,在将骨传导信号作为控制输入应用到语音模型之前,可对其进行预处理,例如下采样、滤波等。
[0060]
本发明涉及不同方面,包括上面和下面描述的装置、对应的装置、系统、方法和/或产品,每一者都产生结合一个或多个其他方面所述的益处和优点中的一者或多者,并且各自具有与结合一个或多个其他方面描述的实施例和/或在所附权利要求中公开的实施例相对应的一个或多个实施例。
[0061]
具体地,根据一个方面,本文公开了一种获取语音信号的计算机实现的方法的实施例;包括:
[0062]-从骨传导传感器接收骨传导信号,所述骨传导传感器被配置为将话音声音信息的骨振动转换成所述骨传导信号;
[0063]-使用语音模型来生成合成语音信号,其中所述语音模型接收所述骨传导信号作为控制输入。
[0064]
根据另一方面,本文公开了一种训练用于生成合成语音的语音模型的计算机实现的方法的实施例,所述方法包括:
[0065]-接收多个训练信号对,每对包括来自骨传导传感器的骨传导信号和来自环境麦克风的环境麦克风信号,其中所述环境麦克风信号与所述骨传导信号同时被记录;
[0066]-使用所述骨传导信号作为所述语音模型的控制输入;
[0067]-基于当所述语音模型接收所述骨传导信号中的一者或多者作为控制输入时由所述语音模型生成的所述合成语音与所述相应的一个或多个环境麦克风信号的比较来适配所述语音模型。
[0068]
根据又一方面,本文公开了计算机程序产品的实施例,该计算机程序产品包括计算机程序代码,该计算机程序代码被配置为在由信号处理单元和/或数据处理系统执行时致使信号处理单元和/或数据处理系统执行本文公开的一个或多个方法的动作。
[0069]
计算机程序产品可作为非瞬时计算机可读介质提供,诸如cd-rom、dvd、光盘、存储卡、闪存存储器、磁存储设备、软盘、硬盘等。在其他实施例中,计算机程序产品可作为可下载软件包提供,例如在web服务器上用于通过互联网或其他计算机或通信网络下载,或者用于从应用商店下载到移动设备的应用程序。
附图说明
[0070]
下面参照附图更详细地描述本发明的优选实施例,其中:
[0071]
图1a示意性地示出听力设备的示例。
[0072]
图1b示意性地示出图1a的听力设备的框图。
[0073]
图2a示意性地示出听力设备的另一个示例。
[0074]
图2b示意性地示出图2a的听力设备的框图。
[0075]
图3示意性地示出包括听力设备和远程主机系统的系统的示例。
[0076]
图4示出了获取语音信号的过程的流程图。
[0077]
图5示出训练用于生成合成语音的语音模型的过程的流程图。
[0078]
图6示意性地示出训练过程的示例。
[0079]
图7示出使用经训练的语音模型来创建合成语音信号的过程的流程图。
[0080]
图8示意性地示出基于训练语音模型的合成语音生成过程的示例。
[0081]
图9示意性地示出语音模型的示例。
具体实施方式
[0082]
下面参照附图描述本听力设备的各种示例性实施例。本领域技术人员将理解,附图是示意性的并且为了清晰而简化,并且因此仅示出了对理解本发明至关重要的细节,而省略了其他细节。相似的参考数字在整个过程中指相似的元素。因此,相似的元素不必针对每个图进行详细描述。
[0083]
图1a示意性地示出听力设备的示例,并且图1b示意性地示出了图1a的听力设备的框图。听力设备包括头戴式听力装置100和信号处理装置200。在图1a的示例中,听力设备100是安装在用户耳朵360或耳垂上的bte听力仪器或助听器。将理解的是,其他实施例可包括其他类型的听力设备。例如,本领域技术人员将理解头戴式听力装置的其他实施例可包括耳机或有源听力保护器。
[0084]
听力设备100包括外壳或壳体140。在图1a的bte听力仪器的示例中,外壳的形状和尺寸被设计成配合在用户耳垂后面,如图上示意性地示出的。将理解的是,其他类型的听力设备可具有不同形状和/或尺寸的外壳。外壳140容纳听力设备100的各种部件。听力设备可包括被连接以用于向听力设备的电子部件供电的zn02电池或其他合适电池(未示出)。听力设备100包括环境麦克风120、处理单元110和扬声器或接收器130。
[0085]
环境麦克风120可被配置用于例如通过通向外壳140内部的一个或多个声音端口或孔拾取环境声音。当听力设备100正在操作时,环境麦克风120基于到达麦克风120的声学声音信号输出模拟或数字音频信号。如果麦克风120输出模拟音频信号,则处理单元110可包括模数转换器(未示出),该模数转换器将模拟音频信号转换成对应的数字音频信号以用于在处理单元110中进行数字信号处理。处理单元110包括听力损失处理器111,该听力损失
处理器被配置为补偿听力设备100的用户300的听力损失。优选地,听力损失处理器111包括本领域公知的动态范围压缩器,其用于补偿用户动态范围的频率相关损失(本领域通常称为恢复)。因此,听力损失处理器111将经听力损失补偿的音频信号输出到扬声器或接收器130。扬声器或接收器130将经听力损失补偿的音频信号转换成对应的声学信号以用于向用户的耳膜传输。因此,用户听到到达麦克风120但补偿了用户的个人听力损失的声音。听力设备可被配置为恢复响度,使得由佩戴听力设备100的用户感知的经听力损失补偿的信号的响度基本上与到达麦克风120的声学声音信号的响度匹配,因为它将由具有正常听力的收听者感知。在一些实施例中,听力设备100可包括多于一个环境麦克风。例如,听力设备可包括一对全向麦克风,其可用于例如通过对全向麦克风所供应的单个麦克风信号操作的波束成形算法来提供方向性。波束成形算法可在处理单元110上执行以提供具有某些方向特性的麦克风输入信号。
[0086]
在图1a的示例中,听力设备100包括插入到用户耳道中的耳模或耳塞150,其中耳模150至少部分地将耳道容积323与围绕用户的声音环境密封隔开。听力设备100包括柔性声管160,该柔性声管适于通过延伸穿过耳模150的声音通道将因此可放置在外壳140内的接收器/扬声器130所生成的声压传输到用户的耳道。
[0087]
听力设备还包括骨传导传感器151,例如容纳在耳模150中,如图1a所示。骨传导传感器151被配置为当用户300发出话音声音时,以数字格式或模拟格式生成表示所感测的骨传导振动的电子骨传导信号。
[0088]
应当理解,骨传导传感器可以各种方式感测骨传导信号。例如,如wo 00/69215中所述,骨传导传感器可被布置成使得当耳模150插入耳道中时,其抵靠耳道壁(例如,抵靠耳道的后上壁)接触。在其他实施例中,骨传导传感器被布置成抵靠户耳朵的解剖结构的另一个部分或用户头部的另一个部分进行接触,例如在用户耳道之外,例如在用户耳朵后面的位置处。本领域技术人员将理解,骨传导传感器可布置在头戴式听力装置的不同部分,例如被布置成与用户头部侧面接触的部分。在其他实施例中,骨传导传感器形成为耳道麦克风,其被配置用于感测或检测用户完全或部分闭塞的耳道容积323中的耳道声压。耳道容积323布置在用户的耳鼓膜或鼓膜(未示出)的前面,例如,如在ep3188507中所述。
[0089]
电子骨传导信号可通过例如沿着柔性声管160的外部或内部表面延伸的合适电缆(未示出)传输到处理单元110。另选的有线或非有线通信信道/链路可用于将骨传导信号传输到处理单元。环境麦克风120、处理单元110和扬声器/接收器130优选地全部位于外壳140内,以保护这些部件免受灰尘、汗水和其他环境污染物的影响。
[0090]
由用户自身话音生成的耳道容积323中的总声压的骨传导语音分量的起源由从用户嘴部传播通过用户耳道的骨部分(未示出)的骨传导声波324示意性地示出。用户的发声努力还生成用户自身话音302的耳道声压的空气传播分量。由用户自身话音和/或其他环境声音生成的耳道声压的空气传播分量传播到环境麦克风140、处理单元110、微型接收器130、柔性声管160和耳模150从而到达耳道容积323。
[0091]
因此,取决于骨传导传感器151的技术,骨传导传感器可感测骨传导声波324和空气传播声波302的组合,其中后者可源自用户嘴部和/或源自其他环境声源。因此,在一些实施例中,处理单元可被配置为对由骨传导传感器151生成的骨传导信号进行滤波,以便滤除来源自麦克风140拾取并由扬声器130发射到用户耳道中的声音的贡献。在ep3188507中描
述了这种补偿滤波机制的实施例。因此,信号处理单元110可提供由耳道容积323内的总耳道声压的骨传导自身话音分量占主导的经补偿的骨传导信号,因为表示环境声音的耳道声压的其他分量被明显地抑制或取消。本领域技术人员将理解,环境声压分量的实际抑制量尤其取决于补偿滤波器能够在多大程度上准确地对扬声器和耳道麦克风之间的声学传递函数进行建模。还将理解,骨传导传感器的其他实施例可能不需要任何补偿,或者它们可能需要骨传导信号的不同类型的预处理。
[0092]
听力设备100还包括无线通信单元,其包括天线180和无线电部分或收发器170,该无线电部分或收发器被配置为与信号处理装置200进行无线通信。处理单元110包括通信控制器113,其被配置为执行与通信协议相关联的各种任务以及可能的其他任务。通信控制器113可例如是蓝牙le控制器。通信控制器113可被配置用于执行各种通信协议相关任务,例如根据音频支持的蓝牙le协议,以及可能的其他任务。听力设备100被配置为经由收发器170和天线180将由骨传导传感器151感测的骨传导信号(可选地在滤波和/或其他信号处理之后)转发到信号处理装置200。
[0093]
尽管听力损失处理器111和通信控制器113在图1b中被示为单独块,但将理解的是,它们可完全或部分集成到单个单元中。例如,处理单元110可包括诸如数字信号处理器(dsp)的软件可编程微处理器,其可被配置为实现听力损失处理器111和/或通信控制器113或其部分。听力设备100的操作可由在软件可编程微处理器上执行的合适操作系统控制。操作系统可被配置为管理听力设备硬件和软件资源,例如,包括听力损失处理器111和可能的其他处理器以及相关联的信号处理算法、无线通信单元、存储器资源等。操作系统可调度任务以有效地使用听力设备资源,并且还可包括用于成本分配(包括功率消耗、处理器时间、存储器位置、无线传输和其他资源)的计费软件。
[0094]
将理解的是,听力设备的其他实施例可包括不同类型的头戴式听力装置,例如,不具有任何环境麦克风和/或不具有任何扬声器的设备和相关电路。
[0095]
信号处理装置200包括天线210和无线电部分或电路240,该无线电部分或电路被配置为经由天线210与听力设备100的对应无线电部分或电路进行无线通信。信号处理装置200还包括处理单元220,该处理单元包括通信控制器221、存储器222和中央处理单元223。通信控制器221可例如是蓝牙le控制器。通信控制器221可被配置用于执行各种通信协议相关任务,例如根据音频支持的蓝牙le协议,以及可能的其他任务。
[0096]
信号处理装置被配置为从听力设备100接收骨传导信号。为此,表示骨传导信号的数据分组可由无线电部分或电路240经由rf天线210接收,并且被转发到通信控制器221,并且被进一步转发到中央处理单元223以用于进一步的信号处理。具体地,中央处理单元223被配置为基于接收骨传导信号作为控制输入的经训练的语音模型来实现合成语音生成过程。
[0097]
为此,信号处理装置包括用于存储语音模型的模型参数的存储器222。具体地,存储器222可被配置为存储通过如本文所述的机器学习训练过程获得的可适配的模型参数。尽管存储器222被示为处理单元220的一部分,但将理解的是,存储器可被实现为可通信地耦接到处理单元220的单独单元。
[0098]
中央处理单元223被进一步配置为经由信号处理装置200的合适输出接口230(例如,经由有线或无线通信接口)输出所生成的合成语音。输出接口可以是蓝牙接口、另一个
短距离无线通信接口;蜂窝电信接口、有线接口等。在一些实施例中,输出接口可集成到电路240中或以其他方式与该电路组合。
[0099]
信号处理装置200还可包括麦克风250,其用于接收和记录由用户话音生成的空气传播声音。当听力信号处理装置200以记录和/或训练模式操作时,可使用由麦克风250生成的麦克风信号,特别是为了创建如下所述的训练示例。另选地或附加地,麦克风250可用于补充所生成的合成语音,如下文所述。在另选实施例中,信号处理装置不包括如本文所述的用于语音生成目的的任何麦克风。
[0100]
信号处理装置可以是适当编程的智能手机、平板计算机、智能电视或其他电子设备,诸如音频支持的设备。信号处理装置可被配置为执行合适的计算机程序,诸如应用程序或其他形式的应用软件。本领域技术人员将理解,除了在移动电话领域中公知的那些示意性地示出的硬件和软件资源之外,信号处理装置200通常还包括许多附加的硬件和软件资源。
[0101]
图2a示意性地示出听力设备的另一个示例,并且图2b示意性地示出了图2a的听力设备的框图。
[0102]
图2a-b的听力设备类似于图1a-b的听力设备,不同之处在于,在图2a-b的实施例中,头戴式听力装置100生成合成语音。具体地,图2a-b的听力设备包括头戴式听力装置和用户附件设备400。在图2a的示例中,听力设备100是安装在用户耳朵360或耳垂上的bte听力仪器或助听器。将理解,其他实施例可包括另一种类型的听力设备,例如,如结合图1a-b所述。
[0103]
听力设备100包括外壳或壳体140、环境麦克风120、处理单元110、扬声器或接收器130、耳模或耳塞150、柔性声管160、骨传导传感器151、天线180、无线电部分或收发器170、通信控制器113,所有如结合图1a-b所述。因此,将不再详细描述这些部件及其可能的变化。
[0104]
图2a-b的实施例与图1a-b的实施例的不同之处在于,图2a-b的实施例的处理单元包括信号处理单元114,该信号处理单元被配置为任选地在滤波和/或其他信号处理之后从骨传导传感器151接收骨传导信号,并且被配置为基于接收骨传导信号作为控制输入的经训练的语音模型来实现合成语音生成过程。
[0105]
为此,听力设备100包括用于存储语音模型的模型参数的存储器112。具体地说,存储器112可被配置为存储通过如本文所述的机器学习训练过程获得的可适配的模型参数。尽管存储器112被示为处理单元110的一部分,但将理解的是,存储器可被实现为可通信地耦接到处理单元110的单独单元。
[0106]
听力设备100被进一步配置为经由收发器170和天线180将所生成的合成语音输出到用户附件设备400和/或输出到听力设备100外部的另一个设备。
[0107]
用户附件设备400包括天线410和无线电部分或电路440,该无线电部分或电路被配置为经由天线410与听力设备100的对应无线电部分或电路进行无线通信。用户附件设备400还包括处理单元420,该处理单元包括通信控制器421和中央处理单元423。通信控制器421可例如是蓝牙le控制器。通信控制器421可被配置用于执行各种通信协议相关任务,例如根据音频支持的蓝牙le协议,以及可能的其他任务。
[0108]
用户附件设备400被配置为从听力设备100接收所生成的合成语音信号。为此,表示合成语音信号的数据分组可由无线电部分或电路440经由rf天线410接收,并且被转发到
通信控制器421,并且被进一步转发到中央处理单元423以用于进一步的数据处理。具体地,中央处理单元423可被配置为实现用户应用程序,该用户应用程序被配置为响应于话音输入而执行用户功能,例如话音受控功能。为此,用户应用程序可实现合适的话音识别功能。
[0109]
任选地或附加地,中央处理单元423可被配置为经由用户附件设备的合适输出接口430(例如,有线或无线通信接口)转发合成语音。输出接口可以是蓝牙接口、另一个短距离无线通信接口;蜂窝电信接口、有线接口等。
[0110]
信号处理装置400还可包括麦克风450,其用于接收和记录由用户话音生成的空气传播声音。当听力设备以记录和/或训练模式操作时,可使用由麦克风450生成的麦克风信号,特别是为了创建如下所述的训练示例。
[0111]
用户附件设备可以是适当编程的智能手机、平板计算机、智能电视或其他电子设备,诸如音频支持的设备。用户附件设备可被配置为执行合适的计算机程序,诸如应用程序或其他形式的应用软件。本领域技术人员将理解,除了在移动电话领域中公知的那些示意性地示出的硬件和软件资源之外,用户附件设备400通常还包括许多附加的硬件和软件资源。
[0112]
图3示意性地示出了包括听力设备和远程主机系统的系统的示例。听力设备包括头戴式听力装置100和信号处理装置200,如结合图1a-b所述。远程主机系统500可以是适当编程的数据处理系统,诸如服务器计算机、虚拟机等。信号处理装置200和远程主机系统500经由合适的有线或无线通信链路(例如,经由短程rf通信)、经由合适的计算机网络(诸如因特网)或经由蜂窝通信网络或其组合来可通信地耦接。
[0113]
远程主机系统500例如借助于计算机程序被配置为执行用于从一组训练示例创建语音模型的机器学习训练过程。为此,远程主机系统可例如从包括训练示例存储库的数据库、从语音记录系统和/或从如本文所述的听力设备获得合适的训练示例集。为此,信号处理单元200可被配置为,至少当以记录模式操作时,不仅接收来自听力设备100的骨传导信号,而且接收在记录骨传导信号的同时由麦克风120记录的对应环境麦克风信号。
[0114]
信号处理装置200可被配置为将多个记录的信号对存储在信号处理装置的内部存储器中,并且将记录的信号对转发到远程主机系统500以用作用于训练语音模型的训练示例。另选地,信号处理可将接收信号对直接转发到远程主机系统,即,不首先将它们存储在内部存储器中。
[0115]
远程主机系统500被进一步配置为将所创建的经训练的语音模型的表示转发给信号处理装置200,以允许信号处理装置200实现经训练的语音模型。例如,远程主机系统500可向信号处理装置转发一组模型参数,例如一组网络权重。
[0116]
在替代实施例中,信号处理装置200可包括麦克风,其用于在听力设备100记录骨传导信号的同时记录来自用户300的空气传播语音。因此,由信号处理装置记录的麦克风信号可用于创建训练示例,而不是(或除了)由听力设备100的麦克风120记录的麦克风信号。当从听力设备100接收到骨传导信号时,信号处理装置至少以记录模式操作时,可存储包括骨传导信号和由信号处理装置的麦克风记录的同时记录的麦克风信号的信号对。替代地存储信号对或除存储信号对之外,信号处理装置可将信号对直接转发到远程主机系统500。
[0117]
将理解的是,听力设备对经训练的语音模型的接收和/或对训练示例的记录也可由图2a-b的听力设备执行。例如,用户附件设备400可从听力设备100接收记录振动的信号
对以及对应的麦克风信号。另选地,用户附件设备400可从听力设备接收骨传导信号,并且借助于用户附件设备400的麦克风记录对应的麦克风信号。用户附件设备然后可将收集的训练示例转发到远程主机系统。类似地,用户附件设备可从远程主机系统接收表示经训练的语音模型的数据,并且将该数据转发到听力设备100以用于存储。另选地,听力设备可直接从远程主机系统接收表示经训练的语音模型的数据,例如借助于听力设备拟合系统作为拟合过程的一部分。
[0118]
然而,另选地或附加地,用于训练语音模型的训练过程也可由信号处理装置或用户附件设备,或者甚至由听力设备来实现。
[0119]
然而,另选地或附加地,由听力设备和/或由信号处理装置或用户附件设备记录的麦克风信号可用于补充所创建的合成语音信号,如下所述。
[0120]
图4示出了获取语音信号的过程的流程图。过程可由本文公开的听力设备的实施例(例如,图1a-b的听力设备或图2a-b的听力设备)执行,或者由结合远程主机系统的听力设备(例如,如图3所示)执行。
[0121]
在初始步骤s1中,过程执行机器学习训练过程以创建经经训练的语音模型,其基于一组训练示例而进行训练。将结合图5和图6描述训练过程的示例。
[0122]
在后续步骤s2中,过程基于所获得的骨传导信号使用经训练的语音模型来创建合成语音。将结合图7和图8描述合成语音信号的创建的示例。
[0123]
任选地,在步骤s3中,过程可随后更新初始训练的语音模型,例如通过在语音模型的操作期间收集附加训练示例,例如作为上述步骤s2的一部分,并且执行附加训练步骤,例如如步骤s1中的训练步骤。
[0124]
图5示出了训练用于生成合成语音的语音模型的过程的流程图。过程可由本文公开的听力设备的实施例(例如,图1a-b的听力设备或图2a-b的听力设备)执行,或者由结合远程主机系统的听力设备(例如,如图3所示)执行。
[0125]
在初始步骤s11中,该过程获得训练示例。具体地,过程获得骨传导信号对和对应的语音信号。骨传导信号可由本文描述的听力设备的骨传导传感器获得。当佩戴骨传导传感器的对象说话时,可从记录空气传播声音的环境麦克风获得对应的语音信号。具体地,同时记录信号对的骨传导信号和对应的环境麦克风信号,即使得它们表示佩戴骨传导传感器的对象的相同语音的相应记录。在训练过程中,周围环境传声器信号被用作目标信号。因此,可在低噪声环境中记录部分或全部的麦克风信号以便促进训练语音模型合成干净的语音。骨传导信号和麦克风信号可表示为表示波形的采样信号值的相应序列。为此,每个信号可以合适的采样率,诸如以4khz采样。
[0126]
任选地,在步骤s12中,在将骨传导信号和/或麦克风信号用作用于训练语音模型的训练示例之前处理它们。处理步骤的示例可包括:归一化相应信号对的长度、对信号进行重新采样、对信号进行滤波、添加合成噪声等。
[0127]
具体地,在一些实施例中,语音模型被训练成仅合成了合成语音信号的低频,特别是重建环境麦克风信号的低通版本。为此,可使用合适的截止频率(例如在0.8和2.5khz之间,诸如在1khz和2khz之间)来对训练示例的环境麦克风信号进行低通滤波。经低通滤波的麦克风信号随后可用作训练过程的目标信号。
[0128]
在步骤s13中,过程初始化语音模型。具体地,过程初始化预定模型架构,诸如具有
多个网络层并包括多个互连网络节点的神经网络模型。因此,初始化语音模型可包括选择模型类型、选择模型架构、选择语音模型的大小和/或结构和/或互连性、选择可适配的模型参数的初始值等。过程还可选择训练过程的一个或多个参数,诸如学习速率、训练算法、要最小化的成本函数等。上述参数中的一些或甚至全部可预选或由过程自动选择。然而,可基于用户输入选择上述参数中的一些或甚至全部。下面将更详细地描述合适的语音模型的示例。在一些实施例中,先前训练的语音模型可用作训练过程的起点,例如,以便基于从听力设备的预期用户获得的说话者特定的训练示例来改进通用模型。
[0129]
在步骤s14中,通过训练示例集合的骨传导信号呈现语音模型,并且将模型输出与对应于相应训练示例的目标值进行比较以便计算成本函数。
[0130]
在步骤s15中,过程将所计算的成本函数与成功标准进行比较。如果满足成功标准,则处理在步骤s17处进行;否则,过程在步骤s16处进行。
[0131]
在步骤s16处,过程调整语音模型的一些或全部的可适配的模型参数,即基于被配置为减小成本函数的训练算法。然后,过程返回到步骤s14以执行迭代训练处理的后续迭代。
[0132]
合适的训练算法、用于选择初始模型参数的机制、成本函数等的示例对于机器学习领域的技术人员是已知的。例如,训练过程可基于误差反向传播算法。
[0133]
在步骤s17中,过程以其中语音模型可在听力设备中表示的合适数据结构表示经训练的语音模型(包括该模型的优化模型参数)。
[0134]
图6示意性地示出了用于自回归语音模型600的训练过程的示例,该自回归语音模型被配置为在保持模型600的内部状态的同时在多个遍次中操作。在每个遍次n—n表示对应于合适采样率的时间增量—该模型接收骨传导信号的当前值xn和目标信号y=(y1,...,yn)的k(k≥1)个先前样本。语音模型预测语音信号的后续预测值y’n+1
。将理解的是,其他实施例可接收骨传导信号x=(x1,...,xn)的另一个表示,例如当前样本xn和许多先前样本,或者表示骨传导信号的一个或多个时间相关特征的信号的编码版本。
[0135]
将预测值y’n+1
与目标语音信号的对应值y
n+1
进行比较。基于这些值和任选的其他值计算的差值或成本函数δ可用作用于适配语音模型600的成本函数。例如,在一些实施例中,语音模型输出多个类上的概率分布,其中类的数量对应于所得的合成语音信号的分辨率。在此类实施例中,差值δ可以是预测分布和由目标信号表示的真实语音之间的交叉熵或另一个合适的差值度量。
[0136]
当通过模型重复地馈送多个训练示例时,语音模型600可连续地被适配以便致使当模型由骨传导信号x驱动时,由模型产生的预测值y’提供对目标信号y的越来越好的预测。
[0137]
然后可将经训练的模型存储在听力设备中。
[0138]
图7示出了使用经训练的语音模型(例如,由图5和/或6的过程训练的语音模型)来创建合成语音信号的过程的流程图。过程可由本文公开的听力设备的实施例(例如,图1a-b的听力设备或图2a-b的听力设备)执行执行。
[0139]
在初始步骤s21中,过程获得骨传导信号。骨传导信号由本文描述的听力设备的骨传导传感器获得。骨传导信号可表示为表示波形的采样信号值的相应序列。为此,骨传导信号可以合适的采样率,诸如以4khz采样。在一些实施例中,过程还获得与骨传导信号同时记
录的环境麦克风信号。
[0140]
任选地,在步骤s22中,在馈入经训练的语音模型之前处理骨传导信号。处理步骤的示例可包括:对信号进行重新采样、对信号进行滤波等。
[0141]
在步骤s23中,过程将所获得的骨传导信号的表示作为控制信号馈送到经训练的语音模型中,并且计算由经训练的语音模型生成的合成语音信号。
[0142]
图8示意性地示出了基于训练自回归语音模型600的合成语音生成过程的示例。语音模型600被配置为在保持模型600的内部状态的同时在多个遍次中操作。在每个遍次n,模型接收骨传导信号的当前值xn(或骨传导信号的另一个表示)和所生成的合成语音模型y’的k(k≥1)个先前样本。语音模型预测语音信号的后续预测值y’n+1

[0143]
再次参考图7,可选地,在步骤s24中,过程可对由语音模型生成的合成语音模型进行后处理。例如,如上所讨论,在一些实施例中,语音模型可被训练成仅生成合成语音的低频。在此类实施例中,后处理可包括将合成语音信号与已与骨传导信号同时记录的经高通滤波的环境麦克风信号混合。为此,可使用与合成语音信号的频带互补的合适截止频率,例如0.8至2.5khz之间的截止频率,诸如1khz至2khz之间的截止频率,对同时记录的麦克风信号进行高通滤波。
[0144]
最后,在步骤s25中,任选地在后处理之后,提供合成语音信号作为过程的输出,例如以数字波形的形式。然后,所生成的合成语音信号可用于不同的应用(诸如移动或话音命令的免提操作),通过生成合成语音的设备或通过向其传输所生成的信号的外部装置。
[0145]
图9示出了语音模型600的示例。图9的语音模型是如结合图6和8所述的自回归语音模型。
[0146]
图9的语音模型是深度神经网络,即包括3个或更多个网络层的分层神经网络。在图9的示例中,分别示出了四个此类层610、620、630和640。然而,将理解的是,深度神经网络的其他实施例可具有不同数量的层,例如多于四个层。
[0147]
图9的神经网络包括递归层610,诸如包括选通递归单元的层,其后是两个中间层620和630以及最后的softmax层640。
[0148]
模型600输出多个类上的概率分布,其中类的数量对应于所得的合成语音信号的分辨率。例如,具有256个输出类的模型可表示8位合成语音信号。
[0149]
具体地,语音模型可被配置为经由将联合分布分解为以一些或所有先前样本为条件并且以骨传导信号x=(x1,...,xn)为条件的单独语音样本分布的乘积来对高维音频数据的联合分布进行建模。因此,波形样本序列的联合概率可表示为
[0150][0151]
其中是作为语音模型的条件输入的骨传导信号x的表示。在一些实施例中,可以是骨传导信号的梅尔表示,而在其他实施例中,骨传导信号的单独波形样本可直接用作条件信号:
[0152][0153]
应当理解,在一些实施例中,可使用骨传导信号x的多于一个样本,例如,针对合适窗口大小l≥1的滑动窗口(xn,..,x
n-l
)。
[0154]
合适语音模型的一些示例可利用从wavernn架构的变体中已知的模型架构,例如,如nal kalchbrenner等人的“efficient neural audio synthesis”,arxiv:1802.08435中所描述的,或如jaen-marc valin和jan skoglund的“lpcnet:improving neural speech synthesis through linear prediction”,arxiv:1810.11846中所描述的。合适语音模型的其他示例可利用从wavenet架构的变体中已知的模型架构,例如,如wei ping等人的“clarinet:parallel wave generation in end-to-end text-to-speech”,arxiv:1807.07281中所描述的。然而,代替文本输入,本文描述的过程和系统的实施例使用骨传导信号作为要馈入语音合成器的条件信号。
[0155]
本文所述的本发明的至少一些方面可概括在以下列举的项目的列表中:
[0156]
1.一种听力设备,包括:
[0157]-骨传导传感器,所述骨传导传感器被配置为将话音声音信息的骨振动转换成骨传导信号;
[0158]-信号处理单元,所述信号处理单元被配置为实现合成语音生成过程,所述合成语音生成过程实现语音模型;其中所述合成语音生成过程接收所述骨传导信号作为控制输入并且输出合成语音信号。
[0159]
2.根据项目1所述的听力设备,其中所述语音模型限定内部状态,在操作过程期间,所述内部状态随时间演化。
[0160]
3.根据前述项目中任一项所述的听力设备,其中所述语音模型是经训练的机器学习模型,其基于多个训练语音示例来进行训练。
[0161]
4.根据项目3所述的听力设备,其中每个训练语音示例包括表示说话者的语音的训练骨传导信号和表示由环境麦克风记录的所述说话者的语音的空气传播声音的对应训练麦克风信号,所述空气传播声音在记录所述训练骨传导信号的同时被记录。
[0162]
5.根据项目3至4中任一项的听力设备,其中所述机器学习模型包括神经网络。
[0163]
6.根据项目5所述的听力设备,其中所述神经网络包括递归神经网络。
[0164]
7.根据项目6所述的听力设备,其中所述递归神经网络以密度估计模式操作。
[0165]
8.根据项目5至7中任一项的听力设备,其中所述神经网络包括分层神经网络,所述分层神经网络包括两个或更多个层。
[0166]
9.根据前述项目中任一项所述的听力设备,其中所述语音模型包括自回归语音模型。
[0167]
10.根据前述项目中任一项所述的听力设备,其中所述语音模型计算多个输出类的概率分布,每个输出类表示采样音频波形的样本的样本值。
[0168]
11.根据前述项目中任一项所述的听力设备,包括头戴式听力装置,所述头戴式听力装置包括所述骨传导传感器和第一通信接口。
[0169]
12.根据项目11所述的听力设备,其中所述头戴式听力装置还包括所述信号处理单元,并且其中所述头戴式装置被配置为经由所述第一通信接口将所述合成语音信号传送到所述头戴式听力装置外部的外部装置。
[0170]
13.根据项目11所述的听力设备,包括信号处理装置,其中所述头戴式听力装置被配置为经由所述第一通信接口将所述骨传导信号传送到所述信号处理装置;其中所述信号处理装置包括所述信号处理单元和被配置为接收所述骨传导信号的第二通信接口。
[0171]
14.根据前述项目中任一项所述的听力设备,包括环境麦克风,所述环境麦克风被配置为记录由所述听力设备的用户所说的空气传播语音并且提供指示所记录的空气传播语音的环境麦克风信号。
[0172]
15.根据项目14所述的听力设备,包括存储器,所述存储器用于存储训练数据,所述训练数据包括一个或多个信号对,每个信号对包括由所述骨传导传感器记录的训练骨传导信号,以及在记录所述信号对的所述训练骨传导信号的同时由所述环境麦克风记录的训练环境麦克风信号。
[0173]
16.根据项目14至15中任一项的听力设备,其中所述语音模型被配置为当所述语音模型接收所述骨传导信号作为控制输入时,生成对应于由第一滤波器滤波的语音信号的合成滤波语音信号;并且其中所述信号处理单元被配置为从所述环境麦克风接收环境麦克风信号,所述环境麦克风信号与所述骨传导信号同时记录;使用与所述第一滤波器互补的第二滤波器来创建所接收的环境麦克风信号的滤波版本,并将所生成的合成滤波信号与所创建的所接收的环境麦克风信号的滤波版本组合以创建输出语音信号。
[0174]
17.根据前述项目中任一项所述的听力设备,其中所述信号处理单元被配置为以训练模式操作,其中所述信号处理单元在以所述训练模式操作时,被配置为当接收训练骨传导信号时,基于所述合成语音生成过程的结果并根据模型适配规则来适配所述语音模型的一个或多个模型参数以确定适配的语音模型,所述适配的语音模型提供所创建的合成语音和对应的训练环境麦克风信号之间的改进的匹配。
[0175]
18.根据前述项目中任一项所述的听力设备,包括听力仪器或助听器,诸如bte、rie、ite、itc或cic听力仪器。
[0176]
19.一种计算机实现的获取语音信号的方法,包括:
[0177]-从骨传导传感器接收骨传导信号,所述骨传导传感器被配置为将话音声音信息的骨振动转换成所述骨传导信号;
[0178]-使用语音模型来生成合成语音信号,其中所述语音模型接收所述骨传导信号作为控制输入。
[0179]
20.一种训练用于生成合成语音的语音模型的计算机实现的方法,所述方法包括:
[0180]-接收多个训练信号对,每个信号对包括来自骨传导传感器的骨传导信号和来自环境麦克风的环境麦克风信号,其中所述环境麦克风信号与所述骨传导信号同时记录;
[0181]-使用所述骨传导信号作为所述语音模型的控制输入;
[0182]-基于当所述语音模型接收一个或多个所述骨传导信号中作为控制输入时,基于由所述语音模型生成的合成语音与相应的一个或多个环境麦克风信号的比较来适配所述语音模型。
[0183]
21.一种计算机程序产品,被配置为当由信号处理单元和/或数据处理系统执行
时,致使所述信号处理单元和/或数据处理系统执行根据项目19至20中任一项所述的方法。
[0184]
尽管以上实施例主要参考某些特定示例进行了描述,但对于本领域技术人员来说,其各种修改将是显而易见的,而不偏离如在所附权利要求中概述的本发明的精神和范围。例如,虽然本文公开的各个方面主要是在助听器的上下文中描述的,但它们也可适用于其他类型的听力设备。类似地,虽然本文公开的各个方面主要是在设备之间的蓝牙le短程rf通信的上下文中描述的,但将理解的是,设备之间的通信可使用其他通信技术,例如其他无线甚至有线技术。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1