用于个性化带宽扩展的方法、音频设备及计算机实现方法与流程

文档序号:36722026发布日期:2024-01-16 12:25阅读:23来源:国知局
用于个性化带宽扩展的方法、音频设备及计算机实现方法与流程

本公开涉及用于对音频信号执行个性化带宽扩展的方法,以及被配置用于执行该方法的相关音频设备。


背景技术:

1、信号的带宽扩展是用于扩展信号频率范围的众所周知的技术。带宽扩展是一种通常用于生成信号的缺失内容或恢复信号的劣化内容的解决方案。缺失或劣化的内容可能由于通信信道、信号处理、背景噪声或干扰信号而发生。

2、音频编解码器是利用带宽扩展的一个地方。例如,当从远端站传输音频信号时,可以将音频信号编码到有限的带宽以节省传输信道上的带宽,并且在近端站,利用带宽扩展来对接收的编码信号进行带宽扩展。

3、带宽扩展的目的是提高终端用户的感知声音质量。其还可以用于生成新的内容来替换由噪声主导的信号的部分,从而提供一定水平的去噪。

4、先前提出的用于带宽扩展的方法的大多数实施方式,例如频谱带复制(sbr)或g.729.1编解码器中使用的方法,使用通用方法,其中采用一刀切的思路。这种通用方法可能导致次优的用户体验。已经进行了尝试达到更个性化的带宽扩展模型。

5、wo 2014126933 a1公开了一种个性化(即,扬声器可导出的)带宽扩展,其中用于带宽扩展的模型对每个特定用户是个性化的(例如,定制的)。执行训练阶段以生成对用户个性化的带宽扩展模型。随后可以在涉及用户的电话呼叫期间的带宽扩展阶段中使用该模型。使用个性化带宽扩展模型的带宽扩展阶段将在较高频带(例如,宽带)不可用并且呼叫发生在较低频带(例如,窄带)上时被激活。

6、wo 20211207131 a1公开了一种耳朵可佩戴的电子设备,其可操作用于将低通滤波器应用于数字化语音信号以去除高频分量并获得低频分量。语音增强应用于低频分量。将盲带宽扩展应用于增强的低频分量,以恢复或合成高频分量的至少一部分的估计。输出增强的语音信号,该增强的语音信号是增强的低频分量和带宽扩展的高频分量的组合。

7、larsen,erik,ronald m.aarts和michael danessis“音乐和语音的高效高频带宽扩展”音频工程学会第112届会议,音频工程学会,2002("efficient high-frequencybandwidth extension of music and speech."audio engineering society convention112.audio engineering society,2002),公开了一种用于扩展音频信号带宽的高效算法,其目标是创建更自然的声音。这是通过在频谱的高频部分添加额外的八度音阶来实现的。该算法使用非线性来生成扩展的八度音阶,可以应用于音乐和语音。这也能够应用于固定或移动通信系统。

8、然而,即使这样的解决方案也允许在提供最佳用户体验方面也有改进的空间。


技术实现思路

1、因此,需要具有改进的带宽扩展的音频设备和相关联方法。

2、根据本公开的第一方面,提供了一种用于音频设备中的个性化带宽扩展的方法,其中,该方法包括:

3、a.获得具有第一带宽的输入麦克风信号,

4、b.获得第一用户参数,该第一用户参数包括对音频设备的用户进行的听力测试的结果和/或与音频设备的用户有关的生理信息,诸如性别和/或年龄,

5、c.基于第一用户参数确定带宽扩展模型,其中,带宽扩展模型包括经训练的神经网络,其中,经训练的神经网络是根据本公开的第二方面而训练的,以及

6、d.通过将确定的带宽扩展模型应用于输入麦克风信号,生成具有第二带宽的输出信号。

7、因此,所提出的方法提供了一种在考虑到音频设备的用户的情况下扩展音频信号带宽的方法。这种解决方案提供了更个性化的解决方案,其满足需要收听音频信号的人,并且因此允许优化与音频设备的用户有关的感知声音质量。此外,这种解决方案还可以优化处理能力的使用,因为处理能力不会浪费在对用户不相关的信息上,例如,通过生成感知上不相关的信息来浪费处理能力。

8、在一个实施例中,音频设备被配置为由用户佩戴。音频设备可以布置在用户的耳朵处、在用户的耳朵上、在用户的耳朵上方、在用户的耳朵中、在用户的耳道中、在用户的耳朵后面和/或在用户的耳甲中,即,音频设备被配置为佩戴在用户耳朵内、上、上方和/或处。用户可以佩戴两个音频设备,每只耳朵一个音频设备。可以连接这两个音频设备,例如无线连接和/或通过有线连接,例如双耳助听器系统。

9、音频设备可以是可听的,例如耳机、头戴式耳机、耳机、耳塞、助听器、个人扩音产品(psap)、非处方(otc)音频设备、听力保护设备、一刀切的音频设备、定制音频设备或另一头戴式音频设备。音频设备可以是扬声器或音箱。音频设备可以包括处方设备和非处方设备。

10、音频设备可以体现为各种壳体样式或形状因素。

11、这些形状因素中的一些是耳塞、入耳式耳机或耳挂式耳机。本领域技术人员知道不同种类的音频设备以及用于将音频设备布置在音频设备佩戴者的耳朵内、耳朵上、耳朵上方和/或耳朵处的不同选择。音频设备(或一对音频设备)可以是定制安装、标准安装、开放式安装和/或闭塞式安装。

12、在一个实施例中,音频设备可以包括一个或多个输入换能器。一个或多个输入换能器可以包括一个或多个麦克风。一个或多个输入换能器可以包括一个或多个振动传感器,振动传感器被配置用于检测骨骼振动。一个或多个输入换能器可以被配置用于将声学信号转换成第一电输入信号。第一电输入信号可以是模拟信号。第一电输入信号可以是数字信号。一个或多个输入换能器可以耦接到一个或多个模数转换器,模数转换器被配置用于将模拟第一输入信号转换成数字第一输入信号。

13、在一个实施例中,音频设备可以包括被配置用于无线通信的一个或多个天线。一个或多个天线可以包括电天线。电天线可以被配置用于以第一频率进行无线通信。第一频率可以在800mhz以上,优选地在900mhz与6ghz之间的波长。第一频率可以是902mhz至928mhz。第一频率可以是2.4至2.5ghz。第一频率可以是5.725ghz至5.875ghz。一个或多个天线可以包括磁性天线。磁性天线可以包括磁芯。磁性天线可以包括线圈。线圈可以盘绕在磁芯周围。磁性天线可以被配置用于以第二频率进行无线通信。第二频率可以低于100mhz。第二频率可以在9mhz和15mhz之间。

14、在一个实施例中,音频设备可以包括一个或多个无线通信单元。一个或多个无线通信单元可以包括一个或多个无线接收器、一个或多个无线发射器、一个或多个发射器-接收器对和/或一个或多个收发器。一个或多个无线通信单元中的至少一个可以耦接到一个或多个天线。无线通信单元可以被配置用于将由一个或多个天线中的至少一个天线接收的无线信号转换成第二电输入信号。音频设备可以被配置用于有线/无线音频通信,例如,使用户能够收听诸如音乐或广播的媒体,和/或使用户能够执行电话呼叫。

15、在一个实施例中,无线信号可以源自一个或多个外部源和/或外部设备,例如配偶麦克风设备、无线音频发射器、智能计算机和/或与无线发射器相关联的分布式麦克风阵列。无线输入信号可以源自另一个音频设备,例如作为双耳听力系统的一部分和/或来自一个或多个附件设备,例如智能手机和/或智能手表。

16、在一个实施例中,音频设备可以包括处理单元。处理单元可以被配置用于处理第一和/或第二电输入信号。该处理可以包括补偿用户的听力损失,即,根据用户的频率相关听力损伤将频率相关增益应用于输入信号。该处理可以包括执行反馈消除、回声消除、波束成形、耳鸣减少/掩蔽、降噪、噪声消除、语音识别、低音调整、高音调整和/或用户输入的处理。处理单元可以是处理器、集成电路、应用程序、功能模块等。处理单元可以在信号处理芯片或印刷电路板(pcb)中实施。处理单元被配置为基于第一和/或第二电输入信号的处理来提供第一电输出信号。处理单元可以被配置为提供第二电输出信号。第二电输出信号可以基于第一和/或第二电输入信号的处理。

17、在一个实施例中,音频设备可以包括输出换能器。输出换能器可以耦接到处理单元。输出换能器可以是扬声器。输出换能器可以被配置用于将第一电输出信号转换成声学输出信号。输出换能器可以经由磁性天线耦接到处理单元。

18、在一个实施例中,无线通信单元可以被配置用于将第二电输出信号转换成无线输出信号。无线输出信号可以包括同步数据。无线通信单元可以被配置用于经由一个或多个天线中的至少一个来传输无线输出信号。

19、在一个实施例中,音频设备可以包括被配置为将第一电输出信号、第二电输出信号和/或无线输出信号转换成模拟信号的数模转换器。

20、在一个实施例中,音频设备可以包括通风口。通风口是物理通道,例如通道或管,主要被放置以提供穿过放置在耳朵中的壳体的压力均衡,例如ite音频设备、bte音频设备的ite单元、cic音频设备、rie音频设备、ric音频设备、marie音频设备或圆顶尖端/耳模。通风孔可以是具有小横截面面积的压力通风孔,其优选地是声学密封的。通风孔可以是被配置用于消除阻塞的声学通风孔。通风口可以是主动通风口,使得能够在使用音频设备期间打开或关闭通风口。主动通风口可以包括阀。

21、在一个实施例中,音频设备可以包括电源。电源可以包括提供第一电压的电池。电池可以是可充电电池。电池可以是可更换电池。电源可以包括功率管理单元。功率管理单元可以被配置为将第一电压转换成第二电压。电源可以包括充电线圈。可以由磁性天线提供充电线圈。

22、在一个实施例中,音频设备可以包括存储器,包括易失性和非易失性形式的存储器。

23、音频设备可以被配置用于音频通信,例如,使用户能够收听诸如音乐或广播的媒体,和/或使用户能够执行电话呼叫。

24、音频设备可以包括用于射频通信的一个或多个天线。一个或多个天线可以被配置用于在ism频带中操作。一个或多个天线的一个可以是电天线。一个或多个天线的一个可以是磁性感应线圈天线。磁性感应或近场磁性感应(nfmi)通常在2mhz至15mhz的频率范围内提供通信,包括语音、音频和数据的传输。在这些频率下,电磁辐射在人体头部和身体周围传播,而不会对组织造成显著损失。

25、磁性感应线圈可以被配置为在使用期间以低于100mhz的频率工作,例如低于30mhz,例如低于15mhz。磁性感应线圈可以被配置为在1mhz和100mhz之间的频率范围内工作,例如在1mhz和15mhz之间,例如在1mhz和30mhz之间,例如在5mhz和30mhz之间,例如在5mhz和15mhz之间,例如在10mhz和11mhz之间,例如在10.2mhz和11mhz之间。该频率可进一步包括从2mhz到30mhz的范围,例如从2mhz到10mhz,例如从2mhz到10mhz,例如从5mhz到10mhz,例如从5mhz到7mhz。

26、电天线可以被配置用于在至少400mhz的频率下工作,例如至少800mhz,例如至少1ghz,例如在1.5ghz和6ghz之间的频率下,例如在1.5ghz和3ghz之间的频率下,例如在2.4ghz的频率下。天线可以被优化用于在400mhz和6ghz之间的频率下工作,例如在400mhz和1ghz之间、800mhz和1ghz之间、800mhz和6ghz之间、800mhz和3ghz之间等。因此,电天线可以被配置用于在ism频带中工作。电天线可以是能够在这些频率下工作的任何天线,并且电天线可以是谐振天线,例如单极天线,如偶极天线等。谐振天线可以具有λ/4±10%或其任意倍数的长度,λ是对应于发射的电磁场的波长。

27、在本公开的上下文中,术语个性化的或个性化被解释为为了满足使用音频设备的用户(例如,佩戴耳机的用户)而进行的事情,其中基于佩戴耳机的用户的一个或多个特性来处理通过耳机播放的音频。例如,个性化带宽扩展模型可以已经为用户定义了可感知的上限和/或下限阈值,即,用户将能够感知声音的阈值频率,然后这样的阈值可以定义执行带宽扩展的程度,例如,如果用户不能感知高于14khz的频率,则没有理由将输入信号的带宽扩展到20khz,因此个性化带宽扩展模型可以被限制为14khz。

28、可以以多种方式获得输入麦克风信号。可以从远端站接收输入麦克风信号。可以从音频设备上的本地存储装置检索输入麦克风信号。

29、输入麦克风信号可以是在远端站记录的音频信号。输入麦克风信号可以是在另一音频设备处记录的tx信号,并且随后被传输到音频设备。输入麦克风信号可以是媒体信号。媒体信号可以是表示歌曲或电影的音频的信号。输入麦克风信号可以是在两方或多方之间的电话呼叫或另一通信会话期间记录的语音信号。输入麦克风信号可以是预先记录的信号。输入麦克风信号可以是实时获得的信号,例如,输入麦克风信号是正在进行的电话对话的一部分。

30、具有第一带宽的输入麦克风信号将被解释为完全或至少大部分在第一带宽内表示的输入麦克风信号,例如,信号的所有用户相关音频内容都存在于第一带宽内。

31、第一带宽可以是表示输入麦克风信号的频率范围。第一带宽可以是窄带,因此输入麦克风信号是窄带信号。第一带宽可以是300hz至3.4khz的带宽,这样的带宽由若干通信标准支持。第一带宽可以是50hz至7khz的带宽,也称为宽带。第一带宽可以是50hz至14khz的带宽,也称为超宽带。第一带宽可以是50hz至20khz的带宽,也称为全频带。第一带宽可以包括多个带宽范围,例如,第一带宽可以包括两个带宽范围,50hz至1khz以及2khz至7khz。

32、第二带宽可以是比第一带宽更宽的带宽。第二带宽可以是比第一带宽更窄的带宽。第二带宽可以包括多个带宽范围,例如,如果音频设备的用户在3khz到6khz的频率范围内具有陷波听力损失,则第二带宽然后可以包括从50hz到3khz和6khz到7khz的两个带宽范围,从而基于音频设备的用户的听力损失提供个性化带宽。第二带宽可以是基于第一用户参数针对给定输入麦克风信号对音频设备的用户优化的带宽。第二带宽可以是基于第一用户参数为音频设备的用户优化音频质量而选择的带宽。优化音频质量的方式是优化输入麦克风信号的音频质量参数,例如mos分数或类似物。

33、可以通过从音频设备的用户接收一个或多个输入来获得第一用户参数。可以通过从音频设备上的本地存储装置(例如闪存驱动器)检索第一用户参数来获得第一用户参数。可以通过从用户的在线简档(例如,存储在云上的用户简档)检索第一用户参数来获得第一用户参数。

34、音频设备的用户的一个或多个特性可以与用户对音频设备的使用相关,例如,如果用户喜欢低音或高音上的高增益。用户的一个或多个特性可以与用户自身相关,例如,听力损失、生理数据、音频设备的佩戴风格或其他。

35、带宽扩展模型是被配置用于基于具有第一带宽的输入麦克风信号生成具有第二带宽的输出信号的模型。带宽扩展模型可以通过向输入麦克风信号生成频谱内容来生成输出信号,例如,将频谱内容添加到接收的输入麦克风信号。带宽扩展模型可以通过基于输入麦克风信号生成频谱内容来生成输出信号,例如,基于输入麦克风信号完全生成新信号。音频设备使用的带宽扩展模型是个性化的,即,基于音频设备的用户来确定。带宽扩展模型可以被配置为基于输入麦克风信号生成频谱内容。带宽扩展模型可以被配置为基于第一用户参数和输入麦克风信号生成频谱内容。带宽扩展模型可以被配置为基于第一用户参数和输入麦克风信号来生成频谱内容以最大化感知相关信息(pri)。例如,可以基于感知熵来计算pri,如d.johnston,“使用噪声掩蔽标准的感知熵的估计”,proc.int.conf.音频语音信号proc.(icassp),第2524–2527页(1988年)(d.johnston,"estimation of perceptualentropy using noise masking criteria,"proc.int.conf.audio speech signal proc.(icassp),pp 2524–2527(1988))。因此,带宽扩展模型可以执行带宽扩展以优化音频设备的用户的输入麦克风信号的感知熵。带宽模型可以被配置为生成具有第二带宽的输出信号,从而最大化音频设备的用户的感知相关信息(pri)。带宽扩展模型可以被配置为基于输入麦克风信号、可听范围和音频设备的用户的水平来生成频谱内容。可听范围可以被定义为音频设备的用户能够感知正在回放的音频信号的一个或多个频率范围,例如,作为标准,具有完美听力的人的可听范围通常被定义为从20hz到20khz,然而,已经发现由于不同的听力损失存在很大的个体差异。音频设备的用户的可听水平可以通过音频信号内的掩蔽阈值来定义,其中掩蔽阈值定义音频信号内的掩蔽和未掩蔽分量。可以在不同的频率区间内定义可听水平。

36、可以基于第一用户参数来确定用户的pri和/或可听范围和水平。

37、可以由映射函数确定带宽扩展模型,其中映射函数将不同的第一用户参数映射到不同的带宽扩展模型。不同的带宽扩展模型可以是预先生成的模型。映射函数还可以考虑附加参数,例如输入麦克风信号的第一带宽。可以基于获得的第一用户参数实时确定/生成带宽扩展模型。带宽扩展模型可以本地存储在音频设备上。带宽扩展模型可以存储在云位置,在云位置,音频设备可以检索带宽扩展模型。多个带宽扩展模型可以本地存储在音频设备上或云位置中。

38、输出信号可以是要向音频设备的用户回放的音频信号。输出信号可以是经受进一步处理的信号。

39、生成输出信号可以涉及将输入麦克风信号作为输入提供给所确定的带宽扩展模型,其中所确定的带宽扩展模型的输出将是输出信号。

40、在一个实施例中,第一用户参数包括与音频设备的用户有关的生理信息,诸如性别和/或年龄。

41、几项研究表明,听力损失与年龄和性别等生理参数密切相关。因此,通过获得与听力设备的用户有关的相对简单的信息,可以基于这样的信息来执行带宽扩展模型的个性化。例如,基于生理信息,可以对用户的听力简档进行估计,这又可以用于确定用户和/或pri的可听范围和水平。可以基于输入麦克风信号和用户的听力简档来确定可听水平。可以通过要求用户经由接口(例如以通信方式连接到音频设备的智能设备)输入信息来获得关于用户的生理信息。关于用户的生理信息可以包括人口统计信息。

42、在一个实施例中,第一用户参数包括对音频设备的用户执行的听力测试的结果。

43、因此,带宽扩展模型可以满足音频设备的用户的实际听力简档。例如,听力测试的结果可以是听力图。可以基于音频设备的用户的听力简档来生成带宽扩展模型。

44、在一个实施例中,步骤c包括:

45、获得码本,该码本包括多个带宽扩展模型,每个带宽扩展模型与一个或多个用户参数相关联,

46、将第一用户参数与码本进行比较,以及

47、基于码本与第一用户参数之间的比较,确定带宽扩展模型。

48、码本可以存储在本地或云存储装置上。码本可以是用于传输输入麦克风信号的音频编解码器的一部分。码本存储多个带宽扩展模型,每个带宽扩展模型可以与一个或多个用户参数相关联。

49、将第一用户参数与码本进行比较可以包括将第一用户参数与关联于每个带宽扩展模型的一个或多个用户参数进行比较,从而确定与第一用户参数最匹配的一个或多个用户参数,并且随后选择与与第一用户参数最匹配的一个或多个用户参数相关联的带宽扩展模型。

50、一个或多个用户参数可以是生理信息,诸如性别和/或年龄。一个或多个用户参数可以是听力简档,例如听力测试的结果,例如,听力图。

51、在码本中包括的多个带宽扩展模型可以是基于一个或多个用户参数生成的预定带宽扩展模型。例如,一个带宽扩展模型可以与30岁相关联,相关联的带宽扩展模型可以已经基于30岁的人的平均听力简档生成,例如,通过评估30岁的人的可听范围和水平。

52、在一个实施例中,该方法包括:

53、分析输入麦克风信号,以确定第一带宽,以及

54、基于第一用户参数和确定的第一带宽,确定带宽扩展模型。

55、可以将所确定的第一带宽与第一用户参数一起给予映射函数,然后映射函数可以将所确定的第一带宽和第一用户参数映射到带宽扩展模型。每个预先生成的带宽扩展模型可以与不同的带宽相关联,例如,不同的带宽模型可以被配置用于针对不同的输入带宽执行带宽扩展。

56、可以由带宽检测器来确定第一带宽。带宽检测器在信号处理领域内是已知的,例如,evs编解码器利用带宽检测器,此外,信息可以在m.dietz等人的文章中找到,“evs编解码器架构概述”,icassp 2015,第5698-5702页,以及evs编解码器中的音频带宽检测,3gpp增强型语音系列研讨会(globalsip),2015年(“overview of the evs codecarchitecture”,icassp 2015,pp.5698-5702,and audio bandwidth detection in evscodec,symposium on 3gpp enhanced voice series(globalsip),2015)。带宽检测器的另一个示例可以在lc3编解码器中找到,见数字增强型无绳电信(dect);低复杂度通信编解码器升级版(lc3plus),技术规范,etsi ts 103 634,2021。

57、还可以将所确定的第一带宽与包括多个带宽扩展模型的码本进行比较,其中,根据不同的带宽对多个带宽扩展模型进行分组。然后,可以基于将所确定的第一带宽与带宽扩展模型的不同组进行比较来进行选择。

58、在一个实施例中,带宽扩展模型定义目标带宽,并且其中,步骤d包括:

59、使用所确定的带宽扩展模型生成具有目标带宽的输出信号。

60、可以基于音频设备的用户的可听频率范围来确定目标带宽。

61、神经网络可以是一般回归神经网络(grnn)、生成对抗网络(gan)、卷积神经网络(cnn)等。

62、神经网络可以被训练成将具有第一带宽的输入麦克风信号的带宽扩展到第二带宽,以最大化音频设备的用户的感知相关信息量。将结合本公开的第二方面和详细描述进一步深入解释神经网络和神经网络的训练。

63、在一个实施例中,第一用户参数被存储在音频设备的本地存储装置上,并且其中,步骤b包括:

64、读取本地存储装置上的第一用户参数。

65、音频设备的用户可以具有存储在音频设备上的简档,作为创建简档(profile)的一部分,音频设备的用户可以将一个或多个第一用户参数与简档相关联。因此,当用户启动音频设备时,用户可以选择他们的简档,从而允许基于所选择的简档进行个性化信号处理。

66、在一个实施例中,步骤a包括:

67、从远端站接收输入麦克风信号,其中,从远端站接收的输入麦克风信号是编码信号,以及

68、其中,步骤b至步骤d作为解码来自远端站的输入麦克风信号的一部分来进行。

69、可以对输入麦克风信号进行编码以优化通信信道上带宽的使用。可以根据一个或多个音频编解码器来对输入麦克风信号进行编码,例如,mpeg-4音频或增强型语音服务(evs)。

70、在一个实施例中,该方法包括:

71、建立与远端站的通信连接,

72、将第一用户参数传输到远端站,以及

73、从远端站接收编码的输入麦克风信号,其中,输入麦克风信号包括第一用户参数,以及

74、其中,步骤b包括:

75、从所接收的输入麦克风信号确定第一用户参数。

76、在建立与远端站连接的通信期间,可以进行握手过程,其中在近端站和远端站之间交换信息以配置通信信道。作为信息交换的一部分,第一用户参数可以被传输到远端站,因此,允许远端站用第一用户参数对传输的信号进行编码。当用传输的信号对第一用户参数进行编码时,近端侧的解码器可以利用第一用户参数,而不必从诸如本地存储或云位置的另一源接收第一用户参数。

77、根据本公开的第二方面,提供了一种用于训练用于个性化带宽扩展的带宽扩展模型的计算机实现的方法,其中,该方法包括:

78、获得音频数据集,该音频数据集包括一个或多个具有第一带宽的第一音频信号,

79、获得听力数据集,该听力数据集包括用户听力简档,

80、将带宽扩展模型应用于多个第一音频信号,以生成多个带宽扩展音频信号,

81、基于听力数据集确定与多个带宽扩展音频信号相关联的多个感知损失;以及

82、基于多个感知损失训练带宽扩展模型。

83、一个或多个第一音频信号可以是带限制音频数据。已经以全频带记录的一个或多个音频信号,随后被人为地频带限制。可以在不同的带宽下生成/记录一个或多个音频信号数据,例如窄带4khz、宽带8khz、超宽带12khz或全频带20khz。一个或多个音频信号可以经历不同种类的增强,例如添加以下一个或多个:噪声、房间混响、模拟分组丢失或干扰语音。

84、听力数据集中的用户听力简档可以与生理信息(例如年龄或性别)相关联。听力数据集中的用户听力简档可以是音频设备的用户的听力简档。可以基于对音频设备的用户执行的一个或多个测试来确定用户听力简档。用户听力简档可以是与特定年龄和/或性别相关联的通用听力简档。听力数据集可以包括一个或多个用户简档。

85、可以通过多种方式来确定感知损失。感知损失可以被理解为确定感知损失的损失函数。例如,可以确定感知损失以最大化pri。在最大化pri的情况下,将训练带宽扩展模型以生成频谱内容,来最大化pri测量。将基于用户听力简档来计算pri。感知损失可以是感知损失函数,其促进导致pri增加的模型的训练,并惩罚导致pri降低的训练。

86、在另一方法中,基于听力数据集确定掩蔽阈值和个性化带宽。掩蔽阈值和个性化带宽可以用于确定与听力数据集相关联的可听范围和水平,其中个性化带宽可以基于用户听力简档被确定为可听范围,并且可听水平可以基于用户听力简档被确定为被掩蔽或未被掩蔽的分量。可听范围和水平可以用于确定所生成的多个带宽扩展音频信号的掩蔽和未掩蔽分量。然后可以确定感知损失,以便训练带宽扩展模型来生成在可听范围内可听的频谱内容。

87、在文献中,已经提出了不同的损失函数来考虑心理声学方面。这种损失函数的示例可以在下文中找到,kai zhen,mi suk.lee,jongmo sung,seungkwon beack和minjekim,“用于高效端到端神经音频编码的损失函数的心理声学校准”,ieee信号处理快报,第27卷,第2159-2163页,2020年(“psychoacoustic calibration of loss functions forefficient end-to-end neural audio coding,”in ieee signal processing letters,vol.27,pp.2159-2163,2020)。在文章中,他们提出了损失函数中的感知权重向量。在他们提出的损失函数(用l表示)中,感知权重向量(w)是基于从心理声学模型导出的信号功率频谱密度(p)和掩蔽阈值(m)来定义的。提出的损失函数如下

88、

89、其中,f是频率指数,xf和分别是从神经网络的输入和输出的频谱分析中获得的第f个频谱幅度分量,并且x,分别是从神经网络时频频谱估计的目标干净时频频谱,并且w表示从p和m导出的感知权重向量,如下:

90、

91、从w可以直观地看出,如果信号的功率大于m(p>m),则强制该模型来恢复该可听分量。

92、以上是确定感知损失的一种训练方式,然而,可替代地,感知损失可以由感知损失函数来确定,该感知损失函数促进导致增加的未掩蔽分量的带宽扩展模型的训练,并惩罚导致增加的掩蔽分量的训练。

93、可以由多个不同的函数确定感知损失,例如线性、非线性、对数、分段或指数函数。

94、对于本发明,在一个实施例中,损失函数可以仅在从用户听力简档确定的可听范围内应用,此外,掩蔽可以从用户听力简档确定,因此,基于用户听力简档来个性化损失函数。由模型生成的在从用户听力简档确定的可听范围之外的频率可以被视为无关而丢弃,和/或模型可以被训练以惩罚在可听范围之外的频率的生成。

95、可以通过修改带宽扩展模型的一个或多个参数来执行带宽扩展模型的训练,以最小化感知损失,例如,通过最小化/最大化表示感知损失的损失函数。在包括神经网络的带宽扩展模型的情况下,可以通过反向传播来执行训练,例如通过旨在最小化/最大化损失函数的随机梯度下降。这种反向传播将在神经网络中产生一组训练的权重。神经网络可以是回归网络或生成网络。

96、在本发明的第三方面中,提供了一种用于个性化带宽扩展的音频设备,音频设备包括处理器和存储器,存储器存储指令,当处理器执行指令时,使处理器:

97、a.获得具有第一带宽的输入麦克风信号,

98、b.获得第一用户参数,该第一用户参数包括对音频设备的用户执行的听力测试的结果和/或与音频设备的用户有关的生理信息,诸如性别和/或年龄,

99、c.基于第一用户参数确定带宽扩展模型,其中,该带宽扩展模型包括经训练的神经网络,其中,经训练的神经网络是根据本公开的第二方面进行训练的,以及

100、d.使用所确定的带宽扩展模型生成具有第二带宽的输出信号。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1