用于确定音频处理参数的装置和方法与流程

文档序号:37243201发布日期:2024-03-06 17:13阅读:16990来源:国知局
用于确定音频处理参数的装置和方法与流程

根据本发明的实施例涉及用于根据至少一个音频输入信号确定音频处理参数的装置和方法。根据本发明的实施例涉及具有人工智能的装置和方法,例如在声音再现设备中,装置和方法可以分析音频信号并在用户操作期间将它们分配给用户个人设置,或者可以将其组合。此外,实施例涉及用于基于在用户操作期间获得的音频信号确定音频处理参数的概念。


背景技术:

1、个人对声音的感知,以及因此声音再现装置对声音或和声的适应的单独要求,根据以下标准有所不同:

2、·个性化

3、·情境需求

4、·外部条件

5、声音感知因人而异。例如,在有很多人的房间里与一个人交谈,对有些人来说比其他人更难进行。此外,根据需要,对声音再现进行同样的调整会产生不同的感觉。环境参数,诸如听觉环境,也显著影响声音再现设备的声音适应的控制值。

6、当前的声音再现设备提供了不以自动化方式应用的特定声音适应。在声音再现设备中,诸如用于助听的便携式设备,诸如耳机、头戴式耳机或助听器,通常只包括用于声音适应的音量调整和均衡器。声音适应,诸如放大音量或调整更高或更低的音调,由用户执行一次。已经发现,为了获得持续良好的音质,每次进一步的声音再现都必须再次进行这些调整。

7、已经发现,在传统概念中,不仅对于不同的声音再现必须重复声音适应的过程,而且在声音再现设备中,听觉环境的变化例如不能自适应地适应环境声音。已经发现,即使环境噪声发生相对轻微的变化,语音理解的听力努力也会增加。

8、此外,已经发现,在传统概念中,声音适应只能基于制造商预先确定的声音默认设置来执行。已经发现,这些并不总是对应于用户的个人需求。因此,例如,存在如“音乐”这样的设置,其中不考虑音乐的优选品味和听音乐时的个人意图。例如,对声音体验的期望在歌剧演唱和电子音乐之间相比有很大的不同。在收听程序“音乐”的默认设置中,制造商仅以一般假设为依据,可能既不能满足歌剧演唱的声音体验要求,也不能满足科技音乐的声音体验要求,因此只能为用户提供不够充分的声音再现。

9、目前用于助听的声音再现设备,诸如助听器,根据其功能,价格可能高达数千欧元,因此对该设备的期望也相应很高。助听器的适应一般是在实验室条件下进行的,通常只有两个扬声器,并且只有非常有限的声音,诸如正弦音、噪音和声音。复杂的噪音情况,诸如十字路口的噪音,无法在听力实验室模拟,因此导致助听器用户的挫折感,在日常生活中很难达到令人满意的效果。

10、在声音重现的学习应用中,如github出版物“liketohear-ai-pt”,用户在文件中记录的助听器算法的情景参数变化和分配给该情景的记录的频谱分析由自学习算法处理。算法建立与用户的决策相关的特定频谱的相关性,并自动选择分配的参数作为预测模型的基础。在第二步中,将预测模型应用于先前记录的频谱分析。已经发现,频谱的复杂性不能通过这种用于声音再现的此学习应用来映射,因此不断需要进一步的用户适应。

11、考虑到上述陈述,需要在运行时确定音频处理参数的概念,从而在用户友好性、可获得的音频质量和实现努力之间进行更好的权衡。


技术实现思路

1、此目的由独立权利要求的主题解决。

2、本发明的实施例的核心思想是发现在运行时进行由用户直观执行的声音适应,并将其实时集成到学习系统中。

3、根据本发明的一个实施例包括用于根据例如来自音频输入的至少一个音频输入信号确定音频处理参数诸如用于音频处理的参数的装置,其中装置被配置为基于用户操作期间获得的音频信号以用户个性化的方式确定处理参数确定规则的至少一个系数,并且其中装置被配置为基于音频输入信号通过使用处理参数确定规则获得音频处理参数。例如,处理参数确定规则的系数可以是神经元网络的系数,该神经元网络获得音频输入信号或从中提取的输入信号参数作为输入量,并提供音频处理参数作为输出量。换句话说,处理参数确定规则的系数,例如,可以基于在用户操作中,例如在用户操作期间,获得的输入音频信号,以用户个性化的方式确定。此外,装置可以被配置为例如通过使用由至少一个系数定义的处理参数确定规则基于音频输入信号来获得音频处理参数。

4、本实施例基于以下核心思想:基于用户操作期间获得的音频信号,通过对处理参数确定规则的一个或多个系数进行用户个性化调整,使处理参数确定规则适应用户的个人习惯和愿望成为可能。通过使用用户操作期间获得的音频信号用于处理参数确定规则的系数的用户个性化调整,可以得到这些系数很好地适应于用户通常实际停留的那些(特定)听力情况。因此,不再需要对声学环境进行预分类(例如,将其分为一般类别“音乐”和一般类别“语音”),但系数可以适应用户例如收听音乐或语音的实际收听环境,以及用户的个人需求。例如,通过对处理参数确定规则的系数的适当选择,可以进行音频处理参数的即时的和用户个性化的确定,其中,例如,由系数调适的处理参数确定规则要求音频处理参数的立即确定,而不将声学环境分类为一个或多个静态预定的类别。相反,可以基于用户操作期间获得的音频信号来调适处理参数确定规则的系数,从而可以以“硬”或“软”方式(例如平滑过渡)区分与用户相关的用户期望不同音频处理参数的收听环境。

5、因此,通过考虑用户操作期间获得的音频信号(并相应地调整处理参数确定规则的系数),本发明概念允许,例如,当语音存在于用户所在的不同声学环境中(例如,嘈杂的开放式办公室、单个办公室、有许多卡车的十字路口、有电车交通的十字路口等)时,提供非常不同的音频处理参数。所提供的参数通常与用户在相应情况下期望的设置一致。

6、通过这种方式,本发明概念以合理的努力提供音频处理参数,这适应于个人用户的日常现实和他或她的特定偏好。

7、根据进一步的实施例,装置被配置为根据由用户调整的用户参数确定数据库,使得数据库的条目描述由用户调整的用户参数。例如,可以在用户操作期间实时建立数据库,并且可以确定预测模型。此外,数据库可以用于确定处理参数确定规则的系数,因为数据库包括用户参数的信息。例如,数据库还可以包括可以链接到用户参数的与人相关的控制设置。例如,由用户调整的用户参数可以代替音频处理参数作为输出量,或者它们可以改变音频处理参数,使得数据库的条目表示例如由用户调整的用户参数。例如,数据库至少部分地相应地集成到使用例如由用户调整的用户参数的强化学习中。

8、通过建立条目描述由用户调整的用户参数的数据库,可以例如连续地对处理参数确定规则的系数进行改进或优化。形成数据库并可以存储例如在数据库或另一个存储结构中的由用户调整的用户参数(通常在不同的声学环境中)可以表示音频处理参数的设置值。例如,如果存在对用户选择了用户参数的相应声学环境的音频信号(或音频信号特征)的用户参数的分配,则此数据库可用于确定处理参数确定规则的系数。通过确定数据库,例如,该数据库随着用户使用时间的增加而变得越来越大,可以获得,例如,随着时间的推移,存在一个更大的数据库,用于(自动)确定(或改进)处理参数确定规则的系数,其允许对所述系数进行不断增加的细化或改进(例如,基于用户所在的不同收听环境的不断增加的基数)。因此,通过建立和不断扩展数据库,可以不断改善用户体验。

9、根据进一步实施例,装置被配置为根据至少一个音频输入信号确定数据库,使得数据库的条目表示音频输入信号。例如,数据库可用于确定处理参数确定规则的系数。换句话说,例如,首先存储与人相关的控制调整,例如由用户调整的用户参数,这些控制调整通过作为外部条件的听觉环境的声音信息来扩展。因此,可以生成数据基础,该数据基础例如通过使用强化学习来提供用于处理参数确定规则的系数。

10、根据进一步实施例,装置被配置为确定数据库,使得数据库描述不同音频输入信号和由用户调整的相应用户参数之间的分配。换句话说,装置可以,例如,基于音频输入信号和与人相关的控制设置,例如由用户调整的用户参数,来彼此分配外部条件。这意味着分配例如可以作为预测模型的基础,该预测模型例如可以通过用户的进一步声音调整来临时更改,例如通过将由用户调整的相应用户参数与数据库集成(然后,例如,重新确定或改进处理参数确定规则的系数)。例如,在背景中,经由音频输入,可以通过麦克风连续记录和/或分析和/或评估听觉场景,使得,例如,经由动力学和/或频率和/或频谱特性生成听觉场景的分析。例如,可以将听觉场景的分析结果作为环境参数集成到数据库中,并将其分配给用户参数,从而获得用户参数与音频输入信号在此相应时间进入听觉环境的链接。

11、根据进一步实施例,装置被配置为根据音频输入信号确定数据库,例如用于确定处理参数确定规则的系数,使得数据库的条目描述或表示音频输出信号。通过根据至少一个音频输入信号和至少一个音频输出信号确定数据库,例如强化学习的处理参数确定规则可以使用数据库来确定例如用于神经元网络的处理参数确定规则的系数。例如,可以通过对音频输入信号和分配的输出信号的共同处理或通过将音频输出信号与音频输入信号进行比较来获得处理参数确定规则的系数。

12、根据进一步实施例,装置被配置为确定数据库,使得数据库描述不同音频输出信号和由用户调整的相应用户参数之间的分配。换句话说,数据库描述不同音频输入信号、不同音频输出信号以及由用户调整的相应用户参数之间的分配,从而能够确定处理参数确定规则的系数。通过建立的数据库,例如通过分析输入和输出的音频信号,可以将声音处理集成到自强化学习算法的训练中。例如,输入的音频信号或音频输入信号可以包括声音环境,例如听觉环境。换言之,通过所建立的数据库,例如通过分析输入的和输出的音频信号,可以选择处理参数确定规则的系数,使得音频输入信号和音频输出信号之间的期望连接至少近似于处理参数确定规则。

13、根据进一步实施例,装置被配置为基于由装置所获取的数据库调整处理参数确定规则的至少一个系数,以便以用户个性化的方式调整处理参数确定规则,以获得以用户个性化的方式调整的音频处理参数。换句话说,例如,基于人工智能调整强化学习用户模型,以获得以用户个性化方式调整的音频处理参数或以用户个性化方式调整的音频信号。例如,可以学习和适应声音环境(例如听觉环境)的变化,以及在运行时固有的用户调整。例如,以用户个性化方式适应的音频处理参数可以允许在通过使用音频处理参数处理音频输入信号时在用户操作期间获得以用户个性化方式导入的音频信号。换句话说,可以从数据库中获得或开发用于声音处理的用户特定参数集,该数据库一方面在相同的外部条件下以自动方式应用相同的控制参数,但也允许在情况本身中的进一步用户调整,这些调整作为学习系统集成到装置中。例如,学习系统和应用可以在持续的学习过程中使自己适应用户的声音偏好。

14、根据进一步实施例,装置被配置为基于数据库提供和/或调适处理参数确定规则。例如,装置可以例如通过使用强化学习来使用数据库以提供处理参数确定规则,以便例如在用户操作期间通过使用音频处理参数来获得以用户个性化方式调适的音频信号。

15、根据进一步的实施例,装置被配置为基于由用户更正和/或修正的至少一个音频处理参数来确定和/或调整处理参数确定规则的至少一个系数。如前所述,装置可被配置为在用户操作期间考虑或调整用户参数的用户调适,并允许,例如,在以后的时间和相应的相同位置或相应的相同声音环境中的用户参数的进一步用户调适,使得前面的用户参数被调整和/或覆盖为新调整的用户参数。换句话说,处理参数确定规则的系数可以由用户更正和/或可以确定经修改的音频处理参数,例如根据用户在相应时间所位于的声音环境。

16、根据进一步实施例,装置被配置为基于音频输入信号和基于音频处理参数执行音频处理,例如参数化音频处理规则,以获得以用户个性化方式(例如通过考虑音频处理参数的用户修改)调适的音频信号。换句话说,装置可以通过音频处理参数和音频输入信号的可选音频处理,为音频输出提供以用户个性化方式调整的音频信号。例如,音频处理可以集成到装置中,从而形成高效的系统。可选地,还可以将音频处理合并在音频处理参数的确定中。

17、根据进一步实施例,装置被配置为通过使用音频输入信号和通过使用音频处理参数提供的音频输入信号的比较,例如通过考虑音频处理参数的用户修改,来确定处理参数确定规则的系数。换句话说,处理参数确定规则的系数的确定可以基于音频输入信号与直接音频输出信号或由音频处理提供的音频输出信号的比较。例如,可选地,在使用比较之前或之后,可以进行音频输入信号的音频分析或音频输出信号的音频分析,以基于音频信号的音频分析结果确定比较参数确定规则的系数。通过使用这种比较来确定参数确定规则的系数,提供特别可靠或鲁棒的结果,因为实际输出给用户的音频信号可以作为确定参数确定规则的系数的标准。音频输出信号与用户期望的信号相对应的标准比纯粹的音频处理参数本身的优化更重要和稳健。

18、根据进一步实施例,装置被配置为提供由用户调整的用户参数作为输出量而不是音频处理参数,其中由用户调整的用户参数包括音量参数和/或声音参数和/或均衡器参数。换句话说,用户参数可以包括,例如,用于声音设计和/或用于均衡声音频率的滤波器参数。例如,通过提供由用户调整的用户参数作为输出量,可以启用即时用户干预,从而产生特别好的使用体验。用户干预还可以用于改进系数,以便在可能的情况下防止将来的用户干预(并自动获得适应用户需求的调整)。

19、根据进一步实施例,装置被配置为例如通过加法将用户参数与音频处理参数组合,以获得音频处理的组合参数并提供组合参数作为输出量。组合参数可以包括例如以组合方式提供给音频处理的用户参数和音频处理参数,或者通过使用音频处理组合并作为输出量提供给例如强化学习的用户参数和音频处理参数。因此,快速用户干预是可能的,音频处理可以适应用户要求。

20、根据进一步实施例,装置被配置为执行音频输入信号的音频分析,以提供音频输入信号分析结果,用于例如通过使用处理参数确定规则来确定处理参数确定规则的至少一个系数。例如,处理参数确定规则可定义推导规则,用于从音频输入信号分析结果推导音频处理参数。音频输入信号的音频分析可以提供音频输入信号分析结果,例如以关于音频输入信号的频谱特性和/或动力学和/或频率的信息的形式,或者也可以作为关于每个频带强度值的信息。例如,音频输入信号分析结果可以在这里作为输入量提供,用于例如通过使用强化学习确定处理参数确定规则的一个或多个系数。这里,实施例进一步提供,音频分析预先对来自音频输入的音频输入信号进行分析和评估,以便将其提供给处理参数确定规则,其中这不是强制性的。例如,可以获得关于音频输入信号的频谱特性的附加信息作为音频输入信号分析结果。此外,通过使用音频输入信号分析结果,与例如使用完整音频输入信号来确定音频处理参数的情况相比,可以以更简单的方式配置处理参数确定规则。这样,音频输入信号分析结果的参数或值可以以有效的方式描述音频输入信号的本质特征,使得处理参数确定规则包括相对较少数量的输入变量,(即,例如)音频输入信号分析结果的参数或值,并且因而能够以相对简单的方式实现。这样,可以以小的努力获得良好的结果。

21、根据进一步实施例,装置被配置为执行音频输入信号的音频分析,以提供音频输出信号分析结果,例如以关于音频输入信号的频谱特征的信息的形式,用于确定处理参数确定规则的至少一个系数,例如通过使用处理参数确定规则。换句话说,装置被配置为在处理参数确定规则之前或之后执行音频分析,以提供音频输入分析信号结果或音频输出信号分析结果或两者,用于确定处理参数确定规则的系数。例如,通过确定音频输出信号分析结果,特别容易对音频输入信号和音频输出信号进行比较,其中,例如,音频输出信号分析结果的值或参数能够以特别有效的方式(或特别紧凑的形式)描述音频输出信号的特征。因此,可以以特别有效的方式确定或优化处理参数确定规则的系数,其中,例如,通过以有效的方式评估音频输出信号分析结果,可以进行用户期望的处理,或者其中通过音频输入信号分析结果与音频输出信号分析结果的比较,可以允许得出处理参数确定规则的系数。

22、根据进一步实施例,音频处理参数包括至少一个多频带压缩参数r和/或至少一个听力阈值适应参数t,和/或至少一个频带相关放大参数g,和/或至少一个干扰噪声降低参数,和/或至少一个盲源分离参数。此外,音频处理参数一般可包括至少一个声音方向参数和/或双耳参数和/或关于不同扬声器的数量的参数和/或自适应滤波器的参数,例如霍尔抑制、反馈、回声消除、主动噪声消除(anc)。例如,通过声音方向参数,可以选择或调整声源的指向性,使得对于音频处理参数的组合,仅从期望的方向,例如,对话的对话伙伴来处理声音。已经发现,这样的音频处理参数可以有效地影响音频信号处理,其中已经可以使用可以通过处理参数确定规则轻松确定的少量参数在宽调整范围内影响音频信号处理。

23、根据进一步实施例,装置可包括神经元网络,该神经元网络实现例如处理参数确定规则,使得定义至少一个系数,或者优选地定义多个系数,这些系数被配置为通过使用处理参数确定规则来获得音频处理参数。此外,神经元网络可以被配置为基于直接来自音频输入的音频输入信号或通过互连音频分析作为经分析的音频输入信号获得音频处理参数。已经发现,神经元网络非常适合于确定音频处理参数,并且可以通过系数很好地适应个人用户的个人感知。例如,可以通过处理参数确定规则的系数来定义边缘权重的神经元网络可以通过选择系数(例如,可以通过训练规则来进行)来适应用户的需要。例如,当存在进一步的用户调整时,可以连续地改进系数。因此,可以获得提供非常好的用户体验的结果。

24、根据进一步实施例,装置被配置为基于强化学习的方法和/或基于无监督学习的方法和/或基于多变量预测的方法和/或基于由多变量回归确定的多维参数空间提供和/或调适处理参数确定规则,以确定音频处理参数。处理参数确定规则可以为神经元网络提供例如基于例如强化学习方法的系数。多变量预测的方法可包括,例如,根据用户参数预测频带和/或预测输入/输出特性。此外,采用多变量回归的方法可以分析,例如,所有现有的频段,以确定多维参数空间。例如,多维参数空间可以是包括图形表面的二维参数设置,其中用户参数可以由用户例如借助于坐标系上的滑块或点来调整和连续地调适,该坐标系的轴具有或被分配给音量调整和声音调整。通过上述方法,装置可以确定音频处理参数,使得例如,学习算法调整用户个性化的音频处理参数,例如,使得通过应用处理参数确定规则提供的音频处理参数近似于用户随着学习进度的增加而校正的音频处理参数,例如使得,处理参数确定规则在连续学习过程中调适自身,例如根据音频处理参数的用户自适应。例如,正如预期的那样,方法对数据库或数据存储器的访问是无限制的(例如,随着数据库的大小增加,可以通过使用所述的学习方法确定更好的系数)。

25、根据进一步实施例,装置被配置为例如经由或通过接口获得由用户调整的用户参数,例如,用户接口、直观和/或符合人体工程学的用户控制,诸如智能手机的显示器上的2d空间。换句话说,装置可以包括接口(例如,电气接口或也是人机接口),以便调整用户参数。优选地,视觉用户控制可包括音量调整,例如,通过用于更大声和更安静和/或高度和深度管理的滑块。这样,参数的调整对于用户来说非常容易,其中已经发现这种简单的声音调整在许多情况下已经产生了良好的听觉印象。

26、根据进一步实施例,音频输入信号包括多通道音频信号,例如具有至少四个通道或至少两个音频通道。例如,音频输入信号可以由音频输入提供,例如,来自、经由或通过麦克风。此外,音频输入信号可包括诸如通道数量和/或频带数量的信息。例如,多通道信号的使用允许期望和/或干扰声源的定位,以及在确定音频处理参数或处理参数确定规则的系数时考虑期望或干扰声源的方向。

27、根据进一步实施例,装置被配置为对音频输入信号的至少四个频带分别执行音频处理。通过这种方式,可以确保提供频率选择性,以便能够分析每个单独的频率,例如,如果音频输入信号包括多通道音频信号。考虑不同频带的不同强度允许考虑不同的声学环境,并且还允许以有效的方式考虑用户关于频率响应的特定期望。

28、根据进一步实施例,装置被配置为以用户个性化的方式确定处理参数确定规则的至少一个系数,例如,在用户操作期间连续、连续地,例如实时地,以实时地获得音频处理参数,例如,在用户操作期间运行时,和/或实时地确定和/或适应经修改的音频处理参数。换句话说,装置被配置为例如实时确定和/或调整音频处理参数,使得装置作为学习系统例如在用户操作期间实时执行此学习过程。换句话说,在本发明中,例如,声音处理是基于实时测量的外部条件来控制的。因此,对所有现有频段的分析也实时进行,从而可以基于实时的多维优化提供预测模型,这意味着,例如,基于分析的频段和存储在数据存储器中的用户参数确定音频处理参数的优化。

29、根据进一步实施例,本发明包括助听器,其中助听器包括音频处理,并且其中助听器包括用于确定音频处理参数的装置,其中音频处理被配置为根据音频处理参数处理音频输入信号。例如,助听器可以实施或集成装置,以改善用户对音频信号的形式的声音或音调的个人感知。已经表明,本文所述的装置特别适合在助听器中使用,并且通过本发明概念的使用可以显著改善听觉印象。

30、根据本发明的实施例包括用于根据至少一个音频输入信号确定音频处理参数的方法,其中方法包括以用户个性化的方式基于用户操作期间获得的音频信号确定处理参数确定规则的至少一个系数,以及使用处理参数确定规则基于音频输入信号获得音频处理参数。方法基于与上述装置相同的考虑,并且可以选择性地辅以本文中关于本发明装置所描述的所有特征、功能和细节。方法可以通过所述的特征、功能和细节单独地或组合地加以补充。

31、根据本发明的进一步实施例包括具有当程序在计算机上运行时用于执行方法的程序代码的计算机程序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1