助听器系统和方法与流程

文档序号:31859768发布日期:2022-10-19 04:23阅读:60来源:国知局
助听器系统和方法与流程
助听器系统和方法
1.相关申请的交叉引用
2.本技术要求享有2020年1月3日提交的美国临时专利申请第62/956,744号;2020年2月6日提交的美国临时专利申请第62/970,726号;和2020年7月13日提交的美国临时专利申请第63/050,890号的优先权。通过引用将所有前述申请全部合并于本文。
技术领域
3.本公开一般涉及用于从用户的环境捕捉和处理图像和音频以及使用从捕捉的图像和音频导出的信息的设备和方法。


背景技术:

4.当今,技术的进步使得可穿戴设备能够自动捕捉图像和音频,并且存储与捕捉的图像和音频相关联的信息。某些设备已经被用来数字记录一个体生活的方方面面和个体经历,这种实践通常被称为“生活记录”。有些人记录他们的生活,这样他们就可以从过去的活动中检索时刻,例如社交活动、旅行等。生活记录在其他领域(例如,商业、健身和医疗保健以及社会研究)也可能有显著的益处。生活记录设备虽然对跟踪日常活动很有用,但也可以通过基于对捕捉的图像和音频数据的分析的反馈和其他高级功能来增强一个体在其环境中的交互的能力来改进。
5.尽管用户可以用他们的智能手机捕捉图像和音频,一些智能手机应用程序可以处理捕捉的信息,但考虑到智能手机的尺寸和设计,智能手机可能不是用作生活记录装置的最佳平台。生活记录装置应该是小而轻的,这样他们就可以很容易地佩戴。此外,随着包括可穿戴装置在内的图像捕捉设备的改进,可以提供附加功能以帮助用户在环境中和周围导航,识别他们遇到的人和对象,以及向用户提供关于其周围环境和活动的反馈。因此,需要用于自动捕捉和处理图像和音频以向装置的用户提供有用信息的装置和方法,以及需要用于处理和利用由装置收集的信息的系统和方法。


技术实现要素:

6.根据本公开的实施例提供了用于自动捕捉和处理来自用户环境的图像和音频的设备和方法,以及用于处理与从用户环境捕捉的图像和音频相关的信息的系统和方法。
7.在一个实施例中,提供了一种用于选择性地调节声音的助听器系统。该助听器系统包括配置为从用户的环境捕捉多个图像的可穿戴相机和配置为从用户的环境捕捉声音的至少一个麦克风。此外,助听器系统包括至少一个处理器,其被编程为接收由相机捕捉的多个图像,从用户的环境中接收表示由至少一个麦克风捕捉的声音的多个音频信号,以及在第一模式下操作以引起对多个音频信号中的第一音频信号的第一选择性调节。该处理器还被编程为基于对多个图像或多个音频信号中的至少一个的分析,确定切换到第二模式以引起对第一音频信号的第二选择性调节,该第二选择性调节相对于第一选择性调节在至少一个方面不同。该处理器还被编程为使在第二模式下被选择性调节的第一音频信号传输到
被配置为向用户的耳朵提供声音的听觉接口设备。
8.在一个实施例中,提供了一种用于选择性地调节声音的助听器系统。该助听器系统包括配置为从用户的环境捕捉多个图像的可穿戴相机和配置为从用户的环境捕捉声音的至少一个麦克风。助听器系统还包括至少一个处理器,其被编程为接收由相机捕捉的多个图像,从用户的环境中接收表示由至少一个麦克风捕捉的声音的多个音频信号,以及在多个模式下操作,其中多个模式包括第一模式和第二模式,其中在第一模式下操作引起对多个音频信号中的至少一个音频信号的第一选择性调节,并且其中,在第二模式下操作引起对至少一个音频信号的第二选择性调节,第二选择性调节相对于第一选择性调节在至少一个方面不同。此外,处理器被编程为基于对多个图像或多个音频信号中的至少一个的分析来选择第一模式或第二模式,并使基于所选模式被选择性地调节的至少一个音频信号传输到听觉接口设备,听觉接口设备被配置为向用户的耳朵提供声音。
9.在一个实施例中,提供了一种用于选择性地调节声音的助听器系统。该助听器系统包括被配置为从用户的环境捕捉多个图像的可穿戴相机,被配置为从用户的环境捕捉多个音频信号的至少一个麦克风,以及至少一个处理器。处理器被编程为接收由相机捕捉的多个图像,从用户的环境接收表示由至少一个麦克风捕捉的声音的多个音频信号,识别由多个图像中的至少一个或由多个音频信号中的至少一个表示的至少一个辨识出的个体,以及从存储器中检索与该至少一个辨识出的个体相关联的调节配置文件。此外,该处理器被编程为引起对与至少一个辨识出的个体相关联的多个音频信号中的第一音频信号进行选择性调节,该选择性调节是基于调节配置文件来确定的,并引起将经调节的第一音频信号传输到被配置为向用户的耳朵提供声音的听觉接口设备。
10.在一个实施例中,提供了一种用于选择性地调节声音的助听器系统。该助听器系统包括被配置为从用户的环境捕捉多个图像的可穿戴相机,被配置为从用户的环境捕捉多个音频信号的至少一个麦克风,以及至少一个处理器。处理器被编程为接收由相机捕捉的多个图像,从用户的环境接收表示由至少一个麦克风捕捉的声音的多个音频信号,识别由多个图像中的至少一个或由多个音频信号中的至少一个表示的个体群组,以及从存储器中检索与该个体群组相关联的调节配置文件。此外,该处理器被编程为引起对与该个体群组相关联的多个音频信号中的第一音频信号进行选择性调节,该选择性调节是基于调节配置文件来确定的,并引起将经调节的第一音频信号传输到被配置为向用户的耳朵提供声音的听觉接口设备。
11.在一个实施例中,一种用于选择性放大声音的助听器系统可以包括被配置为从用户的环境捕捉多个图像的可穿戴相机,被配置为从用户的环境捕捉声音的至少一个麦克风,以及至少一个处理器。该处理器可以被编程为接收由可穿戴相机捕捉的多个图像;从用户的环境接收表示由至少一个麦克风捕捉的声音的至少一个音频信号;基于对多个图像中的至少一个或至少一个音频信号的分析来识别用户的至少一个动作;基于识别出的动作,引起对由至少一个麦克风接收的至少一个音频信号进行选择性调节;以及使至少一个经调节的音频信号传输到听觉接口设备,该听觉接口设备被配置为向用户的耳朵提供声音。
12.在一个实施例中,一种用于选择性地放大声音的方法可以包括:通过可穿戴相机从用户的环境捕捉多个图像;通过至少一个麦克风从用户的环境捕捉声音;接收由可穿戴相机捕捉的多个图像;从用户的环境接收表示由至少一个麦克风捕捉的声音的至少一个音
频信号;基于对多个图像中的至少一个或至少一个音频信号的分析来识别用户的至少一个动作;基于识别出的动作,引起对由至少一个麦克风接收的至少一个音频信号进行选择性调节;以及使至少一个经调节的音频信号传输到听觉接口设备,该听觉接口设备被配置为向用户的耳朵提供声音。
13.在一个实施例中,一种用于选择性放大声音的助听器系统可以包括被配置为从用户的环境捕捉多个图像的可穿戴相机,被配置为从用户的环境捕捉声音的至少一个麦克风,以及至少一个处理器。该处理器可以被编程为:接收由相机捕捉的多个图像;识别多个图像中的至少一个图像中的第一个体的表示;接收表示由至少一个麦克风捕捉的声音的音频信号;基于对音频信号的分析,识别与第一个体相关联的第一语音相关联的第一音频信号,以及与第二个体的第二语音相关联的第二音频信号;基于至少一个处理器确定第一音频信号与高于第二音频信号的优先级的优先级相关联,引起对第一音频信号进行选择性调节;以及使经选择性调节的第一音频信号传输到听觉接口设备,该听觉接口设备被配置为向用户的耳朵提供声音。
14.在一个实施例中,一种用于选择性地放大声音的方法可以包括:通过可穿戴相机从用户的环境捕捉多个图像;通过至少一个麦克风从用户的环境捕捉声音;接收由可穿戴相机捕捉的多个图像;识别多个图像中的至少一个图像中的第一个体的表示;接收表示由至少一个麦克风捕捉的声音的音频信号;基于对音频信号的分析,识别与第一个体相关联的第一语音相关联的第一音频信号,以及与第二个体的第二语音相关联的第二音频信号;基于至少一个处理器确定第一音频信号与高于第二音频信号的优先级的优先级相关联,引起对第一音频信号进行选择性调节;以及使经选择性调节的第一音频信号传输到听觉接口设备,该听觉接口设备被配置为向用户的耳朵提供声音。
15.在一个实施例中,一种助听器系统可以选择性地放大声音。该助听器系统可以包括可穿戴相机设备,该可穿戴相机设备包括:至少一个相机,其被配置为从用户的环境捕捉多个图像;至少一个麦克风,其被配置为从用户的环境捕捉声音;以及至少一个第一处理器,其被编程为选择性地调节从至少一个麦克风接收的表示由至少一个麦克风捕捉的声音的音频信号;以及一种助听器设备,该助听器设备包括:至少一个扬声器,其被配置为向用户的耳朵提供声音;以及至少一个第二处理器,其被编程为:使一个或多个指令传输到可穿戴相机设备;从可穿戴相机设备接收经调节的音频信号;以及基于经调节的音频信号,使用至少一个扬声器向用户的耳朵提供声音。
16.在一个实施例中,一种用于在助听器系统中放大声音的方法可以包括:使用可穿戴相机设备的至少一个相机从可穿戴的用户的环境捕捉多个图像;使用可穿戴相机设备的至少一个麦克风从用户的环境捕捉声音;使用至少一个第一处理器选择性地调节从至少一个麦克风接收的音频信号,该音频信号表示由至少一个麦克风捕捉的声音;以及通过使用助听器设备的至少一个第二处理器,使用助听器设备的至少一个扬声器向用户的耳朵提供声音,该至少一个第二处理器被编程为:使一个或多个指令传输到可穿戴相机设备;从可穿戴相机设备接收经调节的音频信号;以及基于经调节的音频信号,使用至少一个扬声器向用户的耳朵提供声音。
17.在一个实施例中,一种用于选择性地放大声音的助听器系统包括:可穿戴相机,被配置为从用户的环境捕捉多个图像,该可穿戴相机具有图像捕捉参数;至少一个麦克风,被
配置为从用户的环境捕捉声音;以及至少一个处理器,被编程为:接收由相机捕捉的多个图像;接收表示由至少一个麦克风捕捉的声音的音频信号;识别多个图像中的至少一个图像中的至少一个个体的表示;基于多个图像或音频信号中的至少一个,检测与至少一个个体相关联的语速;以及基于检测到的语速,引起对可穿戴相机的图像捕捉参数进行调整。
18.在一个实施例中,一种用于放大声音的方法包括:接收由相机捕捉的多个图像;接收表示由至少一个麦克风捕捉的声音的音频信号;识别多个图像中的至少一个图像中的至少一个个体的表示;基于多个图像或音频信号中的至少一个,检测与至少一个个体相关联的语速;以及基于检测到的语速,引起对可穿戴相机的图像捕捉参数进行调整。
19.在一个实施例中,一种助听器系统可以包括至少一个麦克风,该麦克风被配置为从用户的环境捕捉声音;以及至少一个处理器。该至少一个处理器可以被编程为:接收表示由至少一个麦克风捕捉的声音的音频信号;接收与处理音频信号相关联的时间延迟的指示;在缓冲器中存储表示音频信号的部分的多个音频样本;以及处理多个音频样本中的第一音频样本以生成经处理的第一音频样本。处理第一音频样本可以包括分析多个音频样本中的第二音频样本,该第二音频样本在音频信号中在第一音频样本之后表示并且具有由时间延迟定义的长度,其中,经处理的第一音频样本的音频质量取决于第二音频样本的长度。
20.在一个实施例中,公开了一种用于选择性地放大音频信号的方法。该方法可以包括:接收表示由至少一个麦克风从用户的环境接收的声音的音频信号;接收与处理音频信号相关联的时间延迟的指示;在缓冲器中存储表示音频信号的部分的多个音频样本;以及处理多个音频样本中的第一音频样本以生成经处理的第一音频样本。处理第一音频样本可以包括分析第二音频样本,该第二音频样本在音频信号中在第一音频样本之后表示并且具有由时间延迟定义的长度,其中,经处理的第一音频样本的音频质量取决于第二音频样本的长度。
21.在一个实施例中,一种助听器系统可以包括至少一个麦克风,该麦克风被配置为从用户的环境捕捉声音;以及至少一个处理器。该至少一个处理器可以被编程为:接收表示由至少一个麦克风捕捉的声音的音频信号;使用至少一个方面的第一值处理音频信号以生成第一经处理音频信号;以及使用至少一个方面的第二值处理音频信号以生成第二经处理音频信号,该第二值不同于第一值。该至少一个处理器还可以被编程为:将第一经处理音频信号与第二经处理音频信号进行比较,以基于至少一个方面与第一经处理音频信号和第二经处理音频信号的音频质量之间的折衷(tradeoff)来选择第一经处理音频信号或第二经处理音频信号;以及将所选择的经处理音频信号发送到用户的听觉接口设备。
22.在一个实施例中,公开了一种用于选择性地放大音频信号的方法。该方法可以包括:接收表示由至少一个麦克风从用户的环境接收的声音的音频信号;使用至少一个方面的第一值处理音频信号以生成第一经处理音频信号;以及使用至少一个方面的第二值处理音频信号以生成第二经处理音频信号,该第二值不同于第一值。该方法还可以包括:将第一经处理音频信号与第二经处理音频信号进行比较,以基于至少一个方面与第一经处理音频信号和第二经处理音频信号的音频质量之间的折衷来选择第一经处理音频信号或第二经处理音频信号;以及将所选择的经处理音频信号发送到用户的听觉接口设备。
23.在一个实施例中,一种用于选择性地替换音频信号的助听器系统可以包括被配置为从用户的环境捕捉多个图像的可穿戴相机,被配置为从用户的环境捕捉声音的至少一个
麦克风;以及至少一个处理器。该至少一个处理器可以被编程为:接收由相机捕捉的多个图像;接收表示由至少一个麦克风捕捉的声音的多个音频信号;以及基于对多个图像或多个音频信号的分析,从多个音频信号中识别与用户的环境中的声音发出对象相关联的音频信号。该至少一个处理器还可以被配置为:基于多个音频信号,预测将在用户耳朵处从用户的环境接收到的声音;生成被配置为抵消用户耳朵处的至少预测声音的取消音频信号;基于识别出的音频信号来生成经选择性调节的音频信号;以及将取消音频信号和经选择性调节的音频信号发送到被配置为向用户耳朵提供声音的助听器接口设备。
24.在一个实施例中,公开了一种用于选择性地替换音频信号的方法。该方法可以包括接收由可穿戴相机从用户的环境捕捉的多个图像;接收表示由至少一个麦克风从用户的环境捕捉的声音的多个音频信号;以及基于对多个图像或多个音频信号的分析,从多个音频信号中识别与用户的环境中的声音发出对象相关联的音频信号。该方法还可以包括:基于多个音频信号,预测将在用户耳朵处从用户的环境接收到的声音;生成被配置为抵消用户耳朵处的至少预测声音的取消音频信号;基于识别出的音频信号来生成经选择性调节的音频信号;以及将取消音频信号和经选择性调节的音频信号发送到被配置为向用户耳朵提供声音的助听器接口设备。
25.在一个实施例中,一种用于选择性放大声音的助听器系统包括被配置为从用户的环境捕捉多个图像的可穿戴相机,被配置为从用户的环境捕捉声音的至少一个麦克风,以及至少一个处理器。该至少一个处理器被配置为接收由相机捕捉的多个图像;接收表示由至少一个麦克风捕捉的声音的音频信号;基于对多个图像或音频信号中的至少一个的分析,确定声音发出对象的位置;基于声音发出对象的位置生成立体声表示,该立体声表示包括第一音频信号和第二音频信号,第一音频信号在至少一个方面不同于第二音频信号以模拟对象相对于用户的位置;以及使该立体声表示传输到助听器接口设备,助听器接口设备被配置为将基于第一音频信号的声音提供给用户的第一耳朵,并将基于第二音频信号的声音提供给用户的第二耳朵。
26.在一个实施例中,一种用于选择性地放大声音的方法包括:从用户的环境接收多个图像,该图像由可穿戴相机捕捉;从用户的环境接收表示声音的音频信号,该声音由至少一个麦克风捕捉;基于对多个图像或音频信号中的至少一个的分析,确定声音发出对象的位置;基于声音发出对象的位置生成立体声表示,该立体声表示包括第一音频信号和第二音频信号,第一音频信号在至少一个方面不同于第二音频信号以模拟对象相对于用户的位置;以及使该立体声表示传输到助听器接口设备,助听器接口设备被配置为将基于第一音频信号的声音提供给用户的第一耳朵,并将基于第二音频信号的声音提供给用户的第二耳朵。
27.在一个实施例中,一种用于选择性地放大声音的助听器系统包括至少一个麦克风,该麦克风被配置为从用户的环境捕捉声音;以及至少一个处理器。该至少一个处理器被配置为接收表示由至少一个麦克风捕捉的声音的多个音频信号;识别多个音频信号中的第一音频信号,该第一音频信号与个体相关联;处理第一音频信号以选择性地调节个体的至少一个语音特征;以及使经处理的第一音频信号传输到听觉接口设备,该听觉接口设备被配置为向用户的耳朵提供声音。
28.在一个实施例中,一种用于选择性地放大声音的方法包括:接收表示由至少一个
麦克风捕捉的声音的多个音频信号,该至少一个麦克风被配置为从用户的环境捕捉声音;识别多个音频信号中的第一音频信号,该第一音频信号与个体相关联;处理第一音频信号以选择性地调节个体的至少一个语音特征;以及使经处理的第一音频信号传输到听觉接口设备,该听觉接口设备被配置为向用户的耳朵提供声音。
29.在一个实施例中,提供了一种助听器系统。该助听器系统可以选择性地调节声音。该助听器系统可以包括配置为从用户的环境捕捉多个图像的可穿戴相机,该可穿戴相机具有图像捕捉速率;被配置为从用户的环境捕捉声音的至少一个麦克风;以及至少一个处理。该处理器可以被编程为接收由相机捕捉的多个图像;接收表示由至少一个麦克风捕捉的声音的多个音频信号;获得与用户的环境中的个体相关联的声纹,该个体基于多个图像或多个音频信号中的至少一个被识别;基于对多个图像的分析,检测与个体的嘴相关联的至少一个唇部移动;基于声纹或检测到的唇部移动中的至少一个,识别多个音频信号中与个体的语音相关联的第一音频信号;处理第一音频信号;以及使经选择性调节的第一音频信号传输到听觉接口设备,该听觉接口设备被配置为向用户的耳朵提供声音。
30.在一个实施例中,提供一种用于选择性地调节助听器系统中的声音的计算机实现的方法。该方法可以包括从用户的环境接收多个图像,该多个图像由可穿戴相机捕捉。该方法还可以包括接收表示由至少一个麦克风捕捉的声音的多个音频信号。该方法还可以包括获得与用户的环境中的个体相关联的声纹,该个体基于多个图像或多个音频信号中的至少一个被识别。该方法还可以包括基于对多个图像的分析,检测与个体的嘴相关联的至少一个唇部移动。该方法还可以包括基于声纹或检测到的唇部移动中的至少一个,识别多个音频信号中与个体的语音相关联的第一音频信号。该方法还可以包括处理第一音频信号。该方法还可以包括使经选择性调节的第一音频信号传输到听觉接口设备,该听觉接口设备被配置为向用户的耳朵提供声音。
31.与其他公开的实施例一致,非暂时性计算机可读存储介质可以存储程序指令,程序指令由至少一个处理器执行并执行本文描述的任何方法。
32.前面的一般描述和下面的详细描述仅是示例性的和说明性的,而不是对权利要求的限制。
附图说明
33.结合在本公开中并构成本公开的一部分的附图示出了所公开的各种实施例。在附图中:
34.图1a是根据所公开实施例的佩戴可穿戴装置的用户的示例的示意图。
35.图1b是根据所公开实施例的佩戴可穿戴装置的用户的示例的示意图。
36.图1c是根据所公开实施例的佩戴可穿戴装置的用户的示例的示意图。
37.图1d是根据所公开实施例的佩戴可穿戴装置的用户的示例的示意图。
38.图2是与所公开的实施例一致的示例系统的示意图。
39.图3a是图1a所示的可穿戴装置的示例的示意图。
40.图3b是图3a所示的可穿戴装置的示例的分解图。
41.图4a-4k是从各种视角的图1b中所示的可穿戴装置的示例的示意图。
42.图5a是示出根据第一实施例的可穿戴装置的组件的示例的框图。
43.图5b是示出根据第二实施例的可穿戴装置的组件的示例的框图。
44.图5c是示出根据第三实施例的可穿戴装置的组件的示例的框图。
45.图6示出了包含符合本公开的软件模块的存储器的示例性实施例。
46.图7是包括可定向图像捕捉单元的可穿戴装置的实施例的示意图。
47.图8是符合本公开的可固定到衣物上的可穿戴装置的实施例的示意图。
48.图9是佩戴符合本公开的实施例的可穿戴装置的用户的示意图。
49.图10是符合本公开的可固定到衣物上的可穿戴装置的实施例的示意图。
50.图11是符合本公开的可固定到衣物上的可穿戴装置的实施例的示意图。
51.图12是符合本公开的可固定到衣物上的可穿戴装置的实施例的示意图。
52.图13是符合本公开的可固定到衣物上的可穿戴装置的实施例的示意图。
53.图14是符合本公开的可固定到衣物上的可穿戴装置的实施例的示意图。
54.图15是包括电源的可穿戴装置电源单元的实施例的示意图。
55.图16是包括保护电路的可穿戴装置的示例性实施例的示意图。
56.图17a是佩戴根据所公开实施例的用于基于相机的助听器设备的装置的用户的示例的示意图。
57.图17b是符合本公开的可固定到衣物上的装置的实施例的示意图。
58.图18是示出符合本公开的使用基于相机的助听器的示例性环境的示意图。
59.图19是示出符合所公开实施例的用于选择性地放大从检测到的用户的视线方向发出的声音的示例性过程的流程图。
60.图20a是示出符合本公开的使用具有语音和/或图像识别的助听器的示例性环境的示意图。
61.图20b示出了包括符合本公开的面部和语音识别组件的装置的示例性实施例。
62.图21是示出符合所公开实施例的用于选择性地放大与辨识出的个体的语音相关联的音频信号的示例性过程的流程图。
63.图22是示出符合所公开实施例的用于选择性地发送与识别出的用户的语音相关联的音频信号的示例性过程的流程图。
64.图23a是示出符合本公开的可在用户的环境中识别的示例性个体的示意图。
65.图23b是示出符合本公开的可在用户的环境中识别的示例性个体的示意图。
66.图23c示出了符合所公开实施例的示例性唇部跟踪系统。
67.图24是示出符合本公开的使用唇部跟踪助听器的示例性环境的示意图。
68.图25是示出符合所公开实施例的用于基于跟踪的唇部移动来选择性地放大音频信号的示例性过程的流程图。
69.图26是佩戴根据所公开实施例的用于基于相机的助听器设备的装置的用户的示例的示意图。
70.图27a和27b是示出符合所公开实施例的用于选择性地调节音频信号的示例性过程的流程图。
71.图28a和28b是示出符合所公开实施例的用于选择性地调节音频信号的示例性过程的示意图。
72.图29是佩戴根据所公开实施例的用于基于相机的助听器设备的装置的用户的示
例的示意图。
73.图30a和30b是示出符合所公开实施例的用于选择性地调节音频信号的示例性过程的流程图。
74.图31是示出符合所公开实施例的用于选择性地调节音频信号的示例性过程的另一流程图。
75.图32是示出根据所公开实施例的用于使用具有语音和/或图像识别的助听器的示例性环境的示意图。
76.图33是根据所公开实施例的具有助听器系统的用户的示例性描述。
77.图34是示出根据所公开实施例的用于选择性地放大声音的示例性过程的流程图。
78.图35是示出根据所公开实施例的包括具有语音和/或图像识别的助听器的示例性环境的示意图。
79.图36是根据所公开实施例的用于与具有语音和/或图像识别的助听器一起使用的示例性计算设备的图示。
80.图37是示出根据所公开实施例的用于选择性地放大声音的示例性过程的流程图。
81.图38是符合所公开实施例的包括可穿戴相机设备、助听器设备和移动设备的助听器系统的示例的示意图。
82.图39是符合所公开实施例的附接到用户的助听器系统的示例的示意图。
83.图40是示出符合所公开实施例的助听器和配对的相机系统的示例性过程的流程图。
84.图41是符合所公开实施例的附接到用户的助听器系统的示例的示意图。
85.图42是符合所公开实施例的从用户的环境捕捉图像和音频的助听器系统的示例的示意图。
86.图43是示出符合所公开实施例的调整可穿戴相机的捕捉参数的示例性过程的流程图。
87.图44示出了可以根据所公开实施例进行处理的示例音频信号。
88.图45a示出了符合所公开实施例的示例用户界面,通过该示例用户界面用户可以定义处理音频信号的方面。
89.图45b示出了符合所公开实施例的用于并行处理音频信号的示例过程。
90.图46a是示出符合所公开实施例的用于选择性地放大音频信号的示例过程的流程图。
91.图46b是示出符合所公开实施例的用于选择性地放大音频信号的示例过程的流程图。
92.图47是示出符合所公开实施例的用于活跃声音替换的示例过程的框图。
93.图48a、48b和48c示出了符合所公开实施例的用于活跃声音替换的示例可穿戴装置。
94.图49是示出符合所公开实施例的用于选择性地替换音频信号的示例过程的流程图。
95.图50a是示出符合所公开实施例的使用具有声音定位的助听器的示例性环境的示意图。
96.图50b是符合所公开实施例的由成像捕捉设备捕捉的示例性图像的示意图。
97.图51是符合所公开实施例的由助听器系统获取和重放的音频信号的示意图。
98.图52是示出用于生成符合所公开实施例的立体声表示的示例性过程的流程图。
99.图53是示出符合本公开的使用具有声音定位的助听器的示例性环境的示意图。
100.图54a是符合本公开的由助听器系统获取的音频信号的示意图。
101.图54b是符合本公开的由助听器系统重放的音频信号的示意图。
102.图55a是示出符合所公开实施例的用于选择性地调节音频信号的示例性过程的流程图。
103.图55b是示出符合所公开实施例的用于基于个体的视觉识别来确定语音特征的示例性过程的流程图。
104.图56是符合所公开实施例的用于选择性地调节声音的示例性助听器系统的示意图。
105.图57是示出符合所公开实施例的听觉系统的用户的示例性环境的示意图。
106.图58是示出符合所公开实施例的用于选择性地调节助听器系统中的声音的示例性方法的流程图的示意图。
具体实施方式
107.以下的详细描述参照附图。在可能的情况下,在附图和以下的描述中使用相同的参考号来指代相同或类似的部分。虽然在本文描述了几个说明性实施例,但修改、调整和其他实现是可能的。例如,可以对附图中所示的组件进行替换、添加或修改,并且可以通过对所公开的方法进行替换、重新排序、移除或添加步骤来修改本文描述的说明性方法。因此,以下详细描述不限于所公开的实施例和示例。相反,适当的范围由所附权利要求来定义。
108.图1a示出了佩戴符合所公开实施例的物理连接(或集成)到眼镜130的装置110的用户100。眼镜130可以是验光眼镜、放大镜、非验光眼镜、安全眼镜、太阳镜等。另外,在一些实施例中,眼镜130可以包括框架和耳机、鼻件等的部分,以及一个或没有镜片。因此,在一些实施例中,眼镜130可以主要用于支持装置110,和/或增强现实显示设备或其他光学显示设备。在一些实施例中,装置110可以包括用于捕捉用户100的视场的实时图像数据的图像传感器(图1a中未示出)。术语“图像数据”包括从近红外、红外、可见光和紫外光谱中的光学信号中检索到的任何形式的数据。图像数据可以包括视频剪辑和/或照片。
109.在一些实施例中,装置110可以与计算设备120无线通信或经由有线通信。在一些实施例中,计算设备120可以包括例如智能手机、平板电脑或专用处理单元,其可以是便携式的(例如,可以在用户100的口袋中携带)。尽管在图1a中示出为外部设备,但在一些实施例中,计算设备120可以作为可穿戴装置110或眼镜130的一部分来提供,无论是集成到其上还是安装在其上。在一些实施例中,计算设备120可以包括在集成式提供或安装到眼镜130上的增强现实显示设备或光学头戴显示器中。在其他实施例中,计算设备120可以作为包括腕带、多功能手表、纽扣、夹子等的用户100的另一可穿戴或便携式装置的一部分提供。在其他实施例中,计算设备120可以作为另一系统(诸如车载汽车计算或导航系统)的一部分提供。本领域技术人员可以了解,不同类型的计算设备和设备的布置可以实现所公开的实施例的功能。因此,在其他实现中,计算设备120可以包括个体计算机(pc)、膝上型计算机、互
联网服务器等。
110.图1b示出了佩戴符合所公开实施例的物理连接到项链140的装置110的用户100。装置110的这种配置可以适合于部分或全部时间不戴眼镜的用户。在该实施例中,用户100可以容易地穿戴装置110,并将其取下。
111.图1c示出了佩戴符合所公开实施例的物理连接到皮带150的装置110的用户100。装置110的这种配置可以被设计为皮带扣。可替代地,装置110可以包括用于附接到各种服装物品的夹子,诸如皮带150,或背心、口袋、项圈、帽子或礼帽或服装物品的其他部分。
112.图1d示出了佩戴符合所公开实施例的物理连接到腕带160的装置110的用户100。尽管根据该实施例,装置110的瞄准方向可能与用户100的视场不匹配,但装置110可以包括基于指示用户100正朝腕带160的方向看的用户100的跟踪到的眼动来识别手相关触发的能力。腕带160还可以包括加速度计、陀螺仪或用于确定用户100的手的运动或朝向以识别手相关触发的其他传感器。
113.图2是符合所公开实施例的示例性系统200的示意图,该系统200包括由用户100佩戴的可穿戴装置110,以及可选的计算设备120和/或能够经由网络240与装置110通信的服务器250。在一些实施例中,装置110可以捕捉和分析图像数据,识别图像数据中存在的手相关触发,以及至少部分地基于手相关触发的识别来执行动作和/或向用户100提供反馈。在一些实施例中,可选的计算设备120和/或服务器250可以提供附加功能以增强用户100与他或她的环境的交互,如下面更详细地描述的。
114.根据所公开实施例,装置110可以包括用于捕捉用户100的视场的实时图像数据的图像传感器系统220。在一些实施例中,装置110还可以包括用于控制和执行装置110的公开功能(诸如控制图像数据的捕捉、分析图像数据,以及基于在图像数据中识别出的手相关触发来执行动作和/或输出反馈)的处理单元210。根据所公开的实施例,手相关触发可以包括由用户100执行的涉及用户100的手的一部分的手势。此外,符合一些实施例的,手相关触发可以包括手腕相关触发。另外,在一些实施例中,装置110可以包括用于产生向用户100的信息输出的反馈输出单元230。
115.如上所讨论的,装置110可以包括用于捕捉图像数据的图像传感器220。术语“图像传感器”是指能够检测近红外、红外、可见光和紫外光谱中的光信号并将其转换为电信号的设备。电信号可以用于基于检测到的信号来形成图像或视频流(即图像数据)。术语“图像数据”包括从近红外、红外、可见光和紫外光谱中的光学信号中检索到的任何形式的数据。图像传感器的示例可以包括半导体电荷耦合器件(ccd)、互补金属氧化物半导体(cmos)中的有源像素传感器或n型金属氧化物半导体(nmos,活跃mos)。在一些情况下,图像传感器220可以是包括在装置110中的相机的一部分。
116.根据所公开的实施例,装置110还可以包括用于控制图像传感器220以捕捉图像数据并用于分析图像数据的处理器210。如下面关于图5a进一步详细讨论的,处理器210可以包括用于根据存储的或可访问的提供所需功能的软件指令对图像数据和其他数据的一个或多个输入执行逻辑操作的“处理设备”。在一些实施例中,处理器210还可以控制反馈输出单元230以向用户100提供包括基于分析的图像数据和存储的软件指令的信息的反馈。如本文所使用的术语,“处理设备”可以访问其中存储可执行指令的存储器,或者在一些实施例中,“处理设备”本身可以包括可执行指令(例如,存储在包括在处理设备中的存储器中)。
117.在一些实施例中,提供给用户100的信息或反馈信息可以包括时间信息。时间信息可以包括与一天中的当前时间相关的任何信息,并且,如下面进一步描述的,可以以任何感官感知方式来呈现。在一些实施例中,时间信息可以包括预先配置格式的一天中的当前时间(例如,下午2:30或14:30)。时间信息可以包括用户当前时区中的时间(例如,基于确定的用户100的位置),以及在另一期望位置中的时区和/或一天中的时间的指示。在一些实施例中,时间信息可以包括相对于一天中的一个或多个预定时间的若干小时或分钟。例如,在一些实施例中,时间信息可以包括直到特定小时(例如,到下午6:00)或某个其他预定时间还剩下三小时十五分钟的指示。时间信息还可以包括自特定活动(诸如会议开始或慢跑开始或任何其他活动)开始以来经过的持续时间。在一些实施例中,可以基于分析的图像数据来确定活动。在其他实施例中,时间信息还可以包括与当前时间和一个或多个其他例程、时段或调度事件相关的附加信息。例如,如下文进一步详细讨论的,时间信息可以包括对直到下一个调度事件的剩余分钟数的指示,这可以从日历功能或从计算设备120或服务器250检索的其他信息中确定。
118.反馈输出单元230可以包括用于向用户100提供信息输出的一个或多个反馈系统。在所公开的实施例中,可以经由任何类型的连接的可听或可视系统或两者来提供可听或可视反馈。根据所公开的实施例的信息反馈可以包括对用户100的可听反馈(例如,使用蓝牙(bluetooth
tm
)或其他有线或无线连接的扬声器,或骨传导耳机)。一些实施例的反馈输出单元230可以另外地或可替代地产生向用户100的信息的可视输出,例如,作为投影到眼镜130的镜片上的或者经由与装置110通信的单独的抬头显示器提供的增强现实显示的一部分,诸如作为计算设备120的一部分提供的显示器260,计算设备120可以包括车载汽车抬头显示器、增强现实设备、虚拟现实设备、智能手机、pc、平板电脑等。
119.术语“计算设备”是指包括处理单元并具有计算能力的设备。计算设备120的一些示例包括pc、膝上型计算机、平板电脑或诸如汽车的车载计算系统的其他计算系统,例如,每个计算系统被配置为通过网络240直接与装置110或服务器250通信。计算设备120的另一示例包括具有显示器260的智能手机。在一些实施例中,计算设备120可以是特别针对装置110配置的计算系统,并且可以与装置110集成地提供或者与装置110相连。装置110还可以经由任何已知的无线标准(例如,wifi、蓝牙等)以及近场电容耦合和其他短距离无线技术,或经由有线连接,通过网络240连接到计算设备120。在其中计算设备120是智能手机的实施例中,计算设备120可以具有安装在其中的专用应用程序。例如,用户100可以在显示器260上查看源自装置110或由装置110触发的数据(例如,图像、视频剪辑、提取的信息、反馈信息等)。另外,用户100可以选择数据的一部分以存储在服务器250中。
120.网络240可以是共享、公共或专用网络,可以包括广域或局部区域,并且可以通过有线和/或无线通信网络的任何适当组合来实现。网络240还可以包括内联网或互联网。在一些实施例中,网络240可以包括短距离或近场无线通信系统,用于使彼此非常接近地(例如在用户的人之上或附近)提供的装置110与计算设备120之间能够通信。装置110可以例如使用无线模块(例如,wi-fi、蜂窝)自主地建立到网络240的连接。在一些实施例中,装置110可以在连接到外部电源时使用无线模块,以延长电池寿命。此外,装置110与服务器250之间的通信可以通过任何合适的通信信道来完成,诸如电话网、外联网、内联网、互特网、卫星通信、离线通信、无线通信、转发器通信、局域网(lan)、广域网(wan)和虚拟专用网(vpn)。
121.如图2所示,装置110可以经由网络240向服务器250传送数据或从服务器250接收数据。在所公开的实施例中,从服务器250和/或计算设备120接收的数据可以包括基于所分析的图像数据的很多不同类型的信息,包括与商业产品或人的身份、识别出的地标以及能够存储在服务器250中或由服务器250访问的任何其他信息有关的信息。在一些实施例中,可以经由计算设备120接收和传送数据。服务器250和/或计算设备120可以从不同的数据源(例如,用户特定数据库或用户的社交网络帐户或其他帐户、互联网和其他受管理或可访问的数据库)检索信息,并且根据所公开的实施例将与所分析的图像数据和识别出的触发相关的信息提供给装置110。在一些实施例中,可以分析从不同数据源检索的日历相关信息,以提供特定时间信息或基于时间的背景(context),用于基于所分析的图像数据提供特定信息。
122.在图3a中更详细地示出了根据一些实施例(如结合图1a所讨论的)与眼镜130结合的可穿戴装置110的示例。在一些实施例中,装置110可以与结构(图3a中未示出)相关联,该结构能够容易地将装置110分离并重新附接到眼镜130上。在一些实施例中,当装置110附接到眼镜130时,图像传感器220获取设定的瞄准方向而不需要方向校准。图像传感器220的设定瞄准方向可以基本上与用户100的视场一致。例如,与图像传感器220相关联的相机可以以预定角度安装在装置110内略微向下(例如,距地平线5-15度)的位置。因此,图像传感器220的设定瞄准方向可以基本上匹配用户100的视场。
123.图3b是关于图3a讨论的实施例的组件的分解图。将装置110附接到眼镜130上可以用以下方式进行。首先,支架310可以使用支架310的侧面上螺钉320安装在眼镜130上。然后,装置110可以被夹在支架310上,使得其与用户100的视场对齐。术语“支架”包括能够将包括相机的设备拆卸和重新连接到一副眼镜或另一对象(例如,头盔)上的任何设备或结构。支架310可以由塑料(例如,聚碳酸酯)、金属(例如,铝)或塑料和金属的组合(例如,碳纤维石墨)制成。支架310可以使用螺钉、螺栓、卡扣或本领域中使用的任何紧固装置安装在任何类型的眼镜(例如,眼镜、太阳镜、3d眼镜、安全眼镜等)上。
124.在一些实施例中,支架310可以包括用于分离和再接合装置110的快速释放机件。例如,支架310和装置110可以包括磁性元件。作为替代示例,支架310可以包括公插销构件,而装置110可以包括母插孔板。在其他实施例中,支架310可以是一副眼镜的整体部分,或者单独出售并由验光师安装。例如,支架310可以被配置为安装在靠近镜架前部但在铰链之前的眼镜130的镜腿上。可替代地,支架310可以被配置为安装在眼镜130的鼻梁上。
125.在一些实施例中,装置110可以作为具有或不具有镜片的眼镜架130的一部分来提供。另外,在一些实施例中,装置110可以被配置为提供投影到眼镜130的镜片上的增强现实显示(如果提供),或者可替代地,例如根据所公开的实施例,可以包括用于投影时间信息的显示器。装置110可以包括附加显示器,或者可替代地,可以与单独提供的可以附接或可以不附接到眼镜130上的显示系统进行通信。
126.在一些实施例中,装置110可以以除可佩戴眼镜以外的形式来实现,例如如上文关于图1b-1d所描述的。图4a是从装置110的前视角的装置110的附加实施例的示例的示意图。装置110包括图像传感器220、夹子(未示出)、功能按钮(未示出)和悬挂环410,用于将装置110附连到例如如图1b所示的项链140上。当装置110悬挂在项链140上时,图像传感器220的瞄准方向可能与用户100的视场不完全一致,但瞄准方向仍然与用户100的视场相关。
127.图4b是从装置110的侧向的装置110的第二实施例的示例的示意图。除了悬挂环410之外,如图4b所示,装置110还可以包括夹子420。如图1c所示,用户100可以使用夹子420将装置110附接到衬衫或腰带150上。夹子420可以提供用于将装置110从不同衣物上分离和重新接合的容易的机件。在其他实施例中,装置110可以包括用于与汽车支架或通用支架的公插销连接的母插孔板。
128.在一些实施例中,装置110包括用于使用户100能够向装置110提供输入的功能按钮430。功能按钮430可以接受不同类型的触觉输入(例如,轻击、点击、双击、长按、从右向左滑动、左向右滑动)。在一些实施例中,每种类型的输入可以与不同的动作相关联。例如,轻击可以与拍摄图片的功能相关联,而从右到左的滑动可以与录制视频的功能相关联。
129.如图4c所示,装置110可以使用夹子431在用户100的衣服的边缘处连接到衣物(例如,衬衫、腰带、裤子等)上。例如,装置100的主体可以靠近衣物的内表面驻留,夹子431与衣物的外表面接合。在这样的实施例中,如图4c所示,图像传感器220(例如,用于可见光的相机)可以突出超过衣服的边缘。可替代地,夹子431可以与衣服的内表面接合,而装置110的主体靠近衣服的外部。在各种实施例中,衣服可以被定位在夹子431与装置110的主体之间。
130.在图4d中示出了装置110的示例实施例。装置110包括夹子431,其可以包括紧邻装置110的主体435的前表面434的点(例如,432a和432b)。在示例性实施例中,点432a、432b与前表面434之间的距离可以小于用户100的衣服的织物的典型厚度。例如,点432a、432b与表面434之间的距离可以小于t恤的厚度,例如,小于1毫米、小于2毫米、小于3毫米等,或者在一些情况下,夹子431的点432a、432b可以接触表面434。在各种实施例中,夹子431可以包括不接触表面434的点433,允许衣服插入夹子431与表面434之间。
131.图4d示意性地示出装置110的被定义为前视图(f视图)、后视图(r视图)、顶视图(t视图)、侧视图(s视图)和底视图(b视图)的不同视图。在随后的附图中描述装置110时将参考这些视图。图4d示出了其中夹子431与传感器220位于装置110的同一侧(例如,装置110的前侧)的示例实施例。可替代地,夹子431可以与传感器220位于装置110的相对侧(例如,装置110的后侧)。在各种实施例中,如图4d所示,装置110可以包括功能按钮430。
132.在图4e至4k中示出了装置110的各种视图。例如,图4e示出具有电连接441的装置110的视图。电连接441可以是例如usb端口,其可以用于向/从装置110传送数据并向装置110供电。在示例实施例中,连接441可以用于对图4e中示意性示出的电池442充电。图4f示出包括传感器220和一个或多个麦克风443的装置110的f视图。在一些实施例中,装置110可以包括面向外的若干麦克风443,其中麦克风443被配置为获得环境声音和与用户100通信的各种扬声器的声音。图4g示出了装置110的r视图。在一些实施例中,如图4g所示,麦克风444可以位于装置110的后侧。麦克风444可以用于检测来自用户100的音频信号。应当注意,装置110可以具有放置在装置110的任何一侧(例如,前侧、后侧、左侧、右侧、顶侧或底侧)的麦克风。在各种实施例中,一些麦克风可以在第一侧(例如,麦克风443可以在装置110的前面),而其他麦克风可以在第二侧(例如,麦克风444可以在装置110的后侧)。
133.图4h和4i示出了符合所公开实施例的装置110的不同侧(即,装置110的s视图)。例如,图4h示出传感器220的位置和夹子431的示例形状。图4j示出包括功能按钮430的装置110的t视图,图4k示出具有电连接441的装置110的b视图。
134.上面关于图3a、3b、4a和4b讨论的示例实施例不是限制性的。在一些实施例中,装
置110可以任何合适的配置来实现,以执行所公开的方法。例如,返回参考图2,所公开的实施例可以实现根据任何配置的装置110,装置110包括图像传感器220和处理器单元210,以执行图像分析并用于与反馈单元230通信。
135.图5a是示出根据示例实施例的装置110的组件的框图。如图5a所示,并且如上面类似地讨论的,装置110包括图像传感器220、存储器550、处理器210、反馈输出单元230、无线收发器530和移动电源520。在其他实施例中,装置110还可以包括按钮、诸如麦克风的其他传感器以及诸如加速度计、陀螺仪、磁强计、温度传感器、颜色传感器、光传感器等的惯性测量设备。装置110还可以包括数据端口570和具有用于与外部电源或外部设备(未示出)连接的合适接口的电源连接510。
136.图5a中示出的处理器210可以包括任何合适的处理设备。术语“处理设备”包括具有对输入执行逻辑操作的电路的任何物理设备。例如,处理设备可以包括一个或多个集成电路、微芯片、微控制器、微处理器、中央处理单元(cpu)、图形处理单元(gpu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)的全部或部分、或适于执行指令或执行逻辑操作的其他电路。由处理设备执行的指令例如可以预加载到与处理设备集成或嵌入到处理设备中的存储器中,或者可以存储在单独的存储器(例如,存储器550)中。存储器550可以包括随机存取存储器(ram)、只读存储器(rom)、硬盘、光盘、磁介质、闪存、其他永久、固定或易失性存储器或任何其他能够存储指令的机制。
137.尽管在图5a所示的实施例中,装置110包括一个处理设备(例如,处理器210),但装置110可以包括一个以上的处理设备。每个处理设备可以具有相似的结构,或者处理设备可以具有彼此电连接或断开的不同结构。例如,处理设备可以是单独的电路或集成在单个电路中。当使用一个以上的处理设备时,处理设备可以被配置为独立地或协作地操作。处理设备可以电地、磁地、光学地、声学地、机械地或通过允许它们相互作用的其他方式耦合。
138.在一些实施例中,处理器210可以处理从用户100的环境捕捉的多个图像,以确定与捕捉后续图像有关的不同参数。例如,处理器210可以基于从捕捉的图像数据导出的信息来确定以下至少一个的值:图像分辨率、压缩率、裁剪参数、帧速率、焦点、曝光时间、光圈大小和光敏度。所确定的值可以用于捕捉至少一个后续图像。另外,处理器210可以检测包括用户环境中的至少一个手相关触发的图像,并经由反馈输出单元230执行动作和/或向用户提供信息输出。
139.在另一实施例中,处理器210可以改变图像传感器220的瞄准方向。例如,当装置110附接有夹子420时,图像传感器220的瞄准方向可能与用户100的视场不一致。处理器210可以从分析的图像数据中识别某些情况,并调整图像传感器220的瞄准方向以捕捉相关图像数据。例如,在一个实施例中,处理器210可以检测与另一个体的交互,并且感测到该个体没有完全在视野中,因为图像传感器220向下倾斜。响应于此,处理器210可以调整图像传感器220的瞄准方向以捕捉个体的图像数据。还设想了其他场景,其中处理器210可以识别调整图像传感器220的瞄准方向的需要。
140.在一些实施例中,处理器210可以将数据传送到反馈输出单元230,反馈输出单元230可以包括被配置为向用户100提供信息的任何设备。反馈输出单元230可以作为装置110的一部分来提供(如所示),或者可以被提供在装置110的外部并通信地耦合到装置110。反馈输出单元230可以被配置为基于从处理器210接收的信号输出可视或非可视反馈,诸如当
处理器210识别出所分析的图像数据中的手相关触发时。
141.术语“反馈”是指响应于处理环境中的至少一个图像而提供的任何输出或信息。在一些实施例中,如上面类似地描述的,反馈可以包括时间信息的可听或可见指示、检测到的文本或数字、货币价值、品牌产品、人的身份、地标的身份或包括十字路口处的街道名称或交通灯的颜色等的其他环境情况或条件,以及与这些信息中的每一个相关联的其他信息。例如,在一些实施例中,反馈可以包括关于完成交易仍然需要的货币量的附加信息、关于识别出的人的信息、历史信息或检测到的地标的时间和入场价格等。在一些实施例中,反馈可以包括可听音调、触觉响应和/或用户100先前记录的信息。反馈输出单元230可以包括用于输出声学和触觉反馈的适当组件。例如,反馈输出单元230可以包括音频耳机、助听器类型设备、扬声器、骨传导耳机、提供触觉线索的接口、振动触觉刺激器等。在一些实施例中,处理器210可以经由无线收发器530、有线连接或某个其他通信接口与外部反馈输出单元230通信信号。在一些实施例中,反馈输出单元230还可以包括用于向用户100可视地显示信息的任何合适的显示设备。
142.如图5a所示,装置110包括存储器550。存储器550可以包括处理器210可访问的用于执行所公开的方法的一组或多组指令集,包括用于识别图像数据中的手相关触发的指令。在一些实施例中,存储器550可以存储从用户100的环境捕捉的图像数据(例如,图像、视频)。此外,存储器550可以存储特定于用户100的信息,诸如已知个体的图像表示、喜爱的产品、个体物品、以及日历或约会信息等。在一些实施例中,处理器210可以基于存储器550中的可用存储空间来确定例如要存储哪种类型的图像数据。在另一实施例中,处理器210可以从存储在存储器550中的图像数据中提取信息。
143.如图5a进一步所示,装置110包括移动电源520。术语“移动电源”包括能够提供电力的任何设备,其可以容易地用手携带(例如,移动电源520可以重量小于一磅)。电源的移动性使得用户100能够在各种情况下使用装置110。在一些实施例中,移动电源520可以包括一个或多个电池(例如,镍镉电池、镍金属氢化物电池和锂离子电池)或任何其他类型的电源。在其他实施例中,移动电源520可以是可充电的并且包含在容纳装置110的外壳内。在其他实施例中,移动电源520可以包括一个或多个用于将环境能量转换为电能的能量收集设备(例如,便携式太阳能单元、人体振动单元等)。
144.移动电源520可以为一个或多个无线收发器(例如,图5a中的无线收发器530)供电。术语“无线收发器”是指被配置为通过使用射频、红外频率、磁场或电场在空中接口上交换传输的任何设备。无线收发器530可以使用任何已知标准来发送和/或接收数据(例如,wifi、蓝牙蓝牙智能、802.15.4或zigbee)。在一些实施例中,无线收发器530可以将数据(例如,原始图像数据、经处理的图像数据、提取的信息)从装置110发送到计算设备120和/或服务器250。无线收发器530还可以从计算设备120和/或服务器250接收数据。在其他实施例中,无线收发器530可以将数据和指令发送到外部反馈输出单元230。
145.图5b是示出根据另一示例实施例的装置110的组件的框图。在一些实施例中,装置110包括第一图像传感器220a、第二图像传感器220b、存储器550、第一处理器210a、第二处理器210b、反馈输出单元230、无线收发器530、移动电源520和电源连接器510。在图5b所示的布置中,每个图像传感器可以提供不同图像分辨率的图像,或者面向不同方向的图像。可替代地,每个图像传感器可以与不同的相机(例如,广角相机、窄角相机、ir相机等)相关联。
在一些实施例中,装置110可以基于各种因素来选择使用哪个图像传感器。例如,处理器210a可以基于存储器550中的可用存储空间来确定以某个分辨率来捕捉后续图像。
146.装置110可以在第一处理模式和第二处理模式下操作,使得第一处理模式可以比第二处理模式消耗更少的功率。例如,在第一处理模式下,装置110可以捕捉图像并处理所捕捉的图像,以例如基于识别手相关触发来做出实时决策。在第二处理模式下,装置110可以从存储器550中存储的图像中提取信息,并从存储器550中删除图像。在一些实施例中,移动电源520可以在第一处理模式下提供超过十五小时的处理,在第二处理模式下提供大约三小时的处理。因此,不同的处理模式可以允许移动电源520在不同的时间段(例如,超过两小时、超过四小时、超过十小时等)产生足够的电力来为装置110供电。
147.在一些实施例中,当由移动电源520供电时,装置110可以在第一处理模式中使用第一处理器210a,当由可经由电源连接器510连接的外部电源580供电时,可以在第二处理模式中使用第二处理器210b。在其他实施例中,装置110可以基于预定义条件来确定使用哪些处理器或哪些处理模式。即使当装置110不由外部电源580供电时,装置110也可以在第二处理模式下操作。例如,如果存储器550中用于存储新图像数据的可用存储空间低于预定义阈值,则装置110可以确定当装置110不由外部电源580供电时,装置110应该在第二处理模式下操作。
148.尽管在图5b中描绘了一个无线收发器,但装置110可以包括一个以上的无线收发器(例如,两个无线收发器)。在具有一个以上无线收发器的装置中,每个无线收发器可以使用不同的标准来发送和/或接收数据。在一些实施例中,第一无线收发器可以使用蜂窝标准(例如,lte或gsm)与服务器250或计算设备120通信,第二无线收发器可以使用短程标准(例如,wifi或蓝牙)与服务器250或计算设备120通信。在一些实施例中,当可穿戴装置由包括在可穿戴装置中的移动电源供电时,装置110可以使用第一无线收发器,而当可穿戴装置由外部电源供电时,装置110可以使用第二无线收发器。
149.图5c是示出根据另一示例实施例的包括计算设备120的装置110的组件的框图。在本实施例中,装置110包括图像传感器220、存储器550a、第一处理器210、反馈输出单元230、无线收发器530a、移动电源520和电源连接器510。如图5c进一步所示,计算设备120包括处理器540、反馈输出单元545、存储器550b、无线收发器530b和显示器260。计算设备120的一个示例是其中安装有专用应用程序的智能手机或平板电脑。在其他实施例中,计算设备120可以包括诸如车载汽车计算系统、pc、膝上型计算机以及符合所公开实施例的任何其他系统的任何配置。在该示例中,用户100可以响应于显示器260上的手相关触发的识别而查看反馈输出。另外,用户100可以在显示器260上查看其他数据(例如,图像、视频剪辑、对象信息、时间表信息、提取的信息等)。另外,用户100可以经由计算设备120与服务器250通信。
150.在一些实施例中,处理器210和处理器540被配置为从捕捉的图像数据中提取信息。术语“提取信息”包括通过本领域普通技术人员已知的任何手段在捕捉的图像数据中识别与对象、个体、位置、事件等相关联的信息的任何过程。在一些实施例中,装置110可以使用提取的信息向反馈输出单元230或向计算设备120发送反馈或其他实时指示。在一些实施例中,处理器210可以在图像数据中识别站在用户100前面的个体,并向计算设备120发送该个体的姓名和用户100最后遇到该个体的时间。在另一实施例中,处理器210可以在图像数据中识别一个或多个可见触发,包括手相关触发,并确定该触发是否与可穿戴装置的用户
以外的人相关联,以选择性地确定是否执行与该触发相关联的动作。一个这样的动作可以是经由作为装置110的一部分(或与装置110通信)提供的反馈输出单元230或经由作为计算设备120的一部分提供的反馈单元545向用户100提供反馈。例如,反馈输出单元545可以与显示器260通信以使显示器260可见地输出信息。在一些实施例中,处理器210可以在图像数据中识别手相关触发并向计算设备120发送该触发的指示。然后,处理器540可以处理接收到的触发信息,并基于手相关触发经由反馈输出单元545或显示器260提供输出。在其他实施例中,处理器540可以基于从设备110接收的图像数据来确定手相关触发并提供类似于上述的适当反馈。在一些实施例中,处理器540可以基于识别出的手相关触发来向设备110提供指令或其他信息(诸如环境信息)。
151.在一些实施例中,处理器210可以识别所分析图像中的其他环境信息,诸如站在用户100前面的个体,并向计算设备120发送与所分析信息有关的信息,例如个体的姓名和用户100最后遇到该个体的时间。在不同的实施例中,处理器540可以从捕捉的图像数据中提取统计信息并将统计信息转发到服务器250。例如,关于用户购买的项目类型或用户光顾特定商家的频率等的某些信息可由处理器540来确定。基于该信息,服务器250可以向计算设备120发送与用户的偏好相关联的优惠券和折扣。
152.当装置110连接或无线连接到计算设备120时,装置110可以发送存储在存储器550a中的图像数据的至少一部分以存储在存储器550b中。在一些实施例中,在计算设备120确认传送该部分图像数据成功之后,处理器540可以删除该部分图像数据。术语“删除”意味着图像被标记为“已删除”,并且可以代替它存储其他图像数据,但不一定意味着图像数据被物理地从存储器中删除。
153.如受益于本公开的本领域技术人员将理解的,可以对所公开的实施例进行很多变化和/或修改。并非所有组件对于装置110的操作都是必要的。任何组件可以位于任何适当的装置中,并且组件可以被重新布置成各种配置,同时提供所公开的实施例的功能。例如,在一些实施例中,装置110可以包括相机、处理器和用于向另一设备发送数据的无线收发器。因此,前述配置是示例,并且无论上面讨论的配置如何,装置110都可以捕捉、存储和/或处理图像。
154.此外,前面和以下的描述涉及存储和/或处理图像或图像数据。在本文公开的实施例中,存储和/或处理的图像或图像数据可以包括由图像传感器220捕捉的一个或多个图像的表示。如本文所使用的术语,图像(或图像数据)的“表示”可以包括整个图像或图像的一部分。图像(或图像数据)的表示可以具有与图像(或图像数据)相同的分辨率或更低的分辨率,和/或图像(或图像数据)的表示可以在一些方面被改变(例如,被压缩、具有更低的分辨率、具有被改变的一种或多种颜色等)。
155.例如,装置110可以捕捉图像并存储被压缩为jpg文件的图像的表示。作为另一示例,装置110可以捕捉彩色图像,但存储彩色图像的黑白表示。作为又一示例,装置110可以捕捉图像并存储图像的不同表示(例如,图像的一部分)。例如,装置110可以存储图像的一部分,该部分包括出现在图像中的人的脸,但基本上不包括围绕该人的环境。类似地,装置110例如可以存储图像的一部分,该部分包括出现在图像中的产品,但基本上不包括围绕该产品的环境。作为又一示例,装置110可以以降低的分辨率(即,以比捕捉的图像的分辨率低的分辨率)存储图像的表示。存储图像的表示可以允许装置110节省存储器550中的存储空
间。此外,处理图像的表示可以允许装置110提高处理效率和/或帮助维持电池寿命。
156.除了上述之外,在一些实施例中,装置110或计算设备120中的任何一个可以经由处理器210或处理器540来进一步处理所捕捉的图像数据以提供识别所捕捉的图像数据中的对象和/或手势和/或其他信息的附加功能。在一些实施例中,可以基于识别出的对象、手势或其他信息来采取动作。在一些实施例中,处理器210或处理器540可以在图像数据中识别一个或多个可见触发,包括手相关触发,并确定该触发是否与用户以外的人相关联,以确定是否执行与该触发相关联的动作。
157.本公开的一些实施例可以包括可固定到用户的衣物上的装置。这种装置可以包括可由连接器连接的两个部分。一种捕捉单元可以被设计成穿戴在用户衣服的外面,并且可以包括用于捕捉用户环境的图像的图像传感器。捕捉单元可以连接到或可连接到供电单元,供电单元可以被配置为容纳电源和处理设备。捕捉单元可以是包括相机或用于捕捉图像的其他设备的小型设备。捕捉单元可以被设计成不显眼且不引人注目的,并且可以被配置成与被用户衣服隐藏的供电单元通信。供电单元可以包括系统的较大方面,诸如收发器天线、至少一个电池、处理设备等。在一些实施例中,捕捉单元和供电单元之间的通信可以通过包括在连接器中的数据电缆提供,而在其他实施例中,捕捉单元和供电单元之间的通信可以无线地实现。一些实施例可以允许改变捕捉单元的图像传感器的朝向,例如以更好地捕捉感兴趣的图像。
158.图6示出了包含符合本公开的软件模块的存储器的示例性实施例。存储器550中包括朝向识别模块601、朝向调整模块602和运动跟踪模块603。模块601、602、603可以包含用于由包括在可穿戴装置中的至少一个处理设备(例如处理器210)执行的软件指令。朝向识别模块601、朝向调整模块602和运动跟踪模块603可以协作以为并入无线装置110的捕捉单元提供朝向调整。
159.图7示出包括朝向调整单元705的示例性捕捉单元710。朝向调整单元705可以被配置为允许图像传感器220的调整。如图7所示,朝向调整单元705可以包括眼球型调整机件。在替代实施例中,朝向调整单元705可以包括万向架、可调节杆、可枢转安装件以及用于调整图像传感器220的朝向的任何其他合适单元。
160.图像传感器220可以被配置成以使得图像传感器220的瞄准方向基本上与用户100的视场重合的方式来随用户100的头部移动。例如,如上所述,根据捕捉单元710的预期位置,与图像传感器220相关联的相机可以在稍微朝上或朝下的位置以预定角度被安装在捕捉单元710内。因此,图像传感器220的设定瞄准方向可以匹配用户100的视场。在一些实施例中,处理器210可以使用从图像传感器220提供的图像数据来改变图像传感器220的朝向。例如,处理器210可以识别用户正在阅读书籍,并且确定图像传感器220的瞄准方向偏离文本。也就是,由于在文本的每一行的开始处的词语没有完全在视野范围内,处理器210可以确定图像传感器220在错误的方向上倾斜。响应于此,处理器210可以调整图像传感器220的瞄准方向。
161.朝向识别模块601可以被配置为识别捕捉单元710的图像传感器220的朝向。例如,图像传感器220的朝向可以通过分析由捕捉单元710的图像传感器220捕捉的图像、通过捕捉单元710内的倾斜或姿态感测设备、以及通过测量朝向调整单元705相对于捕捉单元710的其余部分的相对方向来识别。
162.朝向调整模块602可以被配置为调整捕捉单元710的图像传感器220的朝向。如上所讨论的,图像传感器220可以被安装在配置为用于移动的朝向调整单元705上。朝向调整单元705可以被配置为响应于来自朝向调整模块602的命令进行旋转和/或横向移动。在一些实施例中,朝向调整单元705可以经由马达、电磁铁、永久磁铁和/或其任何适当组合来调整图像传感器220的朝向。
163.在一些实施例中,监视模块603可被提供用于连续监视。这种连续监视可以包括跟踪包括在由图像传感器捕捉的一个或多个图像中的对象的至少一部分的运动。例如,在一个实施例中,只要对象基本上保持在图像传感器220的视场内,装置110就可以跟踪对象。在附加实施例中,监视模块603可以接合朝向调整模块602以指示朝向调整单元705连续地将图像传感器220朝向感兴趣的对象。例如,在一个实施例中,监视模块603可以使图像传感器220调整朝向,以确保特定指定对象,例如特定人的面部,即使在指定对象四处移动时,仍保持在图像传感器220的视场内。在另一实施例中,监视模块603可以连续监视包括在由图像传感器捕捉的一个或多个图像中的感兴趣区域。例如,用户可以被特定任务占据,例如在膝上型计算机上打字,而图像传感器220保持朝向特定方向并且连续监视来自一系列图像的每个图像的一部分以检测触发或其他事件。例如,图像传感器210可以朝向一件实验室设备,并且监视模块603可以被配置为监视实验室设备上的状态灯以获取状态改变,同时用户的注意力被占用。
164.在符合本公开内容的一些实施例中,捕捉单元710可以包括多个图像传感器220。多个图像传感器220可以各自配置为捕捉不同的图像数据。例如,当提供多个图像传感器220时,图像传感器220可以捕捉具有不同分辨率的图像,可以捕捉更宽或更窄的视场,并且可以具有不同的放大级别。图像传感器220可以被提供有不同的镜头以允许这些不同的配置。在一些实施例中,多个图像传感器220可以包括具有不同朝向的图像传感器220。因此,多个图像传感器220中的每一个可以指向不同的方向以捕捉不同的图像。在一些实施例中,图像传感器220的视场可以重叠。多个图像传感器220可以例如通过与图像调整单元705配对来配置用于朝向调整。在一些实施例中,监视模块603或与存储器550相关联的另一模块可以被配置为单独地调整多个图像传感器220的朝向以及根据需要打开或关闭多个图像传感器220中的每一个。在一些实施例中,监视由图像传感器220捕捉的对象或人可以包括跟踪该对象在多个图像传感器220的视场中的移动。
165.符合本公开的实施例可以包括被配置为连接可穿戴装置的捕捉单元和供电单元的连接器。符合本公开的捕捉单元可以包括被配置为捕捉用户的环境的图像的至少一个图像传感器。符合本公开的供电单元可以被配置为容纳电源和/或至少一个处理设备。符合本公开的连接器可以被配置为连接捕捉单元和供电单元,并且可以被配置为将装置固定到衣物上,使得捕捉单元位于衣物的外表面之上而供电单元位于衣物的内表面之下。关于图8-图14进一步详细讨论符合本公开的捕捉单元、连接器和供电单元的示例性实施例。
166.图18是符合本公开的可固定到衣物上的可穿戴装置110的实施例的示意图。如图8所示,捕捉单元710和供电单元720可以通过连接器730连接,使得捕捉单元710位于衣物750的一侧而供电单元720位于衣物750的相对一侧。在一些实施例中,捕捉单元710可以位于衣物750的外表面之上而供电单元720可以位于衣物750的内表面之下。供电单元720可以被配置为贴着用户的皮肤放置。
167.捕捉单元710可以包括图像传感器220和朝向调整单元705(如图7所示)。电源单元720可以包括移动电源520和处理器210。供电单元720还可以包括先前讨论的可以是可穿戴装置110的一部分的元件的任何组合,包括但不限于无线收发器530、反馈输出单元230、存储器550和数据端口570。
168.连接器730可以包括夹子715或被设计成如图8所示将捕捉单元710和供电单元720夹到或附接到衣物750的其它机械连接。如图所示,夹子715可以在捕捉单元710和供电单元720的周界处连接到它们中的每一个,并且可以环绕衣物750的边缘以将捕捉单元710和供电单元720固定到位。连接器730还可以包括供电电缆760和数据电缆770。供电电缆760可以能够将电力从移动电源520输送到捕捉单元710的图像传感器220。供电电缆760还可以被配置为向捕捉单元710的任何其他元件(例如,朝向调整单元705)提供电力。数据电缆770可以能够将捕捉的图像数据从捕捉单元710中的图像传感器220传送到供电单元720中的处理器800。数据电缆770还能够在捕捉单元710与处理器800之间传送附加数据,例如,用于朝向调整单元705的控制指令。
169.图9是佩戴符合本公开的实施例的可穿戴装置110的用户100的示意图。如图9所示,捕捉单元710位于用户100的衣服750的外表面上。捕捉单元710经由环绕衣物750的边缘的连接器730连接到供电单元720(在该图示中未见)。
170.在一些实施例中,连接器730可以包括柔性印刷电路板(pcb)。图10示出了其中连接器730包括柔性印刷电路板765的示例性实施例。柔性印刷电路板765可以包括捕捉单元710与供电单元720之间的数据连接和电源连接。因此,在一些实施例中,柔性印刷电路板765可以用于取代供电电缆760和数据电缆770。在替代实施例中,除了供电电缆760和数据电缆770中的至少一个之外,还可以包括柔性印刷电路板765。在本文讨论的各种实施例中,柔性印刷电路板765可以替代供电电缆760和数据电缆770,或者除了供电电缆760和数据电缆770之外还包括柔性印刷电路板765。
171.图11是符合本公开的可固定到衣物上的可穿戴装置的另一实施例的示意图。如图11所示,连接器730可以相对于捕捉单元710和供电单元720位于中心。连接器730的中心位置可以有助于通过衣服750中的孔(诸如现有衣物750中的纽扣孔或衣物750中设计成容纳可穿戴装置110的特殊孔)将装置110固定到衣服750。
172.图12是可固定到衣物上的可穿戴装置110的又一实施例的示意图。如图12所示,连接器730可以包括第一磁体731和第二磁体732。第一磁体731和第二磁体732可以将捕捉单元710固定到供电单元720,其中衣物位于第一磁体731与第二磁体732之间。在包括第一磁体731和第二磁体732的实施例中,还可以包括供电电缆760和数据电缆770。在这些实施例中,供电电缆760和数据电缆770可以是任意长度的,并且可以在捕捉单元710与供电单元720之间提供灵活的供电和数据连接。包括第一磁体731和第二磁体732的实施例还可以包括除了或替代供电电缆760和/或数据电缆770的柔性pcb765连接。在一些实施例中,第一磁体731或第二磁体732可以由包括金属材料的对象代替。
173.图13是可固定到衣物上的可穿戴装置110的又另一实施例的示意图。图13示出了其中可以在捕捉单元710与供电单元720之间无线传送功率和数据的实施例。如图13所示,第一磁体731和第二磁体732可以被提供为连接器730,以将捕捉单元710和供电单元720固定到衣物750。功率和/或数据可以经由任何合适的无线技术(例如,磁耦合和/或电容耦合、
近场通信技术、射频传送以及任何其他适合于跨短距离传送数据和/或功率的无线技术)在捕捉单元710和供电单元720之间传送。
174.图14示出了可固定到用户的衣物750上的可穿戴装置110的又一实施例。如图14所示,连接器730可以包括设计用于接触安装的特征。例如,捕捉单元710可以包括具有空心中心的环733,空心中心的直径略大于位于供电单元720上的盘状突起734。当与衣物750的织物压在一起时,盘状突起734可以紧密地安装在环733内,将捕捉单元710固定到供电单元720。图14示出了不包括捕捉单元710与供电单元720之间的任何电缆或其他物理连接的实施例。在该实施例中,捕捉单元710和供电单元720可以无线地传送功率和数据。在替代实施例中,捕捉单元710和供电单元720可以经由电缆760、数据电缆770和柔性印刷电路板765中的至少一个来传送功率和数据。
175.图15示出了符合本文描述的实施例的供电单元720的另一个方面。供电单元720可以被配置为安置于直接靠着用户的皮肤。为了便于这样的安置,供电单元720还可以包括涂覆有生物相容性材料740的至少一个表面。生物相容性材料740可以包括当长时间贴靠皮肤时不会与用户的皮肤产生负面反应的材料。这些材料可以包括,例如,硅树脂、ptfe、聚酰亚胺胶带、聚酰亚胺、钛、镍钛合金、铂等。同样如图15所示,供电单元720的尺寸可以设置为使得供电单元的内部体积基本上由移动电源520填充。也就是,在一些实施例中,供电单元720的内部体积可以使得该体积不会容纳除移动电源520之外的任何附加组件。在一些实施例中,移动电源520可以利用其靠近用户皮肤的优势。例如,移动电源520可以使用珀尔帖效应来产生功率和/或为电源充电。
176.在其他实施例中,可固定到衣物上的装置还可以包括与容纳在电源单元720中的电源520相关联的保护电路。图16示出了包括保护电路775的示例性实施例。如图16所示,保护电路775可以位于相对于供电单元720远距离的位置。在替代实施例中,保护电路775还可以位于捕捉单元710中、柔性印刷电路板765上或供电单元720中。
177.保护电路775可以被配置为保护图像传感器220和/或捕捉单元710的其他元件免受移动电源520产生的潜在危险电流和/或电压的影响。保护电路775可以包括无源组件(诸如电容器、电阻器、二极管、电感器等)以向捕捉单元710的元件提供保护。在一些实施例中,保护电路775还可以包括有源组件(诸如晶体管)以向捕捉单元710的元件提供保护。例如,在一些实施例中,保护电路775可以包括用作熔断器的一个或多个电阻器。每个熔断器可以包括当流过熔断器的电流超过预定限制(例如,500毫安、900毫安、1安培、1.1安培、2安培、2.1安培、3安培等)时熔化(由此制动图像捕捉单元710的电路与供电单元720的电路之间的连接)的导线或金属条。任何或所有先前描述的实施例都可以包括保护电路775。
178.在一些实施例中,可穿戴装置可以经由任何已知的无线标准(例如,蜂窝、wifi、蓝牙等),或经由近场电容耦合、其他短程无线技术,或经由有线连接,在一个或多个网络上向计算设备(例如,智能手机、平板电脑、手表、计算机等)发送数据。类似地,可穿戴装置可以经由任何已知的无线标准(例如,蜂窝、wifi、蓝牙等),或经由近场电容耦合、其他短程无线技术,或经由有线连接,在一个或多个网络上从计算设备接收数据。发送到可穿戴装置和/或由无线装置接收的数据可以包括图像、图像的部分、与出现在经分析的图像中的信息有关的或与经分析的音频相关联的标识符,或表示图像和/或音频数据的任何其他数据。例如,可以分析图像,并且可以将与在图像中发生的活动相关的标识符发送到计算设备(例
如,“配对设备”)。在本文描述的实施例中,可穿戴装置可以本地(在可穿戴装置上)和/或远程(经由计算设备)处理图像和/或音频。此外,在本文描述的实施例中,可穿戴装置可以将与图像和/或音频的分析有关的数据发送到计算设备以进行进一步的分析、显示,和/或向另一设备(例如,配对设备)发送。此外,配对设备可以执行一个或多个应用程序(apps)以处理、显示和/或分析从可穿戴装置接收的数据(例如,标识符、文本、图像、音频等)。
179.所公开的实施例中的一些可以涉及用于确定至少一个关键字的系统、设备、方法和软件产品。例如,可以基于由装置110收集的数据来确定至少一个关键字。可以基于至少一个关键字来确定至少一个搜索查询。至少一个搜索查询可被发送到搜索引擎。
180.在一些实施例中,可以基于由图像传感器220捕捉的至少一个或多个图像来确定至少一个关键字。在一些情况下,至少一个关键字可以从存储在存储器中的关键字池中选择。在一些情况下,可以对由图像传感器220捕捉的至少一个图像执行光学字符识别(ocr),并且可以基于ocr结果来确定至少一个关键字。在一些情况下,可以对由图像传感器220捕捉的至少一个图像进行分析以识别:人、对象、位置、场景等。此外,至少一个关键字可以基于识别出的人、对象、位置、场景等来确定。例如,至少一个关键字可以包括:人名、对象名、地名、日期、运动队名、电影名、书名等。
181.在一些实施例中,可以基于用户的行为来确定至少一个关键字。可以基于对由图像传感器220捕捉的一个或多个图像的分析来确定用户的行为。在一些实施例中,可以基于用户和/或其他人的活动来确定至少一个关键字。可以对由图像传感器220捕捉的一个或多个图像进行分析以识别出现在由图像传感器220捕捉的一个或多个图像中的用户和/或其他人的活动。在一些实施例中,可以基于由装置110捕捉的至少一个或多个音频段来确定至少一个关键字。在一些实施例中,可以基于与用户相关联的至少gps信息来确定至少一个关键字。在一些实施例中,可以基于至少当前时间和/或日期来确定至少一个关键字。
182.在一些实施例中,可以基于该至少一个关键字来确定至少一个搜索查询。在一些情况下,至少一个搜索查询可以包括至少一个关键字。在一些情况下,至少一个搜索查询可以包括至少一个关键字和由用户提供的附加关键字。在一些情况下,至少一个搜索查询可以包括至少一个关键字和诸如由图像传感器220捕捉的图像的一个或多个图像。在一些情况下,至少一个搜索查询可以包括至少一个关键字和诸如由装置110捕捉的音频段的一个或多个音频段。
183.在一些实施例中,至少一个搜索查询可被发送到搜索引擎。在一些实施例中,由搜索引擎响应于至少一个搜索查询提供的搜索结果可以被提供给用户。在一些实施例中,至少一个搜索查询可以用于访问数据库。
184.例如,在一个实施例中,关键字可以包括食品类型的名称(诸如藜麦),或者食品的品牌名称;并且搜索将输出与所需的消费量有关的信息,关于营养概况的事实,等等。在另一示例中,在一个实施例中,关键字可以包括餐厅的名称,并且搜索将输出与餐馆相关的信息,诸如菜单、开门时间、评论等等。餐厅的名称可以使用标牌图像上的ocr、使用gps信息等来获得。在另一示例中,在一个实施例中,关键字可以包括人的姓名,并且搜索将提供来自该人的社交网络配置文件的信息。该人的名字可以使用附接到人的衬衫上的姓名标签上的ocr、使用面部识别算法等来获得。在另一示例中,在一个实施例中,关键字可以包括书的名称,并且搜索将输出与书有关的信息,诸如评论、销售统计、关于书的作者的信息等等。在另
一示例中,在一个实施例中,关键字可以包括电影的名称,并且搜索将输出与电影相关的信息,诸如评论、票房统计、关于电影演员阵容的信息、放映时间等等。在另一示例中,在一个实施例中,关键字可以包括运动队的名称,并且搜索将输出与运动队相关的信息,诸如统计数据、最新结果、未来时间表、关于运动队队员的信息等等。例如,运动队的名称可以使用音频识别算法来获得。
185.基于相机的定向助听器
186.如前所述,所公开的实施例可以包括响应于处理环境中的至少一个图像而向一个或多个辅助设备提供反馈(诸如声学和触觉反馈)。在一些实施例中,辅助设备可以是耳机或用于向用户提供听觉反馈的其他设备(诸如助听器)。传统的助听器经常使用麦克风来放大用户的环境中的声音。然而,这些传统系统经常无法区分对设备佩戴者可能特别重要的声音,或者可能在有限的基础上这样做。使用所公开实施例的系统和方法,如下文详细描述的,提供了对传统助听器的各种改进。
187.在一个实施例中,可以提供基于相机的定向助听器,用于基于用户的视线方向来选择性地放大声音。助听器可以与诸如装置110的图像捕捉设备进行通信,以确定用户的视线方向。该视线方向可用于隔离和/或选择性地放大从该方向接收的声音(例如,来自用户视线方向上的个体的声音等)。从用户的视线方向以外的方向接收的声音可以被抑制、衰减、滤波等。
188.图17a是佩戴根据所公开实施例的用于基于相机的听觉接口设备1710的装置110的用户100的示例的示意图。如图所示,用户100可以穿戴物理连接到用户100的衬衫或其他衣物的装置110。符合所公开实施例的,如前面所述,装置110可以定位在其他位置。例如,装置110可以物理地连接到项链、腰带、眼镜、腕带、纽扣等。装置110可以被配置为与诸如听觉接口设备1710的听觉接口设备进行通信。这种通信可以通过有线连接,或者可以无线地进行(例如,使用蓝牙
tm
、nfc或无线通信形式)。在一些实施例中,还可以包括诸如计算设备120的一个或多个附加设备。因此,本文关于装置110或处理器210描述的一个或多个过程或功能可以由计算设备120和/或处理器540执行。
189.听觉接口设备1710可以是被配置为向用户100提供听觉反馈的任何设备。听觉接口设备1710可以对应于如上所述的反馈输出单元230,并且因此反馈输出单元230的任何描述也可以适用于听觉接口设备1710。在一些实施例中,听觉接口设备1710可以与反馈输出单元230分开,并且可以被配置为从反馈输出单元230接收信号。如图17a所示,听觉接口设备1710可以被放置在用户100的一个或两个耳朵中,类似于传统的听觉接口设备。听觉接口设备1710可以是各种样式的,包括耳道内、完全耳道内、耳内、耳后、耳上、耳道内接收器、开放安装或各种其他样式。听觉接口设备1710可以包括用于向用户100提供听觉反馈的一个或多个扬声器、用于检测用户100的环境中的声音的麦克风、内部电子设备、处理器、存储器等。在一些实施例中,除了麦克风之外或替代麦克风,听觉接口设备1710可以包括一个或多个通信单元,特别是一个或多个接收器,用于从设备110接收信号并将信号传送到用户100。
190.听觉接口设备1710可以具有各种其他配置或放置位置。在一些实施例中,如图17a所示,听觉接口设备1710可以包括骨传导耳机1711。骨传导耳机1711可以通过外科手术植入,并且可以通过声音振动到内耳的骨传导来向用户100提供可听反馈。听觉接口设备1710还可以包括一个或多个耳机(例如,无线耳机、过耳耳机等)或由用户100携带或佩戴的便携
式扬声器。在一些实施例中,听觉接口设备1710可以集成到其他设备中,诸如用户的蓝牙
tm
耳机、眼镜、头盔(例如,摩托车头盔、自行车头盔等)、帽子等。
191.装置110可以被配置为确定用户100的用户视线方向1750。在一些实施例中,可以通过监视用户100的下巴、或另一身体部分或面部部分相对于相机传感器1751的光轴的方向来跟踪用户视线方向1750。装置110可以被配置为例如使用图像传感器220来捕捉用户周围环境的一个或多个图像。所捕捉的图像可以包括用户100的下巴的表示,该表示可用于确定用户视线方向1750。处理器210(和/或处理器210a和210b)可以被配置为使用各种图像检测或处理算法(例如,使用卷积神经网络(cnn)、尺度不变特征变换(sift)、定向梯度直方图(hog)特征或其他技术)来分析捕捉的图像并检测用户100的下巴或另一部分。基于检测到的用户100的下巴的表示,可以确定视线方向1750。可以部分地通过将检测到的用户100的下巴的表示与相机传感器1751的光轴进行比较来确定视线方向1750。例如,光轴1751在每个图像中可以是已知的或固定的,并且处理器210可以通过将用户100的下巴的代表性角度与光轴1751的方向进行比较来确定视线方向1750。虽然使用用户100的下巴的表示来描述该过程,但是可以检测各种其他特征以确定用户的视线方向1750,包括用户的脸、鼻子、眼睛、手等。
192.在其他实施例中,用户视线方向1750可以与光轴1751更紧密地对准。例如,如上所述,装置110可以被固定到用户100的一副眼镜上,如图1a所示。在该实施例中,用户视线方向1750可以与光轴1751的方向相同或接近。因此,用户视线方向1750可以基于图像传感器220的视野来确定或粗略估计。
193.图17b是符合本公开的可固定到衣物上的装置的实施例的示意图。如图17a所示,装置110可以固定到一件衣服上,诸如用户110的衬衫。如上所述,装置110可以固定到其他衣物上,诸如用户100的腰带或裤子。装置110可以具有一个或多个相机1730,它们可以对应于图像传感器220。相机1730可以被配置为捕捉用户100的周围环境的图像。在一些实施例中,相机1730可以被配置为检测捕捉用户周围环境的相同图像中用户下巴的表示,该图像可用于本公开中描述的其他功能。在其他实施例中,相机1730可以是专用于确定用户视线方向1750的辅助或单独相机。
194.装置110还可以包括一个或多个麦克风1720,用于从用户100的环境捕捉声音。麦克风1720还可以被配置为确定用户100的环境中声音的方向性。例如,麦克风1720可以包括一个或多个定向麦克风,它们可能对拾取某些方向上的声音更敏感。例如,麦克风1720可以包括单向麦克风,其被设计成从单个方向或小范围的方向拾取声音。麦克风1720还可以包括心形麦克风,它可能对来自前面和侧面的声音敏感。麦克风1720还可以包括麦克风阵列,其可以包括附加的麦克风,诸如在装置110前面的麦克风1721,或放置在装置110侧面的麦克风1722。在一些实施例中,麦克风1720可以是用于捕捉多个音频信号的多端口麦克风。图17b中所示的麦克风仅作为示例,并且可以使用任何适当数量、配置或位置的麦克风。处理器210可以被配置为区分用户100的环境内的声音并且确定每个声音的近似方向性。例如,使用麦克风阵列1720,处理器210可以对麦克风1720之间个体声音的相对定时或振幅进行比较,以确定相对于装置100的方向性。
195.作为在其他音频分析操作之前的初步步骤,可以使用任何音频分类技术对从用户的环境捕捉的声音进行分类。例如,声音可以被分类为包含音乐、音调、笑声、尖叫等的片
段。各个片段的指示可以记录在数据库中,并且可以证明对于生活记录应用非常有用。作为一个示例,所记录的信息可以使系统能够检索和/或确定当用户遇到另一个体时的心情。另外,这样的处理相对快速和有效,并且不需要大量的计算资源,并且将信息发送到目的地不需要大量的带宽。此外,一旦音频的某些部分被分类为非语音,更多的计算资源可用于处理其他片段。
196.基于确定的用户视线方向1750,处理器210可选择性地调节或放大来自与用户视线方向1750相关联的区域的声音。图18是示出符合本公开的使用基于相机的助听器的示例性环境的示意图。麦克风1720可以检测用户100的环境内的一个或多个声音1820、1821和1822。基于由处理器210确定的用户视线方向1750,可以确定与用户视线方向1750相关联的区域1830。如图18所示,区域1830可以基于用户视线方向1750由锥体或方向范围来定义。如图18所示,角度范围可以由角度θ来定义。角度θ可以是用于定义调节用户100的环境内的声音的范围的任何合适的角度(例如,10度、20度、45度)。
197.处理器210可以被配置为基于区域1830对用户100的环境中的声音进行选择性调节。经调节的音频信号可以被发送到听觉接口设备1710,并且因此可以向用户100提供对应于用户的视线方向的听觉反馈。例如,处理器210可以确定声音1820(其可以对应于个体1810的语音,或者例如对应于噪声)处于区域1830内。处理器210然后可以对从麦克风1720接收的音频信号执行各种调节技术。调节可以包括相对于其他音频信号放大被确定为对应于声音1820的音频信号。放大可以例如通过相对于其他信号处理与1820相关联的音频信号来数字化地实现。放大还可以通过改变麦克风1720的一个或多个参数来实现,以聚焦于从与用户视线方向1750相关联的区域1830(例如,感兴趣的区域)发出的音频声音。例如,麦克风1720可以是定向麦克风,处理器210可以执行将麦克风1720聚焦在声音1820或区域1830内的其他声音上的操作。可以使用用于放大声音1820的各种其他技术,诸如使用波束成形麦克风阵列、声学望远镜技术等。
198.调节还可以包括衰减或抑制从区域1830之外的方向接收的一个或多个音频信号。例如,处理器1820可以衰减声音1821和1822。类似于声音1820的放大,声音的衰减可以通过处理音频信号来发生,或者通过改变与一个或多个麦克风1720相关联的一个或多个参数来引导焦点远离从区域1830之外发出的声音。
199.在一些实施例中,调节还可以包括改变对应于声音1820的音频信号的音调,以使声音1820对于用户100更易感知。例如,用户100可能对特定范围内的音调具有较小的敏感度,并且音频信号的调节可以调整声音1820的音高以使其对于用户100更易感知。例如,用户100可能经历10khz以上的频率中的听觉损失。因此,处理器210可以将更高的频率(例如,在15khz处)重新映射到10khz。在一些实施例中,处理器210可以被配置为改变与一个或多个音频信号相关联的语速。因此,处理器210可以被配置为例如使用语音活动检测(vad)算法或技术来检测由麦克风1720接收的一个或多个音频信号内的语音。如果确定声音1820对应于例如来自个体1810的语音或讲话,则处理器220可以被配置为改变声音1820的回放速率。例如,可以降低个体1810的语速以使检测到的语音对于用户100更易感知。可以执行各种其他处理(诸如修改声音1820的音调),以维持与原始音频信号相同的音高,或者降低音频信号内的噪声。如果已经对与声音1820相关联的音频信号执行了语音识别,则调节还可以包括基于检测到的语音来修改音频信号。例如,处理器210可以在词语和/或句子之间引
入停顿或增加停顿的持续时间,这可以使语音更容易理解。
200.然后可以将经调节的音频信号发送到听觉接口设备1710,并为用户100产生音频信号。因此,在经调节的音频信号中,声音1820可以更容易被用户100听到,比声音1821和1822更响亮和/或更容易区分,声音1821和1822可以表示环境内的背景噪声。
201.图19是示出符合所公开实施例的用于选择性地放大从检测到的用户的视线方向发出的声音的示例性过程1900的流程图。过程1900可以由与装置110相关联的一个或多个处理器(诸如处理器210)来执行。在一些实施例中,过程1900的一些或全部可以在装置110外部的处理器上执行。换句话说,执行过程1900的处理器可以与麦克风1720和相机1730一起包括在公共外壳中,或者可以包括在第二外壳中。例如,过程1900的一个或多个部分可以由听觉接口设备1710中的处理器或诸如计算设备120的辅助设备来执行。
202.在步骤1910中,过程1900可以包括从用户的环境接收由相机捕捉的多个图像。相机可以是诸如装置110的相机1730的可穿戴相机。在步骤1912中,过程1900可以包括接收表示由至少一个麦克风接收的声音的音频信号。麦克风可以被配置为从用户的环境捕捉声音。例如,如上所述,麦克风可以是麦克风1720。因此,麦克风可以包括定向麦克风、麦克风阵列、多端口麦克风或各种其他类型的麦克风。在一些实施例中,麦克风和可穿戴相机可以包括在公共外壳(诸如装置110的外壳)中。执行过程1900的一个或多个处理器也可以包括在该外壳中,或者可以包括在第二外壳中。在这样的实施例中,处理器可以被配置为经由无线链路(例如,蓝牙
tm
、nfc等)从公共外壳接收图像和/或音频信号。因此,公共外壳(例如,装置110)和第二外壳(例如,计算设备120)还可以包括发送器或各种其他通信组件。
203.在步骤1914中,过程1900可以包括基于对多个图像中的至少一个的分析来确定用户的视线方向。如上所述,可以使用各种技术来确定用户视线方向。在一些实施例中,可以至少部分地基于在一个或多个图像中检测到的用户下巴的表示来确定视线方向。如上所述,可以处理图像以确定下巴相对于可穿戴相机光轴的指向方向。
204.在步骤1916中,过程1900可以包括对由至少一个麦克风从与用户的视线方向相关联的区域接收的至少一个音频信号进行选择性调节。如上所述,可以基于在步骤1914中确定的用户视线方向来确定区域。该范围可以与关于视线方向的角宽度(例如,10度、20度、45度等)相关联。如上所述,可以对音频信号执行各种形式的调节。在一些实施例中,调节可以包括改变音频信号的音调或重放速度。例如,调节可以包括改变与音频信号相关联的语速。在一些实施例中,调节可以包括相对于从与用户的视线方向相关联的区域之外接收的其他音频信号对该音频信号进行放大。可以通过各种手段来执行放大,诸如操作配置为聚焦于从该区域发出的音频声音的定向麦克风,或者改变与麦克风相关联的一个或多个参数以使该麦克风聚焦于从该区域发出的音频声音。放大可以包括衰减或抑制由麦克风从与用户110的视线方向相关联的区域之外的方向接收的一个或多个音频信号。
205.在步骤1918中,过程1900可以包括使至少一个经调节的音频信号传输到被配置为向用户的耳朵提供声音的听觉接口设备。例如,经调节的音频信号可以被发送到听觉接口设备1710,其可向用户100提供对应于该音频信号的声音。执行过程1900的处理器还可以被配置为使表示背景噪声(background noise)的一个或多个音频信号被传输到听觉接口设备,该背景噪声可以相对于至少一个经调节的音频信号被衰减。例如,处理器220可以被配置为发送对应于声音1820、1821和1822的音频信号。然而,基于声音1820处于区域1830内的
确定,与1820相关联的信号可以从声音1821和声音1822以不同的方式被修改(例如被放大)。在一些实施例中,听觉接口设备1710可以包括与听筒相关联的扬声器。例如,听觉接口设备可以至少部分地插入用户的耳朵中,用于向用户提供音频。听觉接口设备也可以在耳朵外部,诸如耳后听觉设备、一个或多个耳机、小型便携式扬声器等。在一些实施例中,听觉接口设备可以包括骨传导麦克风,其被配置为通过用户头骨的振动向用户提供音频信号。这样的设备可以与使用者的皮肤外部接触放置,或者可以通过外科手术植入并附接到使用者的骨骼上。
206.使用语音和/或图像识别的助听器
207.与所公开的实施例一致,助听器可以选择性地放大与辨识出的个体的语音相关联的音频信号。助听器系统可以存储识别出的人的语音特征和/或面部特征以帮助识别和选择性放大。例如,当个体进入装置110的视场时,该个体可以被识别为已经被介绍给该设备的个体,或者在过去可能与用户100交互过的个体(例如,朋友、同事、亲戚、先前的熟人等)。因此,相对于用户环境中的其他声音,可以隔离和/或选择性地放大与辨识出的个体的语音相关联的音频信号。与从个体方向以外的方向接收的声音相关联的音频信号可以被抑制、衰减、滤波等。
208.用户100可以佩戴类似于上述基于相机的助听器设备的助听器设备。例如,助听器设备可以是如图17a所示的听觉接口设备1720。听觉接口设备1710可以是被配置为向用户100提供听觉反馈的任何设备。听觉接口设备1710可以被放置在用户100的一个或两个耳朵中,类似于传统的听觉接口设备。如上所述,听觉接口设备1710可以是各种样式的,包括耳道内、完全耳道内、耳内、耳后、耳上、耳道内接收器、开放安装或各种其他样式。听觉接口设备1710可以包括用于向用户100提供听觉反馈的一个或多个扬声器、用于从另一系统(诸如装置110)接收信号的通信单元、用于检测用户100的环境中的声音的麦克风、内部电子设备、处理器、存储器等。听觉接口设备1710可以对应于反馈输出单元230,或者可以与反馈输出单元230分开,并且可以被配置为从反馈输出单元230接收信号。
209.在一些实施例中,如图17a所示,听觉接口设备1710可以包括骨传导耳机1711。骨传导耳机1711可以通过外科手术植入,并且可以通过声音振动到内耳的骨传导来向用户100提供可听反馈。听觉接口设备1710还可以包括一个或多个耳机(例如,无线耳机、过耳耳机等)或由用户100携带或佩戴的便携式扬声器。在一些实施例中,听觉接口设备1710可以集成到其他设备中,诸如用户的蓝牙
tm
耳机、眼镜、头盔(例如,摩托车头盔、自行车头盔等)、帽子等。
210.听觉接口设备1710可以被配置为与诸如装置110的相机设备进行通信。这种通信可以通过有线连接,或者可以无线地进行(例如,使用蓝牙
tm
、nfc或无线通信形式)。如上所述,装置110可以由用户100以各种配置来佩戴,包括物理地连接到衬衫、项链、腰带、眼镜、腕带、纽扣或与用户100相关联的其他物品。在一些实施例中,还可以包括诸如计算设备120的一个或多个附加设备。因此,本文关于装置110或处理器210描述的一个或多个过程或功能可以由计算设备120和/或处理器540执行。
211.如上所述,装置110可以包括至少一个麦克风和至少一个图像捕捉设备。如关于图17b所描述的,装置110可以包括麦克风1720。麦克风1720可以被配置为确定用户100的环境中声音的方向性。例如,麦克风1720可以包括一个或多个定向麦克风、麦克风阵列、多端口
麦克风等。图17b中所示的麦克风仅作为示例,并且可以使用任何适当数量、配置或位置的麦克风。处理器210可以被配置为区分用户100的环境内的声音并且确定每个声音的近似方向性。例如,使用麦克风阵列1720,处理器210可以对麦克风1720之间个体声音的相对定时或振幅进行比较,以确定相对于装置100的方向性。装置110可以包括诸如相机1730的一个或多个相机,它们可以对应于图像传感器220。相机1730可以被配置为捕捉用户100的周围环境的图像。
212.装置110可以被配置为识别用户100的环境中的个体。图20a是示出符合本公开的使用具有语音和/或图像识别的助听器的示例性环境的示意图。装置110可以被配置为识别与用户100的环境内的个体2010相关联的面部2011或语音2012。例如,装置110可以被配置为使用相机1730来捕捉用户100的周围环境的一个或多个图像。所捕捉的图像可以包括辨识出的个体2010的表示,该个体2010可以是用户100的朋友、同事、亲戚或先前的熟人。处理器210(和/或处理器210a和210b)可以被配置为使用各种面部识别技术来分析捕捉的图像并检测识别出的用户,如元素2011所表示的。因此,装置110,或具体地存储器550,可以包括一个或多个面部或语音识别组件。
213.图20b示出了包括符合本公开的面部和语音识别组件的装置110的示例性实施例。装置110在图20b中以简化形式示出,并且装置110可以包含附加元件或可以具有替代配置,例如,如图5a-5c所示。存储器550(或550a或550b)可以包括面部识别组件2040和语音识别组件2041。这些组件可以是如图6所示的朝向识别模块601、朝向调整模块602和运动跟踪模块603的替代或补充。组件2040和2041可以包含用于由包括在可穿戴装置中的至少一个处理设备(例如处理器210)执行的软件指令。组件2040和2041仅作为示例被示出在存储器550内,并且可以位于系统内的其他位置。例如,组件2040和2041可以位于听觉接口设备1710中、计算设备120中、远程服务器上或另一关联设备中。
214.面部识别组件2040可以被配置为识别用户100的环境内的一个或多个面部。例如,面部识别组件2040可以识别个体2010的面部2011上的面部特征,例如眼睛、鼻子、颧骨、下巴或其他特征。面部识别组件2040然后可以分析这些特征的相对大小和位置以识别用户。面部识别组件2040可以利用一种或多种算法来分析检测到的特征,诸如主分量分析(例如,使用本征脸)、线性判别分析、弹性束图匹配(例如,使用fisher脸)、局部二进制模式直方图(lbph)、尺度不变特征变换(sift)、加速鲁棒特征(surf)等。还可以使用诸如三维识别、皮肤纹理分析和/或热成像的其他面部识别技术来识别个体。除了面部特征之外的其他特征也可以用于识别,诸如身高、体型或个体2010的其他区别特征。
215.面部识别组件2040可以访问与用户100相关联的数据库或数据,以确定检测到的面部特征是否对应于辨识出的个体。例如,处理器210可以访问数据库2050,数据库2050包含关于用户100已知的个体的信息和表示相关联的面部特征或其他识别特征的数据。这样的数据可以包括个体的一个或多个图像,或者表示可用于通过面部识别进行的识别的用户面部的数据。数据库2050可以是能够存储关于一个或多个个体的信息的任何设备,并且可以包括硬盘驱动、固态驱动、网络存储平台、远程服务器等。数据库2050可以位于装置110内(例如,存储器550内)或装置110的外部,如图20b所示。在一些实施例中,数据库2050可以与社交网络平台相关联,例如facebook tm
、linkedin
tm
、instagram
tm
等。面部识别组件2040还可以访问用户100的联系人列表,诸如用户电话上的联系人列表、基于网络的联系人列表
(例如,通过outlook
tm
、skype
tm
、google
tm
、salesforce
tm
等)或与听觉接口设备1710相关联的专用联系人列表。在一些实施例中,数据库2050可以由装置110通过先前的面部识别分析来编译。例如,处理器210可以被配置为将与在由装置110捕捉的图像中识别出的一个或多个面部相关联的数据存储在数据库2050中。每次在图像中检测到面部时,可将检测到的面部特征或其他数据与数据库2050中的先前识别出的面部进行比较。面部识别组件2040可以确定个体是用户100的辨识出的个体、该个体先前是否在超过特定阈值的多个实例中被系统识别出、该个体是否已被明确地介绍给装置110等。
216.在一些实施例中,用户100可以诸如通过web界面、移动设备上的应用程序或通过装置110或相关联的设备访问数据库2050。例如,用户100可以能够选择哪些联系人可由装置110识别,和/或手动删除或添加某些联系人。在一些实施例中,用户或管理员可以能够训练面部识别组件2040。例如,用户100可以具有确认或拒绝由面部识别组件2040做出的识别的选项,这可以提高系统的准确性。随着个体2010正在被识别,这种训练可能会实时发生,或者在以后的某个时候发生。
217.其他数据或信息也可以通知面部识别过程。在一些实施例中,如下文进一步详细描述的,处理器210可以使用各种技术来识别个体2010的语音。识别出的语音模式和检测到的面部特征可以单独或组合使用,以确定个体2010被装置110所识别。处理器210还可以确定如上所述的用户视线方向1750,其可以被用于验证个体2010的身份。例如,如果用户100正看向个体2010的方向(特别是长时间的),这可以指示个体2010被用户100所识别,这可用于增加面部识别组件2040或其他识别手段的置信度。
218.处理器210还可以被配置为基于与个体2010的语音相关联的声音的一个或多个检测到的音频特征来确定个体2010是否被用户100所识别。返回到图20a,处理器210可以确定声音2020对应于用户2010的语音2012。处理器210可以对表示由麦克风1720捕捉的声音2020的音频信号进行分析,以确定个体2010是否被用户100所识别。这可以使用语音识别组件2041(图20b)来执行,并且可以包括一个或多个语音识别算法,例如隐式马尔可夫模型、动态时间规整、神经网络或其他技术。语音识别组件和/或处理器210可以访问数据库2050,数据库2050还可以包括一个或多个个体的声纹。语音识别组件2041可以对表示声音2020的音频信号进行分析以确定语音2012是否与数据库2050中的个体的声纹匹配。因此,数据库2050可以包含与多个个体相关联的声纹数据,类似于上述存储的面部识别数据。在确定匹配之后,可以将个体2010确定为用户100的辨识出的个体。该过程可以单独使用,或者与上述面部识别技术结合使用。例如,可以使用面部识别组件2040来识别个体2010,并且可以使用语音识别组件2041来验证个体2010,反之亦然。
219.在一些实施例中,装置110可以检测不在装置110的视场内的个体的语音。例如,语音可以通过免提电话、从后座或类似的地方听到。在这样的实施例中,在视场中没有说话者的情况下,个体的识别可以仅基于个体的语音。处理器110可以如上所述分析个体的语音,例如,通过确定检测到的声音是否与数据库2050中的个体的声纹匹配。
220.在确定个体2010是用户100的辨识出的个体之后,处理器210可以对与辨识出的个体相关联的音频进行选择性调节。经调节的音频信号可以被发送到听觉接口设备1710,并且因此可以向用户100提供基于辨识出的个体的经调节音频。例如,调节可以包括相对于其他音频信号放大被确定为对应于声音2020(其可对应于个体2010的语音2012)的音频信号。
在一些实施例中,放大可以例如通过相对于其他信号处理与声音2020相关联的音频信号来数字化地实现。另外地或者可替代地,可以通过改变麦克风1720的一个或多个参数来实现放大,以聚焦于与个体2010相关联的音频声音。例如,麦克风1720可以是定向麦克风,处理器210可以执行将麦克风1720聚焦在声音2020上的操作。可以使用用于放大声音2020的各种其他技术,诸如使用波束成形麦克风阵列、声学望远镜技术等。
221.在一些实施例中,选择性调节可以包括衰减或抑制从与个体2010不相关联的方向接收的一个或多个音频信号。例如,处理器210可以衰减声音2021和/或2022。类似于声音2020的放大,声音的衰减可以通过处理音频信号或通过改变与麦克风1720相关联的一个或多个参数来发生,以指引焦点离开与个体2010不相关联的声音。
222.选择性调节还可以包括确定个体2010是否正在讲话。例如,处理器210可以被配置为分析包含个体2010的表示的图像或视频,以例如基于辨识出的个体的唇部的被检测到的运动来确定个体2010何时在说话。这也可以通过分析由麦克风1720接收的音频信号来确定,例如通过检测个体2010的语音2012来确定。在一些实施例中,可以基于辨识出的个体是否在说话而动态地发生(启动和/或终止)选择性调节。
223.在一些实施例中,调节还可以包括改变对应于声音2020的一个或多个音频信号的音调,以使该声音对于用户100更易感知。例如,用户100可能对特定范围内的音调具有较小的敏感度,并且音频信号的调节可以调整声音2020的音高。在一些实施例中,处理器210可以被配置为改变与一个或多个音频信号相关联的语速。例如,声音2020可以被确定为对应于个体2010的语音2012。处理器210可以被配置为改变个体2010的语速,以使检测到的语音对于用户100更易感知。可以执行各种其他处理(诸如修改声音2020的音调),以维持与原始音频信号相同的音高,或者降低音频信号内的噪声。
224.在一些实施例中,处理器210可以确定与个体2010相关联的区域2030。区域2030可以与个体2010相对于装置110或用户100的方向相关联。个体2010的方向可以使用上述方法使用相机1730和/或麦克风1720来确定。如图20a所示,区域2030可以基于所确定的个体2010的方向由方向的锥体或范围来定义。如图20a所示,角度范围可以由角度θ来定义。角度θ可以是用于定义调节用户100的环境内的声音的范围的任何合适的角度(例如,10度、20度、45度)。区域2030可以随着个体2010的位置相对于装置110的改变而动态计算。例如,当用户100转向时,或者如果个体1020在环境内移动,处理器210可以被配置为跟踪环境内的个体2010并动态更新区域2030。区域2030可以用于选择性调节,例如通过放大与区域2030相关联的声音和/或衰减被确定为从区域2030之外发出的声音。
225.然后可以将经调节的音频信号发送到听觉接口设备1710,并为用户100产生音频信号。因此,在经调节的音频信号中,声音2020(特别是语音2012)可以比声音2021和2022更响亮和/或更容易区分,声音2021和2022可以表示环境内的背景噪声。
226.在一些实施例中,处理器210可以基于捕捉的图像或视频执行进一步的分析,以确定如何选择性地调节与辨识出的个体相关联的音频信号。在一些实施例中,处理器210可以分析所捕捉的图像以相对于其他选择性地调节与该个体相关联的音频。例如,处理器210可以基于图像来确定辨识出的个体相对于用户的方向,并且可以基于该方向来确定如何选择性地调节与该个体相关联的音频信号。如果辨识出的个体站在用户前面,则与该用户相关联的音频可以相对于与站在用户一侧的个体相关联的音频被放大(或以其他方式被选择性
地调节)。类似地,处理器210可以基于与用户的接近度来选择性地调节与该个体相关联的音频信号。处理器210可以基于捕捉的图像来确定从用户到每个个体的距离,并且可以基于该距离来选择性地调节与这些个体相关联的音频信号。例如,离用户较近的个体可能比离用户较远的个体优先级更高。在一些实施例中,也可以考虑用户的观看方向与个体之间的角度。例如,定位在相对于用户的视线方向较小角度的个体可以优先级高于定位在与用户的视线方向较大角度的个体。
227.在一些实施例中,与辨识出的个体相关联的音频信号的选择性调节可以基于用户环境中的个体的身份。例如,在图像中检测到多个个体的情况下,处理器210可以如上所述使用一种或多种面部识别技术来识别个体。与用户100已知的个体相关联的音频信号可以被选择性地放大或以其他方式调节以具有相对于未知个体的优先权。例如,处理器210可以被配置为衰减或静音与用户环境中的旁观者(诸如嘈杂的办公室同事等)相关联的音频信号。在一些实施例中,处理器210还可以确定个体的层次结构并基于个体的相对状态给予优先权。该层次结构可以基于个体在家庭或组织(例如,公司、运动队、俱乐部等)中相对于用户的位置。例如,用户的老板可能比同事或维护团队的成员排名更高,因此可能在选择性调节过程中具有优先权。在一些实施例中,可以基于列表或数据库来确定层次结构。被系统辨识出的个体可以被单独排序或分组为几层优先级。该数据库可以专门为此目的而维护,也可以从外部访问。例如,数据库可以与用户的社交网络(例如,facebook
tm
、linkedin tm
等)相关联,并且可以基于个体的分组或与用户的关系来对其进行优先级排序。例如,被识别为“密友”或家人的个体可以优先于用户的熟人。
228.选择性调节可以基于根据所捕捉的图像确定的一个或多个个体的确定的行为。在一些实施例中,处理器210可以被配置为确定图像中的个体的视线方向。因此,选择性调节可以基于其他个体对辨识出的个体的行为。例如,处理器210可以选择性地调节与一个或多个其他用户正在看着的第一个体相关联的音频。如果个体的注意力转移到第二个体,则处理器210可以随后切换到选择性地调节与第二用户相关联的音频。在一些实施例中,处理器210可以被配置为基于辨识出的个体是对用户说话还是对另一个体说话来选择性地调节音频。例如,当辨识出的个体正在对用户说话时,选择性调节可以包括相对于从与辨识出的个体相关联的区域之外的方向接收的其他音频信号放大与辨识出的个体相关联的音频信号。当辨识出的个体正在对另一个体说话时,选择性调节可以包括相对于从与辨识出的个体相关联的区域之外的方向接收的其他音频信号衰减该音频信号。
229.在一些实施例中,处理器210可以访问个体的一个或多个声纹,这可以促进个体2010的语音2012相对于其他声音或语音的选择性调节。有了说话者的声纹,特别是高质量的声纹,可以提供快速和有效的说话者分离。例如,当用户单独说话时,优选地在安静的环境中,可以收集高质量的声纹。通过具有一个或多个说话者的声纹,可以使用滑动时间窗口几乎实时地(例如以最小延迟)分离正在进行的语音信号。延迟可以是例如10毫秒、20毫秒、30毫秒、50毫秒、100毫秒等。根据声纹的质量、捕捉的音频的质量、说话者与其他说话者之间的特性差异、可用的处理资源、所需的分离质量等,可以选择不同的时间窗口。在一些实施例中,可以从个体单独说话的对话的片段中提取声纹,然后用于稍后在对话中分离个体的语音,无论个体的声音是否被识别出。
230.可以如下执行分离语音:可以从单个说话者的干净音频中提取频谱特征(也称为
频谱属性、频谱包络或频谱图),并将其馈送到预先训练的第一神经网络中,该第一神经网络基于提取的特征来生成或更新说话者的语音的签名。该音频可以是例如一秒钟的干净的语音。输出签名可以是表示说话者的语音的矢量,使得该矢量与从同一说话者的语音中提取的另一矢量之间的距离通常小于该矢量与从另一说话者的声音中提取的矢量之间的距离。说话者的模型可以从捕捉的音频中预先生成。可替代地或附加地,该模型可以在其中只有说话者在说话的音频片段之后生成,在该片段之后是在其中听到该说话者和另一说话者(或背景噪声)并且需要分离的另一个片段。
231.然后,为了从噪声音频中的另外说话者或背景噪声中分离出说话者的语音,第二预训练神经网络可以接收噪声音频和说话者的签名,并输出从噪声音频中提取出的说话者的语音的音频(也可以表示为属性),该音频与其他语音或背景噪声分离。将理解的是,相同的或附加的神经网络可以用于分离多个说话者的语音。例如,如果有两个可能的说话者,可以激活两个神经网络,每个神经网络具有相同噪声输出和两个说话者中的一个的模型。可替代地,神经网络可以接收两个或多个说话者的语音签名,并且分别输出每个说话者的语音。因此,该系统可以生成两个或更多个不同的音频输出,每个音频输出包括相应说话者的语音。在一些实施例中,如果分离是不可能的,则可以只从背景噪声中清除输入语音。
232.图21是示出符合所公开实施例的用于选择性地放大与辨识出的个体的语音相关联的音频信号的示例性过程2100的流程图。过程2100可以由与装置110相关联的一个或多个处理器(诸如处理器210)来执行。在一些实施例中,过程2100的一些或全部可以在装置110外部的处理器上执行。换句话说,执行过程2100的处理器可以与麦克风1720和相机1730一起包括在相同公共外壳中,或者可以包括在第二外壳中。例如,过程2100的一个或多个部分可以由听觉接口设备1710或诸如计算设备120的辅助设备中的处理器来执行。
233.在步骤2110中,过程2100可以包括从用户的环境接收由相机捕捉的多个图像。图像可以由诸如装置110的相机1730的可穿戴相机捕捉。在步骤2112中,过程2100可以包括识别在多个图像中的至少一个中的被辨识出的个体的表示。如上所述,个体2010可以由处理器210使用面部识别组件2040来识别。例如,个体2010可能是用户的朋友、同事、亲戚或以前的熟人。处理器210可以基于与个体相关联的一个或多个检测到的面部特征来确定在多个图像中的至少一个中表示的个体是否是被辨识出的个体。如上所述,处理器210还可以基于被确定为与个体的语音相关联的声音的一个或多个检测到的音频特征来确定是否识别出该个体。
234.在步骤2114中,过程2100可以包括接收表示由麦克风捕捉的声音的音频信号。例如,装置110可以接收表示由麦克风1720捕捉的声音2020、2021和2022的音频信号。因此,如上所述,麦克风可以包括定向麦克风、麦克风阵列、多端口麦克风或各种其他类型的麦克风。在一些实施例中,麦克风和可穿戴相机可以包括在公共外壳(诸如装置110的外壳)中。执行过程2100的一个或多个处理器也可以包括在该外壳(例如,处理器210)中,或者可以包括在第二外壳中。在使用第二外壳的情况下,处理器可以被配置为经由无线链路(例如,蓝牙
tm
、nfc等)从公共外壳接收图像和/或音频信号。因此,公共外壳(例如,装置110)和第二外壳(例如,计算设备120)还可以包括发送器、接收器和/或各种其他通信组件。
235.在步骤2116中,过程2100可以包括对由至少一个麦克风从与至少一个辨识出的个体相关联的区域接收的至少一个音频信号进行选择性调节。如上所述,该区域可以基于根
据多个图像或音频信号中的一个或多个所确定的辨识出的个体的方向来确定。该范围可以与关于辨识出的个体的方向的角宽度(例如,10度、20度、45度等)相关联。
236.如上所述,可以对音频信号执行各种形式的调节。在一些实施例中,调节可以包括改变音频信号的音调或重放速度。例如,调节可以包括改变与音频信号相关联的语速。在一些实施例中,调节可以包括相对于从与辨识出的个体相关联的区域之外接收的其他音频信号对该音频信号进行放大。可以通过各种手段来执行放大,诸如操作配置为聚焦于从该区域发出的音频声音的定向麦克风,或者改变与麦克风相关联的一个或多个参数以使该麦克风聚焦于从该区域发出的音频声音。放大可以包括衰减或抑制由麦克风从该区域之外的方向接收的一个或多个音频信号。在一些实施例中,步骤2116还可以包括基于对多个图像的分析来确定辨识出的个体正在说话,并基于辨识出的个体正在说话的确定来触发选择性调节。例如,可以基于辨识出的个体的唇部的检测到的运动来确定辨识出的个体正在说话。在一些实施例中,选择性调节可以基于如上所述的捕捉图像的进一步分析,例如,基于辨识出的个体的方向或邻近性、辨识出的个体的身份、其他个体的行为等。
237.在步骤2118中,过程2100可以包括使至少一个经调节的音频信号传输到被配置为向用户的耳朵提供声音的听觉接口设备。例如,经调节的音频信号可以被发送到听觉接口设备1710,其可向用户100提供对应于该音频信号的声音。执行过程2100的处理器还可以被配置为使表示背景噪声的一个或多个音频信号被传输到听觉接口设备,该背景噪声可以相对于至少一个经调节的音频信号被衰减。例如,处理器210可以被配置为发送对应于声音2020、2021和2022的音频信号。然而,基于声音2020处于区域2030内的确定,与2020相关联的信号可以相对于声音2021和2022被放大。在一些实施例中,听觉接口设备1710可以包括与听筒相关联的扬声器。例如,听觉接口设备1710可以至少部分地插入用户的耳朵中,用于向用户提供音频。听觉接口设备也可以在耳朵外部,诸如耳后听觉设备、一个或多个耳机、小型便携式扬声器等。在一些实施例中,听觉接口设备可以包括骨传导麦克风,其被配置为通过用户头骨的振动向用户提供音频信号。这样的设备可以与使用者的皮肤外部接触放置,或者可以通过外科手术植入并附接到使用者的骨骼上。
238.除了识别对用户100说话的个体的语音之外,上述系统和方法还可以用于识别用户100的语音。例如,语音识别单元2041可以被配置为分析表示从用户的环境收集的声音的音频信号,以识别用户100的语音。类似于对辨识出的个体的语音的选择性调节,用户100的语音可以被选择性地调节。例如,声音可以由麦克风1720或由诸如移动电话(或链接到移动电话的设备)的另一设备的麦克风来收集。例如,通过放大用户100的语音和/或衰减或消除用户语音以外的全部声音,对应于用户100的语音的音频信号可以被选择性地发送到远程设备。因此,可以收集和/或存储装置110的一个或多个用户的声纹,以促进如上文进一步详细描述的用户的语音的检测和/或隔离。
239.图22是示出符合所公开实施例的用于选择性地发送与识别出的用户的语音相关联的音频信号的示例性过程2200的流程图。过程2200可以由与装置110相关联的一个或多个处理器(诸如处理器210)来执行。
240.在步骤2210中,过程2200可以包括接收表示由麦克风捕捉的声音的音频信号。例如,装置110可以接收表示由麦克风1720捕捉的声音2020、2021和2022的音频信号。因此,如上所述,麦克风可以包括定向麦克风、麦克风阵列、多端口麦克风或各种其他类型的麦克
风。在步骤2212中,过程2200可以包括基于对接收到的音频信号的分析,识别表示识别出的用户的语音的一个或多个语音音频信号。例如,可以基于与用户相关联的声纹来识别用户的语音,该声纹可以存储在存储器550、数据库2050或其他合适的位置中。处理器210可以例如使用语音识别组件2041来识别用户的语音。处理器210可以使用滑动时间窗几乎实时地(例如以最小延迟)分离与用户相关联的正在进行的语音信号。可以通过根据上述方法提取音频信号的频谱特征来分离语音。
241.在步骤2214中,过程2200可以包括使表示用户的识别出的语音的一个或多个语音音频信号传输到远程设备。位于远程的设备可以是被配置为通过有线或无线通信形式远程接收音频信号的任何设备。在一些实施例中,位于远程的设备可以是用户的另一设备,诸如移动电话、音频接口设备或另一形式的计算设备。在一些实施例中,语音音频信号可以由位于远程的设备来处理和/或进一步发送。在步骤2216中,过程2200可以包括防止至少一个背景噪声音频信号向位于远程的设备的传输,该至少一个背景噪声音频信号不同于表示用户的识别出的语音的一个或多个语音音频信号。例如,处理器210可以衰减和/或消除与声音2020、2021或2023相关联的音频信号,它们可以表示背景噪声。可以使用上述音频处理技术将用户的语音与其他噪声分离。
242.在示例性说明中,语音音频信号可以由用户佩戴的耳机或其他设备来捕捉。用户的语音可以被识别并与用户环境中的背景噪声隔离。耳机可以将用户语音的经调节的音频信号发送到用户的移动电话。例如,用户可以处在电话呼叫中,并且经调节的音频信号可以由移动电话发送到呼叫的接收者。用户的语音也可以由位于远程的设备来记录。例如,音频信号可以存储在远程服务器或其他计算设备上。在一些实施例中,位于远程的设备可以处理接收到的音频信号,例如,以将识别出的用户的语音转换为文本。
243.唇部跟踪助听器
244.与所公开的实施例一致,助听器系统可以基于跟踪的唇部移动来选择性地放大音频信号。助听器系统分析用户环境的捕捉图像以检测个体的唇部并跟踪个体的唇部的运动。所跟踪的唇部移动可以用作选择性地放大由助听器系统接收的音频的提示。例如,确定为与所跟踪的唇部移动同步或与所跟踪的唇部移动一致的语音信号可以被选择性地放大或以其他方式调节。与检测到的唇部移动不相关联的音频信号可以被抑制、衰减、滤波等。
245.用户100可以佩戴符合上述基于相机的助听器设备的助听器设备。例如,助听器设备可以是如图17a所示的听觉接口设备1710。听觉接口设备1710可以是被配置为向用户100提供听觉反馈的任何设备。听觉接口设备1710可以被放置在用户100的一个或两个耳朵中,类似于传统的听觉接口设备。如上所述,听觉接口设备1710可以是各种样式的,包括耳道内、完全耳道内、耳内、耳后、耳上、耳道内接收器、开放安装或各种其他样式。听觉接口设备1710可以包括用于向用户100提供听觉反馈的一个或多个扬声器、用于检测用户100的环境中的声音的麦克风、内部电子设备、处理器、存储器等。在一些实施例中,除了麦克风之外或替代麦克风,听觉接口设备1710可以包括一个或多个通信单元,以及是一个或多个接收器,用于从设备110接收信号并将信号传送到用户100。听觉接口设备1710可以对应于反馈输出单元230,或者可以与反馈输出单元230分开,并且可以被配置为从反馈输出单元230接收信号。
246.在一些实施例中,如图17a所示,听觉接口设备1710可以包括骨传导耳机1711。骨
传导耳机1711可以通过外科手术植入,并且可以通过声音振动到内耳的骨传导来向用户100提供可听反馈。听觉接口设备1710还可以包括一个或多个耳机(例如,无线耳机、过耳耳机等)或由用户100携带或佩戴的便携式扬声器。在一些实施例中,听觉接口设备1710可以集成到其他设备中,诸如用户的蓝牙
tm
耳机、眼镜、头盔(例如,摩托车头盔、自行车头盔等)、帽子等。
247.听觉接口设备1710可以被配置为与诸如装置110的相机设备进行通信。这种通信可以通过有线连接,或者可以无线地进行(例如,使用蓝牙
tm
、nfc或无线通信形式)。如上所述,装置110可以由用户100以各种配置来佩戴,包括物理地连接到衬衫、项链、腰带、眼镜、腕带、纽扣或与用户100相关联的其他物品。在一些实施例中,还可以包括诸如计算设备120的一个或多个附加设备。因此,本文关于装置110或处理器210描述的一个或多个过程或功能可以由计算设备120和/或处理器540执行。
248.如上所述,装置110可以包括至少一个麦克风和至少一个图像捕捉设备。如关于图17b所描述的,装置110可以包括麦克风1720。麦克风1720可以被配置为确定用户100的环境中声音的方向性。例如,麦克风1720可以包括一个或多个定向麦克风、麦克风阵列、多端口麦克风等。处理器210可以被配置为区分用户100的环境内的声音并且确定每个声音的近似方向性。例如,使用麦克风阵列1720,处理器210可以对麦克风1720之间个体声音的相对定时或振幅进行比较,以确定相对于装置100的方向性。装置110可以包括诸如相机1730的一个或多个相机,它们可以对应于图像传感器220。相机1730可以被配置为捕捉用户100的周围环境的图像。装置110还可以使用听觉接口设备1710的一个或多个麦克风,并且因此,本文使用的对麦克风1720的引用也可以是指听觉接口设备1710上的麦克风。
249.处理器210(和/或处理器210a和210b)可以被配置为检测与用户100的环境内的个体相关联的嘴和/或唇部。图23a和图23b示出了可以在符合本公开的用户环境中由相机1730捕捉的示例性个体2310。如图23所示,个体2310可以物理地存在于用户100的环境中。处理器210可以被配置为分析由相机1730捕捉的图像,以检测图像中个体2310的表示。处理器210可以使用面部识别组件,诸如如上所述的面部识别组件2040,来检测和识别用户100的环境中的个体。处理器210可以被配置为检测用户2310的一个或多个面部特征,包括个体2310的唇部2311。因此,处理器210可以使用一种或多种面部识别和/或特征识别技术,如下文进一步描述的。
250.在一些实施例中,处理器210可以从用户100的环境中检测个体2310的可视表示,诸如用户2310的视频。如图23b所示,可以在显示设备2301的显示器上检测到用户2310。显示设备2301可以是能够显示个体的可视表示的任何设备。例如,显示设备可以是个体计算机、膝上型计算机、移动电话、平板电脑、电视、电影屏幕、手持游戏设备、视频会议设备(例如,facebook门户
tm
等)、婴儿监视器等。个体2310的可视表示可以是个体2310的实时视频馈送,诸如视频呼叫、会议呼叫、监视视频等。在其他实施例中,个体2310的可视表示可以是预录制的视频或图像,诸如视频消息、电视节目或电影。处理器210可以基于个体2310的可视表示来检测一个或多个面部特征,包括个体2310的嘴2311。
251.图23c示出了符合所公开实施例的示例性唇部跟踪系统。处理器210可以被配置为检测个体2310的一个或多个面部特征,其可以包括但不限于个体的嘴2311。因此,处理器210可以使用一种或多种图像处理技术来识别用户的面部特征,诸如卷积神经网络(cnn)、
尺度不变特征变换(sift)、定向梯度直方图(hog)特征或其他技术。在一些实施例中,处理器210可以被配置为检测与个体2310的嘴2311相关联的一个或多个点2320。点2320可以表示个体的嘴的一个或多个特征点,诸如沿着个体的唇部或个体的嘴角的一个或多个点。图23c中所示的点仅用于说明目的,并且应理解的是,可以经由一种或多种图像处理技术来确定或识别用于跟踪个体的唇部的任何点。可以在各种其他位置检测点2320,包括与个体的牙齿、舌头、脸颊、下巴、眼睛等相关联的点。处理器210可以基于点2320或基于所捕捉的图像来确定嘴2311的一个或多个轮廓(例如,由线或多边形表示)。该轮廓可以表示整个嘴2311,或者可以包括多个轮廓,例如包括表示上唇的轮廓和表示下唇的轮廓。每个唇还可以由多个轮廓来表示,诸如每个唇的上边缘的轮廓和每个唇的下边缘的轮廓。处理器210还可以使用各种其他技术或特性,诸如颜色、边缘、形状或运动检测算法来识别个体2310的唇部。可以在多个帧或图像上跟踪识别出的唇部。处理器210可以使用一种或多种视频跟踪算法,诸如均值漂移跟踪、轮廓跟踪(例如,压缩算法)或各种其他技术。因此,处理器210可以被配置为实时跟踪个体2310的唇部的运动。
252.如果需要,可以使用跟踪的个体2310的唇部移动来分离,并选择性地调节用户100的环境中的一个或多个声音。图24是示出符合本公开的使用唇部跟踪助听器的示例性环境2400的示意图。用户100佩戴的装置110可以被配置为识别环境2400内的一个或多个个体。例如,装置110可以被配置为使用相机1730来捕捉周围环境2400的一个或多个图像。所捕捉的图像可以包括个体2310和2410的表示,他们可以存在于环境2400中。处理器210可以被配置为使用上述方法来检测个体2310和2410的嘴并跟踪他们各自的唇部移动。在一些实施例中,处理器210还可以被配置为例如如前面所讨论的通过检测个体2310和2410的面部特征并将其与数据库进行比较来识别个体2310和2410。
253.除了检测图像之外,装置110可以被配置为检测用户100的环境中的一个或多个声音。例如,麦克风1720可以检测环境2400内的一个或多个声音2421、2422和2423。在一些实施例中,声音可以表示各种个体的语音。例如,如图24所示,声音2421可以表示个体2310的语音,并且声音2422可以表示个体2410的语音。声音2423可以表示环境2400内的附加语音和/或背景噪声。处理器210可以被配置为分析声音2421、2422和2423,以分离并识别与语音相关联的音频信号。例如,处理器210可以使用一种或多种语音或语音活动检测(vad)算法和/或上述语音分离技术。当在环境中检测到多个声音时,处理器210可以隔离与每个语音相关联的音频信号。在一些实施例中,处理器210可以对与检测到的语音活动相关联的音频信号执行进一步分析,以识别个体的语音。例如,处理器210可以使用一种或多种语音识别算法(例如,隐式马尔可夫模型、动态时间规整、神经网络或其他技术)来识别个体的语音。处理器210还可以被配置为使用各种语音到文本算法来识别个体2310所说的词语。在一些实施例中,替代使用麦克风1710,装置110可以通过诸如无线收发器530的通信组件从另一设备接收音频信号。例如,如果用户100正在进行视频呼叫,则装置110可以从显示设备2301或另一辅助设备接收表示用户2310的语音的音频信号。
254.处理器210可以基于唇部移动和检测到的声音来确定环境2400中的哪些个体正在说话。例如,处理器2310可以跟踪与嘴2311相关联的唇部移动,以确定个体2310正在说话。可以在检测到的唇部移动和接收到的音频信号之间进行比较分析。在一些实施例中,处理器210可以基于在检测到声音2421的同时嘴2311正在运动的确定来确定个体2310正在说
话。例如,当个体2310的唇部停止运动时,这可对应于与声音2421相关联的音频信号中的静默或减小音量的时段。在一些实施例中,处理器210可以被配置为确定嘴2311的特定运动是否对应于接收到的音频信号。例如,处理器210可以分析接收到的音频信号以识别接收到的音频信号中的特定音素、音素组合或词语。处理器210可以识别嘴2311的特定唇部移动是否对应于识别出的词语或音素。可以实现各种机器学习或深度学习技术来将预期的唇部移动与检测到的音频相关联。例如,可以将已知声音和对应的唇部移动的训练数据集馈送到机器学习算法,以开发用于将检测到的声音与预期的唇部移动相关联的模型。与装置110相关联的其他数据还可以结合检测到的唇部移动来确定和/或验证个体2310是否在说话,诸如用户100或个体2310的视线方向、检测到的用户2310的身份、识别出的用户2310的声纹等。
255.基于检测到的唇部移动,处理器210可以引起对与个体2310相关联的音频的选择性调节。调节可以包括相对于其他音频信号放大被确定为对应于声音2421(其可对应于个体2310的语音)的音频信号。在一些实施例中,放大可以例如通过相对于其他信号处理与声音2421相关联的音频信号来数字化地实现。另外地或者可替代地,可以通过改变麦克风1720的一个或多个参数来实现放大,以聚焦于与个体2310相关联的音频声音。例如,麦克风1720可以是定向麦克风,处理器210可以执行将麦克风1720聚焦在声音2421上的操作。可以使用用于放大声音2421的各种其他技术,诸如使用波束成形麦克风阵列、声学望远镜技术等。经调节的音频信号可以被发送到听觉接口设备1710,并且因此可以向用户100提供基于正在说话的个体而调节的音频。
256.在一些实施例中,选择性调节可以包括衰减或抑制与个体2310不相关联的一个或多个音频信号,诸如声音2422和2423。类似于声音2421的放大,声音的衰减可以通过处理音频信号或通过改变与麦克风1720相关联的一个或多个参数来发生,以指引焦点离开与个体2310不相关联的声音。
257.在一些实施例中,调节还可以包括改变对应于声音2421的一个或多个音频信号的音调,以使该声音对于用户100更易感知。例如,用户100可能对特定范围内的音调具有较小的敏感度,并且音频信号的调节可以调整声音2421的音高。例如,用户100可能经历10khz以上的频率中的听觉损失,并且处理器210可以将更高的频率(例如,在15khz处)重新映射到10khz。在一些实施例中,处理器210可以被配置为改变与一个或多个音频信号相关联的语速。处理器210可以被配置为改变个体2310的语速,以使检测到的语音对于用户100更易感知。如果已经对与声音2421相关联的音频信号执行了语音识别,则调节还可以包括基于检测到的语音来修改音频信号。例如,处理器210可以在词语和/或句子之间引入停顿或增加停顿的持续时间,这可以使语音更容易理解。可以执行各种其他处理(诸如修改声音2421的音调),以维持与原始音频信号相同的音高,或者降低音频信号内的噪声。
258.然后可以将经调节的音频信号发送到听觉接口设备1710,然后为用户100产生音频信号。因此,在经调节的音频信号中,声音2421(可以比声音2422和2423更响亮和/或更容易区分)。
259.处理器210可以被配置为基于与音频信号相关联的哪些个体当前正在说话来选择性地调节多个音频信号。例如,个体2310和个体2410可以参与环境2400内的对话,并且处理器210可以被配置为基于个体2310和个体2410的相应唇部移动来从与声音2421相关联的音频信号的调节转换到与声音2422相关联的音频信号的调节。例如,个体2310的唇部移动可
以指示个体2310已经停止说话,或者与个体2410相关联的唇部移动可以指示个体2410已经开始说话。因此,处理器210可以在选择性地调节与声音2421相关联的音频信号到与声音2422相关联的音频信号之间转换。在一些实施例中,处理器210可以被配置为同时处理和/或调节两个音频信号,但仅基于哪个个体正在说话而选择性地将经调节的音频发送到听觉接口设备1710。在实现语音识别的情况下,处理器210可以基于语音的背景来确定和/或预期说话者之间的转换。例如,处理器210可以分析与声音2421相关联的音频信号,以确定个体2310已经到达句子的结尾或已经问了一个问题,这可以指示个体2310已经结束或即将结束说话。
260.在一些实施例中,处理器210可以被配置为在多个活跃说话者之间进行选择,以选择性地调节音频信号。例如,个体2310和2410可能同时都在说话,或者他们的讲话可能在对话期间重叠。处理器210可以相对于其他人选择性地调节与一个说话个体相关联的音频。这可以包括给予一个已经开始但没有完成一个词语或句子或者当另一个说话者开始讲话时他还没有完全完成讲话的说话者优先级。如上所述,该确定还可以由语音的背景驱动。
261.在选择活跃的说话者时,还可以考虑各种其他因素。例如,可以确定用户的视线方向,并且可以在活跃的说话者中给予用户视线方向上的个体更高的优先级。还可以基于说话者的视线方向来分配优先级。例如,如果个体2310正在看着用户100,而个体2410正在看着其他地方,则可以选择性地调节与个体2310相关联的音频信号。在一些实施例中,可以基于环境2400中其他个体的相对行为来分配优先级。例如,如果个体2310和个体2410都在说话,并且看着个体2410的其他个体比看着个体2310的更多,则与个体2410相关联的音频信号可以优先于与个体2310相关联的音频信号被选择性地调节。在确定个体的身份的实施例中,如前面更详细地讨论的,可以基于说话者的相对状态来分配优先级。用户100还可以通过预定义设置或通过主动选择要聚焦于哪个说话者来提供对哪些说话者被优先的输入。
262.处理器210还可以基于如何检测个体2310的表示来分配优先级。尽管个体2310和个体2410被示出为物理地存在于环境2400中,但如图23b所示,一个或多个个体可以被检测为个体的可视表示(例如,在显示设备上)。处理器210可以基于说话者是否物理地存在于环境2400中来对其进行优先级排序。例如,处理器210可以将物理上存在的说话者优先于显示器上的说话者。可替代地,例如,如果用户100在视频会议上,或者如果用户100在观看电影,则处理器210可以将视频优先于房间中的说话者。用户100还可以使用与装置110相关联的用户界面来指示优先化的说话者或说话者类型(例如存在或不存在)。
263.图25是示出符合所公开实施例的用于基于跟踪的唇部移动来选择性地放大音频信号的示例性过程2500的流程图。过程2500可以由与装置110相关联的一个或多个处理器(诸如处理器210)来执行。处理器可以包括在与也可以用于过程2500的麦克风1720和相机1730相同的公共外壳中。在一些实施例中,过程2500的一些或全部可以在装置110外部的处理器上执行,它们可以包括在第二外壳中。例如,过程2500的一个或多个部分可以由听觉接口设备1710或诸如计算设备120或显示设备2301的辅助设备中的处理器来执行。在这样的实施例中,处理器可以被配置为经由公共外壳中的发送器与第二外壳中的接收器之间的无线链路接收所捕捉的图像。
264.在步骤2510中,过程2500可以包括接收由可穿戴相机从用户的环境捕捉的多个图像。图像可以由诸如装置110的相机1730的可穿戴相机捕捉。在步骤2520中,过程2500可以
包括识别在多个图像中的至少一个中的至少一个个体的表示。可以使用各种图像检测算法来识别个体,诸如haar级联、定向梯度直方图(hog)、深度卷积神经网络(cnn)、尺度不变特征变换(sift)等。在一些实施例中,处理器210可以被配置为例如如图23b所示从显示设备检测个体的可视表示。
265.在步骤2530中,过程2500可以包括基于对多个图像的分析来识别与个体的嘴相关联的至少一个唇部移动或唇部位置。处理器210可以被配置为识别与个体的嘴相关联的一个或多个点。在一些实施例中,处理器210可以开发与个体的嘴相关联的轮廓,该轮廓可以定义与个体的嘴或唇部相关联的边界。可以在多个帧或图像上跟踪在图像中识别出的唇部,以识别唇部移动。因此,处理器210可以使用如上所述的各种视频跟踪算法。
266.在步骤2540中,过程2500可以包括接收表示由麦克风从用户的环境捕捉的声音的音频信号。例如,装置110可以接收表示由麦克风1720捕捉的声音2421、2422和2423的音频信号。在步骤2550中,过程2500可以包括基于对麦克风捕捉的声音的分析,识别与第一语音相关联的第一音频信号和与不同于第一语音的第二语音相关联的第二音频信号。例如,处理器210可以识别与分别表示个体2310和2410的语音的声音2421和2422相关联的音频信号。处理器210可以使用任何当前已知或未来开发的技术或算法来分析从麦克风1720接收的声音以分离第一和第二语音。步骤2550还可以包括识别附加声音(诸如声音2423),其可以包括用户环境中的附加声音或背景噪声。在一些实施例中,处理器210可以对第一和第二音频信号执行进一步的分析,例如,通过使用个体2310和2410的可用声纹来确定他们的身份。可替代地或者另外地,处理器210可以使用语音识别工具或算法来识别个体的语音。
267.在步骤2560中,过程2500可以包括基于确定第一音频信号与识别出的与个体的嘴相关联的唇部移动相关联来对第一音频信号进行选择性调节。处理器210可以将识别出的唇部移动与在步骤2550中识别出的第一和第二音频信号进行比较。例如,处理器210可以将检测到的唇部移动的定时与音频信号中的语音模式的定时进行比较。在检测到语音的实施例中,如上所述,处理器210还可以将特定唇部移动与在音频信号中检测到的音素或其他特征进行比较。因此,处理器210可以确定第一音频信号与检测到的唇部移动相关联,并且因此与正在说话的个体相关联。
268.如上所述,可以执行各种形式的选择性调节。在一些实施例中,调节可以包括改变音频信号的音调或重放速度。例如,调节可以包括重新映射音频频率或改变与音频信号相关联的语速。在一些实施例中,调节可以包括相对于其他音频信号放大第一音频信号。放大可以通过各种手段来执行,诸如方向性麦克风的操作、改变与麦克风相关联的一个或多个参数、或数字化处理音频信号。调节可以包括衰减或抑制与检测到的唇部移动不相关联的一个或多个音频信号。衰减的音频信号可以包括与在用户的环境中检测到的其他声音(包括诸如第二音频信号的其他语音)相关联的音频信号。例如,处理器210可以基于确定第二音频信号与识别出的与个体的嘴相关联的唇部移动不相关联来选择性地衰减第二音频信号。在一些实施例中,处理器可以被配置为当识别出的第一个体的唇部移动指示第一个体已经完成句子或已经完成说话时,从与第一个体相关联的音频信号的调节转换到与第二个体相关联的音频信号的调节。
269.在步骤2570中,过程2500可以包括使经选择性调节的第一音频信号向被配置为向用户的耳朵提供声音的听觉接口设备的传输。例如,经调节的音频信号可以被发送到听觉
接口设备1710,其可向用户100提供对应于第一音频信号的声音。还可以发送诸如第二音频信号的附加声音。例如,处理器210可以被配置为发送对应于声音2421、2422和2423的音频信号。然而,可能与检测到的个体2310的唇部移动相关联的第一音频信号可以如上所述相对于声音2422和2423被放大。在一些实施例中,听觉接口设备1710可以包括与听筒相关联的扬声器。例如,听觉接口设备可以至少部分地插入用户的耳朵中,用于向用户提供音频。听觉接口设备也可以在耳朵外部,诸如耳后听觉设备、一个或多个耳机、小型便携式扬声器等。在一些实施例中,听觉接口设备可以包括骨传导麦克风,其被配置为通过用户头骨的振动向用户提供音频信号。这样的设备可以与使用者的皮肤外部接触放置,或者可以通过外科手术植入并附接到使用者的骨骼上。
270.多模式助听器
271.根据本公开的实施例,助听器系统可以包括配置为从用户的环境捕捉多个图像的可穿戴相机。在各种实施例中,助听器系统可以包括被配置为从用户的环境捕捉声音的至少一个麦克风。在一些实施例中,助听器系统可以包括多于一个麦克风。在示例实施例中,助听器系统可以包括用于捕捉第一波长范围内的音频信号的第一麦克风和用于捕捉第二波长范围内的音频信号的第二麦克风。在示例实施例中,助听器系统可以包括多个相机和/或多个麦克风。例如,图26示出了可以佩戴装置110的用户2601,装置110可以包括相机2617a和2617b以及麦克风2613。如本文所述,装置110可以在不同位置附接到用户2601。例如,装置110可以物理地连接到衬衫、项链、腰带、眼镜、腕带、纽扣等。
272.装置110可以被配置为与诸如如图26所示的听觉接口设备2615的听觉接口设备进行通信。在一个示例实施例中,听觉接口设备2615、装置110以及各种相机和麦克风形成助听器系统。在一些实施例中,装置110可以分别从其他相机和麦克风接收视频和音频数据。相机2617a可以指向第一方向(例如,前方),并且相机2617b可以指向前方或侧向。应当理解,相机2617a和2617b的特定朝向仅是说明性的,并且可以使用这些相机的任何其他合适朝向。虽然听觉接口设备2615被示出为附接到用户2601的耳朵之一,但在一些实施例中,听觉接口设备2615可以具有配置为附接到左耳的左部分(示出)和配置为附接到右耳的右部分(未示出)。
273.应当理解,相机2617a-2617b可以是具有任何合适光学元件的任何合适相机。例如,相机2617a可以具有第一分辨率,并且相机2617b可以具有第二(例如,更高)分辨率。相机可以被配置为经由能够检测任何合适波长光谱(例如,近红外、红外、可见和紫外光谱)中的任何合适光学信号的图像传感器来捕捉图像数据。在一些情况下,相机2617b-2617b可以被配置为捕捉图像,并且在其他情况下,相机2617a-2617b可以被配置为捕捉视频数据。相机2617a-2617b可以包括光学镜头(例如,用于创建宽全景或半球形图像或视频的鱼眼超广角镜头)。在一些情况下,诸如潜望镜镜头的变焦镜头可用于变焦到用户2601的环境中的不同对象。在示例实施例中,相机2617a-2617b可以被配置为朝着麦克风2613检测到的音频信号的方向变焦。在一些情况下,相机2617a-2617b可以具有框架系统以消除振动和/或保持相机的某些方向。如上所述,相机2617a-2617b可以在红外光谱中工作,特别是在黑暗环境中。这样的相机可以包括红外手电筒,并且可以被配置为检测周围人的皮肤温度(例如,皮肤温度可以用于检测黑暗环境中附近的说话者)。
274.装置110可以包括至少一个处理器2641,其被编程为接收由可穿戴相机(例如,由
相机2617a)捕捉的多个图像。处理器2641可以被配置为使用基于计算机的模型通过分析由可穿戴相机(例如,相机2617b)收集的图像来分析用户2601的环境。在示例实施例中,相机2617b可以检测可产生音频信号的儿童2602的存在,并且可以检测用户2601的环境中可产生音频信号的其他对象(例如,相机2617b可以检测可产生音频信号的猫2603、可以经由会议软件2618产生音频信号的计算机2619的存在等等)。在各种实施例中,处理器2641可以执行被配置为如本文所讨论的分析和识别图像数据(或视频数据)内的对象、人或动物的合适的软件应用程序。除了处理器2641是装置110的一部分之外,听觉接口设备2615还可以包括被配置为修改各种音频信号并将修改后的音频信号提供给用户2601的耳朵的处理器。在一些情况下,与听觉接口设备2615相关联的处理器可以执行由处理器2641执行的一些(或全部)功能。
275.在示例实施例中,装置110的处理器2641可以分析一个或多个捕捉的图像。例如,处理器2641可以被配置为接收由相机2617a-2617b捕捉的人的各种图像或特性。此外,装置110可以被配置为与可以存储各种对象和/或人的图像的服务器进行通信。在示例实施例中,装置110可以从服务器上传或下载图像。此外,装置110可以执行对存储在服务器处的图像(或视频)的搜索。类似于上面讨论的实施例,处理器2641可以使用基于计算机的模型来分析和识别对象。在示例实施例中,基于计算机的模型可以包括训练过的神经网络(诸如卷积神经网络(cnn))。在一些情况下,面部特征可以通过合适的基于计算机的模型来分析。例如,可以使用诸如cnn的基于计算机的模型来分析图像,并将在捕捉的图像中识别出的人的面部特征或面部特征之间的关系与在服务器的数据库中存储的图像中发现的人的面部特征或两者之间的关系进行比较。在一些实施例中,可以将人的面部动态运动的视频与从数据库获得的各种人的视频数据记录进行比较,以便确定在视频中捕捉的人是辨识出的个体。
276.如本文所述,听觉接口设备2615可以是被配置为向用户2601提供听觉反馈的任何设备。听觉接口设备2615可以被放置在用户2601的一个或两个耳朵中,类似于传统的听觉接口设备。听觉接口设备2615可以是各种样式的,包括耳道内、完全耳道内、耳内、耳后、耳上、耳道内接收器、开放安装或各种其他样式。听觉接口设备2615可以包括用于向用户2601提供听觉反馈的一个或多个扬声器、用于检测用户2601的环境中的声音的麦克风、内部电子设备、处理器、存储器等。听觉接口设备2615可以包括用于手动调整由听觉接口设备发送的音频信号的音频信号参数(例如,响度、音高等)的听觉接口(例如,按钮)。在一些情况下,设备2615可以包括用于执行音频信号操纵的处理器、电源(例如,可充电电池)、可选的无线通信设备(其可以包括天线)和一组麦克风。
277.在各种实施例中,处理器2641被配置为接收表示由至少一个麦克风从用户2601的环境捕捉的声音的多个音频信号。这样的信号可以是由用户2601的环境中的各种实体产生的声音的组合。例如,声音可以包括儿童2602在说话,同时猫2603在喵喵叫,或/和人的群组正试图经由计算机2619(例如,通过会议软件2618)与用户2601通信。在各种实施例中,音频信号可能重叠,导致声音的杂音。具有多个声音的这样的音频环境可以被称为嘈杂环境,并且这样的环境可以显著不同于相对无噪声(在本文也被称为平静)的环境。如图26所示的嘈杂环境是这种环境的一个示例。嘈杂环境的其他示例可以包括具有多个个体讲话的聚会、具有多个个体在背景上讲话的电视节目(背景可以包括街道声音、音乐等)、戏剧、会议、晚
餐、演讲、基于计算机的会议、酒吧或餐馆中的对话、背景上的对话(例如,在繁忙的道路或建筑工地旁边的对话)、公共交通工具(例如,公共汽车、火车、船或飞机)等。平静环境的示例可以包括私人办公室、图书馆、两个体在安静的地方对话,等等。
278.在各种实施例中,装置110的处理器2641可以执行被配置为分析用户2601的环境的可视和音频数据并确定用户是在嘈杂环境中还是在平静环境中的软件指令。虽然可以理解,分析是由执行软件指令的处理器2641执行的,但是软件指令可以是任何合适的指令并且可以包括机器学习算法,为了简洁起见,处理器可以执行程序指令以分析各种声音并引起影响用户2601经由听觉接口设备2615接收的音频信号的声音特性的各种动作。
279.取决于环境类型(例如,噪声或平静环境,或各种其他区别),处理器2641可以被配置为当从环境接收不同类型的音频信号时以不同模式操作。在示例实施例中,当处理器2641确定环境平静时,处理器可以在第一模式下操作,第一模式可以包括对多个音频信号中的至少一个音频信号(在本文称为第一音频信号)的特定选择性调节(在本文称为第一选择性调节)。在一些情况下,当环境足够平静时,处理器2641可以被配置为不提供对第一音频信号的调节,并经由听觉接口设备2615直接将第一音频信号发送到用户2601。可替代地,可以执行至少一些第一选择性调节。例如,噪声(例如,风扇的背景噪声)可以被抑制,而人的语音的声音可以被放大。在一些情况下,听觉系统2650可以被配置为确定人的语音是否部分听不见或不清楚(例如,处理器2641可以被配置为执行语音识别),并且当确定语音部分听不见或不清楚(例如,该人没有足够大声或清楚地说一些词语)时,可以修改人的语音,使得语音清晰度得到提高。在示例实施例中,可以转录人的语音,并且可以经由自然阅读语音(这种过程可称为语音渲染)将转录的文本读给用户2601,以清晰与用户2601交互的人的语音。在示例实施例中,语音渲染可以用于移除说话者的口音或将不同的口音重新应用到语音。在示例实施例中,人的语音的原始音频信号可以与渲染的语音组合(例如,变形),以便在清晰语音的同时保留说话者的一些自然特性。语音渲染可以包括改变说话的人的音高(例如,如果用户2601难以识别特定频率,则这种渲染可能是有益的)、人的语音的抑扬顿挫、人的语音的响度或人的语音的任何其他特性(例如,滤波器可以被应用于人的语音以将人的声音从男声改变为女声)。
280.需要注意的是,即使在平静的环境中,也可以有几种声音来源(例如,两个体悄悄地与第三人交流,背景中播放安静音乐的声音等等)。在示例实施例中,装置110可以包括用于调整要应用的第一选择性调节的参数的接口。在示例实施例中,这样的接口可以包括基于智能手机的接口,该接口使用例如具有图形用户元素的应用程序、可以是听觉系统2650的一部分的按钮或语音接口(例如,用户2601可以被配置为经由语音命令控制装置110)。除其他外,用户2601请求的用于控制第一选择性调节的至少一些参数的示例命令可以包括对用户2601说话(或向用户2601发出任何类型的音频信号)的说话者(或其他源)的数量。作为示例,当用户2601正在参加演讲(演讲是相对平静的环境)时,他或她可能希望只听到演讲者,而不听到背景噪声或其他人的讲话。对于这种情况,用户2601可以指示听觉系统2650(即,经由适当的软件应用程序的处理器2641)降低环境音频信号(即,与演讲者的语音无关的信号)的振幅,并且在一些情况下放大演讲者的语音。在演讲者远离用户的情况下,用户2601可以指示听觉系统2650提高演讲者讲话的清晰度。在一些情况下,对听觉系统2650的指令还可以包括如上所述改变演讲者的口音,将演讲者的语音翻译成由用户2601选择的不
同语言,或者应用任何其他形式的修改。作为另一示例,当用户2601在社交活动中并与几个体交谈时,他或她可能希望在几个体中的每一个体说话时听到他们中的每一个体。在一些情况下,用户2601可能希望或可能不希望听到自己,或者她可能更喜欢以较低的振幅听到自己。在这种情况下,用户2601可以指示装置110降低他或她声音的振幅。用户感知语音的这种改变可以是第一选择性调节的另一示例。另外,如上所述,当捕捉其他音频信号(例如,其他个体的讲话)时,用户2601可能希望听到较低振幅的背景噪声(或不听到),但当助听器2650的一个或多个麦克风没有检测到其他音频信号时,用户2601可能希望听到更高振幅的背景噪声。
281.在用户处于相对嘈杂的环境中的情况下,可以执行助听器系统的不同操作模式(在本文中,这样的不同操作模式被称为第二操作模式)。在示例实施例中,装置110的处理器2641可以在第二模式下操作,该第二模式可以包括多个音频信号中的至少一个音频信号的特定选择性调节模式(在本文称为第二选择性调节)。在一些情况下,处理器2641可以基于对多个图像或多个音频信号中的至少一个的分析,确定切换到第二模式以引起对第一音频信号的第二选择性调节,该第二选择性调节相对于第一选择性调节在至少一个方面不同。例如,当环境嘈杂时,处理器2641可以被配置为提供与第一选择性调节相比更强的音频信号调节。在示例实施例中,选择性调节的强度可以被定义为在合适度量下比较经调节的音频信号与未调节的音频信号时的音频信号的差值。合适的度量可以确定经调节音频信号与为调节音频信号的音高差,或者振幅、节奏、时间拉伸,或者可用于表征音频信号的任何其他合适参数的差值。在各种实施例中,第二选择性调节相对于第一选择性调节可在至少一个方面不同。
282.第二选择性调节的示例可以包括在使用计算机2619经由网络会议进行通信时降低来自儿童2602的音频信号的振幅。类似地,第二选择性调节可以包括在经由网络会议进行通信时减少环境噪声(例如,来自猫2603的噪声或任何其他屋内噪声)。
283.在各种实施例中,使用第一选择性调节还是第二选择性调节的确定可以自动地或手动地进行(即,通过利用诸如图形界面、按钮的合适界面或声控命令经由来自用户2601的命令)。在示例实施例中,处理器2641可以通过确定用户2601的环境是平静还是嘈杂来执行自动确定。例如,处理器2641可以在其确定环境平静时切换到第一选择性调节,并且可以在其确定环境嘈杂时切换到第二选择性调节。在一些情况下,在切换操作期间,部分地维持第一选择性调节,而第二选择性调节叠加在第一选择性调节上。例如,如果用户2601在没有环境噪声干扰的情况下经由网络会议进行通信,则第一选择性调节可以包括如上所述的降低用户2601语音的振幅。然而,当儿童2602进入房间从而产生嘈杂环境时,处理器2641可以切换到第二选择性调节,并在维持第一选择性调节的同时降低所感知到的儿童声音的振幅。在示例实施例中,与儿童2602的到达相关联的图像数据(或诸如猫2603的到达的其他图像数据)可以触发处理器2641以确定用户2601即将沉浸在嘈杂环境中,并且结果,处理器2641可以确定在处理用户2601的环境中的音频信号时需要使用第二选择性调节。
284.在一些情况下,用户2601可以确定一组参数(例如,经由用于装置110的合适接口),使得当观察到这些参数时,处理器2641可以确定用户2601可能处于嘈杂环境中。例如,可能参数的列表包括音频和图像/视频参数。音频参数可以包括在给定时间间隔期间音频信号的最大振幅、音频频率的最大变化、在给定时间间隔上平均的音频信号的最大振幅、作
为音频频率函数的最大振幅的分布等。图像/视频参数可以包括对象在用户2601的环境中移动的速度、在用户2601的环境中捕捉的图像的图像梯度的变化率、由处理器2641的图像识别软件(或处理器2641经由在用户2601的环境中捕捉的图像数据的传输与之通信的设备的图像识别软件)识别的用户2601的环境中的对象、人或动物的存在。在一些情况下,用户2601的环境中的对象的运动与在用户2601的环境中检测到的音频信号之间的时间相关性可以用于确定用户2601的环境是嘈杂的还是平静的。例如,如果用户2601周围的对象的运动可能与发出的声音不相关,并且发出的声音的振幅低,则处理器2641可以得出用户2601的环境相对平静的结论。可替代地,如果处理器2641确定声音可能是在用户2641的环境中的对象快速移动之后(可能具有一些时间延迟)发出的,则处理器2641可以断定用户2601的环境是混乱的。在一些情况下,环境是平静还是嘈杂的确定可以基于在用户2601周围执行的动作(例如,处理器2641可以通过分析图像数据来检测电话正在被用户2601旁边的人拿起、乐队即将开始演出、用户2601正在进入繁忙的街道等)。
285.在一些情况下,装置110还可以被配置为与各种其他设备交换数据,以确定用户2601是放置在嘈杂的还是平静的环境中。例如,装置110可以被配置为与智能手机(或能够与系统2650交换数据的类似电子设备)交互,智能手机具有否则装置110不必要访问的各种传感器。在示例实施例中,智能手机可以使用gps位置来确定用户2601是否处于嘈杂环境中(例如,如果gps指示用户2601在酒吧中,则智能手机可以(经由与装置110相关的合适软件)断定用户2601处于嘈杂环境中)。另外,如果智能手机记录了与一些其他因素(例如,过度噪声,其又可以跟随/先于/与振动一致)相结合的大声振动,则智能手机可以确定用户2601是否处于嘈杂环境中。在一些实施例中,用户日历中的诸如演讲、会议、音乐会等事件可以提供用户处于平静或嘈杂环境中的指示。在一些情况下,在由装置110或与装置110交互的智能手机收集的图像数据中识别特定个体(例如,儿童2602)可以向处理器2641指示用户2601处于嘈杂环境中。类似地,识别特定音频信号(例如,儿童2602的声音)可以向处理器2641指示用户2601处于嘈杂环境中。
286.在一些实施例中,装置110的操作模式可以根据用户2601的环境自动改变,其中环境不必被分类为嘈杂或平静。例如,特定环境(例如,与用户2601相关联的事件)可能使得处理器2641(或相关联的设备,诸如智能手机)确定装置110应在特定模式下操作。例如,当用户2601正在进入特定位置(例如,演讲室)时,处理器2641可以确定切换到特定操作模式(例如,第一选择性调节),其中仅将来自一个说话者的音频信号发送到听觉接口设备2615。作为另一示例,当用户2601离开位置(例如,演讲室)时,处理器2641(和/或相关联的设备)可以确定切换到另一操作模式(例如,第二选择性调节),在该模式下当那些个体中的一个正在说话时(当几个个体同时说话时)来自多个个体的音频信号可以被发送到听觉接口设备2615,处理器2641可以基于本文讨论的各种可能因素(例如个体与用户2601的接近程度、个体是否在用户2601的前面、用户2601是否在看着该个体等)来确定放大哪个音频信号和衰减哪个音频信号。
287.由处理器2641(或由诸如与处理器2641通信的智能手机之类的相关设备)确定用户2601是处于嘈杂还是平静的环境中,并在第一选择性调节与第二选择性调节之间自动切换,可以是选择音频信号调节的一种可能方式。可替代地,如上所讨论的,可以向用户2601提供用于手动确定是应用第一选择调节还是第二选择调节的合适界面。例如,用户2601可
以通过操作用户界面来选择期望的操作模式,该用户界面例如显示在与装置110耦合的设备(诸如智能手机、膝上型计算机等)上。
288.如所讨论的,处理器2641(或经由合适接口的用户2601)可以被配置为区分嘈杂环境或平静环境。然而,这样的环境分类只是一个可能的示例,并且可以使用任何其他合适的分类,这可以导致装置110的操作模式的区分。
289.图27a示意性地示出了用于确定装置110的操作模式的过程2701。例如,在过程2701的步骤2711处,处理器2641(或诸如智能手机的相关设备)可以被配置为确定用户(例如,用户2601)的环境类型。在步骤2713处,处理器2641可以评估环境类型是否对应于多个可能类型中的一个(例如,环境可以被评估为a型、b型或c型环境),并且基于环境的类型,可以选择具有对应选择性调节的对应操作模式(例如,可以选择具有对应选择性调节2715a-c的操作模式a-c)。
290.图27b示出了符合所公开的实施例的用于将经选择性调节的音频信号发送到听觉接口设备2615的示例过程2702。在过程2702的步骤2721处,装置110的处理器2641被配置为接收用户(例如,用户2601)的环境的图像/视频。在步骤2723处,来自用户2601的环境的音频信号也可以由处理器2641接收。在各种实施例中,来自环境的音频信号可以包括在用户2601的环境中检测到的所有音频声音,诸如在用户2601的环境中的个体的语音和环境噪声。在过程2702的步骤2725处,处理器2641可以被配置为分析在步骤2711和步骤2713中收集的音频和图像数据。在步骤2725处,处理器2641可以被配置为如上所述在第一模式下操作以引起对第一音频信号的第一选择性调节。在步骤2727处,处理器2641可以被配置为基于图像分析或音频分析来确定切换到第二模式以引起对第一音频信号的第二选择性调节,第二选择性调节在至少一个方面不同于第一选择性调节。例如,如上所述,当用户2601的环境嘈杂时,处理器2641可以被配置为提供对第一音频信号的更强调节(例如,增加第一音频信号的振幅)。
291.在步骤2729处,处理器2641可以被配置为将经调节的信号发送到听觉接口设备2615。注意,在过程2702的一些实施例中,仅将经调节的信号发送到设备2615。在其他实施例中,可以将经调节的信号和未经调节的其他信号两者发送到设备2615。
292.与所公开的实施例一致,可以通过识别在用户2601的环境中是否存在说话的个体来确定要应用的操作模式(例如,第一操作模式或第二操作模式)。例如,如果检测到该个体,则操作模式可以从第一操作模式切换到第二操作模式,对于第二操作模式,可以使用第二选择性调节,并且可以包括降低环境噪声和放大来自说话个体的音频信号。在示例性实施例中,背景(即,环境)噪声可以构成第一音频信号,并且第二选择性调节可以减少这种第一音频信号。在一些情况下,第二选择性调节可以包括改变音频信号之一(例如,第一音频信号)的音高、改变音频信号的振幅或对音频信号进行时间拉伸。
293.如上所述,第二选择性调节可以与第一选择性调节一起应用。例如,可以将第二选择性调节应用于第二音频信号,并且可以将第一选择性调节应用于第一音频信号。例如,如果第一音频信号是个体的语音,并且第二音频信号是背景噪声,则第一选择性调节可以包括放大语音的音量,而第二选择性调节可以包括降低背景噪声的振幅(或修改背景噪声的音高,使得其不易与第一音频信号混淆)。在一些情况下,第二选择性调节可以包括相对于第一音频信号衰减多个音频信号中的至少一个第二音频信号。另外地或可替代地,第一或
第二选择性调节之一可以包括相对于第一音频信号衰减多个音频信号中的至少一个第二音频信号的音高。在示例实施例中,当用户2601的环境中的个体不说话时,装置110可以使用第一选择性调节。然而,当个体开始说话时,系统2650可以自动切换到第二选择性调节。
294.在一些情况下,第一音频信号可以与第一个体的语音相关联,并且第二音频信号可以与第二个体的语音相关联。另外,在一些实施例中,第一音频信号可以与个体的第一群组相关联,并且第二音频信号可以与个体的第二群组相关联。
295.如前所述,用户2601可以通过向装置110提供指令来选择特定的选择性调节。在示例实施例中,指令可以包括选择可以从用户2601的环境中的多个音频信号生成音频信号子集的若干个个体,并请求使用特定类型的选择性调节(例如,第二选择性调节)来选择性地调节音频信号子集。在一些情况下,特定类型的选择性调节(例如,第二选择性调节)可以通过首先从多个音频信号中确定每个说话者的语音音频信号,并且对于给定时间点,确定具有小于阈值差的信号差的一对语音音频信号,来调节每个时间点在用户2601的环境中的至少一些音频信号。如前所述,可以使用合适的度量来测量信号差。例如,可以通过测量音高差、振幅、节奏、时间拉伸或可用于表征音频信号的任何其他合适参数的差值来测量该差值。然后,第二选择性调节可以包括通过改变来自该对语音音频信号的语音音频信号之一的基高、振幅或持续时间来将信号差放大到阈值之上。使用相应的过程2801和2802由图28a和图28b示意性地示出了这种过程的示例。在过程2801期间,可以使用如本文进一步描述的任何合适的方法将复合音频信号2811(其可以包含重叠的对话)分解为单独的音频信号2821-2825。在一些情况下,这些单独的音频信号(例如,信号2821和2823)可以重叠,并且在由时域2815和2817指示的一些时间间隔内可以相似(例如,这些信号可能足够相似,使得它们可能被用户2601混淆)。对于这种情况,选择性调节还可以包括至少对于时域2815和2817进一步区分信号2821和2823。如图28b中的过程2802所示,为了在信号2821与2823之间进行区分,可以经由基于计算机的应用2830改变信号2821和2823中的至少一个以放大使用合适度量测量出的差值(例如,放大差值使得其高于阈值差)。例如,如图28b所示,信号2817可以被改变(例如,时间拉伸)以得到信号2837,而信号2815可以被时间压缩并且其振幅可以被增加以产生信号2835。在示例实施例中,信号2835与信号2837之间的差值高于阈值,使得用户2601容易区分这些修改后的信号。
296.在一些实施例中,可以选择特定操作模式以优化装置110的资源使用。例如,如果在用户2601附近只有一个体,则装置110可以被配置为切换到单一说话者操作模式(例如,单一说话者操作模式可以不需要确定说话者的群组中的活跃说话者,因此,减少装置110的功耗,否则该功耗可以与确定不同说话者之间的振幅比相关联)。可以使用各种其他操作模式来降低装置110的功耗并延长电池寿命(例如,不严重依赖于与诸如智能手机、膝上型计算机等的外围设备的无线通信的操作模式、以每分钟仅收集几个图像为特征的操作模式、不需要任何音频分析的操作模式等)。
297.助听器系统(例如,助听器系统可以包括装置110、听觉接口设备2615、相机2617a-2617b以及麦克风2613)的处理器2641可以基于对用户2601的环境中的多个图像的分析或基于对用户2601的环境中的多个音频信号的分析来确定切换到第二模式(如上所述)。例如,如果用户2601的环境中的个体正在说话,则处理器2641可以切换到第二模式。
298.在示例实施例中,处理器2641可以在第一模式下操作以引起第一选择性调节。第
一选择性调节(如上所述)包括第一音频信号的放大。另外,处理器2641可以基于对多个图像或多个音频信号中的至少一个的分析,确定切换到第二模式以引起对第一音频信号的第二选择性调节,该第二选择性调节相对于第一选择性调节在至少一个方面不同。在示例实施例中,第二选择性调节可以包括相对于第一音频信号衰减多个音频信号中的至少一个第二音频信号。
299.在示例实施例中,第一音频信号可以与第一个体的语音相关联,并且第二音频信号可以与第二个体的语音相关联。
300.在示例实施例中,处理器2641可以被配置为基于与多个图像或多个音频信号中的至少一个相关联的背景来确定切换到第二模式。
301.在示例实施例中,处理器2641可以在活动模式控制下操作。在这种模式下,处理器2641可以例如在第一模式与第二模式之间自动切换。在活动模式中,除了其他之外,处理器2641可以控制其音频被发送给用户的若干个说话者。例如,如果用户正在参加一个演讲,他或她可能只想听到演讲者而不想听到背景噪声,或者其他人的讲话,等等。然而,如果用户处在社交事件中并与许多人交谈,则用户可能希望在他们说话时听到他们中的每一个体。用户可以想要或不想要听到他自己或她自己,或者可以想要以较低的振幅听到他自己或她自己。当捕捉其他音频时,用户可能希望听到或不听到背景噪声,但当没有捕捉其他音频时,用户可能希望听到一些振幅的背景噪声,等等。在一些实施例中,处理器2641的操作模式可以根据用户选择而变化。用户可以通过操作用户界面来选择期望的操作模式,该用户界面例如显示在耦合到听觉接口设备的设备(诸如装置110、智能手机、膝上型计算机等)上。在其他实施例中,操作模式可以根据用户和助听器系统的背景(例如,环境)来自动改变。例如,特定事件可以使处理器2641假设特定操作模式(例如,第一模式或第二模式)。例如,当进入被识别为演讲室的场所时,处理器2641可以切换到仅发送一个说话者的模式,而当离开该房间时,处理器2641可以切换到根据活跃说话者发送多个说话者的语音的模式。在示例实施例中,背景指示用户进入房间。可替代地,背景指示用户离开房间。
302.在示例实施例中,处理器2641可以被配置为基于与多个图像或多个音频信号中的至少一个相关联的背景来选择第一模式或第二模式。该背景指示用户参加演讲或指示用户参加社交事件。该背景可以指示用户进入演讲室,其中至少一个音频信号包括演讲者的语音,并且其中第一选择性调节包括对多个音频信号中的第一音频信号的放大以及衰减该多个音频信号中的至少另一个信号(诸如背景噪声)。背景可以指示用户离开演讲室,其中至少一个音频信号包括在演讲室之外的活跃说话者的语音,并且其中第一选择性调节包括对该语音的放大。在一些情况下,背景可以指示用户仅在一个体的预定距离内,并且其中至少一个音频信号包括该人的语音,并且其中第一选择性调节包括对该语音的放大。预定距离可以是任何合适的距离(例如,0.1米至5米范围内的距离)。在一些情况下,预定距离可以大于五米(例如,10米)。
303.在各种实施例中,如上所述,第一选择性调节包括改变至少一个音频信号的振幅。另外地或可替代地,第一选择性调节包括改变至少一个音频信号的音高。在一些情况下,如前所述,第一选择性调节包括对至少一个音频信号进行时间拉伸。
304.在一些实施例中,处理器2641可以被配置为基于从用户接收的选择来选择第一模式或第二模式。在示例实施例中,从诸如智能手机、膝上型计算机、智能手表、手镯或任何其
他合适的可穿戴电子设备的电子设备接收该选择。
305.针对熟人的自定义过滤器
306.根据本公开的实施例,用于有选择地调节声音的助听器系统可以包括如本文所述配置为从用户的环境捕捉多个图像的可穿戴相机(或多个可穿戴相机)。在各种实施例中,助听器系统可以包括一个或多个麦克风,它们被配置为如本文所述的捕捉来自用户环境的声音。如下文关于图26所描述的,助听器系统可以包括装置110和处理器2641。
307.在示例实施例中,处理器2641可以被配置为接收由相机(例如,如图26所示,相机2617a或2617b)捕捉的多个图像。另外,处理器2641可以被配置为如本文所述接收表示由至少一个麦克风从用户的环境捕捉的声音的多个音频信号。处理器2641可以被配置为识别由多个图像中的至少一个或由多个音频信号中的至少一个表示的至少一个辨识出的个体。在示例实施例中,装置110的处理器2641可以分析一个或多个捕捉的图像。例如,处理器2641可以被配置为接收由相机2617a或相机2617b捕捉的人的各种图像或特性。此外,装置110可以被配置为与可以存储各种对象和/或人的图像的服务器进行通信。在示例实施例中,装置110可以从服务器上传或下载图像。此外,装置110可以执行对存储在服务器处的图像(或视频)的搜索。
308.类似于上面讨论的实施例,处理器2641可以如本文所述使用基于计算机的模型来分析和识别对象。在一些情况下,面部特征可以通过合适的基于计算机的模型来分析。例如,可以使用基于计算机的模型来分析图像,并将在捕捉的图像中识别出的人的面部特征或面部特征之间的关系与在服务器的数据库中存储的图像中发现的人的面部特征或两者之间的关系进行比较。在一些实施例中,可以将人的面部动态运动的视频与从数据库获得的各种人的视频数据记录进行比较,以便确定在视频中捕捉的人是辨识出的个体。
309.图29示出了具有装置110的用户100,装置110可以包括相机2617a和麦克风2613。在示例实施例中,用户100可以面对产生由麦克风2613检测到的相应音频信号2921和2922的个体2911和个体2912。个体2911和个体2912的图像可以由相机2617a检测到。另外,麦克风2613可以检测音频信号2923(例如,来自用户100不可见的对象或人的声音)。使用图像数据识别个体(例如,识别个体2911)可以是一种可能的方法。可替代地,可以基于在音频信号2921中检测到的语音来识别个体2911。在示例实施例中,如上所讨论的,可以检测个体2911的声纹。例如,处理器2641可以确定声音2921对应于个体2911的语音。这可以使用诸如隐式马尔可夫模型、动态时间规整、神经网络或其他技术的语音识别软件(例如,这种语音识别软件可以由处理器2641执行)来执行。在一些情况下,处理器2641可以被配置为将音频信号(例如,2921和2922)上传到服务器,并且服务器可以被配置为通过将音频信号2921与音频信号2922隔离并进一步使用个体2911的声纹来确定信号2921属于个体2911来处理这些信号。对于语音识别,服务器可以访问数据库(例如,如图20b所示的数据库2050),该数据库还可以包括一个或多个个体的声纹。在基于例如个体2911的声纹确定音频信号2921与个体2911匹配之后,助听器系统可以将个体2911识别为辨识出的个体。
310.该识别过程可以单独使用或与上述图像识别技术(例如,面部识别技术)结合使用。例如,可以使用面部识别技术来识别个体2911,并且可以使用语音识别来验证个体2010,反之亦然。在一些情况下,个体讲话的视频可以用于该个体的识别。例如,面部特征(例如,个体2911的唇部移动)与音频信号2921的同步可以被用于将个体2911识别为说话
者。然后,可以使用针对该说话者提取的声纹来将与个体2911相关联的声音从音频信号2921中表示的其他声音中分离出来。在一些实施例中,可以对个体2911发出的音频执行诸如识别词语的附加处理,或者贯穿本公开描述的其他形式的处理。在各种实施例中,处理器2641可以识别一个或多个个体。例如,处理器2641可以被配置为识别个体2911和个体2912。
311.在一些实施例中,装置110可以如图29中所示与音频信号2923一样检测不在装置110的视场内的个体的语音。例如,语音可以通过免提电话、从车辆后座或类似的地方听到。在这样的实施例中,在视场中没有说话者的情况下,个体的识别可以仅基于个体的语音。
312.助听器系统的处理器(例如,处理器2641)可以被配置为从存储器中检索与至少一个辨识出的个体相关联的调节配置文件。调节配置文件可以是可由处理器2641执行的用于选择性地调节音频信号的任何合适指令集。选择性调节可以包括音频信号的放大或衰减、从音频信号中去除噪声(例如,抑制在音频信号中识别出的一些频率)等。在一些情况下,音频信号的一些部分可以被放大(例如,对应于个体2911的语音的音频信号可以被放大),而音频信号的其他部分(例如,背景音乐或个体2912的语音)可以被抑制。在一些情况下,处理器2641可以被配置为分析个体2911的语音并识别语音内的词语。如果在音频信号2921的一部分中不能清晰地识别出词语(例如,处理器2641确定在该部分中正确识别出词语的概率较低),则处理器2641可以被配置为选择性地调节该部分(例如,放大音频信号的该部分)。在一些情况下,处理器2641可以被配置为选择性地调节音频信号2921中不能识别其中的词语的部分,然后重复试图放大以识别该部分中的词语。可以多次执行这样的迭代以优化音频信号2921的选择性调节。
313.调节配置文件可以允许选择性地调节音频信号,使得例如修改个体2911的语音,从而提高语音的清晰度。在示例实施例中,语音渲染可以用于移除说话者的口音或将不同的口音重新应用到语音。在示例实施例中,人的语音的原始音频信号都可以与渲染的语音组合(例如,变形),以便在清晰语音的同时保留说话者的一些自然特性。语音渲染可以包括改变说话的人的音高(例如,如果用户100难以识别特定频率,则这种渲染可能是有益的)、人的语音的抑扬顿挫、人的语音的响度或人的语音的任何其他特性(例如,滤波器可以被应用于人的语音以将人的声音从男声改变为女声)。此外,选择性调节可以用于与个体2911的语音无关的背景声音的任何适当修改。
314.在各种实施例中,调节配置文件可以包括用于选择性地调节音频信号的信息。在一些情况下,对应于调节配置文件的指令可以包括任何合适的逻辑元素。例如,当选择性调节受制于针对音频信号的一部分(例如,在音频信号2921内)观察到的特定特性(例如,音高或响度)时,可以在调节配置文件中使用if逻辑子句。在执行选择性调节之后,处理器2641可以被配置为引起经调节的第一音频信号向被配置为向用户(例如,用户100)的耳朵提供声音的听觉接口设备的传输。在示例实施例中,调节配置文件可以包括预定义滤波器,用于基于音频信号2921的频率速率或振幅中的至少一个来选择性地调节音频信号(例如,音频信号2921)。
315.在示例实施例中,存储器可以与可穿戴相机位于相同的外壳内(即,存储器可以是本地存储器)。存储器可以是任何合适的存储器(例如,固态存储器、硬盘驱动器等)。在一些情况下,调节配置文件的至少一部分可以存储在本地存储器中,而另一部分可以存储在远程存储器中(例如,存储在远程数据库中)。在一些情况下,可以基于所识别的个体来从远程
数据库中选择和检索调节配置文件。
316.在示例实施例中,助听器系统的处理器2641还被编程为确定对与辨识出的个体(例如,个体2911)相关联的选择性调节的至少一个修改,并基于该修改来更新调节配置文件。例如,确定至少一个修改可以包括基于用户100能有多好地听到个体2911(或用户100能有多好地辨别个体2911的词语)来确定需要执行音频信号2921的放大。在示例实施例中,用户100可以使用任何合适的手段(例如,经由音频信号或经由如本文所讨论的用于助听器系统的合适接口)向处理器2641提供反馈。助听器系统的界面可以包括装置110上的按钮,或者可以是例如在耦合到助听器系统的设备(诸如智能手机、膝上型计算机等)上显示的应用程序。用户100可以向助听器系统提供特定指令(例如,用户100可以请求增加来自个体2911的音频信号2921的振幅)或者可以提供更复杂的指令(例如,提高个体2911的语音的清晰度,提高从相机2617a指向的点接收到的音频信号的清晰度,或者抑制背景声音)。这种复杂的指令可以由助听器系统解释,并且可以进行对应的修改。在一些情况下,可以从可能的修改列表中选择指令。可替代地,当经由来自用户100的语音命令提供指令时,可以通过装置110的语言处理应用来分析这样的指令,并且可以做出对应于指令的修改。在一个示例实施例中,装置110的语言处理应用可以是能够转录人类语音并从所得到的转录文本确定用于修改音频信号的指令的任何合适的软件应用。
317.另外,由处理器2641确定修改可以基于各种环境因素(噪声的存在、背景音乐、其他说话者),并且可以在不接收来自用户100的指示的情况下自动进行。在各种情况下,可以基于所确定的修改适当地更新调节配置文件。在一些情况下,助听器系统可能需要在更新调节配置文件之前接收用户的批准。一旦确定了修改,处理器2641可以被配置为应用修改。
318.如前所述,修改可以包括用户的调整(即,指令)。可以经由助听器系统的合适接口进行调整。如所描述的,至少一个修改可以基于来自用户的听力困难的指示来确定。该困难指示可以经由来自用户的音频信号或经由助听器系统的接口接收的来自用户的输入中的一个来确定。在示例实施例中,至少一个修改包括音频信号(例如,信号2921)的放大或修改音频信号2921的频谱中的一个。在一些情况下,选择性调节包括衰减与辨识出的个体2921不相关联的至少另一个音频信号(例如,音频信号2922或信号2923)。
319.在示例实施例中,助听器系统的处理器2641可以被编程为识别由多个图像中的至少一个或由多个音频信号中的至少一个表示的另一辨识出的个体。例如,处理器2641可以被配置为识别个体2912。在一些情况下,处理器2641可以被配置为当用户100将相机2617a指向个体2912时识别个体2912。在一些情况下,当装置110包括两个相机(例如,如图26所示的相机2617a和2617b)时,相机2617a可以被配置为识别个体2911,并且相机2617b可以被配置为识别个体2912。一旦识别个体2912(上面讨论了使用图像或音频数据的个体的识别),处理器2641可以从存储器中检索与另一辨识出的个体相关联的另一调节配置文件。例如,如果装置110包括本地存储器,则处理器2641可以从本地存储器检索与个体2912相关联的调节配置文件。在一些情况下,与个体2912相关联的调节配置文件(例如cp2912)可以与个体2911相关联的调节配置文件(例如cp2911)相同。可替代地,cp2912可以不同于cp2911。处理器2641可以使用cp2911来选择性地调节音频信号2921,并且可以使用cp2922来选择性地调节音频信号2922。在一些情况下,当信号2921和2922不能清楚地分离时,cp2911和cp2922可以应用于包含信号2921和2922的组合音频信号。
320.在示例实施例中,如图26所示,使用cp2911调节的音频信号2921可以被发送到听觉接口设备(例如,听觉接口设备2615),并且使用cp2912调节的音频信号2922也可以被发送到听觉接口设备2615。在示例性实施例中,处理器2641可以在时间上分离音频信号2921和2922。例如,当音频信号2921与信号2922大约同时发出时,处理器2641可以将它们分开足够的时间量,以便用户100更好地辨别每个信号。在一些情况下,当听觉接口设备2615向用户100的两只耳朵发送音频信号时,经第一选择性调节的音频信号(例如,经选择性调节的信号2921)可以被发送到左耳(或右耳),并且经第二选择性调节的音频信号(例如,经选择性调节的信号2922)可以被发送到右耳(或左耳)。
321.在一些情况下,助听器系统可以被配置为识别个体群组(而不是单个辨识出的个体)并且选择性地调节来自这样群组的声音。例如,相机2617a可以捕捉人的群组的图像,处理器2641可以被配置为识别该群组。在一个示例实施例中,可以存在针对该群组的调节配置文件(与针对单个个体的调节配置文件相反)。例如,如果处理器2641识别出从教室中的学童的群组接收到音频信号,则调节配置文件可以包括降低由该群组的每个成员发出的音频信号的振幅的指令。
322.图30a示出了选择性地调节音频信号并将音频信号发送到用户耳朵的示例过程3001。在过程3001的步骤3011处,处理器2641可以接收由与助听器系统相关联的相机(例如,相机2617a)捕捉的图像。在步骤3013处,处理器2641可以从与助听器系统相关联的麦克风(例如,麦克风2613)接收音频信号。在步骤3015处,如上所述,处理器2641可以使用任何合适的图像识别技术来识别由使用相机2617a捕捉的图像所表示的个体(例如,个体2911)。在一些实施例中,可以基于个体的声纹来识别个体。例如,可以在只有个体在说话的时间段内获得声纹,或者在可以获得个体的声纹的音频信号的其他部分中获得声纹。然后可以将该声纹与预先存储在数据库中的多个声纹进行比较,以识别该个体。在步骤3017处,处理器2641可以如上所述从存储器(例如,与助听器系统相关联的本地存储器或与合适的云计算资源相关联的远程存储器)检索调节配置文件。在步骤3019处,处理器2641可以基于检索到的调节配置文件来对从用户(例如,如图29所述的用户100)的环境接收的音频信号进行选择性调节。可以从辨识出的个体2911接收音频信号(例如,音频信号2921)。在一些情况下,用户100可以将相机2617a指向辨识出的个体2911以及麦克风2613。过程3001可以在步骤3021结束,在步骤3021处,处理器2641可以经由听觉接口设备2615(例如,在图26中示出)将使用从调节配置文件获得的指令选择性地调节的音频信号发送到用户100的耳朵。
323.图30b示出了选择性地调节音频信号并将音频信号发送到用户耳朵的示例过程3002。过程3002是过程3001的变型。例如,过程3002可以包括如上面结合图30a所讨论的步骤3011和3013。在步骤3025处,过程3002可以不同于过程3001。在步骤3025处,处理器2641可以不使用图像数据来识别个体(如在步骤3015中所述),而是使用从个体接收的音频数据来识别个体。例如,可以经由个体的声纹来识别音频数据。如上所述,例如,可以在只有个体说话的时间段内获得声纹。然后可以将该声纹与预先存储在数据库中的声纹进行比较,以识别该个体。在一些实施例中,应当理解,步骤3015和3025可以如上所述由处理器2641同时执行。过程3002还可以包括如上面结合图30a所讨论的步骤3017、3019和3021。
324.图31示出了选择性地调节音频信号并将音频信号发送到用户耳朵的示例过程3101。过程3101是过程3001或过程3002的变型。例如,过程3101可以包括如上面结合图30a
所讨论的步骤3011和3013。在步骤3115和3117处,过程3101可以不同于过程3001或3002。在步骤3115处,处理器2641可以如上所述识别由相机2617a捕捉的图像或由麦克风2613捕捉的音频表示的个体群组。在步骤3117处,处理器2641a可以如上所述从存储器中检索对应于所识别的群组的调节配置文件。过程3101还可以包括如上面结合图30a所讨论的步骤3019和3021。
325.基于用户提示的选择性调节
326.助听器系统旨在改进和增强用户与环境的互动。用户可能依赖助听器系统来导航他们的周围环境和日常活动。然而,不同的用户可能取决于环境需要不同程度的帮助。典型的助听器系统可能不能基于用户的需要来充分地校正或调整音频信号。因此,需要用于基于来自用户的提示而自动调节用户的音频信号的装置和方法。
327.所公开的实施例包括可以被配置为基于来自助听器用户的提示来校正或调整音频信号的助听器系统。例如,该提示可以是物理的(例如,用户将耳朵倾斜或转向声源或语音、用户将他或她的手举向耳朵等)或口头的(例如,用户可以陈述“什么?”或“重复”等),提示可以由可穿戴相机设备上的传感器和/或麦克风来收集。基于检测到的提示,系统可以识别用户听力困难(例如,理解说话的个体等),并自动校正或调整至少一个音频信号。例如,系统可以选择性地放大来自声源的声音。
328.图32是示出符合所公开实施例的用于使用具有语音和/或图像识别的助听器的示例性环境的示意图。可穿戴相机(例如,装置110的可穿戴相机)可以被配置为从用户100的环境捕捉多个图像。可替代地或另外地,至少一个麦克风可以被配置为从用户100的环境捕捉声音。
329.例如,处理器210可以接收表示由至少一个麦克风1750从用户100的环境捕捉的一个或多个声音的至少一个音频信号3203、3205或3207。在一些实施例中,处理器210可以基于对至少一个音频信号(例如,音频信号3203)的分析来识别用户100的至少一个动作。在一些实施例中,至少一个动作可以包括用户100的讲话。例如,识别至少一个动作可以包括基于对至少一个音频信号3203的分析来检测用户100所说的词语。在一些实施例中,词语可以指示用户100没有听清楚。例如,用户100可能说了“什么?”或“您能重复您所说的吗?”或“我不明白”。在一些实施例中,处理器210可以根据检测到的词语的类型和/或频率将更大的听力困难与用户100相关联。例如,“重复”可能与比“我不明白”更大的听力困难相关联,和/或重复的词语(例如,用户100重复陈述“什么?”)可能与比不重复的词语更大的听力困难相关联。
330.在一些实施例中,麦克风1720可以被配置为确定用户100的环境中声音的方向性。例如,麦克风1720可以包括一个或多个定向麦克风,它们可能对拾取某些方向上的声音更敏感。处理器210可以被配置为区分用户100的环境内的声音并且确定每个声音的近似方向性。例如,使用麦克风阵列1720,处理器210可以对麦克风1720之间声音的相对定时或振幅进行比较,以确定相对于装置100的方向性。
331.在一些实施例中,从用户100的环境捕捉的声音可以被分类为包含讲话、音乐、音调、笑声、尖叫等的片段。各个片段的指示可以记录在数据库2050中。
332.在一些实施例中,所记录的信息可以使处理器210能够基于对至少一个音频信号3203的分析来识别用户100的至少一个动作。如前所讨论的,至少一个动作可以包括用户
100的讲话。例如,识别至少一个动作可以包括基于对至少一个音频信号3203的分析来检测用户100所说的词语。词语可以指示用户100没有很好地听到声音(例如,来自另一个体3210、与音频信号3205相关联的声音、与音频信号3207相关联的声音等)。
333.处理器210可以被配置为基于所识别的动作,对由至少一个麦克风接收的用户100的环境中的至少一个音频信号(例如,来自个体3210、音频信号3205、音频信号3207等)进行选择性调节。至少一个经调节的音频信号可以被发送到听觉接口设备1710,听觉接口设备1710被配置为向用户100的耳朵提供声音,并且因此可以向用户100提供对应于该至少一个音频信号的源(例如,与音频信号3205相关联的个体3210、与音频信号3207相关联的个体3210,等等)的听觉反馈。处理器210可以对从麦克风1720接收的音频信号执行各种调节技术。调节可以包括相对于其他音频信号放大被确定为对应于声音(例如,与音频信号3205相关联的个体3210、与音频信号3207相关联的个体3210,等等)的音频信号。例如,可以通过相对于其他音频信号3205或3207处理与个体3210相关联的音频信号来数字化地完成放大。放大还可以通过改变麦克风1720的一个或多个参数来实现,以聚焦于从与用户100相关联的个体3210(例如,感兴趣的区域)发出的音频声音。例如,麦克风1720可以是定向麦克风,并且处理器210可以执行将麦克风1720聚焦在用户100的环境中的个体3210或其他声音上的操作。可以使用用于放大声音的各种其他技术,诸如使用波束成形麦克风阵列、声学望远镜技术等。在一些实施例中,可以基于确定的用户100的听力困难来对至少一个音频信号实现选择性调节。例如,音频信号的放大可以随着与用户100相关联的听力困难的增加而增加。
334.调节还可以包括衰减或抑制从感兴趣的区域(例如,个体3210)之外的方向接收的一个或多个音频信号。例如,处理器210可以衰减音频信号3205和3207。类似于来自个体3210的声音的放大,声音的衰减可以通过处理音频信号来发生,或者通过改变与一个或多个麦克风1720相关联的一个或多个参数来引导焦点远离从包括个体3210的区域之外发出的声音。在一些实施例中,如果用户100已经经由对过去交互的分析确定具有预定水平的听力损失,则可以增加从感兴趣区域之外接收的音频信号的衰减。
335.在一些实施例中,调节还可以包括改变对应于来自感兴趣区域的声音的音频信号的音调,以使用户100更容易感知该声音。例如,用户100可能对特定范围内的音调具有较小的敏感度,并且音频信号的调节可以调节来自感兴趣区域的声音的音高以使其对于用户100更易感知。例如,用户100可能经历10khz以上的频率中的听觉损失。因此,处理器210可以将更高的频率(例如,在15khz处)重新映射到10khz以下频率。在一些实施例中,处理器210可以被配置为改变与一个或多个音频信号相关联的语速。因此,处理器210可以被配置为例如使用语音活动检测(vad)算法或技术来检测由麦克风1720接收的一个或多个音频信号内的语音。例如,如果确定声音对应于来自个体3210的语音或讲话,则处理器210可以被配置为改变来自个体3210的声音的回放速率。例如,可以降低个体3210的语速以使检测到的语音对于用户100更易感知。可以执行各种其他处理(诸如修改来自个体3210的声音的音调),以维持与原始音频信号相同的音高,或者降低音频信号内的噪声。如果已经对与来自个体3210的声音相关联的音频信号执行了语音识别,则调节还可以包括基于检测到的语音来修改音频信号。在一些实施例中,调节可以包括修改检测到的语速。例如,可以通过延长包括在音频信号中的词语的持续时间和减少词语之间的停顿持续时间(或反之亦然)来修改语速,这可以使讲话更容易理解。
336.然后可以将经调节的音频信号发送到听觉接口设备1710,并为用户100产生音频信号。因此,在经调节的音频信号中,来自个体3210的声音可以更容易被用户100听到,比来自音频信号3205或3207的声音更响亮和/或更容易区分,来自音频信号3205或3207的声音可以表示环境内的背景噪声。
337.在一些实施例中,至少一个麦克风1750可以捕捉在预定长度的移动时间窗口期间接收的一个或多个音频信号,并且处理器210可以被编程为引起选择性地调节和在移动时间窗口内接收的音频信号的一部分的传输。例如,处理器210可以将至少一个音频信号(例如,来自个体3210)的一部分存储在数据库2050中,其中该部分是在用户100的至少一个动作(例如,发出音频信号3203)之前接收的。至少一个音频信号的部分可以被发送到被配置为向用户100的耳朵提供声音的听觉接口设备1710,并且因此可以向用户100提供对应于至少一个音频信号的该部分的源(例如,另一用户)的听觉反馈。可以基于用户100的至少一个动作将至少一个音频信号的该部分发送到听力设备1710。例如,在用户100指示他或她难以听到一个或多个声音之后,可以将该部分发送到听力设备1710,从而复制用户100难以听到的至少一个声音。然后,由于重放先前的声音时段而错过的时段可以以增加的速率被提供给用户100,例如通过减少词语之间的静音时段,或者以任何其他合适的方式。在一些实施例中,可以基于用户执行的手势而不是用户的口头指示来执行声音的自动重放。例如,如果用户口头声明他或她理解困难,可能会提示另一个体重复这些词语。
338.图33是具有符合所公开的实施例的助听器系统的用户100的示例性描述。在一些实施例中,可穿戴相机可以是装置110(例如,基于相机的定向助听器装置)的组件,用于基于用户100的运动3201(例如,手运动、倾斜运动、视线方向等)选择性地改变声音的放大。用户100还可以佩戴例如听觉接口设备1710。在一些实施例中,装置110可以从用户100的环境捕捉至少一个图像。在一些实施例中,处理器210可以接收由装置110捕捉的至少一个图像。处理器210可以通过基于对至少一个图像的分析来检测用户100的运动3201来识别至少一个动作。在一些实施例中,运动3201可以包括用户100的手运动或用户100的倾斜运动。例如,用户100可以将他的手环绕在耳朵周围,指示用户100在听到个体3210方面有困难。在一些实施例中,用户100可以向个体3210倾斜,指示用户100在听到个体3210方面有困难。
339.在一些实施例中,可以通过监视用户100的身体部分(例如,手、手臂等)或面部部分(例如,鼻子、眼睛、耳朵、耳朵附近的手等)相对于相机传感器的光轴的方向来跟踪用户100的运动3201。例如,装置110的可穿戴相机可以被配置为例如使用图像传感器220来捕捉用户100的周围环境的一个或多个图像。例如,所捕捉的图像可以包括用户100的身体部分或面部部分的表示,其可以用于确定用户100的手运动。处理器210(和/或处理器210a和210b)可以被配置为使用各种图像检测或处理算法(例如,使用卷积神经网络(cnn)、尺度不变特征变换(sift)、定向梯度直方图(hog)特征或其他技术)来分析捕捉的图像并检测用户100的身体部分或面部部分的运动3201。基于检测到的用户100的身体部分或面部部分的表示,可以确定用户100的运动3201。
340.可以部分地通过将检测到的用户100的身体部分或面部部分的表示与相机传感器1751的光轴进行比较来确定运动3201。例如,光轴1751在每个图像中可以是已知的或固定的,并且处理器210可以通过将用户100的身体部分或面部部分的代表性角度与光轴1751的方向进行比较来确定运动1750。例如,所确定的运动可以包括用户100将他的手环绕在耳朵
周围,指示用户100在听到个体3210方面有困难。在一些实施例中,所确定的运动可以包括用户100向个体3210倾斜,指示他们在听到个体3210方面有困难。例如,用户100朝向声音发出对象的倾斜运动可以通过用户100与该对象之间的距离的减小来识别。在一些实施例中,可以基于将该减小与预定阈值或范围(例如5-30厘米)进行比较来检测倾斜运动。该距离可以通过分析一个或多个图像、基于嵌入在装置110内的测距仪或各种其他方法来评估。
341.在一些实施例中,处理器210可以基于所识别的动作引起对由至少一个麦克风1720接收的至少一个音频信号(例如,来自个体3210)进行选择性调节,并引起至少一个经调节的音频信号向被配置为向用户100的耳朵提供声音的听觉接口设备1710的传输。在一些实施例中,用户110可以向特定方向倾斜(例如,向用户110的环境中的个体倾斜),并且引起对至少一个音频信号的选择性调节可以包括放大从倾斜运动的方向接收的至少一个音频信号。
342.至少一个经调节的音频信号可以被发送到听觉接口设备1710,听觉接口设备1710被配置为向用户100的耳朵提供声音,并且因此可以向用户100提供对应于该至少一个音频信号的源(例如,个体3210)的听觉反馈。处理器210可以对从麦克风1720接收的音频信号执行各种调节技术。调节可以包括相对于其他音频信号(例如,音频信号3205或3207)放大被确定为对应于来自个体3210的声音的音频信号。放大可以例如通过相对于其他信号数字化地处理与个体3210相关联的音频信号来数字化地实现。放大还可以通过改变麦克风1720的一个或多个参数来实现,以聚焦于从与用户100相关联的个体3210(例如,感兴趣的区域)发出的音频声音。例如,麦克风1720可以是定向麦克风,处理器210可以执行将麦克风1720聚焦在声音1820或个体3210的区域内的其他声音上的操作。可以使用用于放大来自个体3210的声音的各种其他技术,诸如使用波束成形麦克风阵列、声学望远镜技术等。
343.调节还可以包括衰减或抑制从感兴趣的区域(例如,个体3210)之外的方向接收的一个或多个音频信号。例如,处理器210可以衰减音频信号3205和3207。类似于来自个体3210的声音的放大,声音的衰减可以通过处理音频信号来发生,或者通过改变与一个或多个麦克风1720相关联的一个或多个参数来引导焦点远离从包括个体3210的区域之外发出的声音。
344.在一些实施例中,调节还可以包括改变对应于来自感兴趣区域的声音的音频信号的音调,以使用户100更容易感知该声音。例如,用户100可能对特定范围内的音调具有较小的敏感度,并且音频信号的调节可以调节来自感兴趣区域的声音的音高以使其对于用户100更易感知。例如,用户100可能经历10khz以上的频率中的听觉损失。因此,处理器210可以将更高的频率(例如,在15khz处)重新映射到10khz以下频率。在一些实施例中,处理器210可以被配置为改变与一个或多个音频信号相关联的语速。因此,处理器210可以被配置为例如使用语音活动检测(vad)算法或技术来检测由麦克风1720接收的一个或多个音频信号内的语音。例如,如果确定声音对应于来自个体3210的语音或讲话,则处理器210可以被配置为改变来自个体3210的声音的回放速率。例如,可以降低个体3210的语速以使检测到的语音对于用户100更易感知。例如,如上所述,可以通过延长或减少所讲词语持续时间和/或所讲词语之间的静默时段来修改语速。可以执行各种其他处理(诸如修改来自个体3210的声音的音调),以维持与原始音频信号相同的音高,或者降低音频信号内的噪声。如果已经对与来自个体3210的声音相关联的音频信号执行了语音识别,则调节还可以包括基于检
测到的语音来修改音频信号。例如,处理器210可以在词语和/或句子之间引入停顿或增加停顿的持续时间,这可以使语音更容易理解。
345.然后可以将经调节的音频信号发送到听觉接口设备1710,并为用户100产生音频信号。因此,在经调节的音频信号中,来自个体3210的声音可以更容易被用户100听到,比来自音频信号3205或3207的声音更响亮和/或更容易区分,来自音频信号3205或3207的声音可以表示环境内的背景噪声。
346.在一些实施例中,至少一个麦克风1750可以捕捉在预定长度的移动时间窗口期间接收的一个或多个音频信号,并且处理器210可以被编程为引起选择性地调节和在移动时间窗口内接收的音频信号的一部分的传输。例如,处理器210可以将至少一个音频信号(例如,来自个体3210)的一部分存储在数据库2050中,其中该部分是在用户100的至少一个动作(例如,运动3203)之前接收的。至少一个音频信号的部分可以被发送到被配置为向用户100的耳朵提供声音的听觉接口设备1710,并且因此可以向用户100提供对应于至少一个音频信号的该部分的源(例如,另一用户)的听觉反馈。可以基于用户100的至少一个动作将至少一个音频信号的该部分发送到听力设备1710。例如,在用户100状态为“重复”之后,该部分可以被发送到听力设备1710,从而复制用户100难以听到的至少一个声音。
347.图34是示出符合所公开实施例的用于选择性地放大声音的示例性过程3400的流程图。
348.在步骤3401中,可穿戴相机(例如,装置110的可穿戴相机)可以从用户100的环境捕捉多个图像。在一些实施例中,可穿戴相机可以是装置110(例如,基于相机的定向助听器装置)的组件,用于基于用户100的运动3201(例如,手运动、倾斜运动、视线方向等)选择性地改变声音的放大。在一些实施例中,可穿戴相机可以从用户100的环境捕捉至少一个图像。
349.在步骤3403中,至少一个麦克风可以从用户100的环境捕捉声音。在一些实施例中,麦克风1720可以被配置为确定用户100的环境中声音的方向性。例如,麦克风1720可以包括一个或多个定向麦克风,它们可能对拾取某些方向上的声音更敏感。处理器210可以被配置为区分用户100的环境内的声音并且确定每个声音的近似方向性。例如,使用麦克风阵列1720,处理器210可以对麦克风1720之间个体声音的相对定时或振幅进行比较,以确定相对于装置100的方向性。
350.在步骤3405中,处理器210可以接收由可穿戴相机捕捉的多个图像。例如,可穿戴相机可以被配置为例如使用图像传感器220来捕捉用户100的周围环境的一个或多个图像。
351.在步骤3407中,处理器210可以接收表示由至少一个麦克风从用户的环境捕捉的声音的至少一个音频信号。例如,处理器210可以接收表示由至少一个麦克风1750从用户100的环境捕捉的声音的至少一个音频信号3203、3205或3207。
352.在步骤3409中,处理器210可以基于对多个图像中的至少一个或至少一个音频信号的分析来识别用户的至少一个动作。在一些实施例中,处理器210可以基于对至少一个音频信号(例如,音频信号3203)的分析来识别用户100的至少一个动作。在一些实施例中,至少一个动作可以包括用户100的讲话。例如,识别至少一个动作可以包括基于对至少一个音频信号3203的分析来检测用户100所说的词语。在一些实施例中,词语可以指示用户100没有听清楚。例如,用户100可能说了“什么?”、“您能重复您所说的吗?”、“我不明白”或类似的
短语。在一些实施例中,处理器210可以根据检测到的词语的类型和/或频率将更大的听力困难与用户100相关联。例如,“重复”可能与比“我不明白”更大的听力困难相关联,和/或重复的词语(例如,用户100重复陈述“什么?”)可能与比不重复的词语更大的听力困难相关联。
353.在一些实施例中,可以使用任何音频分类技术对从用户10的环境捕捉的声音进行分类。处理器210可以被配置为分析声音以分离和识别音频信号的不同源。例如,处理器210可以使用一种或多种言语或语音活动检测(vad)算法、语音分离技术和/或声音分类技术。当在用户100的环境中检测到多个声音时,处理器210可以隔离与不同声源相关联的音频信号。在一些实施例中,处理器210可以对与检测到的语音活动相关联的音频信号执行进一步分析,以识别个体的语音。例如,处理器210可以使用一种或多种语音识别算法(例如,隐式马尔可夫模型、动态时间规整、神经网络或其他技术)来识别个体的语音和/或所说的词语。例如,声音可以被分类为包含讲话、音乐、音调、笑声、尖叫等的片段。各个片段的指示可以记录在数据库2050中。
354.在一些实施例中,所记录的信息可以使处理器210能够基于对至少一个音频信号3203的分析来识别用户100的至少一个动作。在一些实施例中,至少一个动作可以包括用户100的讲话。例如,识别至少一个动作可以包括基于对至少一个音频信号3203的分析来检测用户100所说的词语。在一些实施例中,词语可以指示用户100没有很好地听到声音(例如,来自另一个体3210、与音频信号3205相关联的声音、与音频信号3207相关联的声音等)。
355.在一些实施例中,处理器210可以接收由可穿戴相机捕捉的至少一个图像,并且可以基于对至少一个图像的分析来识别用户100的至少一个动作。处理器210可以通过基于对至少一个图像的分析来检测用户100的运动3201来识别至少一个动作。在一些实施例中,运动3201可以包括用户100的手运动或用户100的倾斜运动。例如,用户100可以将他的手环绕在耳朵周围,指示他们在听到个体3210方面有困难。在一些实施例中,用户100可以向个体3210倾斜,指示他们在听到个体3210方面有困难。
356.在一些实施例中,可以通过监视用户100的身体部分(例如,手、手臂等)或面部部分(例如,鼻子、眼睛、耳朵、耳朵附近的手等)相对于相机传感器的光轴的方向来跟踪用户100的运动3201。例如,所捕捉的图像可以包括用户100的身体部分或面部部分的表示,其可以用于确定用户100的手运动或倾斜运动。处理器210(和/或处理器210a和210b)可以被配置为使用各种图像检测或处理算法(例如,使用卷积神经网络(cnn)、尺度不变特征变换(sift)、定向梯度直方图(hog)特征或其他技术)来分析捕捉的图像并检测用户100的身体部分或面部部分的运动3201。基于检测到的用户100的身体部分或面部部分的表示,可以确定用户100的运动3201。
357.可以部分地通过将检测到的用户100的身体部分或面部部分的表示与相机传感器1751的光轴进行比较来确定运动3201。例如,光轴1751在每个图像中可以是已知的或固定的,并且处理器210可以通过将用户100的身体部分或面部部分的代表性角度与光轴1751的方向进行比较来确定运动1750。例如,所确定的运动可以包括用户100将他的手环绕在耳朵周围,指示他们在听到个体3210方面有困难。在一些实施例中,所确定的运动可以包括用户100向个体3210倾斜,指示他们在听到个体3210方面有困难。
358.在步骤3411中,处理器210可以如上更详细描述的基于识别出的动作,引起对由至
少一个麦克风接收的至少一个音频信号进行选择性调节。
359.在步骤3413中,处理器210可以使至少一个经调节的音频信号传输到被配置为向用户的耳朵提供声音的听觉接口设备。例如,至少一个经调节的音频信号可以被发送到听觉接口设备1710,听觉接口设备1710被配置为向用户100的耳朵提供声音,并且因此可以向用户100提供对应于该至少一个音频信号的源(例如,与音频信号3205相关联的个体3210、与音频信号3207相关联的个体3210,等等)的听觉反馈。例如,在经调节的音频信号中,来自个体3210的声音可以更容易被用户100听到,比来自音频信号3205或3207的声音更响亮和/或更容易区分,来自音频信号3205或3207的声音可以表示环境内的背景噪声。
360.活跃说话者的直觉控制
361.助听器系统旨在改进和增强用户与环境的互动。用户可能依赖助听器系统来导航他们的周围环境和日常活动。然而,不同的用户可能取决于环境需要不同程度的帮助。在一些情况下,用户可以优先听到来自他或她的环境中的源的声音,而不是从他的环境中的一个或多个附加源。例如,用户可以优先听到来自他的环境中的家庭成员的声音,而不是他的环境中的陌生人或背景噪声。典型的助听器系统可能不能基于用户的需要来充分地校正或调整音频信号。因此,需要用于基于来自用户的环境的提示而自动调节用户的音频信号的装置和方法。
362.所公开的实施例包括可以被配置为基于来自助听器用户的环境的提示来校正或调整音频信号的助听器系统。提示可以包括用户与一个或多个个体之间的距离、个体相对于用户的视线方向的方向、活跃说话者的手势、个体朝向活跃说话者的视线方向或其他可视提示。例如,来自离用户更近的个体的声音可能比来自离用户更远的个体的声音具有更高的优先级。在一些实施例中,用户可以经由设备手动定义或分配优先级给不同的声源。例如,用户可以将比其他声源(例如,来自设备的声音、陌生人、背景噪声等)更高的优先级分配给他辨识出的个体(例如,家庭成员、朋友等)。在一些实施例中,助听器系统可以识别个体并相应地使用分配给个体的优先级。
363.在一些实施例中,助听器系统可以通过基于声源的优先级来选择性地调节(例如,放大、衰减、静音等)音频信号来校正或调整音频信号。例如,助听器系统可以优选地放大来自具有更高优先级的声源的音频信号。在一些实施例中,助听器系统可以优选地衰减或静音来自具有较低优先级的声源的音频信号。
364.图35是示出符合所公开实施例的包括具有语音和/或图像识别的助听器的示例性环境的示意图。在一些实施例中,可穿戴相机(例如,装置110的可穿戴相机)可以被配置为从用户100的环境捕捉多个图像。在一些实施例中,至少一个麦克风可以被配置为从用户100的环境捕捉声音。
365.例如,处理器210可以接收表示由至少一个麦克风1750从用户100的环境捕捉的声音的至少一个音频信号3511、3513或3515。在一些实施例中,处理器210可以基于对至少一个音频信号(例如,音频信号3511、3513或3515)的分析来识别与第一个体3501相关联的第一语音相关联的第一音频信号3511和与第二个体3503相关联的第二语音相关联的第二音频信号3513。
366.助听器系统可以存储识别出的人的语音样本、图像、语音特征和/或面部特征以帮助识别和选择性放大。例如,当个体(第一个体3501或第二个体3503)进入装置110的视场
时,该个体可以被识别为已经被介绍给用户110的个体,或者在过去可能与用户100交互过的个体(例如,朋友、同事、亲戚、先前的熟人等)。因此,相对于用户环境中的其他声音,可以隔离和/或选择性地放大与辨识出的个体的语音相关联的音频信号(例如,音频信号3511或音频信号3513)。与从个体方向以外的方向接收的声音相关联的音频信号(例如,音频信号3515)可以被抑制、衰减、滤波等。
367.用户100可能想要基于用户100希望接收的声音的优先级来放大音频信号。例如,处理器210可以确定个体的层次结构并基于个体的相对状态分配优先权。该层次结构可以基于个体在家庭或组织(例如,公司、运动队、俱乐部等)中相对于用户100的位置。例如,用户100可能处于工作环境中,并且可能需要在他的同事之前听到他的老板。因此,用户100的老板可以比同事或来自不同部门的人排名更高,因此可以在选择性调节过程中具有优先权。在一些实施例中,用户100可能处于具有“密友”、家人和熟人的环境中。例如,识别为密友或家人的个体可以优先于用户100的熟人,因为用户100可能希望听到密友或家人,而不是熟人。
368.在一些实施例中,可穿戴相机可以是装置110(例如,基于相机的定向助听器设备)的组件,用于基于用户100的环境中的个体(例如,第一个体3501或第二个体3503)的识别来选择性地改变声音的放大。在一些实施例中,可穿戴相机可以使用图像传感器220从用户100的环境捕捉至少一个图像。在一些实施例中,处理器210可以接收由可穿戴相机捕捉的至少一个图像,并且可以基于对至少一个图像的分析来识别用户100的环境中的至少一个个体。处理器210(和/或处理器210a和210b)可以被配置为使用各种图像检测或处理算法(例如,使用卷积神经网络(cnn)、尺度不变特征变换(sift)、定向梯度直方图(hog)特征或其他技术)来分析捕捉的图像并检测该至少一个个体的身体部分或面部部分的特征。基于检测到的至少一个个体的身体部分或面部部分的表示,可以识别该至少一个个体。在一些实施例中,如图20a或图20b中针对装置110所描述的,处理器210可以被配置为使用面部和/或语音识别组件来识别至少一个个体。
369.例如,面部识别组件2040可以被配置为识别用户100的环境内的一个或多个面部。面部识别组件2040可以识别个体的面部上的面部特征,诸如眼睛、鼻子、颧骨、下巴或其他特征。面部识别组件2040可以分析这些特征的相对大小和位置以识别该个体。在一些实施例中,面部识别组件2040可以利用一种或多种算法来分析检测到的特征,诸如主分量分析(例如,使用本征脸)、线性判别分析、弹性束图匹配(例如,使用fisher脸)、局部二进制模式直方图(lbph)、尺度不变特征变换(sift)、加速鲁棒特征(surf)等。可以使用诸如三维识别、皮肤纹理分析和/或热成像的另外的面部识别技术来识别个体。除了个体的面部特征之外的其他特征也可以用于识别,诸如身高、体型或个体的其他区别特征。
370.面部识别组件2040可以访问与用户100相关联的数据库或数据,以确定检测到的面部特征是否对应于辨识出的个体。例如,处理器210可以访问数据库2050,数据库2050包含关于用户100已知的个体的信息和表示相关联的面部特征或其他识别特征的数据。这样的数据可以包括个体的一个或多个图像,或者表示可用于通过面部识别进行的识别的用户面部的数据。面部识别组件2040还可以访问用户100的联系人列表,诸如用户电话上的联系人列表、基于网络的联系人列表(例如,通过outlook
tm
、skype
tm
、google
tm
、salesforce
tm
等)或与听觉接口设备1710相关联的专用联系人列表。在一些实施例中,数据库2050可以由装
置110通过先前的面部识别分析来编译。例如,处理器210可以被配置为将与在由装置110捕捉的图像中识别出的一个或多个面部相关联的数据存储在数据库2050中。每次在图像中检测到面部时,可将检测到的面部特征或其他数据与数据库2050中的先前识别出的面部进行比较。面部识别组件2040可以确定个体是用户100的辨识出的个体、该个体先前是否在超过特定阈值的多个实例中被系统识别出、该个体是否已被明确地介绍给装置110等。
371.装置110可以被配置为基于接收到的由可穿戴相机捕捉的多个图像来识别用户100的环境中的个体(例如,第一个体3501或第二个体3503)。例如,装置110可以被配置为识别与用户100的环境内的第一个体3501相关联的面部3521或与第二个体3503相关联的面部3523。例如,装置110可以被配置为使用相机1730来捕捉用户100的周围环境的一个或多个图像。所捕捉的图像可以包括辨识出的个体(例如,第一个体3501或第二个体3503)的表示,该个体可以是用户100的朋友、同事、亲戚或先前的熟人。处理器210(和/或处理器210a和210b)可以被配置为使用各种面部识别技术来分析捕捉的图像并检测辨识出的个体。因此,装置110,或具体地存储器550,可以包括一个或多个面部识别组件(例如,软件程序、模块、库等)。
372.在一些实施例中,处理器210可以被配置为基于处理器210确定第一音频信号与高于第二音频信号的优先级的优先级相关联而引起对音频信号(例如,音频信号3511或3513)的选择性调节。可以使用各种方法来确定声音的层次结构。例如,可以通过对两个声音或两个以上声音的比较分析来确定声音的层次结构。在一些实施例中,声源可以包括人、对象(例如,电视、汽车等)、环境(例如,流水、风等)等。例如,处理器210可以使用比较分析来确定来自人的声音相对于来自对象或环境的声音具有优先权。
373.在一些实施例中,与辨识出的个体相关联的音频信号的选择性调节可以基于用户100的环境中的个体的身份。例如,在图像中检测到多个个体的情况下,处理器210可以如上所述使用一种或多种面部识别技术来识别个体。与用户100已知的个体相关联的音频信号可以被选择性地放大或以其他方式调节以具有相对于未知个体的优先权。例如,处理器210可以被配置为衰减或静音与用户100的环境中的旁观者(诸如嘈杂的办公室同事等)相关联的音频信号。在一些实施例中,处理器210还可以确定个体的层次结构并基于个体的相对状态分配优先权。该层次结构可以基于个体在家庭或组织(例如,公司、运动队、俱乐部等)中相对于用户100的位置。例如,用户100的老板可以比同事或来自不同部门的人排名更高,因此可以在选择性调节过程中具有优先权。在一些实施例中,可以基于列表或数据库来确定层次结构。被系统辨识出的个体可以被单独排序或分组为几层优先级。该数据库可以专门为此目的而维护或者可以从外部访问。例如,数据库可以与用户的社交网络(例如,facebook
tm
、linkedin
tm
等)相关联,并且可以基于个体的分组或与用户的关系来对其进行优先级排序。例如,被识别为“密友”或家人的个体可以优先于用户100的熟人。
374.在一些实施例中,处理器210可以基于个体与用户100的接近度来选择性地调节与该个体相关联的音频信号。处理器210可以基于捕捉的图像、测距仪或其他方法来确定从用户100到每个个体的距离,并且可以基于该距离来选择性地调节与这些个体相关联的音频信号。例如,与远离用户100的个体相比,物理上更接近用户100的个体可以被给予更高优先级,并且他或她的声音可以以更大的幅度被放大。在一些实施例中,处理器210可以确定个体相对于用户的视线方向的方向。在相对于视线方向的更近角度处的个体可以被给予更高
优先级。
375.在一些实施例中,处理器210可以通过基于对多个图像中的至少一个的分析来识别至少一个动作来确定优先级水平。例如,处理器210可以基于唇部移动和检测到的声音来确定用户100的环境中的哪些个体正在说话。例如,处理器210可以跟踪与个体3501或3503相关联的唇部移动,以确定个体3501或3503正在说话。可以在检测到的唇部移动和接收到的音频信号之间进行比较分析。例如,处理器210可以基于在检测到与音频信号3511相关联的声音的同时个体3501的嘴正在运动的确定来确定个体3501正在说话。在一些实施例中,当个体3501的唇部停止运动时,这可对应于与音频信号3511相关联的声音中的静默或减小音量的时段。
376.在一些实施例中,与装置110相关联的数据还可以结合检测到的唇部移动被用于确定和/或验证个体是否正在说话,诸如用户100或个体3501或3503的视线方向、检测到的个体3501或3503的身份、辨识出的个体3501或3503的声纹等。
377.在一些实施例中,处理器210可以被配置为基于与音频信号相关联的哪些个体当前正在说话来选择性地调节多个音频信号。也就是,在一些实施例中,处理器210可以优先正在说话的个体而不是不在说话的个体。例如,个体3501和个体3503可以参与用户100的环境内的对话,并且处理器210可以被配置为基于个体3501和3503的相应唇部移动从放大与个体3501相关联的音频信号3511转换到放大与个体3503相关联的音频信号3513。例如,个体3501的唇部移动可以指示个体3501已经停止说话,或者与个体3503相关联的唇部移动可以指示个体3503已经开始说话。因此,处理器210可以在放大音频信号3511到音频信号3513之间转换。在一些实施例中,处理器210可以被配置为同时处理和/或调节两个音频信号,但仅基于哪个个体正在说话而选择性地将经调节的音频发送到听觉接口设备1710。在实现语音识别的情况下,处理器210可以基于语音的背景来确定和/或预期说话者之间的转换。例如,处理器210可以分析音频信号3511,以确定个体3501已经到达句子的结尾或已经问了一个问题,这可以指示个体3501已经结束或即将结束说话。
378.在一些实施例中,处理器210可以被配置为在多个活跃说话者之间进行选择,以选择性地调节音频信号。例如,个体3501和3503可能同时都在说话,或者他们的讲话可能在对话期间重叠。处理器210可以将与一个说话个体相关联的音频优先于其他个体进行放大。这可以包括给予一个已经开始但没有完成一个词语或句子或者当另一个说话者开始讲话时他还没有完全完成讲话的说话者优先级。如上所述,该确定还可以由语音的背景驱动。
379.在一些实施例中,可以确定用户100或个体3501或3503的视线方向,并且可以在活跃说话者中给予视线方向所指向的个体更高的优先级。例如,如果个体3503正在看着个体3501,则与个体3501相关联的音频信号3511可以被选择性地调节(例如,放大)。在一些实施例中,可以基于用户100的环境中其他个体的相对行为来分配优先级。例如,如果个体3501和个体3503都在说话,并且附加的个体正在看着个体3501而不是个体3503,则与个体3501相关联的音频信号3511可以优先于与个体3503相关联的音频信号3511被放大。在确定个体的身份的实施例中,如前面讨论的,可以基于说话者的相对状态来分配优先级。
380.在一些实施例中,处理器210可以被配置为基于所确定的优先级,对由至少一个麦克风接收的用户100的环境中的至少一个音频信号(例如,音频信号3511或音频信号3513)进行选择性调节。该至少一个经调节的音频信号可以被发送到听觉接口设备1710,并且听
觉接口设备1710可以被配置为向用户100的耳朵提供声音。因此,听觉接口设备1710可以向用户100提供对应于至少一个音频信号的源(例如,与音频信号3511相关联的、与音频信号3513相关联的等)的听觉反馈。处理器210可以对从麦克风1720接收的音频信号执行各种调节技术。调节可以包括放大被确定为具有比其他音频信号更高优先级的音频信号。放大可以例如通过处理相对于其他信号与更高优先级相关联的音频信号来数字化地实现。放大还可以通过改变麦克风1720的一个或多个参数来实现,以聚焦于从更高优先级源发出的音频声音。例如,麦克风1720可以是定向麦克风,并且处理器210可以执行将麦克风1720聚焦在用户100的环境中的个体3501或3503或其他声音上的操作。可以使用用于放大声音的各种其他技术,诸如使用波束成形麦克风阵列、声学望远镜技术等。
381.调节还可以包括衰减或抑制从较低优先级的源接收的一个或多个音频信号。例如,处理器210可以确定个体3501具有高于个体3503的优先级,并且衰减音频信号3513和3515。类似于声音的放大,声音的衰减可以通过处理音频信号来发生,或者通过改变与一个或多个麦克风1720相关联的一个或多个参数来引导焦点远离从较低优先级源发出的声音。
382.在一些实施例中,调节还可以包括改变对应于来自更高优先级源的声音的音频信号的音调,以使用户100更容易感知该声音。例如,用户100可能对特定范围内的音调具有较小的敏感度,并且音频信号的调节可以调节来自更高优先级源的声音的音高以使其对于用户100更易感知。例如,用户100可能经历10khz以上的频率中的听觉损失。因此,处理器210可以将更高的频率(例如,在15khz处)重新映射到10khz以下频率。在一些实施例中,处理器210可以被配置为改变与一个或多个音频信号相关联的语速。因此,处理器210可以被配置为例如使用语音活动检测(vad)算法或技术来检测由麦克风1720接收的一个或多个音频信号内的语音。例如,如果确定声音对应于来自个体3501的语音或讲话,则处理器210可以被配置为改变来自个体3501的声音的回放速率。例如,可以降低个体3501的语速以使检测到的语音对于用户100更易感知。可以执行各种其他处理(诸如修改来自个体3501的声音的音调),以维持与原始音频信号相同的音高,或者降低音频信号内的噪声。如果已经对与来自个体3501的声音相关联的音频信号执行了语音识别,则调节还可以包括基于检测到的语音来修改音频信号。例如,处理器210可以在词语和/或句子之间引入停顿或增加或减少停顿的持续时间,这可以使语音更容易理解。
383.然后可以将经调节的音频信号发送到听觉接口设备1710,并为用户100产生音频信号。因此,在经调节的音频信号中,来自更高优先级源的声音可以更容易被用户100听到,比来自较低优先级源的声音更响亮和/或更容易区分,来自较低优先级源的声音可以表示环境内的背景噪声。
384.图36示出了与符合所公开实施例的具有语音和/或图像识别的助听器一起使用的示例性计算设备120。在一些实施例中,用户100可以通过预定义设置或通过主动选择要聚焦于哪个说话者来提供用于优先化说话者的输入。在一些实施例中,计算设备120可以与装置110配对。例如,计算设备120(例如,移动设备)可以显示与个体(例如,个体3501)相关联的至少一个音频信号优先级接口3601(例如,图形用户界面)。在一些实施例中,用户100可以与至少接口3601交互以提交至少一个优先级设置。例如,用户100可以经由计算设备120上的接口3601输入指示个体3501具有比其他个体更高的优先级的优先级设置。
385.在一些实施例中,用户100可以通过与指示经由计算设备120调整声源(例如,个
体、对象、环境等)的音量的各种界面交互来输入一个或多个声源的优先级设置。例如,用户100可以通过与指示个体3501的音量增加的界面交互(例如,选择图标、移动滑块图标等)来输入个体3501的优先级设置。在一些实施例中,用户100可以通过与降低或静音一个或多个声源(例如,其他个体、对象、环境等)的音量的界面交互来输入个体3501的优先级设置。
386.在一些实施例中,用户100可以通过经由计算设备120的接口对声源的优先级进行序号排序来为声源分配层次结构。在一些实施例中,用户100可能“喜爱”(例如,经由计算设备120的界面指派星形符号)一些他优先于其他声源的声源。
387.在一些实施例中,音频信号优先级界面3601可以显示由设备110从用户100的环境捕捉的图像。在一些实施例中,计算设备120可以包括多个音频信号优先级界面,其中每个音频信号优先级界面包括由装置110从用户100的环境捕捉的图像。如前所述,处理器210可以基于对多个捕捉图像中的至少一个的分析来识别至少一个动作。例如,处理器210可以基于用户100指向一个或多个声源(例如,个体)来确定声源的层次结构。在一些实施例中,用户100可以按照从最高优先级到最低优先级的顺序指向每个声源的至少一个声源。基于用户100的动作,计算设备120的音频信号优先级界面可以显示与每个声源相关联的声音的层次结构。处理器210可以基于声源的层次结构来选择性地调节与每个声源相关联的音频信号。例如,在用户100的环境中,相对于较低优先级音频信号,更高优先级音频信号可以被隔离和/或选择性地放大。在一些实施例中,低优先级音频信号可以被抑制、衰减、滤波、不变等。
388.在一些实施例中,用户100可以通过经由计算设备120输入条件来输入一个或多个声源的优先级设置。例如,用户100可以输入条件,使得发出关键字的声源(例如,说“小心”、“紧急情况”等的个体)优先于其他声源(例如,被放大)。在一些实施例中,用户100可以通过输入其他条件或标准来输入声源的优先级设置。例如,用户100可以基于时间(例如,一天中的时间、一周中的时间、一年中的时间等)对声源进行优先级排序,使得声音在指定的时间跨度内被调节。例如,用户100可以输入优先级设置,使得在工作时间期间从上午9:00到下午5:00的周一到周五的声音被放大。
389.图37是示出符合所公开实施例的用于选择性地放大声音的示例性过程3700的流程图。例如,根据过程3700,助听器系统可以被配置为通过基于声源的优先级选择性地调节(例如,放大、衰减、静音等)音频信号来校正或调整音频信号。
390.在步骤3701中,可穿戴相机(例如,装置110的可穿戴相机)可以从用户100的环境捕捉多个图像。在一些实施例中,可穿戴相机可以是装置110(例如,基于相机的定向助听器设备)的组件,用于基于用户100的环境中的个体(例如,第一个体3501或第二个体3503)的识别来选择性地改变声音的放大。在一些实施例中,可穿戴相机可以使用图像传感器220从用户100的环境捕捉至少一个图像。在一些实施例中,处理器210可以接收由可穿戴相机捕捉的至少一个图像。
391.在步骤3703中,处理器210可以基于对至少一个图像的分析来识别用户100的环境中的至少一个个体。如上所述,处理器210(和/或处理器210a和210b)可以被配置为使用各种图像检测或处理算法(例如,使用卷积神经网络(cnn)、尺度不变特征变换(sift)、定向梯度直方图(hog)特征或其他技术)来分析捕捉的图像并检测该至少一个个体的身体部分或面部部分的特征。基于检测到的至少一个个体的身体部分或面部部分的表示,可以确定个
体的至少一个标识。在一些实施例中,如图20a或图20b中针对装置110所描述的,处理器210可以被配置为使用面部和/或语音识别组件来识别至少一个个体。
392.装置110可以被配置为基于接收到的由可穿戴相机捕捉的多个图像来识别用户100的环境中的个体(例如,第一个体3501或第二个体3503)。装置110可以被配置为识别与用户100的环境内的第一个体3501相关联的面部3521或与第二个体3503相关联的面部3523。例如,装置110可以被配置为使用相机1730来捕捉用户100的周围环境的一个或多个图像。所捕捉的图像可以包括辨识出的个体(例如,第一个体3501或第二个体3503)的表示,该个体可以是用户100的朋友、同事、亲戚或其他先前的熟人。处理器210(和/或处理器210a和210b)可以被配置为使用各种面部识别技术来分析捕捉的图像并检测辨识出的个体。因此,装置110,或具体地存储器550,可以包括一个或多个面部识别组件。
393.例如,面部识别组件2040可以访问与用户100相关联的数据库或数据,以确定检测到的面部特征是否对应于辨识出的个体。例如,处理器210可以访问数据库2050(例如,远程地、通过网络等),数据库2050包含关于用户100已知的个体的信息和表示相关联的面部特征或其他识别特征的数据。这样的数据可以包括个体的一个或多个图像,或者表示可用于通过面部识别进行的识别的用户面部的数据。在一些实施例中,数据库2050可以由装置110通过先前的面部识别来编译。例如,处理器210可以被配置为将与在由装置110捕捉的图像中识别出的一个或多个面部相关联的数据存储在数据库2050中。每次在图像中检测到面部时,可将检测到的面部特征或其他数据与数据库2050中的先前识别出的面部进行比较。面部识别组件2040可以确定个体是用户100的辨识出的个体、该个体先前是否在超过特定阈值的多个实例中被系统识别出、该个体是否已被明确地介绍给装置110等。
394.在一些实施例中,音频信号优先级界面3601可以显示由设备110从用户100的环境捕捉的图像。例如,计算设备120可以包括多个音频信号优先级界面,其中每个音频信号优先级界面包括由装置110从用户100的环境捕捉的图像(例如,个体的或其它声源的)。
395.在步骤3705中,至少一个麦克风可以从用户100的环境捕捉声音。处理器210可以接收表示由至少一个麦克风1750从用户100的环境捕捉的声音的至少一个音频信号3511、3513或3515。
396.在步骤3707中,处理器210可以基于对至少一个音频信号(例如,音频信号3511、3513或3515)的分析来识别与第一个体3501相关联的第一语音相关联的第一音频信号3511和与第二个体3503相关联的第二语音相关联的第二音频信号3513。可以使用各种方法来确定声音的层次结构。例如,可以通过对两个或更多个声音的比较分析来确定声音的层次结构。在一些实施例中,声源可以包括人、对象(例如,电视、汽车等)、环境(例如,流水、风等)等。例如,处理器210可以使用比较分析来确定来自人的声音相对于来自对象或环境的声音具有优先权。如上所述,可以基于用户输入、默认设置等来确定声音的层次结构。
397.在步骤3709中,处理器210可以被配置为基于处理器210确定第一音频信号与高于第二音频信号的优先级的优先级相关联而引起对第一音频信号和第二音频信号(例如,音频信号3511和3513)的选择性调节。
398.在一些实施例中,与辨识出的个体相关联的音频信号的选择性调节可以基于用户100的环境中的个体的身份。例如,在图像中检测到多个个体的情况下,处理器210可以如上所述使用一种或多种面部识别技术来识别个体。与用户100已知的个体相关联的音频信号
可以被选择性地放大或以其他方式调节以具有相对于未知个体的优先权。例如,处理器210可以被配置为衰减或静音与用户100的环境中的旁观者(诸如嘈杂的办公室同事等)相关联的音频信号。在一些实施例中,处理器210还可以确定个体的层次结构并基于个体的相对状态给予优先权。在一些实施例中,可以基于列表或数据库来确定层次结构。被系统辨识出的个体可以被单独排序或分组为几层优先级。例如,被识别为“密友”或家人的个体可以优先于用户100的熟人。
399.在一些实施例中,处理器210可以基于个体与用户100的接近度来选择性地调节与一个或多个个体相关联的音频信号。处理器210可以基于捕捉的图像来确定从用户100到每个个体的距离,并且可以基于该距离来选择性地调节与这些个体相关联的音频信号。例如,离用户100较近的个体可能比离用户100较远的个体优先级更高。类似地,在更靠近用户的视线方向的角度上的个体可以比在离用户的视线方向更大角度上的个体优先级更高。
400.在一些实施例中,处理器210可以通过基于对多个图像中的至少一个的分析来识别至少一个动作来确定优先级水平。例如,处理器210可以基于唇部移动和检测到的声音来确定用户100的环境中的哪些个体正在说话。例如,处理器210可以跟踪与个体3501或3503相关联的唇部移动,以确定个体3501或3503正在说话。可以在检测到的唇部移动和接收到的音频信号之间进行比较分析。例如,处理器210可以基于在检测到与音频信号3511相关联的声音的同时个体3501的嘴正在运动的确定来确定个体3501正在说话。在一些实施例中,当个体3501的唇部停止运动时,这可对应于与音频信号3511相关联的声音中的静默或减小音量的时段。
401.在一些实施例中,与装置110相关联的数据还可以结合检测到的唇部移动被用于确定和/或验证个体是否正在说话,诸如用户100或个体3501或3503的视线方向、检测到的个体3501或3503的身份、辨识出的个体3501或3503的声纹等。
402.在一些实施例中,可以确定用户100或个体3501或3503的视线方向,并且可以在活跃说话者中给予视线方向所指向的个体更高的优先级。例如,如果个体3503正在看着个体3501,则与个体3501相关联的音频信号3511可以被选择性地调节。在一些实施例中,可以基于用户100的环境中其他个体的相对行为来分配优先级。例如,如果个体3501和个体3503都在说话,并且看着个体3501的另外个体比看着个体3503的更多,则与个体3501相关联的音频信号3511可以优先于与个体3503相关联的音频信号被选择性地调节。在确定个体的身份的实施例中,如前面讨论的,可以基于说话者的相对状态来分配优先级。
403.在一些实施例中,处理器210可以基于对多个捕捉图像中的至少一个的分析来识别至少一个动作。例如,处理器210可以基于用户100指向一个或多个声源(例如,个体)来确定声源的层次结构。在一些实施例中,用户100可以按照从最高优先级到最低优先级的顺序指向每个声源的至少一个声源。基于用户100的动作,计算设备120的音频信号优先级界面可以显示与每个声源相关联的声音的层次结构。处理器210可以基于声源的层次结构来选择性地调节与每个声源相关联的音频信号。例如,在用户100的环境中,相对于较低优先级音频信号,更高优先级音频信号可以被隔离和/或选择性地放大。在一些实施例中,低优先级音频信号可以被抑制、衰减、滤波、不变等。
404.在步骤3711中,处理器210可以被配置为使经选择性调节的第一音频信号传输到听觉接口设备1710,听觉接口设备1710被配置为向用户100的耳朵提供声音。因此,在经调
节的音频信号中,来自更高优先级源的声音可以更容易被用户100听到,比来自较低优先级源的声音更响亮和/或更容易区分,来自较低优先级源的声音可以表示环境内的背景噪声。
405.助听器和配对的相机系统
406.根据本公开的实施例,助听器系统可以选择性地放大声音。助听器系统可以包括可穿戴相机设备和助听器设备。可穿戴相机设备可以指具有图像、声音、音频和/或视频捕捉能力的设备,可穿戴相机设备可以附接到用户或用户的衣服或配件。助听器设备可以指将音频或声音输出到用户耳朵的设备。助听器设备的输出可以基于从可穿戴相机设备接收的输入或由可穿戴相机设备接收的输入来生成。助听器系统可以包括配对在一起以提供改进的功能的几个设备。例如,助听器系统可以包括用于向用户的耳朵提供声音的助听器设备,其中声音可以由助听器声学地捕捉或从诸如可穿戴相机设备的另一个源电子地接收。助听器设备可以与可穿戴相机设备配对(反之亦然),并且可穿戴相机设备可以捕捉图像和/或音频。可穿戴相机设备可以根据从助听器设备接收的指令来捕捉图像和/或音频。作为响应,助听器设备可以从可穿戴相机设备接收音频和其他信息。该系统还可以包括与可穿戴相机设备和助听器设备配对的移动设备。例如,在移动设备的显示器上显示的gui可以使用户能够提供输入以控制声音如何在助听器设备处被处理和接收。助听器系统还可以包括诸如测距仪的其他设备的配对。
407.如上所讨论的,在一些实施例中,助听器系统可以包括移动设备。移动设备可以是移动电话,或者诸如pda、平板电脑、可穿戴电子设备和其他类型的便携式电子设备的设备的其他示例。移动设备可以与助听器设备或可穿戴相机设备中的至少一个或两者配对。配对可以是指使两个或多个设备之间能够进行通信,并且移动设备可以与助听器设备或可穿戴相机设备无线地配对。无线配对的示例包括wi-fi、蓝牙(bluetooth)、nfc和其他类似的无线通信技术。
408.在一些实施例中,助听器系统可以包括测距仪。测距仪可以指能够确定对象与其自身之间的范围(或距离)的设备。在一些实施例中,测距仪可以无线地配对到可穿戴相机设备、助听器设备和/或移动设备,这些配对设备中的一个或多个接收由测距仪生成的范围测量。在一些实施例中,测距仪可以合并到可穿戴相机设备中。
409.在一些实施例中,可穿戴相机设备可以包括配置为从用户的环境捕捉多个图像的至少一个相机。该相机可以包括一个或多个图像传感器(诸如上面讨论的图像传感器220),用于从可穿戴相机设备的用户的环境捕捉一个或多个图像(和/或视频)。在一些实施例中,可穿戴相机设备包括被配置为从用户的环境捕捉声音的至少一个麦克风。至少一个麦克风可以指能够接收声波并基于所接收的声波生成音频信号的组件或设备。在一些实施例中,助听器设备可以包括至少一个扬声器,该扬声器被配置为向用户的耳朵提供声音。至少一个扬声器可以指通常基于音频信号能够生成声音的组件或设备。
410.举例而言,图38示出了包括可穿戴相机设备和助听器设备的助听器系统3800。助听器系统3800包括助听器设备3802和可穿戴相机设备3804。在一些实施例中,助听器设备3802和可穿戴相机设备3804配对以与移动设备3806进行通信。在一些实施例中,助听器设备3802可以与可穿戴相机设备3804配对,并且数据可以在配对的设备之间通信。在一些实施例中,可穿戴相机设备3804可以对应于图4a-图4k中示出的装置110。在一些替代实施例中,可穿戴相机设备3804可以对应于图3a-图3b中示出的装置110。在一些实施例中,助听器
设备3802可以对应于听觉接口设备1710。
411.如图38所示,可穿戴相机设备3804包括相机3804a。相机3804a可以被放置在可穿戴相机设备3804上,以便面朝要成像的对象或人的方向。相机3804a可以包括用于从用户的视场捕捉实时图像数据的图像传感器(例如,图像传感器220)。相机3804a可以是能够检测近红外、红外、可见光、紫外光谱或其任何组合中的光信号并将其转换为电信号的设备。电信号可以用于基于检测到的信号来形成图像或视频流(即图像数据)。术语“图像数据”包括从近红外、红外、可见光、紫外光谱或其任何组合中的光信号中检索出的任何形式的数据。图像传感器的示例可以包括半导体电荷耦合器件(ccd)、互补金属氧化物半导体(cmos)中的有源像素传感器或n型金属氧化物半导体(nmos,活跃mos)。在一些实施例中,相机3804a可以具有测距特征。例如,相机3804a可以确定图像3805中的一个或多个对象的范围测量3807。
412.作为示例,图39示出了使用助听器系统3800的用户的示例。根据所公开的实施例,用户100可以佩戴可穿戴相机设备3804和助听器设备3082。如图所示,用户100可以穿戴物理连接到用户100的衬衫或其他衣物的可穿戴相机设备3804。与所公开的实施例一致,可穿戴相机设备3804可以被放置在诸如连接到项链、腰带、眼镜、腕带、纽扣、帽子等的其他位置。可穿戴相机设备3804可以与助听器设备3802和/或与移动设备3806无线配对。
413.如图39所示,助听器设备3802可以被放置在用户100的一个或两个耳朵中,类似于传统的听觉接口设备。助听器设备3802可以是各种样式的,包括耳道内、完全耳道内、耳内、耳后、耳上、耳道内接收器、开放安装或各种其他样式。助听器设备3802可以包括用于向用户100提供听觉反馈的一个或多个扬声器。在一些实施例中,助听器设备3802可以是如图17a所示的听觉接口设备1710。
414.在一些实施例中,如图17a所示,助听器设备3802可以包括骨传导耳机1711。骨传导耳机1711可以通过外科手术植入,并且可以通过声音振动到内耳的骨传导来向用户100提供可听反馈。
415.用户的环境一般是指正在使用可穿戴相机设备3804的用户的环境。用户的环境可以包括对象和人,其中一些对象和人可以产生由位于可穿戴相机设备3804中的一个或多个麦克风(未示出)接收的声波3803。取决于相机3804a的方向和视场,相机3804a可以捕捉图像3805,图像3805表示由相机3804a沿着光轴3903看到的用户环境中的对象和人。在一些实施例中,声波3803可以由在图像3805中捕捉的对象或人生成。在一些实施例中,图像3805可以包括用户100的下巴的表示,其可以用于确定用户视线方向3901,该方向可以与用户100的视场重合。
416.相机设备3804可以包括至少一个处理器(在本公开中可称为至少一个第一处理器)。术语“处理器”包括具有对输入执行逻辑操作的电路的任何物理设备。例如,处理设备可以包括一个或多个集成电路、微芯片、微控制器、微处理器、中央处理单元(cpu)、图形处理单元(gpu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)的全部或部分、或适于执行指令或执行逻辑操作的其他电路。在一些实施例中,图5a-图5c中示出的处理器210可以是至少一个第一处理器的示例。
417.在一些实施例中,至少一个第一处理器被编程为选择性地调节从至少一个麦克风接收的表示由该至少一个麦克风捕捉的声音的音频信号。调节可以指音频信号的编辑、改
变或以其他方式处理的操作。在一些实施例中,处理器210可以基于从助听器设备3802接收的指令来调节声波3083。
418.在一些实施例中,助听器设备可以包括至少一个第二处理器。在一些实施例中,至少一个第二处理器被编程为引起向可穿戴相机设备3804的一个或多个指令的传输。一个或多个指令可以通过助听器设备3802与可穿戴相机设备3804之间的配对所创建的信道来无线传输。
419.在一些实施例中,移动设备可以包括用于向用户提供输出的用户界面。用户界面是指能够与用户交互(诸如为显示器提供输出信息或从用户接收输入)的系统或设备。在一些实施例中,用户界面可以由移动设备3806提供。例如,移动设备3806可以包括显示器,用于显示用户界面3806a以允许用户100与助听器系统3800交互。在一些实施例中,用户界面3806a可以包括用于从用户100接收可视、音频、触觉或任何其他合适的信号或输入的界面。例如,用户界面3806a可以包括可以是移动设备3800的一部分的显示器,诸如具有可由用户手势(例如,触摸屏上的触摸手势)或由适当的物理或虚拟(即,屏幕上)设备(例如,键盘、鼠标等)操纵的gui元素的触摸屏。在一些实施例中,用户接口3806a可以是能够接收用于调整系统3800的一个或多个参数的用户100音频输入(例如,用户100语音输入)的音频接口。例如,用户100可以经由音频命令经由用户界面3806a提供输入。音频接口可以由移动设备3806提供,诸如与移动设备3806相关联的麦克风。
420.在一些实施例中,用户界面3806a还可以呈现与助听器系统3800有关的信息,诸如与助听器设备3802和/或可穿戴相机设备3804的操作有关的信息。这样的信息可以用于通知用户100助听器系统3800的状态,使得用户100可以控制助听器设备3802和/或可穿戴相机设备3804的参数。
421.在一些实施例中,与助听器设备3802的操作有关的信息可以包括与移动设备3806、可穿戴相机3804和/或助听器设备3802之间的配对有关的状态信息。在一些实施例中,用户100可以通过用户界面3806a发起或终止移动设备3806、可穿戴相机3804和/或助听器设备3802之间的配对。在一些实施例中,与助听器系统3800的操作有关的信息可以包括助听器设备3802的操作状态信息(诸如电池水平和/或音量水平),并且用户100可以控制助听器设备3802的参数(诸如调整助听器设备3802的一个或多个扬声器的音量水平)。在一些实施例中,与可穿戴相机设备3804的操作有关的信息可以包括可穿戴相机设备3804的操作状态(诸如电池水平)、与已由可穿戴相机设备3804捕捉的图像有关的信息和/或音频调节操作。
422.在一些实施例中,可穿戴相机设备3804捕捉的图像(诸如图像3805)可以经由用户界面3806a实时地显示给用户100。图像3805可以以使得用户100可以以各种方式操纵图像3805的方式呈现。例如,用户100可以放大或缩小以最大化或最小化图像3805、裁剪图像3805、编辑图像3805和/或将图像3805保存在存储器中,以及本领域已知的其他图像操纵技术。在一些实施例中,由相机3804a确定的范围测量3807可以经由用户界面3806a呈现给用户100。范围测量可以与图像3805中表示的对象或人相关联。
423.在一些实施例中,一个或多个音频调节操作的状态可以经由用户界面3806a呈现给用户100。例如,可以向用户100呈现任何一个或多个正在进行的音频调节设置。在一些实施例中,用户界面3806a可以向用户100显示选项,以取消正在进行的音频调节操作,和/或
通过修改一个或多个音频调节设置来选择不同的音频调节操作。
424.用户界面3806a还可以能够接收来自用户100的输入。例如,基于显示器上显示的输出,用户100可能希望改变助听器系统3800的一个或多个操作。来自用户100的输入可以被处理成用于助听器系统3800的指令。在一些实施例中,至少一个第二处理器可以被配置为基于来自用户的输入来确定一个或多个指令。在一些实施例中,移动设备3806可以包括用于接收来自用户的输入的用户界面。经由用户界面3806a接收的用户输入可以从移动设备3806无线发送到助听器设备3802,在该助听器设备处第二处理器(例如,处理器210)可以将用户输入转换为用于控制助听器系统3800的一个或多个操作的指令。
425.在一些实施例中,可穿戴相机设备3804可被配置为基于一个或多个指令来捕捉多个图像和声音。用户100可以通过用户界面3806a手动改变可穿戴相机设备3804如何捕捉图像。例如,用户100可能希望聚焦在人或对象上,因此用户输入可以得到用于缩小相机3804a的视场和/或放大一个或多个捕捉图像的指令。在另一示例中,由用户界面3806a显示的图像3805可能失焦或模糊,并且用户100可能希望改变相机3804a的焦点以改善图像质量,从而得到对相机3804a重新对焦的指令。在又一示例中,用户100可能希望改变图像3805的照明条件以补偿低/高光条件,并且因此用户输入可以相应得到改变相机3804a照明条件的指令。
426.在一些实施例中,至少一个第一处理器可以被编程为基于一个或多个指令来选择性地调节音频信号。例如,可穿戴相机设备3804的至少一个第一处理器(例如,处理器210)可以编辑、改变或以其他方式处理从用户的环境捕捉的声波3803。可将经调节的音频信号提供给助听器设备3802,从而可以生成声音3801以供用户100听到。声音3801可以基于由可穿戴相机设备3804输出的经调节的音频信号来生成。
427.在一些实施例中,选择性地调节音频信号可以包括修改声波3803的振幅、音调、音高、低音和/或其他音频效果。例如,可以在用户界面3806a上向用户100呈现类似菜单的界面(例如音频混合滑块),并且用户100可以根据需要选择一个或多个音频效果。在一些实施例中,用户100可以改变对应于声波3803的一个或多个音频信号的音调,以使声音对用户100更易感知。例如,用户100可能对特定范围内的音调具有较小的敏感度,并且音频信号的调节可以包括调整声音3803的音高。例如,用户100可能经历10khz以上的频率中的听觉损失,并且第一处理器(例如处理器210)可以将更高的频率(例如,在15khz处)重新映射到低于10khz的频率。在一些实施例中,第一处理器(处理器210)可以被配置为改变与一个或多个音频信号相关联的语速。例如,第一处理器(例如,处理器210)可以被配置为例如通过使每个词语持续时间更长并相应地减少连续词语之间的静默时段来改变经调节的音频信号中的个体的语速,以使检测到的语音对用户100更易感知。
428.在一些实施例中,选择性地调节音频信号可以包括将声音分类为不同类别的声音。例如,第一处理器(例如,处理器210)可以将声波3803分类为包含音乐、音调、笑声、讲话、尖叫、背景噪声等的片段。各个片段的指示可以记录在数据库中,并且可以证明对于生活记录应用非常有用。作为一个示例,所记录的信息可以使助听器系统3800能够检索和/或确定当用户遇到另一个体时的心情。另外,这样的处理可以相对快速和有效地发生,并且可以不使用大量的计算资源。因此,将信息发送到目的地(例如,另一设备、外部服务器等)可能不需要很大的带宽。此外,一旦音频的某些部分被分类为非语音,更多的计算资源可用于
处理其他片段。在一些实施例中,用户100可以经由用户界面3806a提供输入,以将上面讨论的不同音频效果应用于声波3803的不同片段。
429.在一些实施例中,选择性地调节音频信号可以包括音频信号的衰减。例如,第一处理器(例如,处理器210)可以基于来自用户100的输入将一个或多个滤波器(例如数字滤波器)应用于声波3803。在一些情况下,滤波器可以选择性地衰减音频信号(诸如声波3803)。在一些情况下,声波3803可以包括环境噪声(例如,各种背景声音,诸如音乐、来自未参与与用户100的对话的人的声音/噪声等)。用户100可以选择各种滤波选项,从而可以从经调节的音频信号中消除或衰减环境噪声。例如,用户100可能希望在具有高背景噪声水平的环境中衰减声波3803。
430.在一些实施例中,选择性调节可以包括音频信号的放大。例如,第一处理器(例如,处理器210)可以选择声波3803的一个或多个部分来放大。在一些实施例中,声波3803的选定部分可以对应于与用户100与另一个体的对话有关的音频,或者来自用户100感兴趣的音频源(诸如tv、收音机、扬声器等)的音频。例如,用户100可以向用户界面3806a提供输入以放大选定部分声波3803。
431.在一些实施例中,选择性调节可以包括将说话者的声音与背景声音分离。可以使用任何合适的方法来执行分离,例如使用多个麦克风(诸如包括在可穿戴相机设备3804上的麦克风)。在一些情况下,至少一个麦克风可以是定向麦克风或麦克风阵列。例如,一个麦克风可以捕捉背景噪声,而另一个麦克风可以捕捉包括背景噪声以及特定人的语音的音频信号。然后可以通过从组合音频中减去背景噪声来获得语音。在一些实施例中,第一处理器(例如,处理器210)可以分析图像3805以确定声波3803的源。例如,图像3805可以帮助识别生成声波3803的对象或人。在一些实施例中,用户100可以从用户界面3806a选择要从中过滤音频的对象或人。
432.在一些实施例中,用户100可以提供输入以选择性地接合或关闭各种音频处理特征。例如,用户100可以提供输入以基于上面讨论的唇读功能选择性地调节声波3803。例如,可以在图像3805中捕捉人的唇部移动,并且第一处理器(例如,处理器210)可以基于图像3805选择性地放大或衰减声波3803。在其他示例中,用户100可以提供输入以基于上面讨论的语音识别来选择性地调节声波3803。第一处理器(例如,处理器210)可以执行速度内容声波3803的语音识别,并且可以基于是否从声波3803识别出词语来选择性地放大或衰减声波3803。
433.在一些实施例中,用户100可以选择用于选择性放大或衰减的特定音频信号源。例如,第一处理器(例如,处理器210)可以基于对图像3805的分析来识别声波3803的不同分量及其各自的源。在一些示例中,用户100可以与显示在用户界面3806a上的图像3805交互并选择图像3805的不同部分。基于该用户选择,第一处理器(例如,处理器210)可以选择性地放大从图像3805的选定部分发出的声波3803的部分,并且选择性地衰减从图像3805的一个或多个非选定部分发出的声波3803的其他部分。在一些实施例中,第一处理器可以放大从用户100的视场内的区域或用户100的视场的部分获得的声音。
434.在一些实施例中,至少一个第二处理器可以从可穿戴相机设备接收经调节的音频信号。经调节的音频信号可以从经由配对连接的可穿戴相机设备3804无线地发送到助听器设备3802。
435.在一些实施例中,至少一个第二处理器可以基于经调节的音频信号使用至少一个扬声器向用户的耳朵提供声音。助听器设备3802的至少一个扬声器可以生成向用户100的耳朵的声音3801。
436.图40示出符合所公开实施例的助听器和配对的相机系统的示例性过程4000的流程图。在一些实施例中,助听器和配对的相机系统可以是图38和图39中示出的系统3800,其包括助听器设备3802、可穿戴相机设备3804和/或移动设备3806。
437.在步骤4002中,助听器设备3802和可穿戴相机设备3804可以配对以彼此进行通信,和/或与移动设备3806进行通信。无线配对的示例包括wi-fi、蓝牙(bluetooth)、nfc和其他类似的无线通信技术。在一些实施例中,配对可以由用户100使用移动设备3806发起。例如,当助听器设备3802和/或可穿戴相机设备3804在与移动设备和/或彼此的通信范围内时,可以在移动设备3806上向用户100呈现通知,允许用户100选择设备的配对。在一些实施例中,助听器设备3802、可穿戴相机设备3804和/或移动设备3806之间的配对可以由移动设备3806上的用户100终止。在其他实施例中,配对可以自动启动(例如,当助听器设备3802和/或可穿戴相机设备3804在与移动设备3806和/或彼此的通信范围内时)。
438.在步骤4004中,移动设备3806可以生成或显示用户界面3806a。用户界面3806a可以被配置为从用户100接收可视、音频、触觉或任何其他合适的信号。例如,用户界面3806a可以在可以是移动设备3806的一部分的显示器上显示,诸如包括可由用户手势或由适当的物理或虚拟(即,屏幕上)设备(例如,键盘、鼠标等)操纵的gui元素的触摸屏。在一些实施例中,用户接口3806a可以是能够接收用于调整系统3800的一个或多个参数的用户100音频输入(例如,用户100语音输入)的音频接口。音频接口可以由可以包括麦克风的移动设备3806提供。
439.在一些实施例中,用户界面3806a还可以呈现与助听器系统3800有关的信息,诸如与助听器设备3802和/或可穿戴相机设备3804的操作有关的信息。这样的信息可以用于通知用户100助听器系统3800的状态,使得用户100可以控制助听器设备3802和/或可穿戴相机设备3804的参数。例如,用户100可以通过用户界面3806a发起或终止移动设备3806、可穿戴相机3804和/或助听器设备3802之间的配对。
440.在一些实施例中,可穿戴相机设备3804捕捉的图像(诸如图像3805)可以经由用户界面3806a实时地显示给用户100。图像3805可以以能够由用户100操纵的方式呈现。例如,用户100可以放大/缩小以最大化或最小化图像3805、裁剪图像3805、编辑图像3805和/或将图像3805保存在存储器中,以及本领域已知的其他图像操纵。在一些实施例中,由相机3804a确定的范围测量可以经由用户界面3806a呈现给用户100。范围测量可以与图像3805相关联。
441.在步骤4006中,移动设备3806可以经由用户界面3806a从用户100接收输入。在一些实施例中,音频调节操作的状态可以经由用户界面3806a呈现给用户100。例如,可以向用户100呈现任何正在进行的音频调节设置。在一些实施例中,用户界面3806a可以向用户显示选项,以取消正在进行的音频调节操作,和/或通过修改一个或多个音频调节设置来选择不同的音频调节操作。
442.在步骤4008中,移动设备3806可以将经由用户界面3806a接收的用户输入发送到助听器设备3802或可穿戴相机设备3804。助听器设备3802或可穿戴相机设备3804的至少一
个第二处理器(例如,处理器210)可以被编程为基于用户输入确定用于系统3800的指令。然后,可以由助听器设备3802的组件和/或由可穿戴相机设备3804执行指令。
443.在步骤4010中,可穿戴相机设备3804可以从用户的环境捕捉音频(诸如声波3803)。可穿戴相机设备3804可以使用至少一个麦克风来基于接收到的声波3803生成音频信号。
444.在步骤4012中,可穿戴相机设备3804可以捕捉多个图像(诸如图像3805)。如图38和图39所示,可穿戴相机设备3804可以使用相机3804a来捕捉用户100的视场的实时图像数据。相机3804a可以捕捉对象和人的图像,其中一些对象和人可以产生由位于可穿戴相机设备3804中的一个或多个麦克风接收的声波3803。
445.在步骤4014中,可穿戴相机设备3804可以确定范围测量3807。例如,可穿戴相机设备3804可以使用测距仪来确定对象或人与可穿戴相机设备3804之间的范围(或距离)。在一些实施例中,可以确定相对于用户的视线方向的角度。
446.在步骤4016中,可穿戴相机设备3804可以调节声波3803。调节可以包括由至少一个第一处理器(例如,处理器210)进行的修改声波3803的音调、音高、低音和/或其他音频效果的操作;将声音分类为不同的声音类别;对声波3803进行衰减;和/或引起声波3803的放大。调节可以基于从助听器设备3802和/或移动设备3806发送的指令,这些指令又是基于来自用户100的输入而生成的。
447.例如,可以在用户界面3806a上向用户100呈现类似菜单的界面(例如音频混合滑块),并且用户100可以根据需要选择一个或多个音频效果。在一些实施例中,改变对应于声波3803的一个或多个音频信号的音调可以使声音对用户100更易感知。例如,用户100可能对特定范围内的音调具有较小的敏感度,并且音频信号的调节可以调节声音3803的音高。例如,用户100可能经历10khz以上的频率中的听觉损失,并且第一处理器(例如处理器210)可以将更高的频率(例如,在15khz处)重新映射到低于10khz的频率。在一些实施例中,第一处理器(处理器210)可以被配置为改变与一个或多个音频信号相关联的语速。第一处理器(例如,处理器210)可以被配置为改变经调节的音频信号中的个体的语速,以使检测到的语音对用户100更易感知。
448.例如,第一处理器(例如,处理器210)可以将声波3803分类为包含音乐、音调、笑声、讲话、尖叫、背景噪声等的片段。一旦音频的某些部分被分类为非语音,更多的计算资源可用于处理其他片段。在一些实施例中,用户100可以经由用户界面3806a提供输入,以将上面讨论的不同音频效果应用于声波3803的不同片段。
449.例如,第一处理器(例如,处理器210)可以基于来自用户100的输入将一个或多个滤波器(例如数字滤波器)应用于声波3803。在一些情况下,滤波器可以选择性地衰减音频信号(诸如声波3803)。在一些情况下,声波3803可以包括环境噪声(例如,各种背景声音,诸如音乐、来自未参与与用户100的对话的人的声音/噪声等)。用户100可以选择各种滤波选项,从而可以从经调节的音频中消除或衰减环境噪声。例如,用户100可能希望衰减与背景噪声相关联的环境中的声波3803。
450.例如,第一处理器(例如,处理器210)可以选择声波3803的一个或多个部分来放大。在一些实施例中,声波3803的选定部分可以对应于与用户100与另一个体的对话有关的音频,或者来自用户100感兴趣的音频源(诸如tv、收音机、扬声器等)的音频。例如,用户100
可以向用户界面3806a提供输入以放大声波3803的选定部分。可以使用任何合适的方法来执行说话者的语音从背景声音的分离,例如使用多个麦克风(诸如包括在可穿戴相机设备3804上的麦克风)。在一些情况下,至少一个麦克风可以是定向麦克风或麦克风阵列。例如,一个麦克风可以捕捉背景噪声,而另一个麦克风可以捕捉包括背景噪声以及特定人的语音的音频信号。然后可以通过从组合音频中减去背景噪声来获得语音。在一些实施例中,第一处理器(例如,处理器210)可以利用图像3805以辅助用户100确定声波3803的源。例如,可以分析图像3805以识别生成声波3803的对象或人,并且其可以继而经由用户界面3806a显示给用户100。
451.例如,用户100可以提供输入用于基于上面讨论的唇读功能对声波3803的选择性调节。可以在图像3805中捕捉人的唇部移动,并且第一处理器(例如,处理器210)可以基于图像3805选择性地放大或衰减声波3803。在一些其他示例中,用户100可以提供输入以基于上面讨论的语音识别来选择性地调节声波3803。第一处理器(例如,处理器210)可以执行内容声波3803的语音识别,并且可以基于是否从声波3803识别出词语来选择性地放大或衰减声波3803。
452.例如,第一处理器(例如,处理器210)可以在图像3805中被捕捉时识别声波3803的不同分量及其各自的源。用户100可以与显示在用户界面3806a上的图像3805交互并选择图像3805的不同部分。基于该用户选择,第一处理器(例如,处理器210)可以选择性地放大从图像3805的选定部分发出的声波3803的部分,并且选择性地衰减从图像3805的非选定部分发出的声波3803的其他部分。
453.在步骤4018中,可穿戴相机设备3804可以将经调节的音频信号提供给助听器设备3802。例如,经调节的音频信号可以从经由配对连接的可穿戴相机设备3804无线地发送到助听器设备3802。经调节的音频信号的传输可以包括通过一个或多个网络并使用一个或多个传输协议的传输。
454.在步骤4020中,助听器设备3802的一个或多个扬声器可以生成向用户100的一个或多个耳朵的声音3801。
455.例如,在一些实施例中,至少一个第二处理器可以从可穿戴相机设备接收经调节的音频信号,并且可以基于经调节的音频信号使用至少一个扬声器向用户的耳朵提供声音。助听器设备3802的至少一个扬声器可以生成向用户100的一个或两个耳朵的声音3801。
456.自适应捕捉速率
457.在一些实施例中,助听器系统可以具有自适应捕捉速率。例如,与麦克风和/或与助听器系统相关联的相机相关联的参数可以基于特定情况或背景来调整。例如,助听器系统可以分析由相机捕捉的图像和/或由麦克风捕捉的声音,以确定应该改变特定参数。取决于助听器系统的用户的情况或背景,可以优化不同的参数。例如,当用户与语速快的个体交互时,助听器系统可以增加相机的捕捉速率(例如,每秒帧数)。这可以允许助听器系统更有效地分析说话者的捕捉图像(例如,用于检测唇部移动等)。在个体说话较慢的情况下,或者在没有活跃说话者的情况下,系统可以降低相机的捕捉速率。这可以是有益的,例如,减少相机设备的功耗、减少所使用的存储器量等等。其他传感器或信息也可以用于控制相机或麦克风的参数,诸如位置信息、检测到的光线水平、一天中的时间等。
458.所公开助听器系统可以选择性地放大声音。在一个实施例中,助听器系统可以包
括可穿戴相机、助听器和至少一个麦克风。可穿戴相机可以指具有图像、声音、音频和/或视频捕捉能力的设备,它们可以附接到用户或用户的衣服或配件上。助听器可以指将音频或声音输出到用户耳朵的设备。助听器的输出可以基于从可穿戴相机和/或至少一个麦克风接收的输入或由可穿戴相机和/或至少一个麦克风接收的输入来生成。助听器系统可以包括配对在一起以提供改进的功能的几个设备。例如,助听器系统可以包括用于向用户的耳朵提供声音的助听器,其中声音可以由助听器声学地捕捉或从诸如可穿戴相机或至少一个麦克风的另一个源电子地接收。
459.在一些实施例中,可穿戴相机可以被配置为从用户的环境捕捉多个图像,并且可穿戴相机可以具有图像捕捉参数。相机可以指能够接收来自人、对象和/或环境的光,并基于接收到的光形成图像或视频的组件或设备。该多个图像可以是包含多个静止图像(被称为帧)的视频剪辑。在一些实施例中,助听器系统可以包括被配置为从用户的环境捕捉声音的至少一个麦克风。麦克风可以是能够接收声波并基于所接收的声波生成音频信号的组件或设备。
460.作为示例,图41示出了包括可穿戴相机4104和助听器4102的助听器系统。在一些实施例中,助听器设备4102和可穿戴相机设备4104配对以与具有图形用户界面(gui)的移动设备(未示出)进行通信。在一些实施例中,助听器4102可以与可穿戴相机4104配对,并且数据可以在配对的设备之间通信。在一些实施例中,可穿戴相机4104可以对应于图4a-图4k中示出的装置110。在一些替代实施例中,可穿戴相机设备4104可以对应于图3a和图3b中示出的装置110。助听器4102可以对应于听觉接口设备1710。
461.可穿戴相机4104可以包括用于捕捉基本上对应于从用户的视场的实时图像数据的图像传感器(例如,图像传感器220)。例如,可穿戴相机4104可以是指能够检测近红外、红外、可见光和紫外光谱中的光信号并将其转换为电信号的设备。电信号可以用于基于检测到的信号来形成图像或视频流(即图像数据)。术语“图像数据”包括从近红外、红外、可见光和紫外光谱中的光学信号中检索到的任何形式的数据。图像传感器的示例可以包括半导体电荷耦合器件(ccd)、互补金属氧化物半导体(cmos)中的有源像素传感器或n型金属氧化物半导体(nmos,活跃mos)。
462.根据图41所示的示例,用户100可以佩戴可穿戴相机4104和助听器4102。如图所示,用户100可以穿戴物理连接到用户100的衬衫或其他衣物的可穿戴相机4104。与所公开的实施例一致,可穿戴相机4104可以被放置在诸如连接到项链、腰带、眼镜、腕带、纽扣等的其他位置。如图41所示,助听器4102可以被放置在用户100的一个或两个耳朵中,类似于传统的听觉接口设备。助听器4102可以是各种样式的,包括耳道内、完全耳道内、耳内、耳后、耳上、耳道内接收器、开放安装或各种其他样式。助听器4102可以包括用于向用户100提供听觉反馈的一个或多个扬声器。
463.用户的环境一般是指正在使用可穿戴相机设备4104的用户的周围环境。用户的环境可以包括对象和人,其中一些对象和人可以产生由位于可穿戴相机设备4104中的一个或多个麦克风(未示出)接收的声波。根据可穿戴相机4104的方向和视场,可穿戴相机4104可以捕捉包括可穿戴相机4104沿着光轴4103所看到的用户环境中的对象和人的表示的图像。
464.可穿戴相机可以包括至少一个处理器。术语“处理器”包括具有对输入执行逻辑操作的电路的任何物理设备。例如,处理设备可以包括一个或多个集成电路、微芯片、微控制
器、微处理器、中央处理单元(cpu)、图形处理单元(gpu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)的全部或部分、或适于执行指令或执行逻辑操作的其他电路。在一些实施例中,图5a-图5c中示出的处理器210可以是至少一个处理器的示例。
465.在一些实施例中,至少一个处理器可以接收由可穿戴相机捕捉的多个图像。在一些实施例中,至少一个处理器可以接收表示由至少一个麦克风捕捉的声音的音频信号。音频信号可以表示从用户的环境发出的声音。
466.举例而言,图42示出了从用户的环境捕捉图像和音频的助听器系统。用户100周围的区域、地区和/或空间可以构成用户100的环境。在一些实施例中,可穿戴相机4104可以具有由图42中示出的沿着光轴4103的锥体4203所定义的视场。锥体4203的宽度可以是如由其组件或设置所定义的可穿戴相机4104的属性,诸如镜头或光圈、变焦等。在锥体4203内,在可穿戴相机4104的视图内可以存在人或对象(诸如人4200)。在一些实施例中,可穿戴相机4104可以捕捉图像4214。图像4214可以包括椎体4203的视图内的人或对象的表示。在一些实施例中,图像4214是诸如人4200的人的图像,并且可以对人4200的面部成像,使得在图像4214中可以看到人4200的唇部4214a和唇部移动。
467.在一些实施例中,声波可以从锥体4203内发出,诸如由人4200生成的声波4202。在一些实施例中,其他声波可以从锥体4203的外部发出,诸如声波4204a和/或声波4204b。因此,由至少一个麦克风捕捉的音频信号可以来自在图像4214中捕捉的人或对象。在一些实施例中,不是由来自锥体4203内的人或对象生成的声波可以被认为是背景声音。在一些实施例中,声波可以通过各种物理属性来表征,诸如振幅、频率、音调、音高等。
468.处理器210可以通过执行任何合适的方法,例如通过使用多个麦克风(诸如包括在可穿戴相机4104上的麦克风),将人4200的语音与背景声音分离。在一些情况下,至少一个麦克风可以是定向麦克风或麦克风阵列。例如,一个麦克风可以捕捉背景噪声(例如,声波4204a和/或声波4204b),而另一个麦克风可以捕捉包括背景噪声例如,声波4204a和/或声波4204b)以及特定人的语音(声波4204)的音频信号。然后可以通过从组合音频中减去背景噪声来获得语音。在一些实施例中,处理器(例如,处理器210)可以分析图像4214以确定声波4202的源。例如,声波4202可以包含由人4200说出的语音4212。语音4212可以与图像4214中看到的唇部4214a的运动相匹配。
469.在一些实施例中,助听器系统可以改变或调整可穿戴相机4104的图像捕捉参数。图像捕捉参数可以是指表征可穿戴相机4104的一个或多个操作的操作设置、参数、条件和/或其他因素。例如,调整图像捕捉可以增加可穿戴相机4104的性能特性,而降低可穿戴相机4104的性能特性可以减少可穿戴相机4104的功耗,或者可以减少所使用的存储器量等。
470.在一些实施例中,图像捕捉参数可以是相机的帧速率。帧可以指多个图像(诸如视频)中的单个图像。因此,帧速率可以指每单位时间的图像数量。在一些实施例中,可穿戴相机4104的帧速率可以指当可穿戴相机捕捉视频剪辑时,每单位时间捕捉的图像数量。例如,如果可穿戴相机4104以每秒100帧(fps)捕捉视频,则当可穿戴相机4104捕捉视频时,每秒捕捉100个静止图像。相机的帧速率可能会影响所捕捉的视频剪辑的质量。例如,与使用较慢帧速率的相机相比,使用更高帧速率的相机可以在特定时间帧期间捕捉更多的图像,并且更高数量的图像可以增加视频质量,例如,提供更多的运动细节。例如,在感兴趣的对象(诸如人4200)表现出快速或迅速运动的情况或背景中,可能更希望可穿戴相机4104以更高
的帧速率操作。可替代地,在某些情况或背景中,更高的帧速率可能不是最佳的。例如,当感兴趣的对象(诸如人4200)没有表现出快速或迅速的运动时,具有较慢帧速率(或较低数量的静止图像)的视频可能不会显著损害视频质量。相反,让相机使用较慢的帧速率操作可以消耗较低的能量,并且捕捉的图像可以需要更少的存储器来存储。
471.在附加或替代实施例中,图像捕捉参数可以包括捕捉图像的分辨率、捕捉图像的压缩率和/或用于优化捕捉音频信号的压缩质量的参数。
472.在一些实施例中,可以基于检测到的语速来调整图像捕捉参数。例如,语速可以指说话或发声的步调或速度。在一些情况下,语速可以与诸如人4200的个体的唇部移动有关。例如,高语速可能暗示迅速的唇部移动,而低语速可能暗示较慢的唇部移动。在一些实施例中,助听器系统可以包括诸如唇部跟踪算法的特征,并且多个捕捉的图像可以由唇部跟踪算法使用。
473.另外地或可替代地,可以基于检测到的光线水平来调整图像捕捉参数。例如,更高的帧速率设置可能比较低的帧速率设置需要更多的光。处理器210可以基于一个或多个光传感器读数(例如,来自可穿戴相机4104)来确定在某些环境条件(例如,某些光线条件)下对于可穿戴相机4104最优的帧速率。
474.另外地或可替代地,可以基于位置信息来调整图像捕捉参数。例如,可以基于用户100的位置信息(例如,gps信息、从分析捕捉的图像和/或音频确定的位置信息、用户100提供的位置信息等)来确定用户100的环境。处理器210可以基于位置信息来确定调整可穿戴相机4104的帧速率的相关因素,诸如用户100是否位于繁忙位置、用于在该位置成像的对象的数量和类型、用于再充电的电源插座的可用性、或可以确定可穿戴相机4104的最佳性能和/或最佳电池寿命管理的其他此类因素。在一些实施例中,处理器210可以基于助听器系统的gps坐标或来自用户100的输入来接收位置信息。在一些实施例中,位置信息可以是可由用户100选择的用户设置。例如,可穿戴相机4104可以被配置为基于位置的用户设置以预定帧速率操作,诸如在城市环境、乡村环境、拥挤位置、稀疏位置、低照明环境等。
475.另外地或可替代地,可以基于用户设置来调整图像捕捉参数。例如,用户100可以基于特定情况的环境根据需要增加或减少可穿戴相机4104的帧速率。在一些实施例中,用户100可以选择可穿戴相机4104的预定义设置(例如,通过口头命令或经由配对设备的用户界面),并引起对图像捕捉参数的调整。例如,可穿戴相机4104可以被配置为允许用户100在几个设置中进行选择,每个设置用可穿戴相机4104的一个帧速率编程。例如,用户100可以选择节能设置以节省功率,导致可穿戴相机4104以较慢的帧速率操作。例如,用户100可以选择高性能设置以最大限度地提高视频质量,这可以导致可穿戴相机4104以更高的帧速率操作。在一些实施例中,可穿戴相机4104可以基于说话者的身份来调整帧速率。例如,基于先前的交互,可以知道人4200具有特定的语速,并且每当人4200进入可穿戴相机4104的视野时,可穿戴相机4104可以自动选择用于可穿戴相机4104的帧速率。可替代地,用户100可以基于可穿戴相机4104先前检测到的人来选择某些帧速率设置。
476.图43示出了符合所公开实施例的调整可穿戴相机的捕捉参数的示例性过程的流程图。
477.在步骤4302中,至少一个处理器(例如,处理器210)可以接收由相机捕捉的多个图像。多个图像可以是静止图像或包含多个静止图像的视频剪辑。图像可以包含在可穿戴相
机4104的视场中的对象或人。例如,可穿戴相机4104可以捕捉图像4214,其示出位于锥体4203内的人4200的脸部。在一些实施例中,图像4214可以包含人4200的唇部4214a或其运动的图像。
478.在步骤4304中,至少一个处理器(例如,处理器210)可以接收表示由至少一个麦克风捕捉的声音的音频信号。例如,可穿戴相机4104可以捕捉从锥体4203内发出的声波,诸如由人4200生成的声波4202。可穿戴相机4104还可以捕捉从锥体4203外部发出的其他声波,诸如声波4204a和/或声波4204b。
479.在步骤4306中,至少一个处理器(例如,处理器210)可以识别多个图像中的至少一个中的至少一个体的表示。在一些实施例中,处理器210可以被配置为执行一种或多种图像分类算法以识别图像4214中是否存在人。在一些实施例中,处理器210可以执行面部识别程序或算法以识别图像4214内的一个或多个面部。例如,处理器210可以识别在图像4214中捕捉的人4200的脸上的面部特征,诸如眼睛、鼻子、颧骨、下巴、唇部或其他特征。处理器210可以使用一种或多种算法来分析检测到的特征,诸如主分量分析(例如,使用本征脸)、线性判别分析、弹性束图匹配(例如,使用fisher脸)、局部二进制模式直方图(lbph)、尺度不变特征变换(sift)、加速鲁棒特征(surf)等。还可以使用诸如三维识别、皮肤纹理分析和/或热成像的其他面部识别技术来识别个体。除了面部特征之外的其他特征也可以用于识别,诸如身高、体型或人4200的其他区别特征。
480.在步骤4308中,至少一个处理器(例如,处理器210)可以检测与该至少一个个体相关联的语速。至少一个处理器(例如,处理器210)可以基于所捕捉的多个图像或音频信号或两者来检测与至少一个个相关联的语速。
481.在一些实施例中,至少一个处理器(例如,处理器210)可以基于对多个图像的分析来识别与至少一个个体的嘴相关联的至少一个唇部移动。处理器210可以基于对多个图像(例如,图像4214)的分析来识别与个体的嘴相关联的至少一个唇部移动或唇部位置。处理器210可以被配置为识别与个体的嘴相关联的一个或多个点。在一些实施例中,处理器210可以开发与个体的嘴相关联的轮廓,该轮廓可以定义与个体的嘴或唇部相关联的边界。可以在多个帧或图像上跟踪在图像中识别出的唇部,以识别唇部移动。因此,处理器210可以使用如上所述的各种视频跟踪算法。例如,处理器210可以识别图像4214内的人4200的唇部4214a,并且可分析其运动。在一些情况下,处理器210可以识别特定面部表情(诸如唇部移动)与特定声音或声音波动之间的相关性。例如,与特定唇部移动相关的面部表情可以与在第一音频信号中捕捉的对话期间可能已经说过的声音或词语相关联。在一些实施例中,通过诸如训练过的神经网络的基于计算机的模型来执行对多个图像的分析。例如,训练过的神经网络可以被训练以接收与个体的面部表情相关的图像和/或视频数据,并预测与所接收的图像和/或视频数据相关联的声音。作为另一示例,训练过的神经网络可以被训练以接收与个体的面部表情和声音有关的图像和/或视频数据,并输出该面部表情是否对应于该声音。在一些实施例中,可以在由可穿戴相机捕捉的一个或多个图像中识别其他因素,诸如个体的手势、个体的位置、个体面部的朝向等。通过将唇部移动与预测的声音或词语相关联,处理器210可以确定在一段时间内与在图像4214中捕捉的唇部移动相关联的词语或声音的数量。至少一个处理器(例如,处理器210)可以基于唇部移动来确定语速。
482.在一些实施例中,至少一个处理器(例如,处理器210)可以分析所接收的音频。例
如,处理器210可以识别与声波4202相关联的语音4212,该语音4212包含人4200的语音。在一些实施例中,处理器210可以分析从可穿戴相机4104的麦克风接收的声音,以使用任何当前已知或未来开发的技术或算法将声波4202与声波4204a和4204b分开。例如,处理器210可以接收表示从用户100的环境中的对象发出的声音的音频信号,并且分析所接收的音频信号以获得与一个声音发出对象相关联的隔离音频流。
483.基于音频分析,至少一个处理器(例如,处理器210)可以识别个体所说的多个词语。处理器210可以被配置为识别个体4200所说的词语。例如,处理器210可以分析声波4202以识别声波4202中的特定音素、音素组合或词语。在一些实施例中,处理器210可以使用各种语音到文本算法来识别所说的词语。在一些实施例中,识别多个词语可以包括使用语音识别算法。语音识别可以指机器、处理器或程序用于接收并且解释声音、语音、口述或类似的能力。例如,语音识别算法可以由处理器210执行以识别或解释在声音中接收到的词语或命令。语音识别算法的示例可以通过ai、深度学习算法、神经嵌入模型或本领域中的其他已知方法来实现。至少一个处理器(例如,处理器210)可以基于多个词语来确定语速。
484.在步骤4310中,至少一个处理器(例如,处理器210)可以基于检测到的语速来对可穿戴相机的一个或多个图像捕捉参数进行调整。在一个示例中,当处理器210检测到人4200的唇部移动量大于阈值时,处理器210可以确定高语速。处理器210可以在人4200的唇部移动量高时增加可穿戴相机4104的帧速率。这可以允许助听器系统通过确保捕捉足够数量的唇部移动图像来保持唇部跟踪算法的准确性。在另一示例中,当处理器210检测到小于阈值的语速时,处理器210可以确定已经检测到人4200的低量唇部移动。处理器210可以在人4200的唇部移动量低时减少可穿戴相机4104的帧速率。这可以减少功率使用和/或存储器存储使用,而不损害唇部跟踪算法的准确性。
485.至少一个麦克风可以具有用于捕捉音频信号(特别是语音)的一个或多个参数,还可以根据语速或其他参数或设置来调整。在一些实施例中,至少一个处理器还可以被编程为基于检测到的语速引起对至少一个麦克风的一个或多个音频捕捉参数的调整。音频捕捉参数的示例可以包括音调、音高、振幅、灵敏度水平、频率和/或采样速率。例如,至少一个处理器可以对到达至少一个麦克风的音频信号应用滤波器,以选择性地捕捉具有特定音调、音高或频率的音频信号。作为另一示例,该至少一个处理器可以放大或衰减到达至少一个麦克风的音频信号,以改变捕捉的音频信号的振幅,和/或改变至少一个麦克风的灵敏度。
486.在一些实施例中,至少一个处理器(例如,处理器210)可以基于在步骤4308中检测到的语速来调整至少一个麦克风的采样速率。采样速率可以是指设备对信号进行采样的时间频率。例如,以更高采样速率记录(即采样)的音频信号将包括比以较低采样速率记录的更多的音频信号。例如,当处理器210确定检测到的语速高于阈值时,处理器210可以使至少一个麦克风的采样速率增加,以每单位时间记录更多的声波4202。这可能是希望的,因为当语速高时,每单位时间可以说出更多的词语,并且较低的采样速率可能影响诸如词语/语音识别之类的特征。
487.可替代地,例如,当处理器确定检测到的语速低于阈值时,处理器可以使至少一个麦克风的采样速率降低,以每单位时间记录更少的声波4202。当语速较低时,较低的采样速率仍可以充分捕捉足够的细节以保持诸如词语和/或语音识别的特征的完整性。
488.处理可变音频质量的音频信号
489.如上所述,在将音频呈现给用户之前,可以处理从用户的环境内捕捉的音频信号。该处理可以包括各种调节或增强以改善用户的体验。例如,如上所述,来自用户正在看着的个体的语音可以被放大,而诸如背景噪声、来自其他说话者的语音等的其他音频可以被静音或衰减。因此,用户可以更容易地听到和理解来自与用户交谈的个体的语音。
490.该处理的质量和/或有效性可以取决于如何捕捉和/或处理音频信号的各个方面或变量。这些方面可能导致在经处理音频信号的质量和诸如音频延迟、电池寿命等其他因素之间的各种折衷。例如,许多音频处理技术使用收集的音频的缓冲器来执行处理。具体地,该系统可以分析在当前正在处理的音频样本之前和之后捕捉的样本,以收集可能改进样本处理的附加信息。例如,系统可以使用0-30秒累积音频的滑动窗口。滑动窗口可以包括在被处理的样本之前的样本,但也可以包括在被处理的样本之后的“前瞻(lookahead)”样本。更长的时间窗口提供更大量的音频样本数据,从而得到更高质量的输出。
491.然而,更长的前瞻意味着更长的延迟。由于更长的前瞻时段,为了处理给定的样本,系统必须等待更长的时间直到收集到未来的样本,这必然会造成处理样本的延迟。例如,如果所需的前瞻时段是一秒,则通过处理当前样本而输出的音频将延迟至少一秒。在一些情况下,这种延迟可能会使用户感到不愉快或分心。例如,当与另一个体说话时,来自该个体的讲话可能与他或她的唇部移动不匹配。此外,延迟可能会在对话中造成不舒服的停顿。因此,在处理音频的时间延迟和所执行的音频处理的质量之间存在折衷。类似的折衷也可能与音频信号的捕捉和处理的其他方面相关联。例如,音频质量可以取决于其他方面,诸如是否使用相机来帮助识别活跃讲话者、所使用的麦克风的数量等。这些变量可以为音频质量与处理延迟、音频质量与电池消耗或其他折衷产生类似的折衷。
492.所公开的系统和方法可以确定如何以各种方式平衡这些折衷。在一些实施例中,用户可以手动调整一个或多个设置以平衡这些折衷。不同的用户可以具有不同的偏好,因此可以应用关于音频质量的不同设置。例如,一些用户可能更能容忍较低的音频处理质量,因此可能更喜欢较短的延迟时间。其他用户可能更依赖于音频处理来听到,因此可能更能容忍延迟。此外,同一用户在不同情况下可能具有不同的偏好。例如,在具有低背景噪声的面对面会议中,可能优选较短的时间延迟。另一方面,当在嘈杂的多个说话者环境中时,用户可能偏好更高的音频处理质量。
493.在其他实施例中,系统可以自动调整一个或多个设置以实现音频质量的最佳折衷。例如,用户可以输入关于音频质量或时间延迟的反馈,并且系统可以调整一个或多个设置。在一些实施例中,系统可以根据多个方案并行地处理音频信号,并确定哪种方案提供最佳折衷。例如,系统可以执行具有短延迟的第一处理和具有更长延迟的第二处理,并且可以对所得到的经处理音频信号进行比较以确定哪种方案提供最佳结果。因此,所公开的实施例可以提供比现有技术助听器设备更好的效率、方便性和功能性。
494.图44示出了可以根据所公开实施例进行处理的示例音频信号4410。如上所述,音频信号4410可以由可穿戴装置110的一个或多个麦克风(诸如麦克风443或444)捕捉。在一些实施例中,音频信号4410可以从多个麦克风(诸如麦克风阵列)接收。音频信号4410可以包括来自可穿戴装置110的用户的环境的声音的表示。音频信号因此可以包括来自一个或多个个体的语音、背景噪声、音乐和/或可穿戴装置110在将其呈现给用户之前处理的其他声音。例如,系统可以选择性地调节音频样本4410,以衰减背景噪声,放大来自特定源(例
如,用户正在看着的对象或人)的声音,调整音频信号的音高,调整音频信号的回放速率,从信号中去除噪声或伪影,执行音频压缩,或执行其他增强以改善用户的音频质量。
495.如上所述,经处理音频信号的质量取决于各种因素,包括在当前正在分析的音频样本之后为收集和分析附加音频样本所允许的时间延迟。例如,如图44所示,系统可以处理包括在音频信号4410内的音频样本4412。该处理可以包括贯穿本公开的各种增强或调节中的任何一个。所公开的系统还可以分析先前和/或随后的音频样本以改进当前样本的处理。如图44所示,这可以包括一个或多个“前瞻”样本4414。增加包括在前瞻样本4414中的信息量可以得到音频处理的更高质量,因为系统可以能够更好地确定音频信号的进展。例如,给定更大的样本数据范围,系统可以能够更有效地减少来自音频信号4410的背景或其他噪声。为了处理音频样本4412,系统可以引入时间延迟(t),以允许处理前瞻样本4414的时间。因此,更大的时间延迟(t)可以允许对经处理音频信号增加的音频质量。用户经历的时间延迟可以大于图44所示的时间延迟(t)。例如,用户经历的实际时间延迟可以包括用于处理音频样本4412、将其发送到助听器设备或可能增加延迟的其他步骤的附加延迟。尽管图44示出了单个前瞻样本4414,但应当理解,这可以包括一个以上的样本,因此前瞻样本4414可以被划分为多个样本。
496.可以以各种方式确定时间延迟与音频质量之间的适当的或期望的平衡。在一些实施例中,可以基于来自用户的输入来定义时间延迟。例如,用户可以提供指示对更高音频质量的偏好或对较短处理延迟的偏好的输入。如本文所使用的,音频质量可以指系统如何有效地处理音频信号的任何度量。在一些实施例中,音频质量可以指特定形式的调节或增强被应用的程度。例如,如果执行音频信号的选择性调节以衰减相对于个体语音的背景噪声,则音频质量可以指背景噪声衰减的程度、系统在语音和背景噪声之间区分的程度、语音的清晰度、系统能够识别特定个体的语音的程度或语音被放大的程度。音频质量还可以指得到的音频信号的更一般的属性,诸如采样速率、信号中有多少噪声等。
497.图45a示出了符合所公开实施例的示例用户界面4510,通过该示例用户界面用户可以定义处理音频信号的方面。用户界面4510可以是显示在计算设备4500上的图形用户界面,如图45a所示。计算设备4500可以是与用户可以通过其提供输入的可穿戴装置110和/或听觉接口设备1710相关联的任何设备。例如,计算设备4500可以包括移动电话、平板电脑、膝上型计算机、台式计算机、电视、可穿戴设备(例如,智能手表、智能珠宝等)、家庭iot设备等。在一些实施例中,计算设备4500可以对应于上面描述的计算设备120。在一些实施例中,用户界面4510可以呈现在可穿戴装置110上。
498.用户界面4510可以包括用户可以通过其提供输入的一个或多个控件。例如,用户界面4510可以包括一个或多个滑块控件4512和4514,如图44所示。使用滑块控件4512,用户可以指示关于音频处理延迟和音频质量之间的折衷的偏好。向左拖动滑块控件4512可以减少时间延迟,从而限制可用于处理的前瞻音频的量。可替代地,用户可以向右拖动滑块控件4512,这可以增加时间延迟以产生更高质量的经处理音频信号。当用户4512感到时间延迟和音频质量之间的平衡不理想时,他或她可以访问用户界面4510。例如,在用户与具有最小背景噪声的个体一对一交谈的情况下,音频质量可能不那么重要,因此,用户可能更愿意最小化时间延迟。然而,在其他环境中,诸如拥挤的餐馆,用户可能有听力困难,并且因此可以更容忍延迟以提高音频处理的质量。
499.在一些实施例中,滑块控制器4512可以控制除了音频采样时间延迟之外如何处理音频的其他方面。例如,诸如用于捕捉音频的麦克风的数量、是否执行图像处理以增强音频的处理、或影响处理时间的任何其他变量等因素也可以通过滑块控制器4512来调整或控制。在一些实施例中,还可以为这些变量中的每一个提供单独的控制。例如,用户界面4510可以包括一个或多个复选框、单选按钮、开关或类似的控件,允许用户通过使用相机等来实现增强处理。在一些实施例中,用户界面4510可以允许用户控制音频处理的其他方面。例如,滑块控制器4514可以允许用户定义电池寿命(例如,可穿戴装置110、计算设备120或听觉接口设备1710)与音频处理质量之间的偏好。例如,使用相机来增强音频信号的处理(例如,执行唇部跟踪技术、确定活跃说话者等)可能更快地耗尽可穿戴装置110的电池,因此用户可以使用滑块控件4514来管理或定义这种折衷。在一些实施例中,这可以呈现为二进制选项,诸如进入电池节约器模式的选项。此外,虽然作为示例在图45a中示出了滑块控件4512和4514,但是可以使用各种其他形式的控件。例如,用户可以在文本字段中键入值,该值可以对应于时间延迟(例如,以秒或毫秒为单位)、定义时间延迟的范围或刻度(例如,0-5、0-100等)内的值、百分比或可以指示时间延迟偏好的任何其他值。控件还可以包括复选框、单选按钮、下拉列表、按钮、下拉按钮、切换开关、图标等。
500.在一些实施例中,可以基于来自用户的反馈来指定如何处理音频的时间延迟或其他方面。不是通过用户界面4510直接控制一个或多个变量,而是用户可以提供关于经处理的音频的反馈,系统可以使用该反馈来调整影响音频质量的一个或多个方面。例如,系统可以提供提示向用户询问“声音质量如何?”,并为用户提供一个或多个响应选项(例如,选择星的数量或以其他方式选择数字评级、选择“大拇指向上”或“大拇指向下”选项、选择诸如“语音不清楚”或“音频延迟”等选项)。基于该响应,系统可以被配置为调整音频处理的一个或多个方面。可以通过各种其他方式获得来自用户的反馈。例如,系统可以检测用户的动作,其可以指示来自用户的反馈。在一些实施例中,反馈可以是明确的。例如,用户可以做出可以被系统识别的拇指向上或向下的手势。在一些实施例中,反馈也可以是隐式的。例如,系统可以基于图像或捕捉的音频来检测用户是否正向说话者倾斜、将他或她的手放在他们的耳朵周围、要求说话者重复自己、或者其他可能指示用户听力困难的动作,这可能提示系统调整音频处理的一个或多个方面。
501.根据本公开的一些实施例,该系统可以被配置为自动地和动态地调整音频处理的各个方面。例如,该系统可以分析捕捉的或经处理音频信号以确定前瞻样本的适当数量或持续时间。在一些实施例中,这可以包括根据不同的设置或设置方案并行地处理捕捉的音频信号。然后,系统可以对所得到的经处理音频信号进行比较,以确定时间延迟与音频质量的最佳折衷或其他折衷。因此,系统可以在无需用户输入的情况下自动调整音频处理的一个或多个方面。
502.图45b示出了符合所公开实施例的用于并行处理音频信号的示例过程。系统可以接收音频信号4540,如图45b所示。类似于音频信号4410,音频信号4540可以由可穿戴装置110的一个或多个麦克风(诸如麦克风443或444)捕捉。在一些实施例中,音频信号4540可以从多个麦克风(诸如麦克风阵列)接收。音频信号4540可以包括来自可穿戴装置110的用户的环境的声音的表示,该声音可以包括来自一个或多个个体的语音、背景噪声、音乐和/或可穿戴装置110在将其呈现给用户之前处理的其他声音。
503.为了确定时间延迟时段的值或音频处理的其他方面,系统可以执行多个并行音频处理流并比较结果。如图45b所示,系统可以根据第一方案4552和第二方案4562处理音频流4540。如本文所使用的,方案可以是影响如何处理音频信号的一个或多个定义的参数、方面或变量的集合。例如,方案4552可以包括用于前瞻时间延迟时段的第一值,并且方案4562可以包括用于前瞻时间延迟的不同值。例如,方案4552可以与更长的延迟相关联,而方案4562可以与较短的延迟相关联。方案4552和4562可以定义如何处理音频信号的其他方面,诸如用于捕捉音频信号的麦克风的数量、是否使用相机来处理音频信号、或者可能影响音频质量的任何其他变量或设置。其他方面可以涉及用于通过各种方案处理音频信号的内部参数或变量。作为并行处理的结果,系统可以生成第一经处理音频信号4556和第二经处理音频信号4566。
504.然后,系统可以比较经处理音频信号4556和4566,以确定哪个方案在方案4552和4562中定义的一个或多个方面与经处理音频信号4556和4566的音频质量之间提供更好的折衷。因此,该系统可以被配置为评估经处理音频信号4556和4566的结果音频质量,这可以以各种方式执行。作为一个示例,当处理音频信号4540时,可以移除某些频率以“清洁”音频信号。例如,这可以包括移除与背景噪声、其他说话者或其他音频源相关联的某些频率。该处理可能导致信号的累积能量的量的减少。因此,在并行处理之后,可以比较经处理音频信号4556的能级4554和经处理音频信号4566的能级4564。如果能级之差很小,这可以指示这两种方案在衰减信号中不想要的噪声方面同样有效。因此,由方案4552引入的附加时间延迟可能不会提供比由方案4562引入的较短时间延迟显著的优势。另一方面,如果能级4554和4564之间的差值相对较大,则这可以指示由方案4552引入的附加时间延迟显著地改善了经处理音频信号的质量,因此可以选择方案4552。因此,比较经处理音频信号4556和4566可以包括将能级4554和4564之间的差值与阈值能级差进行比较。
505.可以使用经处理音频信号4556和4566之间的各种其他比较。例如,系统可以分析音频信号的采样速率、信号中的噪声量或经处理音频信号4556和4566的其他特性。在一些实施例中,可以基于来自用户的输入来评估音频质量。例如,系统可以向用户呈现经处理音频信号4556和4566,并且用户可以提供关于一个比另一个提供了多少改进或者它们在音频质量上是否相对接近的输入。
506.基于经处理音频信号4556和4566的比较,系统可以选择在时间延迟(或其他方面)和音频质量之间提供更好的折衷的方案。该系统还可以例如通过听觉接口设备1710向用户呈现所选择的经处理音频信号。在一些实施例中,可以时段性地执行该并行处理,从而动态地调整音频处理的时间延迟或其他方面。例如,并行处理可以作为每秒、2秒、10秒、60秒、5分钟、10分钟、小时或其他适当时段的检查来执行。在一些实施例中,用户可以例如通过选择用户界面上的校准按钮、可穿戴装置110上的物理按钮等来手动启动并行处理。在一些实施例中,可以基于由可穿戴装置110、计算设备210或听觉接口设备1710检测到的其他提示来启动并行处理。在一些实施例中,可穿戴装置110的相机可以检测用户何时进入不同环境,诸如从安静的车辆移动到嘈杂的餐馆。因此,当用户在餐馆中时,前瞻时间延迟可能变得更加重要,因为可能存在更多必须衰减的背景噪声。作为另一示例,相机可以检测用户环境中的个体是否正在与用户说话,这可以指示需要额外的前瞻时间延迟。并行处理可以基于其他传感器数据来启动,诸如用户的gps定位的改变、传感器检测到的光线的改变、噪声
水平的改变或各种其他传感器数据。在一些实施例中,系统可被配置为基于该信息改变预定时间间隔。例如,在其中调节音频信号可能更重要或可能需要更长的前瞻样本的环境中,系统可以更频繁地执行并行处理。
507.虽然在图45b中示出了两个并行处理方案,但在一些实施例中,可以根据两个以上的方案来执行并行处理。因此,该系统可以比较两个以上经处理音频信号的能级(或其他音频度量)的差值。在一些实施例中,系统可以不必选择在方案之一中定义的值。例如,系统可以内插或外推跨多个经处理音频信号输出的能级,并且可以确定表示音频质量的最佳折衷的前瞻时间延迟或其他值。
508.在系统确定前瞻时间延迟或其他方面应该改变的情况下,系统可以以各种方式实现改变。在一些实施例中,可以立即或在并行处理之后不久实现改变。在一些实施例中,改变可能不必立即实现。例如,当延长前瞻延迟时,可以通过延长音频信号的固定片段(诸如安静时间段、相对一致噪声的时间段(例如,水流等)或音频处理设置中的改变可能不太明显的其他时间段)来延长延迟。因此,用户可能不会注意到该改变。在一些实施例中,如果在预定时间段内没有检测到静止时间段,则可以在音频信号的另一部分上执行转换。在一些实施例中,可以逐渐改变延迟以减少对用户的影响。例如,如果延迟要从30毫秒延长到100毫秒,则可以在7个循环中执行,其中延迟在每个循环上延长10毫秒。如果在一个或多个循环之后检测到音频信号的静止片段(例如,安静时间段),则延迟的其余部分可以在静止片段期间延长。
509.在一些实施例中,尽管选择一个经处理音频信号而不是另一个,但是可以向用户呈现多个经处理音频信号。例如,当用户说话时,他或她可能想听自己说话。特别是,用户可能希望听到他或她对其他人的声音。在这样的实施例中,用户可能希望以最小的延迟听到自己。因此,可以向用户呈现基于具有最小时间延迟的方案的经处理音频信号。例如,该音频信号可以在接收音频信号的300毫秒内被发送。在一些实施例中,这可以更快(例如,在200毫秒、100毫秒、80毫秒、40毫秒等)。当可穿戴装置110检测到用户正在说话时,它可以呈现具有最小延迟的经处理音频信号。在一些实施例中,这一具有最小延迟的经处理音频信号可以与所选择的经处理音频信号一起呈现(例如,作为混合或组合的音频信号),所选择的经处理音频信号可以以更长的延迟呈现。在其他实施例中,系统可以在优选方案和具有最小延迟的方案之间来回切换。
510.图46a是示出符合所公开实施例的用于选择性地放大音频信号的示例过程4600a的流程图。过程4600a可以由可穿戴装置的至少一个处理设备(诸如如上所述的处理器210)执行。在一些实施例中,过程4600a的一些或全部可以由诸如计算设备120的不同设备执行。应当理解,在贯穿本公开中,术语“处理器”用作“至少一个处理器”的简略表达。换句话说,处理器可以包括执行逻辑操作的一个或多个结构,无论这些结构是被并置、连接或分布式的。在一些实施例中,非暂时性计算机可读介质可以包含当由处理器执行时使得处理器执行过程4600a的指令。此外,过程4600a不一定限于图46a中所示的步骤,并且贯穿本公开内容描述的各种实施例的任何步骤或过程也可以包括在过程4600a中,包括上面关于图44和图45a描述的那些步骤或过程。尽管在时间延迟的背景中描述了过程4600a,但应理解,过程4600a可以被应用于处理音频信号的其他方面,包括用于捕捉音频信号的麦克风数量、是否使用相机来处理音频信号、或者可能影响音频质量的任何其他方面。
511.在步骤4610中,过程4600a可以包括接收表示由至少一个麦克风从用户的环境接收的声音的音频信号。例如,麦克风443或444(或麦克风1720)可以捕捉来自用户环境的声音,并可以将它们发送到处理器210。这可以包括如上所述的音频信号4410。
512.在步骤4612中,处理器4600a可以包括接收与处理音频信号相关联的时间延迟的指示。如上面更详细地描述的,可以以各种方式确定时间延迟。在一些实施例中,时间延迟可以由用户通过用户界面定义。用户界面可以被包括在与助听器系统接合的设备(诸如计算设备120)上。例如,该设备可以是移动电话、台式机、膝上型计算机或平板电脑中的至少一个。在一些实施例中,定义时间延迟的设定点可以被存储在远程存储设备上。例如,设定点可以被存储在计算设备120、助听器设备1710、远程服务器(例如,云存储平台、基于网络的服务器等)等上。因此,接收时间延迟的指示可以包括访问远程存储设备。在一些实施例中,时间延迟可以由助听器系统基于来自用户的关于先前处理的音频信号的反馈来确定。例如,用户可以提供音频质量的评级,可以提供关于与音频信号相关联的延迟的反馈,或者可以指示优选的时间延迟或音频质量设置的其他反馈。
513.在步骤4614中,处理器4600a可以包括在缓冲器中存储表示音频信号的部分的多个音频样本。例如,多个音频样本可以包括如上文关于图44所描述的音频样本4412和4414。缓冲器可以是至少临时存储音频样本以用于分析和/或处理的任何存储位置。在一些实施例中,如上所述,缓冲器可以对应于存储器550。
514.在步骤4616中,过程4600a可以包括处理多个音频样本中的第一音频样本以生成经处理的第一音频样本。例如,第一音频样本可以对应于音频样本4412。处理第一音频样本可以包括分析第二音频样本,诸如如上所描述的前瞻音频样本4414。因此,如图44所示,第二音频样本可以在第一音频样本之后的音频信号中表示,并且可以具有由时间延迟定义的长度。虽然步骤4616描述单个第二音频样本,但应理解,处理第一音频样本可以包括分析多个前瞻音频样本。因此,在一些实施例中,第二音频样本可以包括多个音频样本。在一些实施例中,经处理的第一音频样本的音频质量可以取决于第二音频样本的长度。例如,更大的前瞻样本4414可以得到更多的可用于处理音频信号4412的数据,这可以得到更好的调节或增强音频信号的能力。因此,更长的第二音频样本可以与更高的音频质量相关联。
515.图46b是示出符合所公开实施例的用于选择性地放大音频信号的示例过程4600b的流程图。过程4600b可以由可穿戴装置的至少一个处理设备(诸如如上所述的处理器210)执行。在一些实施例中,过程4600b的一些或全部可以由诸如计算设备120的另一设备执行。在一些实施例中,非暂时性计算机可读介质可以包含当由处理器执行时使得处理器执行过程4600b的指令。此外,过程4600b不一定限于图46b中所示的步骤,并且贯穿本公开内容描述的各种实施例的任何步骤或过程也可以包括在过程4600b中,包括上面关于图44-图46a描述的那些步骤或过程。
516.在步骤4640中,过程4600b可以包括接收表示由至少一个麦克风从用户的环境捕捉的声音的音频信号。例如,麦克风443或444(或麦克风1720)可以捕捉来自用户环境的声音,并可以将它们发送到处理器210。这可以包括如上所述的音频信号4540。
517.在步骤4642中,过程4600b可以包括使用至少一个方面的第一值处理音频信号以生成第一经处理音频信号。例如,如上文关于图45b所描述的,音频信号4540可以被处理以生成经处理音频信号4556。至少一个方面可以包括与处理音频信号相关联的任何形式的变
量、设置、选项或其他参数,它们可以影响经处理音频信号的音频质量。在一些实施例中,至少一个方面可以包括用于处理音频信号的时间延迟。如上所述,时间延迟可以定义用于处理音频信号样本的前瞻样本的长度。在一些实施例中,至少一个方面可以包括用于捕捉所述音频信号的麦克风的数量。在一些实施例中,至少一个方面可以包括是否除了音频信号之外还处理图像以改进音频信号的处理。因此,过程4600b还可以包括从可穿戴相机接收从用户的环境捕捉的至少一个图像,并且至少一个方面可以包括是否处理该至少一个图像。
518.在步骤4644中,过程4600b可以包括使用至少一个方面的第二值处理音频信号以生成第二经处理音频信号。例如,音频信号4540可以被处理以生成经处理音频信号4566。因此,步骤4644的至少一部分可以与步骤4642并行执行。然而,应当理解,在一些实施例中,步骤4644可以在步骤4642之前或之后执行。在一些实施例中,第二值可以不同于第一值。例如,如果至少一个方面包括时间延迟,则第一值可以是比第二值短的时间延迟,反之亦然。在一些实施例中,第一经处理音频信号或第二经处理音频信号可以被处理以使时间延迟最小化。在一些实施例中,第一值和第二值可以根据第一和第二方案来定义。例如,如上所述,可以根据方案4552和4562来处理音频信号。
519.在步骤4646中,过程4600b可以包括将第一经处理音频信号与第二经处理音频信号进行比较,以选择第一经处理音频信号或第二经处理音频信号。可以基于第一经处理音频信号和第二经处理音频信号的音频质量的至少一个方面之间的折衷来选择经处理音频信号。例如,在至少一个方面包括时间延迟的情况下,所选择的经处理音频信号可以是提供最低时间延迟而不损害音频质量的经处理音频信号。可以以各种方式执行比较。例如,如上文更详细描述的,比较第一经处理音频信号和第二经处理音频信号可以包括确定第一经处理音频信号与第二经处理音频信号之间的能级差。在一些实施例中,选择第一经处理音频信号或第二经处理音频信号包括确定能级的差值低于预定阈值。例如,如果能级的差值相对较低,则这可以指示通过第一值和第二值之间的差值实现音频质量的最小增益。在一些实施例中,可以将多个方面与延迟和音频质量一起考虑并且进行加权。例如,可以考虑处理所需的处理能力或其他资源。因此,可以选择提供最大益处(例如,更短的时间延迟和更低的电池消耗)的值。在一些实施例中,所选择的经处理音频信号的能级低于未选择的经处理音频信号的能级。例如,如果能级差值低于某一阈值,则步骤4646可以包括选择具有最低能级的经处理音频信号,该最低能级可以指示更好的音频质量。
520.在步骤4648中,过程4600b可以包括向用户的听觉接口设备发送所选择的经处理音频信号。例如,可穿戴装置110可以通过无线收发器530将所选择的经处理音频信号发送到听觉接口设备1710。因此,所选择的经处理音频信号可以在用户的耳朵中可听地呈现。在一些实施例中,发送所选择的经处理音频信号可以包括将至少一个方面的值转换为不同值(例如,转换为第一或第二值)。如上所述,这一改变可以在检测到的音频信号的静止时间段中、在若干个循环内逐渐发生,或者以另一种方式发生,以降低用户的可感知性。
521.如上所述,过程4600b可以作为校准过程来执行,使得至少一个方面可以在不需要用户输入的情况下自动和动态地更新。因此,过程4600b的一些或全部可以时段性地执行。例如,过程4600b还可以包括以预定时间间隔对第一经处理音频信号和第二经处理音频信号进行比较。如上所述,过程4600b的一些或全部可以基于其他提示来执行。例如,过程4600b可以基于检测用户环境的改变(例如,通过相机图像、gps传感器数据、光传感器数据
或其他传感器数据)、基于音频信号的变化、基于来自用户的输入(例如,按下校准按钮等)或各种其他指示器来执行。
522.用于有源声音替代的可穿戴装置
523.如上所述,在将音频呈现给用户之前,可以处理从用户的环境内捕捉的音频信号。该处理可以包括各种调节或增强以改善用户的体验。例如,如上所述,来自用户正在看着的个体的语音可以被放大,而诸如背景噪声、来自其他说话者的语音等的其他音频可以被静音或衰减。因此,用户可以更容易地听到和理解来自与用户交谈的个体的语音。由于调节音频所需的处理时间,用户最初可以从他或她的周围环境中听到说话者的声音,然后可以通过助听器设备听到说话者的延迟的经调节的声音。因此,由于用于调节音频的处理时间,用户可能会经历不想要的“回声”,这对用户来说可能是不希望的。
524.因此,助听器系统可以被配置为至少部分地实时地取消声音,并向用户提供经调节的声音,从而减少或消除回声。例如,助听器可以实时取消说话者的声音,然后通过助听器设备向用户提供说话者声音的经调节版本。为了实时取消噪声,系统可以确定到达麦克风的声音和到达用户耳朵的声音之间的时间差。这可以使用以声速在空气中传播的个体声音与以电(例如,以光速)传播的噪声取消信号的传输时间之间的时间差来实现。确定该差值能够实时地取消用户的噪声/声音。
525.图47是示出符合所公开实施例的用于活跃声音替换的示例过程4700的框图。过程4700可用于处理音频信号4710,如图47所示。如上所述,音频信号4710可以由可穿戴装置110的一个或多个麦克风(诸如麦克风443或444)捕捉。在一些实施例中,音频信号4710可以从多个麦克风(诸如麦克风阵列)接收。音频信号4710可以包括来自可穿戴装置110的用户的环境的声音的表示。例如,音频信号因此可以包括来自一个或多个个体的语音、背景噪声、音乐和/或可穿戴装置110在将其呈现给用户之前处理的其他声音。
526.过程4700可以包括对音频信号4710执行音频处理4720。音频处理4720可以包括对音频信号的任何形式的调节或增强,包括贯穿本公开的任何形式的选择性调节。例如,如本技术中所公开的,系统可以选择性地调节音频信号4710,以衰减背景噪声,放大来自特定源(例如,用户正在看着的对象或人)的声音,调整音频信号的音高,调整音频信号的回放速率,从信号中去除噪声或伪影,执行音频压缩,或执行其他增强以改善用户的音频质量。如图47所示,音频处理4720可以用于生成选择性调节的音频信号4722,该音频信号可以被发送到听觉接口设备4740。
527.除了音频处理4720之外,过程4700还可以执行噪声取消4730。噪声取消4730可以是被配置为取消或衰减来自音频信号的一个或多个声音的音频信号的任何形式的处理。如图47所示,噪声取消4730可以用于生成至少一个取消音频信号4732。噪声取消音频信号4732可以是被配置为取消或抵消另一音频信号的任何音频信号。例如,噪声取消4730可以包括有源噪声控制(anc)过程。因此,取消音频信号4732可以包括与具有不希望的声音(诸如预测到达用户耳朵的声音)的另一音频信号相异相位的“负”音频信号。取消音频信号4732可以被配置为使得当不希望声音的声波的声压高时,取消音频信号4732的声波的声压低。因此,当取消音频信号与预测音频信号组合时,两个音频信号的波可以被抵消或“取消”。与经选择性调节的音频信号4722一样,取消音频信号4732可以被发送到听觉接口设备4740。
528.取消音频信号4732可以被配置为取消音频信号4710的至少一部分。在一些实施例中,取消音频信号4732可以被配置为在所需相位处取消音频信号4710的特定部分,诸如个体的语音。因此,当该特定部分到达用户耳朵时,该特定部分可以被取消。在一些实施例中,该部分也可以包括在音频处理4720中。例如,如果音频处理4720被配置为选择性地调节来自音频信号4710的个体的语音,则取消音频信号4732可以从到达用户耳朵的声音抵消或取消个体的声音。因此,取消音频信号4732可以消除或减少当选择性地调节音频信号4722被发送到听觉接口设备4740时用户可能体验到的回声。在一些实施例中,取消音频信号4732可以被配置为取消来自用户环境的所有声音。因此,用户可以听到经选择性调节的音频信号4722,而听不到来自用户环境的任何声音或一些声音。例如,音频处理4720可以选择性地调节用户环境内的多个声音,以调整声音相对于彼此的音量或其他属性,并且用户可以在没有回声效应的情况下听到经选择性调节的声音。
529.为了有效地取消来自用户环境的声音,可以发送取消音频信号,使得它与正在被取消的声音同时呈现在用户的耳朵中。因此,该系统可以被配置为确定定义了当音频信号4710被装置110接收时(或者,在一些实施例中,当取消音频信号4732被生成时)与向用户呈现取消信号时之间的时间的时间延迟。因此,系统可以基于音频信号4710来预测将在用户耳朵处接收的声音,并且可以确定时间延迟,使得取消音频信号4732取消预测的声音。在一些实施例中,时间延迟可以是与可穿戴装置110相关联的预设或预定义值。例如,系统可以假设预测的声音在被捕捉为音频信号4710之后被用户听到所需的时间。可以基于来自用户的输入来调整该预定时间延迟。例如,用户可以能够通过用户界面微调延迟,或者可以能够提供正在经历回声的反馈。
530.在一些实施例中,可以基于声音将在其作为音频信号4710被捕捉的位置与用户耳朵之间传播的距离来确定时间延迟。图48a、48b和48c示出了符合所公开的实施例的用于有源声音替换的可穿戴装置110和听觉接口设备4820的示例配置。在一些实施例中,可穿戴装置110可以作为眼镜佩戴,如图48a所示。如上所述,可穿戴装置110可以被穿戴在用户身上的其他位置。例如,可穿戴装置110可以被穿戴在用户身上的腰带、衬衫、手腕或各种其他位置上。可穿戴装置110可以包括麦克风4812,其可以被配置为捕捉音频信号(诸如上文描述的音频信号4710)。麦克风4812可以是被配置为从用户的环境捕捉声音的任何设备。例如,麦克风4812可以对应于上述麦克风443、444或1720。如上所述,可穿戴装置110可以向助听器设备4740发送一个或多个信号。例如,可穿戴装置110可以使用无线收发器530将经选择性调节的音频信号4722和取消音频信号4732发送到听觉接口设备4740。听觉接口设备4740可以对应于如上所述的听觉接口设备1710。因此,上述关于听觉接口设备1710的任何细节或实施例可以应用于听觉接口设备4740。例如,虽然听觉接口设备4740被示为耳内设备,但是听觉接口设备4740可以包括另一种形式的听觉接口设备,诸如骨传导耳机、耳外设备等。
531.所公开的方法和系统可以包括确定距离d,其表示声波4810在麦克风4812处被捕捉之前将传播的距离与声波在到达用户(或听觉接口设备4740)的耳朵之前将传播的距离之间的差值。上面讨论的时间延迟可以基于声波4810移动距离d将花费多长时间来确定(假设它以声速移动)。因此,可以垂直于声波4810的传播来确定距离d。在一些实施例中,可以考虑其他因素来确定时间延迟,诸如发送取消音频信号4732所需的时间、在听觉接口设备4740处处理和播放取消音频信号4732的时间、或可能影响向用户呈现取消音频信号的定时
的各种其他因素(或其组合)。在一些实施例中,所公开的系统可能需要用于处理取消音频信号的累积音频背景。例如,该系统可以引入40-80毫秒的延迟(或其他合适的延迟)以允许处理音频信号4710。在一些实施例中,该累积的音频背景延迟可以是如上文关于图44-图46b所描述的可变的或可调整的。
532.如上所述,可穿戴装置110可以被放置在用户上的各种其他位置。距离d可以至少部分地取决于可穿戴装置110的放置。图48b示出了夹在用户的项圈上的可穿戴装置110。如图48b所示,距离d可以取决于可穿戴装置110的放置位置而变化。距离d可以类似地基于可穿戴设备110的类型或其他特性而变化。例如,可穿戴装置110在实现为一副眼镜时可具有与可附接到用户衣服上的设备不同的预定时间延迟。在一些实施例中,距离d(和时间延迟)可以取决于用户对设备的放置位置。例如,同一设备可以被夹住或以其他方式固定在用户的不同位置上。因此,设备可以接收指示放置位置的数据。在一些实施例中,数据可以是指示放置位置的用户输入。例如,用户可以通过计算设备120(或其他计算设备)的用户界面提供输入。这可以包括从位置列表中选择、点击指示近似放置位置的用户图像或其他界面。用户输入可以通过其他装置接收,诸如可穿戴装置110上的物理开关或按钮。在一些实施例中,可穿戴装置110可以根据基于可穿戴装置110的图像传感器220捕捉的图像、用户的语音或其他声音的感知方向性等所感知的相机位置来推断放置位置。在一些实施例中,时间延迟可以取决于设备的大小。例如,当实现为一副眼镜时,具有更长镜脚的设备可以假设比具有较短镜脚的设备更长的时间延迟。还可以基于听觉接口设备4740的放置位置或其他属性(例如,耳内与骨传导、处理速度等)来配置时间延迟。
533.距离d和相关联的时间延迟还可以取决于声音发出对象相对于用户的位置。图48c示出了从相对于图48b的更高位置接收的声波4810,其中可穿戴装置110和听觉接口设备4740的放置位置保持相同。因为声波4810到达麦克风4812和用户耳朵的角度不同,所以距离d也不同(在本例中缩短)。因此,可穿戴装置110可以被配置为负责生成在确定时间延迟时要取消的声波4810的声音发出对象的位置。可穿戴装置110可以以各种方式确定或估计声音发出对象的位置。在一些实施例中,可以基于声音发出对象的类型来假设该位置。例如,如果可穿戴装置110确定声波4810与个体相关联,则可穿戴装置110可以假设声音发出对象处于个体嘴的平均高度。作为另一示例,如果声波4810与诸如狗或猫之类的动物相关联,则可穿戴装置可以假设声波4810是从地面附近发出的。各种其他类型的声音发出对象可以被识别并与预定高度相关联。
534.在一些实施例中,声音发出对象的位置可以基于可穿戴装置110接收的传感器数据来确定。例如,可穿戴装置110可以分析由图像传感器220捕捉的一个或多个图像以确定声音发出对象的位置。如贯穿本公开所描述的,这可以包括各种对象或特征检测或其他图像处理技术。在一些实施例中,可以基于来自麦克风4812的输入来确定声音发出对象的位置。例如,麦克风4812可以包括麦克风的多方向阵列或其他类型的麦克风,其被配置为确定捕捉声音的方向。因此,时间延迟(和方向d)可以取决于对可穿戴装置110的各种输入。如上所述,用户可以能够通过图形用户界面(例如,在计算设备120上,在可穿戴装置110上,等等),通过物理控制(例如,按钮、拨号、开关等)或各种其他输入设备来调谐或调整所确定的延迟。
535.图49是示出符合所公开实施例的用于选择性地替换音频信号的示例过程4900的
流程图。过程4900可以由可穿戴装置的至少一个处理设备(诸如如上所述的处理器210)执行。在一些实施例中,过程4900的一些或全部可以由诸如计算设备120或听觉接口设备4740的不同设备执行。应当理解,在贯穿本公开中,术语“处理器”用作“至少一个处理器”的简略表达。换句话说,处理器可以包括执行逻辑操作的一个或多个结构,无论这些结构是被并置、连接或分布式的。在一些实施例中,非暂时性计算机可读介质可以包含当由处理器执行时使得处理器执行过程4900的指令。此外,过程4900不一定限于图49中所示的步骤,并且贯穿本公开内容描述的各种实施例的任何步骤或过程也可以包括在过程4900中,包括上面关于图47、图48a、图48b和图48c描述的那些步骤或过程。
536.在步骤4910中,过程4900可以包括接收由可穿戴相机从用户的环境捕捉的多个图像。例如,步骤4910可以包括接收由图像传感器220捕捉的图像。所捕捉的图像可以包括用户环境内的个体或其他声音发出对象的表示。
537.在步骤4912中,过程4900可以包括接收表示由至少一个麦克风从用户的环境捕捉的声音的音频信号。例如,麦克风443或444(或麦克风1720)可以捕捉来自用户环境的声音,并可以将它们发送到处理器210。这可以包括如上所述的音频信号4710。
538.在步骤4914中,过程4900可以包括基于对多个图像或音频信号的分析,从与用户环境中的一个或多个声音发出对象相关联的多个音频信号中识别音频信号。在一些实施例中,声音发出对象可以是个体。例如,步骤4914可以包括处理多个图像以识别正在与用户说话的个体。这可以基于个体的唇部移动、用户的视线方向、声纹或者贯穿本公开描述的用于识别与个体相关联的音频信号的各种其他方法。
539.在步骤4916中,过程4900可以包括基于多个音频信号,预测将在用户耳朵处从用户的环境接收到的声音。预测的声音可以对应于当与识别出的音频信号相关联的声波到达用户耳朵时用户将听到的声音。例如,参考图48a,预测的声音可以是一旦声波4810在由麦克风4812记录后到达用户耳朵时期望用户听到的声音。
540.在步骤4918中,过程4900可以包括生成被配置为抵消用户的耳朵处的至少预测声音的取消音频信号。例如,如上所述,这可以包括通过噪声取消4730来生成取消音频信号4732。在一些实施例中,噪声取消音频信号可以被配置为抵消来自用户环境的除来自与用户说话的个体的声音之外的至少一种声音。例如,噪声取消音频信号可以被配置为抵消背景噪声、其他说话者或来自用户环境中的其他声音发出对象的声音。
541.在步骤4920中,过程4900可以包括基于识别出的音频信号来生成经选择性调节的音频信号。例如,步骤4920可以包括通过如上所述的音频处理4720生成经选择性调节的音频信号4722。因此,生成选择性地调节的音频信号可以包括对识别出的音频信号的任何形式的调节或增强。例如,选择性调节可以包括相对于多个音频信号中的附加音频信号放大识别出的音频信号。在贯穿本公开中描述了各种其他形式的选择性调节。
542.在步骤4922中,过程4900可以包括将取消音频信号和经选择性调节的音频信号发送到被配置为向用户的耳朵提供声音的助听器接口设备。例如,如图47所示,经选择地调节的音频信号4722和取消音频信号4732可以被发送到听觉接口设备4740。在一些实施例中,取消音频信号和经选择性调节的音频信号可以一起被发送,尽管它们可以相对于彼此有时间移位。例如,可以组合或混合取消音频信号和经选择性调节的音频信号,使得当与预测的声音一起呈现给用户耳朵时,只听到经调节音频信号。在一些实施例中,可以分别发送取消
音频信号和经选择性调节的音频信号。例如,可以在发送经选择性调节的音频信号之前发送取消音频信号。因此,预测的声音可以在用户耳朵处被取消,使得经选择性调节的音频信号不会为用户引入回声。
543.如上所述,取消音频信号的呈现可以被定时以与到达用户耳朵的预测的声音一致。因此,在一些实施例中,过程4900还可以包括确定当接收到多个音频信号时与当预测的声音将在用户耳朵处接收到时之间的时间延迟。在这些实施例中,取消音频信号可以在基于时间延迟的时间处被发送。在一些实施例中,时间延迟可以至少部分地基于在空气中传播的声速来确定。例如,如上面关于图48a、图48b和图48c所描述的,时间延迟可以对应于声波4810行进距离d所需的时间。在一些实施例中,时间延迟可以至少部分地基于声音发出对象相对于至少一个麦克风和助听器接口设备的位置来确定。例如,如上面关于图48c所描述的,可以基于多个图像来确定声音发出对象的位置。声音发出对象的位置可以基于其他输入(诸如基于麦克风确定的方向性,或者其他数据)来确定。在一些实施例中,可以至少部分地基于来自用户的输入来确定时间延迟。例如,通过诸如计算设备120的外部设备的用户界面来接收输入。用户界面可以包括类似于图45a中所示的和上面描述的那些控件。在一些实施例中,可以通过诸如按钮、拨号、开关等物理控件来提供用户输入。
544.声音的模拟方向性
545.与所公开的实施例一致,助听器系统可以基于声音发出对象的位置来选择性地放大声音。现有的助听器系统可能无法以足够的保真度和精确度复制声音的定时和音量,以使用户能够识别声音的来源。在一些情况下,用户可能有学习困难、脑损伤、畸形的耳朵或耳道,或损伤的影响,这些损伤削弱了用户基于声音位置来定位对象的能力。例如,用户可能在他或她的耳朵中具有不相等的听力损失,导致错误地认为对象更接近用户听力损失较小的耳朵,而不是更接近用户听力损失较大的耳朵。另外,在一些情况下,用户可能希望通过组合延迟感知和声强感知来增强声音定位能力。
546.因此,助听器系统可以分析用户环境的捕捉图像和声音以确定声源的位置。助听器系统然后可以向用户发送声音,使得声音在不同的时间和音量到达用户的耳朵,从而产生立体声效果。通过这样做,助听器系统可以向用户提供替代和/或增强的声音定位能力。
547.用户100可以佩戴符合上述基于相机的助听器设备的助听器设备。例如,助听器设备可以是如图17a所示的听觉接口设备1710。听觉接口设备1710可以是被配置为向用户100提供听觉反馈的任何设备。听觉接口设备1710可以被放置在用户100的每个耳朵中,类似于传统的听觉接口设备。如上所述,听觉接口设备1710可以是各种样式的,包括耳道内、完全耳道内、耳内、耳后、耳上、耳道内接收器、开放安装或各种其他样式。听觉接口设备1710可以包括用于向用户100提供听觉反馈的一个或多个扬声器、用于检测用户100的环境中的声音的麦克风、内部电子设备、处理器、存储器等。在一些实施例中,除了麦克风之外或替代麦克风,听觉接口设备1710可以包括一个或多个通信单元,以及是一个或多个接收器,用于从设备110接收信号并将信号传送到用户100。听觉接口设备1710可以对应于反馈输出单元230,或者可以与反馈输出单元230分开,并且可以被配置为从反馈输出单元230接收信号。
548.在一些实施例中,如图17a所示,听觉接口设备1710可以包括骨传导耳机1711。骨传导耳机1711可以通过外科手术植入,并且可以通过声音振动到内耳的骨传导来向用户100提供可听反馈。听觉接口设备1710还可以包括一个或多个耳机(例如,无线耳机、过耳耳
机等)或由用户100携带或佩戴的便携式扬声器。在一些实施例中,听觉接口设备1710可以集成到其他设备中,诸如用户的蓝牙
tm
耳机、眼镜、头盔(例如,摩托车头盔、自行车头盔等)、帽子等。在一些实施例中,可以提供两个听觉接口设备1710,每个耳朵一个。两个听觉接口设备1710可以用电线连接或者可以无线连接。此外,第一听觉接口设备可以从第二听觉接口设备接收指令或音频。另外,两个听觉接口设备1710可以从另一个源(诸如装置110或配对设备)接收音频。
549.听觉接口设备1710可以被配置为与诸如装置110的相机设备进行通信。这种通信可以通过有线连接,或者可以无线地进行(例如,使用蓝牙
tm
、nfc或无线通信形式)。如上所述,装置110可以由用户100以各种配置来佩戴,包括物理地连接到衬衫、项链、腰带、眼镜、腕带、纽扣或与用户100相关联的其他物品。在一些实施例中,还可以包括诸如计算设备120的一个或多个附加设备。因此,本文关于装置110或处理器210描述的一个或多个过程或功能可以由计算设备120和/或处理器540执行。
550.如上所述,装置110可以包括至少一个麦克风和至少一个图像捕捉设备。如关于图17b所描述的,装置110可以包括麦克风1720。麦克风1720可以被配置为确定用户100的环境中声音的方向性。例如,麦克风1720可以包括一个或多个定向麦克风、麦克风阵列、多端口麦克风等。处理器210可以被配置为区分用户100的环境内的声音并且确定每个声音的近似方向性。例如,使用麦克风阵列1720,处理器210可以对麦克风1720之间个体声音的相对定时或振幅进行比较,以确定相对于装置100的方向性。装置110可以包括诸如相机1730的一个或多个相机,它们可以对应于诸如图像传感器220的一个或多个图像传感器。相机1730可以被配置为捕捉用户100的周围环境的图像。装置110还可以使用听觉接口设备1710的一个或多个麦克风,并且因此,本文使用的对麦克风1720的引用也可以是指听觉接口设备1710上的麦克风。
551.处理器210(和/或处理器210a和210b)可以被配置为检测用户100的环境内的声音发出对象(诸如个体)。图50a是示出示例性环境的示意图。如图50a所示,佩戴装置110的用户100可以物理地存在于环境中并且个体5002产生声音5004。因此,在图50a中呈现的场景中,个体5002是声音发出对象。尽管图50a示出了作为声音发出对象的个体,但是声音发出对象可以是环境中产生可被用户100听到或被装置100检测到的声波的任何对象。例如,声音发出对象可以是机器、动物或自然产生的声源(诸如风)。在一些情况下,声音发出对象可能在产生声音的同时移动。可替代地,声音发出对象可以在没有可观察到的运动的情况下产生声音(诸如收音机的扬声器)。
552.可以通过检测声音在多个监听设备处的到达时间的差值和/或检测音量的差值来确定声音发出对象的位置。例如,对于人类,声音定位是通过确定声音到达人的左耳和右耳的时间差值来进行的。声音定位也是通过确定左耳和右耳处的声音音量差值来实现的。例如,在图50a中,用户100可以通过注意到声音5004到达用户100的右耳比到达用户100的左耳更早且更响亮来确定个体5002正站在用户100的前面和右边。然而,如果用户100听力受损,则用户100可能不得不依赖视力来确定个体5002的位置。如果用户100视力受损,或者看向不同方向,则用户100可能无法确定声音的位置,从而无法确定声源。
553.为了弥补这一点,本公开的某些实施例可以基于声音发出对象的确定位置提供立体声信号。在一些实施例中,装置110可以使用由相机1730捕捉的图像来确定声音发出对象
的位置。例如,图50b是符合本公开的由成像捕捉设备捕捉的示例性图像的示意图。处理器210可以被配置为分析由相机1730捕捉的图像,以检测相机1730的视场5006中的声音发出对象(诸如个体5002),并确定从用户100到声音发出对象的方向。例如,处理器210可以确定个体5002在视场5006内的位置。如图所示,视场5006可以被划分为表示角度的部分。例如,视场5006可以具有与用户视线方向1750对齐的中心线5008。视场5006可以被划分为表示由线5008和5010划定的偏离中心0-5度的区域的部分;由5010和5012线划定的中心5-10度的区域的部分;和由5012和5014线划定的偏离中心10-15度的区域的部分。个体5002或其他声音发出对象的位置可以通过参考视场5006的这些部分来确定。例如,如图50b所示,个体5002的嘴位于由线5010和5012划定的区域内。因此,为了确定朝向声音发出对象的方向,处理器210可以使用如下文进一步描述的运动检测和/或声音定位技术。尽管图50b示出了线5008-5014,但处理器210可以使用替代度量来确定声音发出对象相对于用户100的方向,诸如视场5006的x和/或y坐标,或视场5006的较小和/或较大部分。另外,如下面将更详细地描述的,不是或除了由相机1730捕捉的图像之外,处理器210可以使用声音到达时间信息。
554.基于检测到的声音发出对象的位置,处理器210可以引起对音频的选择性调节,以便将声音发出对象的位置传送给用户100。调节可以包括相对于其他音频信号放大被确定为对应于声音5004(其可对应于个体5002的语音)的音频信号。在一些实施例中,放大可以例如通过相对于其他信号处理与声音5004相关联的音频信号来数字化地实现。另外地或者可替代地,可以通过改变麦克风1720的一个或多个参数来实现放大,以聚焦于与个体5002相关联的音频声音。例如,麦克风1720可以是定向麦克风,处理器210可以执行将麦克风1720聚焦在声音5004上的操作。可以使用用于放大声音5004的各种其他技术,诸如使用波束成形麦克风阵列、声学望远镜技术等。经调节的音频信号可以被发送到两个听觉接口设备1710,并且因此可以向用户100提供基于声源位置的经调节音频。选择性调节还可以包括在声音被传送到第一耳朵与声音被传送到第二耳朵之间引入振幅差或延迟。以下将提供选择性调节的进一步细节。
555.声音的调节程度(诸如放大差或延迟的长度)可以基于相对于用户100的到声音发出对象的确定方向。例如,参照图50b,如果个体5002位于视场5006的中心线5008附近,则处理器210可以提供小程度的调节或不调节。可替代地,如果个体5002位于视场5006的右边缘附近,则处理器210可以提供更大程度的调节。此外,如果个体5002在视场5006之外,则过程210可以基于多个麦克风处的声音到达时间来确定个体5002的位置,并引入更大程度的调节。
556.通过参考图51,可以进一步理解声音调节,图51示出了由符合本发明的助听器系统获取和重放的音频信号的示意图。根据本公开,装置110可以接收由可穿戴麦克风1720获取的音频信号,该音频信号反射由诸如个体5002的声音发出对象生成的声音。接收信号5102是表示由至少一个麦克风捕捉的声音的音频信号。接收信号5102可以是例如图50a的声音5004。一旦接收信号5102到达过程210,处理器210可以确定对应于接收信号5102的声音发出对象的位置。处理器210可以通过例如识别如图50b所示的相机的视场中的移动对象、通过计算在多个麦克风处的接收信号的到达时间差、通过操纵定向麦克风以及其他方法来确定位置。
557.在处理器210分析接收信号5102之后,处理器210可以引起立体声表示的传输。例
如,如图51所示,处理器210可以生成第一信号5104和第二信号5106。例如,第一信号5104可以被发送到与用户100的右耳相关联的听觉接口设备1710,第二信号5106可以被发送到与用户100的左耳相关联的听觉接口设备1710。
558.为了创建立体声表示,处理器210可以在第一信号5014的传输之后将第二信号5106的传输延迟一段时间。例如,处理器210可以在声音到达装置110后100毫秒开始第一信号5104的传输,如第一传输开始线5108所示。虽然作为示例使用100毫秒,但也可以使用其他合适的时间段。例如,时间段的范围可以是50-400毫秒,或者任何其他合适的时间段。处理器210然后可以在声音到达装置110 800毫秒后发送第二信号5106,如第二传输开始线5110所示。因此,第二信号5106可以在第一信号5104之后大约100毫秒被发送,如图51的延迟5112所示。因此,用户100将在第二信号5106之前听到第一信号5104。如果第一信号5104与例如用户的右耳相关联,则用户100将感知声源朝向他的右侧。尽管在接收信号5102到达后100毫秒示出了第一传输开始,但在某些实施例中,处理器210可以在其他时间帧中(诸如在接收信号5102到达后小于100毫秒)使第一信号5104传输到听觉接口设备1710。类似地,延迟5112可以是其他持续时间,并且可以根据声音发出对象的位置而变化。
559.图51还示出了可以在每个信号中放大和减小接收信号,从而提供声音发出对象的位置的附加指示。例如,接收信号5102的最大强度接近30,000个单位。然而,第一信号5104具有接近40,000的最大强度,说明处理器210已经放大了第一信号5104。另一方面,第二信号5106具有大约20,000的最大强度,指示处理器210已经衰减了第二信号5106。因此,假设第一信号5104被发送到用户右耳中的听觉接口设备1710,并且第二信号5106被发送到用户左耳中的听觉接口设备1710,用户将在他的右耳中听到比在他或她的左耳中更大的声音,增强了用户确定声源的能力。
560.在一些实施例中,选择性调节可以包括衰减或抑制与确定的声音发出对象不相关联的一个或多个音频信号(诸如背景噪声)。调节还可以包括改变接收信号5102的音调以使声音对于用户100更易感知。例如,用户100可能对特定范围内的音调具有较小的敏感度,并且音频信号的调节可以调整接收信号5102的音高。例如,用户100可能经历10khz以上的频率中的听觉损失,并且处理器210可以将更高的频率(例如,在15khz处)重新映射到低于10khz的频率。在一些实施例中,处理器210可以被配置为改变与一个或多个音频信号相关联的语速。
561.图52是示出用于生成符合所公开实施例的立体声表示的示例性过程的流程图。过程5200可以由与装置110相关联的一个或多个处理器(诸如处理器210)来执行。处理器可以包括在与也可以用于过程5200的麦克风1720和相机1730相同的公共外壳中。例如,装置110可以包括被配置为从用户的环境捕捉声音的至少一个麦克风。装置110可以包括被配置为从用户的环境捕捉多个图像的可穿戴相机。在一些实施例中,过程5200的一些或全部可以在装置110外部的处理器上执行,它们可以包括在第二外壳中。例如,过程5200的一个或多个部分可以由听觉接口设备1710或诸如计算设备120或显示设备2301的辅助设备中的处理器来执行。在这样的实施例中,处理器可以被配置为经由公共外壳中的发送器与第二外壳中的接收器之间的无线链路接收所捕捉的图像。
562.在步骤5202中,过程5200可以包括接收由相机捕捉的多个图像。例如,装置110可以捕捉图像并存储被压缩为jpg文件的图像的表示。作为另一示例,装置110可以捕捉彩色
图像,但存储彩色图像的黑白表示。作为又一示例,装置110可以捕捉图像并存储图像的不同表示(例如,图像的一部分)。例如,装置110可以存储图像的一部分,该部分包括出现在图像中的人的脸,但基本上不包括围绕该人的环境。类似地,装置110例如可以存储图像的一部分,该部分包括出现在图像中的对象,但基本上不包括围绕该对象的环境。作为又一示例,装置110可以以降低的分辨率(即,以比捕捉的图像的分辨率低的分辨率)存储图像的表示。存储图像的表示可以允许装置110节省存储器550中的存储空间。此外,处理图像的表示可以允许装置110提高处理效率和/或帮助维持电池寿命。
563.步骤5202还可以包括确定一系列图像中的差异。例如,可以减去先前的图像(诸如逐像素减去)以指示在第一图像的时间与第二图像的时间之间移动的图像的部分。在一些实施例中,该差分图像可以被存储为图像的表示。
564.在步骤5204中,过程5200可以包括接收表示由至少一个麦克风捕捉的声音的音频信号。在一些实施例中,过程5200可以从多个麦克风接收和组合多个音频信号。例如,装置110可以包括被设计为收集具有低频的声音的麦克风,以及被设计为收集具有高频的声音的麦克风。然后,步骤5204可以将声音组合成表示低频和高频两者的单个音频信号。步骤5204还可以包括确定在多个麦克风的每一个中的声音的到达时间之间的延迟。
565.在步骤5206中,过程5200可以包括基于对多个图像的分析和/或基于对接收到的声音的分析来确定声音发出对象的位置。该位置可以是声音发出对象相对于用户的角度,如图50b所示。另外地或可替代地,该位置可以是从用户到声音发出对象的距离。处理器210可以使用捕捉的图像中的参考对象或相机1730的镜头的焦距来确定距离。在一些实施例中,装置110可以包括提供立体图像的多个相机,它们可以使处理器210确定到对象的距离。在一些实施例中,过程5200可以包括确定声音的多普勒效应以例如通过计算声波的频率改变来识别声音发出对象的位置。另外,过程5200可以将声音与声音配置文件匹配,以帮助识别多个图像中的声音发出对象的类型。例如,处理器210可以基于对多个图像的分析来识别多个可能的声音发出对象(诸如汽车和割草机)。处理器210还可以将接收到的声音与汽车和割草机的声音配置文件进行比较,并确定割草机是声音发出对象。此外,处理器210可以使用来自惯性测量或来自装置110的测距仪的数据来确定距离。例如,处理器210可以基于惯性测量来计算装置110向左移动两英尺,而相机1730的视场中的对象向视场的中心的右侧移动15度。处理器210可以使用来自例如设置在装置110上的测距仪的测量来识别到最近对象的距离。例如,测距仪可以测量在用户前面或到用户侧面的距离,并且该距离可以用于确定位置。基于这些测量,处理器210可以确定到声音发出对象的距离。
566.如果处理器210检测到多个可能的声音发出对象,则可能需要附加步骤来确定多个可能对象中的哪个与接收到的声音相关联。例如,步骤5206可以包括确定最接近用户100的对象。因此,步骤5206可以包括确定第一对象到用户的距离,以及确定第二对象到用户的距离。一旦处理器210确定从用户到第一对象和第二对象的距离,处理器210可以基于所确定的距离选择第一和第二对象中的一个作为声音发出对象。例如,处理器210可以选择最近的对象作为声音发出对象。
567.在步骤5206中,过程5200还可以包括识别在多个图像中的至少一个中的声音发出对象的表示。在一个实施例中,步骤5206可以包括基于对多个图像的分析来识别与个体的嘴相关联的至少一个唇部移动或唇部位置。处理器210可以被配置为识别与个体的嘴相关
联的一个或多个点。在一些实施例中,处理器210可以开发与个体的嘴相关联的轮廓,该轮廓可以定义与个体的嘴或唇部相关联的边界。可以在多个帧或图像上跟踪在图像中识别出的唇部,以识别唇部移动。处理器210还可以使用一种或多种视频跟踪算法,诸如均值漂移跟踪、轮廓跟踪(例如,压缩算法)或各种其他技术。
568.在一些情况下,声音发出对象可能与其他运动相关联。例如,声音发出对象可以是移动的汽车、在水池中溅水的人或锤子敲击钉子。因此,在一些实施例中,处理器210可以通过识别用户环境中的至少一个移动对象来识别声音发出对象的表示。步骤5206可以包括在一系列捕捉的图像之间进行背景减法以识别运动,如果用户100静止,这可以帮助运动检测。步骤5206可以使用其他减法技术来确定观察到的运动是否是时段性的,并且基于运动时段和声音时段来确定观察到的运动与接收到的音频信号相关联还是不相关联。在步骤5208中,过程5200可以包括基于声音发出对象的位置生成立体声表示,立体声表示包括第一音频信号和第二音频信号,第一音频信号在至少一个方面不同于第二音频信号以模拟该对象相对于用户的位置。例如,如图51的第一信号5104和第二信号5106所示,第一音频信号和第二音频信号可以不同。
569.例如,在一些实施例中,相对于第二音频信号,与声音发出对象相关联的声音可以在第一音频信号中被衰减。处理器210可以将声音的振幅增加小于1的因子以产生第一音频信号,该第一音频信号可以具有小于原始声音的强度。可替代地或另外地,处理器210可以将声音乘以大于1的因子以产生强度大于原始声音以及大于第一音频信号的第二音频信号。在一些实施例中,放大和衰减可以由处理器210数字化地执行。放大和衰减也可以由容纳在装置110中的放大器或衰减器电路来执行。
570.此外,衰减或放大程度可以基于声音发出对象的位置(例如,在过程5200的步骤5206处确定的位置)来确定。处理器210可以执行位置到衰减和/或放大的转换。例如,处理器210可以将衰减因子计算为相对于相机1730的视场中心线朝向声音发出对象的方向的函数。处理器210可以通过将朝向声音发出对象的角度乘以系数(例如0.5)来确定衰减因子。例如,参照图50b,声音发出对象(即,个体5002)位于距离视场5006的中心5度至10度之间。处理器210可以将来自个体5002的声音除以确定为(10度
×
0.5)=5的衰减因子,使得第一信号比第二信号安静五倍。作为附加示例,如果个体5002位于图50b的中心线5008,则衰减因子将为0(0度
×
0.5=0),使得第一信号具有与第二信号相等的音量。以这种方式,来自远离相机1730的视场中心线的声音发出对象的声音得到比来自相机1730的视场中心线附近的声音发出对象的声音的被更大程度衰减的第一信号。本示例仅用于说明目的,并不一定限制本实施例。
571.在确定从用户到声音发出对象的距离的实施例中,衰减因子可以基于距离而不是方向,或者除了方向之外还基于距离。例如,如果对象远离用户100,则衰减因子可以小于靠近用户100但相对于用户100在相同方向上的对象。这可以模拟立体声并且使得用户100能够更准确地进行声音定位,因为随着与耳朵的距离增加,每个耳朵中到达时间和音量的差值减小。设想了确定衰减因子的附加方法,诸如替代转换方法。此外,处理器210可以基于声音发出对象的位置来计算放大因子。
572.第一音频信号也可以或可替代地通过被延迟而不同于第二音频信号。即,与声音发出对象相关联的声音可以在第一音频信号中相对于第二音频信号被延迟,如先前在图51
中由延迟5112所示。处理器210可以基于声音发出对象的位置来计算延迟,类似于上面描述的衰减或放大因子的计算。例如,在一些实施例中,基于声音发出对象与用户的距离,与声音发出对象相关联的声音在第一音频信号中被延迟某个延迟持续时间。此外,与声音发出对象相关联的声音基于声音发出对象的相对于用户的方向在第一音频信号中被延迟某个延迟持续时间。如上所述,在一些实施例中,延迟可以基于声音发出对象的方向和距离两者。例如,如果声音发出对象靠近用户并且靠近用户的右侧,声音将比用户的左耳更早到达用户的右耳。到达时间的差值与声音的总传播时间相比可能很大。例如,如果声音发出对象距离用户右耳6英寸,而用户右耳距离用户左耳6英寸,那么声音到达用户左耳的时间是到达用户右耳的时间的两倍。但是,如果声音发出对象离用户100英尺,那么到达用户耳朵的时间与声音传播的总时间相比就很小了。因此,处理器210可以基于声音发出对象的方向和距离两者来确定衰减因子,以更好地实现用户的声音定位能力。
573.在一些场景中,声音发出对象可能在相机1730的视场之外,或者可能不产生可由相机1730检测到的运动,诸如收音机。然后,处理器210可能无法基于所接收的多个图像来确定到声音的方向和/或距离。因此,为了即使当声音发出对象在相机1730的视场之外时也能够进行声音定位,装置110可以包括多个麦克风。例如,至少一个麦克风可以包括第一麦克风,助听器系统还可以包括第二麦克风。处理器210可以被配置为确定与第一麦克风处的声音发出对象相关联的声音到达时间和与第二麦克风处的声音发出对象相关联的声音到达时间之间的差值。例如,处理器210可以分析从多个麦克风接收的音频信号以确定音频信号是否匹配,诸如确定峰值强度的定时或比较其他波形特性。另外,处理器210可以基于声速和麦克风之间的距离来应用定时窗口,使得当在第一麦克风处测量声音时,仅在声音在定时窗口内到达第二麦克风时分析其相似性。如果接收的音频信号来自同一源,则处理器210可以确定到达时间的差值。然后延迟的持续时间可以基于与第一麦克风处的声音发出对象相关联的声音到达时间和与第二麦克风处的声音发出对象相关联的声音到达时间之间的差值。在一些实施例中,延迟的持续时间可以相对于到达时间的差值而减小或增加,这可以使用户能够增强声音定位能力。
574.在一些实施例中,在步骤5208中生成第一音频信号和第二音频信号还可以包括选择性地调节与声音发出对象相关联的至少一个音频信号。也就是,调节可以包括改变音频信号的音调或重放速度。例如,调节可以包括重新映射音频频率或改变与音频信号相关联的语速。在一些实施例中,调节可以包括相对于其他音频信号的第一音频信号的其他放大方法,诸如方向性麦克风的操作、改变与麦克风相关联的一个或多个参数、或者数字化地处理音频信号。调节可以包括衰减或抑制与人相关联的一个或多个音频信号。衰减的音频信号可以包括与在用户的环境中检测到的其他声音(包括诸如第二音频信号的其他语音)相关联的音频信号。例如,处理器210可以基于确定第二音频信号不与人相关联来选择性地衰减第二音频信号。
575.在步骤5210中,过程5200可以包括使立体声表示传输到助听器接口设备,助听器接口设备被配置为将基于第一音频信号的声音提供给用户的第一耳朵,并将基于第二音频信号的声音提供给用户的第二耳朵。例如,立体声表示可以被发送到连接到用户右耳的听觉接口设备1710,以及连接到用户左耳的听觉接口设备1710,从而向用户100提供对应于接收到的音频信号的声音。在一些实施例中,听觉接口设备1710可以包括与听筒相关联的扬
声器。例如,听觉接口设备可以至少部分地插入用户的耳朵中,用于向用户提供音频。听觉接口设备也可以在耳朵外部,诸如耳后听觉设备、一个或多个耳机、小型便携式扬声器等。在一些实施例中,听觉接口设备可以包括骨传导麦克风,其被配置为通过用户头骨的振动向用户提供音频信号。这样的设备可以与使用者的皮肤外部接触放置,或者可以通过外科手术植入并附接到使用者的骨骼上。
576.嗓音特征的现场改变
577.与所公开的实施例一致,助听器系统可以基于语音特征选择性地调节声音,以使用户能够更好地理解具有语音障碍、口音或其他可能阻碍用户理解的语音特征的个体。虽然现有的助听器系统可以放大声音来克服听力损失,但这些系统可能无法消除理解障碍。例如,助听器系统的使用者除了听力损失之外,还可能有认知障碍,而传统助听器系统提供的简单扩音方法并不能解决这些认知障碍。此外,即使当用户没有表现出认知障碍时,用户也可能遇到带有口音或语音障碍的人,而扩音并不能解决这些问题,甚至会更糟。因此,本发明的助听器系统可以选择性地调节与语音相关联的音频以减少理解障碍。
578.用户100可以佩戴符合上述基于相机的助听器设备的助听器设备。例如,助听器设备可以是如图17a所示的听觉接口设备1710。听觉接口设备1710可以是被配置为向用户100提供听觉反馈的任何设备。听觉接口设备1710可以被放置在用户100的每个耳朵中,类似于传统的听觉接口设备。如上所述,听觉接口设备1710可以是各种样式的,包括耳道内、完全耳道内、耳内、耳后、耳上、耳道内接收器、开放安装或各种其他样式。听觉接口设备1710可以包括用于向用户100提供听觉反馈的一个或多个扬声器、用于检测用户100的环境中的声音的麦克风、内部电子设备、处理器、存储器等。在一些实施例中,除了麦克风之外或替代麦克风,听觉接口设备1710可以包括一个或多个通信单元,以及是一个或多个接收器,用于从设备110接收信号并将信号传送到用户100。听觉接口设备1710可以对应于反馈输出单元230,或者可以与反馈输出单元230分开,并且可以被配置为从反馈输出单元230接收信号。
579.在一些实施例中,如图17a所示,听觉接口设备1710可以包括骨传导耳机1711。骨传导耳机1711可以通过外科手术植入,并且可以通过声音振动到内耳的骨传导来向用户100提供可听反馈。听觉接口设备1710还可以包括一个或多个耳机(例如,无线耳机、过耳耳机等)或由用户100携带或佩戴的便携式扬声器。在一些实施例中,听觉接口设备1710可以集成到其他设备中,诸如用户的蓝牙
tm
耳机、眼镜、头盔(例如,摩托车头盔、自行车头盔等)、帽子等。
580.听觉接口设备1710可以被配置为与诸如装置110的相机设备进行通信。这种通信可以通过有线连接,或者可以无线地进行(例如,使用蓝牙
tm
、nfc或无线通信形式)。如上所述,装置110可以由用户100以各种配置来佩戴,包括物理地连接到衬衫、项链、腰带、眼镜、腕带、纽扣或与用户100相关联的其他物品。在一些实施例中,还可以包括诸如计算设备120的一个或多个附加设备。因此,本文关于装置110或处理器210描述的一个或多个过程或功能可以由计算设备120和/或处理器540执行。装置110还可以使用听觉接口设备1710的一个或多个麦克风,并且因此,本文使用的对麦克风1720的引用也可以是指听觉接口设备1710上的麦克风。
581.处理器210(和/或处理器210a和210b)可以被配置为检测用户100的环境内的个体。图53是示出符合本公开的用于使用提供声音特征的现场改变的助听器的示例性环境的
示意图。如图53所示,佩戴装置110的用户100可以物理地存在于环境中并且个体5302产生声音5304。尽管图53将个体5302示出为正在说话,但装置110的麦克风也可以捕捉来自用户100的环境的其他声音,诸如机器、动物或自然产生的声源(诸如风)。因此,处理器210可以被配置为从由装置110的麦克风捕捉的多个声音中识别和隔离对应于语音的声音。例如,机器发出的声音通常有一个与机器运动相对应的时段,诸如运转的马达每循环就发出声音,或者手钻每敲击就发出声音。在这些情况下,处理器210可以过滤时段性声音以隔离语音。作为另一示例,处理器210可以过滤比典型语音音量范围更大或更安静的声音、具有不同于典型语音的谐波的谐波的声音或在典型语音音高之外的音高。处理器210可以采用诸如傅立叶变换的信号分析方法来隔离语音信号。
582.语音与其他声音的隔离可以使佩戴根据本公开的助听器系统的用户更好地理解与他人的对话。例如,处理器210可以通过增加与语音相关联的声音的音量以及减少甚至消除与除语音之外的源相关联的声音来选择性地调节声音。因此,助听器系统可以帮助用户专注于对话并避免分心。然而,在一些情况下,选择性地增加声音的音量可能不足以使用户理解说话者。例如,如上所述,用户可能具有抑制理解典型语音的认知障碍,诸如需要比通常更长的时间来区分词语。用户还可能具有理解语音的物理障碍,诸如在对应于人类声音范围的某些频率中的听力损失。用户还可能与说话者有文化差异,使说话者难以被理解(诸如口音)。
583.为了解决这些问题,本公开的某些实施例可以提供额外的语音的选择性调节以进一步改善用户理解。例如,图54a是由符合本公开的助听器系统获取的音频信号的示意图,而图54b是由符合本公开的助听器系统重放的音频信号的示意图。图54a和图54b可以是从装置110的麦克风导出的频谱图。图54a的获取的音频信号与图54b的重放的音频信号的比较示出了如本公开的实施例中的选择性调节的实施例。
584.处理器210可以通过如上所述去除非语音声音,以及基于指示词语中断的静默时段将与语音相关联的声音分离成片段来将词语从对应于语音的更长的声音样本中分离出来。例如,图54a在概念上表示从语音中提取的词语。在本示例中,该词语可以是当由说话者说出时用户难以理解的词语,或者由于例如说话者的口音而容易与类似发音词语混淆的词语。例如,图54a的词语中所示的图形可以对应于说话者说出词语“hearing(听到)”,该词语在某些口音中或对于具有某些言语障碍的一些人来说,听起来可能像“earring”或者甚至“erin”。也就是,一些说话者可能会去掉“hearing”一词中的前导“h”或最后的“g”,或者可能会改变元音发音。
585.处理器210还可以将识别出的词语划分为音素。例如,如图54a所示,处理器210可以将词语“hearing”分成四个音素:区域5402中的“h”音素、区域5404中的“ea”音素、区域5406中的“r”音素和区域5408中的“ng”音素。处理器210可以通过将从音频导出的频谱图与描述声音的字符串相关地存储的频谱图库相匹配来识别音素。例如,处理器210可以将库存储在装置110的存储器550中,或者处理器210可以访问存储库的数据库。例如,区域5402的频谱图可以存储在库中并链接到字母“h”。此外,库可以存储应该强调音素以增强用户理解的指示。例如,如上所述,有些口音轻发“h”音,或完全丢弃“h”音,而库可以存储当检测到“h”音时,应该强调“h”音的指示。此外,库可以存储条件性强调指示,诸如“h”应该在词语的开头处强调,而不是中间的规则。库还可以存储强调规则,例如在音素之前引入延迟、增大
音量、减小音量、增大持续时间或减小持续时间。
586.因此,图54b示出了处理器210基于图54a的接收声音产生的重放声音和“h”声音应该在词语的开头被拉长和放大以增强用户对词语的理解的规则。因此,图54b的区域5402中的“h”音素具有比图54a的区域5402中的声音更大的强度,从初始强度(如果大约20,000个单位)放大到超过30,000个任意强度单位。另外,图54b中的“h”音素开始早于区域5402的开始,示出该音素具有增加的持续时间以进一步增强用户理解。在一些实施例中,处理器210还可以缩短词语中的其他音素,使得总的词语持续时间不变,从而防止例如对于阅读唇部以帮助听力理解的用户而言,可能使用户困惑的说话和听到之间的延迟。在一些实施例中,一个或多个音素可以具有增加的持续时间,而其他音素可以不变。因此,整个词语的持续时间可以增加。在一些实施例中,可以减少连续词语之间的一个或多个空格的持续时间,以避免由于增加的音素持续时间而造成的累积延迟。
587.在一些实施例中,选择性调节可以包括改变说话者的语音的音调以使声音对用户100更易感知。例如,用户100可能对特定范围内的音调具有较小的敏感度,并且音频信号的调节可以调整接收信号5102的音高。例如,用户100可能经历10khz以上的频率中的听觉损失,并且处理器210可以将更高的频率(例如,在15khz处)重新映射到低于10khz的频率。在一些实施例中,处理器210可以被配置为改变与一个或多个音频信号相关联的语速。
588.图55a是示出符合所公开实施例的用于选择性地调节音频信号的示例性过程的流程图。过程5500a可以由与装置110相关联的一个或多个处理器(诸如处理器210)来执行。处理器可以包括在与也可以在过程5500a期间使用的麦克风1720和相机1730相同的公共外壳中。例如,装置110可以包括被配置为从用户的环境捕捉声音的至少一个麦克风。在一些实施例中,过程5500a的一些或全部可以在装置110外部的处理器上执行,它们可以包括在第二外壳中。例如,过程5500a的一个或多个部分可以由听觉接口设备1710或诸如计算设备120或显示设备2301的辅助设备中的处理器来执行。在这样的实施例中,处理器可以被配置为经由公共外壳中的发送器与第二外壳中的接收器之间的无线链路接收所捕捉的图像和声音。
589.在步骤5502中,过程5500a可以包括接收表示由至少一个麦克风捕捉的声音的多个音频信号。在一些实施例中,过程5500a可以从多个麦克风接收和组合多个音频信号。例如,装置110可以包括被设计为收集具有低频的声音的第一麦克风,以及被设计为收集具有高频的声音的第二麦克风。然后,步骤5502可以将声音组合成表示低频和高频两者的单个音频信号。
590.在步骤5504中,过程5500a可以包括识别多个音频信号中的第一音频信号,该第一音频信号与个体相关联。例如,如上所述,过程5500a可以移除多个音频信号中具有正常人类对话范围之外的频率、时段、音高和音量的音频信号。在一些情况下,用户可能在多个说话者附近。在这些情况下,过程5500a可以选择最响亮的音频信号,其可以对应于最近的说话者,该说话者可能是用户希望清楚听到的说话者。可替代地,过程5500a可以从用户接收聚焦于来自不同说话者的信号的指示。例如,过程5500a可以使听觉接口设备1710播放来自第一个体的音频,从用户接收按钮按下或其他指示,然后使来自第二个体的音频由听觉接口设备1710播放。
591.在步骤5506中,过程5500a可以包括处理第一音频信号以选择性地调节个体的至
少一个语音特征。在过程5500a中,语音特征可以是个体语音的任何特性,其可能会抑制用户的理解。语音特征的示例可包括但不限于口音、言语障碍(如口齿不清、口吃、言语抽搐、异常压力、异常舌头运动或牙齿缺失)、诸如吹口哨的干扰声音或声音质量(诸如高音或发音困难,即声音嘶哑)。
592.例如,在一些实施例中,至少一个语音特征可以包括个体的口音,并且选择性调节可以包括改变该口音。诸如存储器550的存储器或由装置110访问的另一数据库可以存储多个口音的特性。例如,存储器550可以存储用于引起对用户的本地口音的音素替换的英国口音的选择性调节规则。例如,一些说英国英语的人可能会用声门停顿代替“t”音素。结果,存储器550可以包括选择性调节规则,以用“t”音替换在第一音频信号中检测到的声门停顿,从而使得说英国英语的人对于说美国英语的人来说更容易理解。
593.作为另一示例,在一些实施例中,至少一个语音特征可以包括个体的口齿不清,并且选择性调节包括移除该口齿不清。在这种情况下,处理器210可以用第一音频信号中的“s”声音替换“th”声音。然而,由于口齿不清的说话者可能在一些词语中适当地使用“th”声音,处理器210可以包括自然语言处理算法,以确定在第一音频信号中识别出的词语是否应该用“th”而不是“s”发音,并因此避免用“s”声音替换“th”。可替代地,处理器210可以访问词典并确定观察到的词语是否是真实词语,并且用“s”声音替换“th”声音。例如,第一音频信号可以包括说话者说“thit”的表示。处理器210可以确定“thit”不是词典中的词语。然后,处理器210可以确定“sit”是词典中的词语,并选择性地调节个体的口齿不清语音特征。
594.作为又另一个示例,至少一个语音特征可以包括词语的发音,并且选择性调节包括改变该词语的发音。例如,一个体(诸如一个孩子)可能会把词语“cookie”读错为“tootie”。此外,该个体可能没有妨碍用户理解的其他可识别的声音特征。然后,处理器210可通过每当个体发音错误时播放个体正确地说出词语“cookie”的记录来选择性地调节词语“cookie”发音错误的语音特征。换句话说,处理器210可以用正确发音的词语替换整个词语,而不是替换单个音素。此外,语音特征可以包括词语的多个发音,并且处理器210可以访问包含多个词语中的每一个的替换音频文件的存储器。可替代地,处理器210可以在检测到发音错误的词语时生成正确的发音。处理器210还可以调节所生成的发音以匹配个体的语音特性,诸如音调、音高和质量。
595.在一些实施例中,选择性调节还可以包括改变个体的语音以模拟第二个体的语音。例如,处理器210可以创建第一音频信号的转录并将该转录提供给具有被选择以匹配用户偏好的语音的语音合成算法。或者,处理器210可以对第一音频信号过滤分量或添加其他分量,以增强或减少某些特征,并使第一音频信号更紧密地匹配另一语音的特性。例如,处理器210可以通过改变个体语音的音高来改变个体的语音。因此,如果个体是男性,处理器210可以处理第一音频信号以增加其音高,以便更清楚地匹配女性的语音,或者可以添加特定人的语音的泛音特性。选择性调节还可以包括翻译,诸如提供转录到用户语言的机器翻译,然后使用语音合成算法大声朗读翻译文本。选择性调节还可以包括以较慢或较快的速率播放个体的语音,例如通过较快或较慢地播放一个或多个词语。在一些实施例中,这还可以包括减少或增加词语之间的静默时段的持续时间,以负责所说词语的持续时间的改变。
596.可以在处理期间识别个体的语音特征。因此,在一些实施例中,步骤5506可以包括通过例如频率分析或音素强度和持续时间分析来分析第一音频信号以确定至少一个语音
特征。步骤5506还可以包括确定用户对选择性调节的偏好,诸如选择性调节英国口音或强调语音中字母“h”的指令。例如,用户偏好可以被存储在存储器550中。存储器550还可以存储处理算法和常量,诸如通过将对应于字母“h”的音频信号的识别部分放大为原始音频的1.5倍并将持续时间延长10%来强调字母“h”的算法。
597.可替代地或另外地,步骤5506可以包括识别第一音频信号中的语音签名,以及基于语音签名确定个体的身份。例如,可以通过从单个说话者的干净音频中提取频谱特征(也称为频谱属性、频谱包络或频谱图)来执行语音特征提取。音频信号可以包括与诸如背景噪声或其他声音之类的任何其他声音隔离的单个说话者的语音的短样本(例如,一秒长、两秒长等)。该干净的音频可以被输入到基于计算机的模型(诸如预先训练的神经网络)中,该模型可以基于提取的特征输出说话者的语音的签名。在一些实施例中,语音签名可以是语音障碍、发音错误、语速或口音。例如,英国口音可能具有共同的频谱特征,其可以被识别为语音签名。此外,个体可能以独特的方式读错词语(诸如常用词语),并且读错词语的频谱图可以是个体语音签名的一部分。同样,个体的速度障碍可能会导致他的言语中没有某些音素,或者可替代地,某个音素以不寻常的速率出现。这种音素的存在或不存在也可以形成语音签名。
598.输出签名可以是数字的矢量。例如,对于提交给基于计算机的模型(例如,训练过的神经网络)的每个音频样本,基于计算机的模型可以输出形成矢量的数字集。可以使用任何合适的基于计算机的模型来处理由助听器系统的一个或多个麦克风捕捉的音频数据以返回输出签名。在示例实施例中,基于计算机的模型可以检测并输出所捕捉音频的各种统计特性,诸如音频的平均响度或平均音高、音频的频谱频率、音频的响度或音高的变化、音频的节奏模式等。这些参数可以用于形成包括形成向量的数字集的输出签名。
599.一旦建立了语音签名,步骤5506可以包括通过访问包括一个或多个个体的声纹的数据库来执行一个或多个语音识别算法,诸如隐式马尔可夫模型、动态时间规整、神经网络或其他技术。因此,处理器210可以基于语音签名来确定个体的身份。另外,在确定身份之后,处理器210还可以访问存储器以确定至少一个语音特征,该至少一个语音特征与个体相关联地存储在存储器中。
600.为了进一步说明,用户100可能具有声音低沉沙哑的朋友,其无法发音字母“l”。处理器210可以基于朋友的音高和由朋友的语音的沙哑质量产生的泛音为该朋友建立语音签名。此外,语音签名可以注意到在来自朋友的音频信号中没有识别出字母“l”。该语音签名可以存储在存储器220中。另外,用户可以指定朋友无法说出包含“l”的词语会抑制用户对朋友的理解。处理器210可以存储规则,即当朋友的语音签名匹配第一音频信号(指示用户正在与朋友交谈)时,第一音频信号的一些片段应该被适当地表示“l”声音的音频信号替换。例如,处理器210还可以使用自然语言处理方法来确定原始声音是否正确并避免插入“l”声音。处理器210还可以选择性地将语音调节到更高的音高,并去除负责朋友语音的沙哑质量的泛音。
601.在一些情况下,语音特征可以是一种语言的通用特征,而不是仅限于特定的说话者。例如,英语中的一些词语,被称为近同音字,除了一个小的区别(诸如对单个字母的强调更强之外),听起来很相似。“refuse(拒绝)”和“refuge(避难)”、“hiss(嘶嘶)”和“his(他的)”、“advice(建议)”和“advise(劝告)”都可以被认为是近同音字。在某些实施例中,本公
开的助听器系统可以增强用户区分近同音字的能力。例如,如前所述,处理器210可以识别第一音频信号中的词语。然后,处理器210可以访问数据库以确定该词语的近同音字。例如,数据库可以存储在存储器220中,或者可以通过诸如计算设备120的移动设备来访问。数据库可以存储用户所理解的语言的近同音字的预先填充的列表。如果数据库中不存在近同音字,则处理器210可以移动到分析第一音频信号中的下一个词语。可替代地,如果该词语存在,处理器210可以将接收到的音频中的词语与音频文件或区分特性进行比较,以确定词语与近同音字之间的差异。一旦识别出差异,处理器210可以增加对应于该差异的音素的音量或持续时间中的至少一个。举例说明,用户附近的一个体可能会说“his”这个词语,在美国英语中,通常发音为“hiz”。处理器210可以确定该个体说了词语“his”,并确定词语“hiss”(在美式英语中用拉长的、柔和的“s”音发音)是近同音字。然后,处理器210可以将“his”和“hiss”之间的差异确定为结尾“s”的发音,并增加对应于结尾“s”的第一音频信号的片段的音量。这样,佩戴本公开的助听器系统的用户可以更清楚地理解个体。
602.在处理器210已经选择性调节语音特征之后,如果需要调节,则处理器210前进到过程5500a的步骤5508。在步骤5508中,过程5500a可以使经处理的第一音频信号传输到被配置为向用户的耳朵提供声音的听觉接口设备。例如,第一音频信号可以被发送到连接到用户的耳朵的听觉接口设备1710,或者被发送到连接到用户两个耳朵的两个听觉接口设备,从而向用户100提供对应于所接收的音频信号的声音。在一些实施例中,听觉接口设备1710可以包括与听筒相关联的扬声器。例如,听觉接口设备可以至少部分地插入用户的耳朵中,用于向用户提供音频。听觉接口设备1710也可以在耳朵外部,诸如耳后听觉设备、一个或多个耳机、小型便携式扬声器等。在一些实施例中,听觉接口设备可以包括骨传导麦克风,其被配置为通过用户头骨的振动向用户提供音频信号。这样的设备可以与使用者的皮肤外部接触放置,或者可以通过外科手术植入并附接到使用者的骨骼上。
603.除了语音签名匹配过程之外,根据本公开的助听器系统还可以依赖于视觉识别技术来识别说话的个体。图55b是示出符合所公开实施例的用于基于个体的视觉识别来确定语音特征的示例性过程的流程图。图55b中所示的过程5500b的视觉识别方法可以用于代替过程5500a的步骤5504或与过程5500a的步骤5504结合使用。
604.例如,装置110可以包括被配置为从用户的环境捕捉多个图像的可穿戴相机,并且处理器210可以执行过程5500b的步骤。因此,在步骤5512中,过程5500b可以包括接收由相机捕捉的多个图像。例如,装置110可以捕捉图像并存储被压缩为jpg文件的图像的表示。作为另一示例,装置110可以捕捉彩色图像,但存储彩色图像的黑白表示。作为又一示例,装置110可以捕捉图像并存储图像的不同表示(例如,图像的一部分)。例如,装置110可以存储图像的一部分,该部分包括出现在图像中的人的脸,但基本上不包括围绕该人的环境。作为又一示例,装置110可以以降低的分辨率(即,以比捕捉的图像的分辨率低的分辨率)存储图像的表示。存储图像的表示可以允许装置110节省存储器550中的存储空间。此外,处理图像的表示可以允许装置110提高处理效率和/或帮助维持电池寿命。
605.在步骤5514中,过程5500b可以包括识别在多个图像中的至少一个中的个体的表示。可以使用各种图像检测算法来识别个体,诸如haar级联、定向梯度直方图(hog)、深度卷积神经网络(cnn)、尺度不变特征变换(sift)等。在一些实施例中,处理器210可以被配置为例如从显示设备检测个体的可视表示。
606.在一些实施例中,步骤5512可以包括基于对多个图像的分析识别与该个体的嘴相关联的至少一个唇部移动或唇部位置,以帮助识别该个体在多个图像中的表示,如上文参考图23所描述的。例如,许多个体可能在相机1760的视场内,但一个体可能正在说话。因此,为了确定如何选择性地调节第一音频信号,处理器210可以从多个个体中识别处正在说话的个体。处理器210还可以使用各种其他技术或特性,诸如颜色、边缘、形状或运动检测算法来识别个体2310的面部。
607.在步骤5516中,过程5500b可以包括基于表示来确定个体的身份。步骤5516可以包括执行个体图像的面部分析。因此,处理器210可以识别个体的面部上的面部特征,诸如眼睛、鼻子、颧骨、下巴或其他特征。处理器210可以使用一种或多种算法来分析检测到的特征,诸如主分量分析(例如,使用本征脸)、线性判别分析、弹性束图匹配(例如,使用fisher脸)、局部二进制模式直方图(lbph)、尺度不变特征变换(sift)、加速鲁棒特征(surf)等。
608.在步骤5518中,过程5500b可以包括访问存储器以确定至少一个语音特征,该至少一个语音特征与身份相关联地存储在存储器中。例如,处理器210可以在步骤5514中识别图像中的个体。处理器210可以在步骤5516处进一步分析图像中个体的表示,以确定该人的面部的特性。然后,处理器210可以将所确定的特性与具有与个体的身份相关联的特性集合的数据库进行比较,并获得个体的身份(诸如姓名)。在步骤5518,处理器210可以访问相同的或替代的数据库,以获得适用于辨识出的个体的语音特征的选择性调节规则。此外,如上所述,过程5500b可以与语音签名识别过程相结合,以例如在个体的面部被眼镜或面部毛发遮住,或者个体的语音被环境噪声遮住的情况下,提供个体身份的更大确定性。
609.基于语音签名和读唇的选择性调节
610.人类有着鲜明而不同的语音。虽然有些人有很好的语音记忆力,可以很容易地认出他们的第一个小学老师,但其他人可能很难只从他们的语音认出他们最亲密的朋友,尤其是当一个环境中有几个语音时。因此,需要识别活跃说话者或确定要聚焦于多个语音中的哪个语音。例如,当用户100和他的孩子在公园时,他可能希望相对于其他附近孩子的语音放大他的孩子的语音。
611.所公开的助听器系统可以被配置为结合读唇使用语音签名来选择性地调节或以其他方式处理个体的语音。助听器系统可以从用户的环境接收表示由麦克风捕捉的声音的音频信号。声音可以用于确定可被存储的个体的语音签名。该语音签名可以用于识别用户环境内的个体。例如,助听器系统可以通过将检测到的语音签名与存储的语音签名进行比较来确定个体是否是用户所认识的。助听器系统还可以基于从相机接收的图像来检测个体的唇部移动,该图像还可以用于识别活跃说话者。虽然语音签名检测和读唇可以分别执行以识别个体或活跃说话者,但是这些中的每一个单独都可能导致某种程度的不确定性。当组合使用时(即,语音签名和读唇),助听器系统可以以更高效和/或有效的方式识别要被选择性地调节、转录或以其他方式处理的语音。
612.图56是符合所公开实施例的用于选择性地调节声音的示例性助听器系统5600的示意图。助听器系统5600在图56中以简化形式示出,并且助听器系统5600可以包括附加元件或者可以具有替代配置,例如,如图5a-图5c所示。如图所示,助听器系统5600包括可穿戴相机5601、麦克风5602、处理器5603、收发器5604和存储器5605。
613.可穿戴相机5601可以被配置为从用户100的环境捕捉多个图像。例如,如上所述,
可穿戴相机5601可以是相机1730。可穿戴相机5601可以具有图像捕捉速率,该图像捕捉速率可以由用户配置或基于预定设置来配置。在一些实施例中,可穿戴相机5601可以包括一个或多个相机,每个相机可以对应于图像传感器220。
614.麦克风5602可以被配置为从用户100的环境捕捉声音。例如,如上所述,麦克风5601可以是麦克风1720。麦克风5602可以包括一个或多个麦克风。麦克风5602可以包括定向麦克风、麦克风阵列、多端口麦克风或各种其他类型的麦克风。在一些实施例中,麦克风5602和可穿戴相机5601可以包括在公共外壳(诸如装置110的外壳)中。
615.收发器5604可以被配置为向听觉接口设备(例如,1710)发送音频信号,该听觉接口设备被配置为向用户100的耳朵提供声音。收发器5604可以包括一个或多个无线收发器。一个或多个无线收发器可以是被配置为通过使用射频、红外频率、磁场或电场在空中接口上交换传输的任何设备。一个或多个无线收发器可以使用任何已知标准来发送和/或接收数据(例如,wifi、蓝牙蓝牙智能、802.15.4或zigbee)。在一些实施例中,收发器5604可以将数据(例如,原始图像数据、经处理的图像和/或音频数据、提取的信息)从助听器系统5600发送到听觉接口设备和/或服务器250。收发器5604还可以从听觉接口设备和/或服务器250接收数据。在一些实施例中,收发器5604可以将数据和指令发送到外部反馈输出单元230。
616.存储器5605可以包括个体信息数据库5606和声纹数据库5607。声纹数据库5607可以包括一个或多个个体的一个或多个声纹。个体信息数据库5606可以包括将存储在声纹数据库5607中的一个或多个声纹与一个或多个个体相关联的信息。将一个或多个声纹与一个或多个个体相关联的信息可以包括映射表。个体信息数据库5606还可以包括指示用户100是否已知一个或多个个体的信息。例如,映射表还可以包括指示个体与用户100的关系的信息。可选地,存储器5605还可以包括其他组件,例如如图20b所示。可选地,存储器5605还可以包括如图6所示的朝向识别模块601、朝向调整模块602和监视模块603。个体信息数据库5606和声纹数据库5607仅作为示例示出在存储器5605内,并且可以位于其他位置。例如,数据库可以位于听觉接口设备1710中、、远程服务器上或另一关联设备中。个体信息数据库5606和声纹数据库5607可以在同一数据库内实现,或者可以实现为两个或更多个单独的数据库。
617.处理器5603可以包括一个或多个处理单元。处理器5603可以被编程为接收由可穿戴相机5601捕捉的多个图像。处理器5603还可以被编程为接收表示由麦克风5602捕捉的声音的多个音频信号。在一个实施例中,处理器5603可以与麦克风5602和可穿戴相机5601一起包括在相同的外壳中。在另一实施例中,麦克风5602和可穿戴相机5601可以包括在第一外壳中,处理器5603可以包括在第二外壳中。在这样的实施例中,处理器5603可以被配置为经由无线链路(例如,蓝牙
tm
、nfc等)从第一外壳接收多个图像和/或音频信号。因此,第一壳体和第二壳体还可以包括发送器或各种其他通信组件。处理器5603可以被编程为分析接收到的多个音频信号,以使用自组织创建或存储在存储器5605中的个体的声纹来识别用户100的环境中的个体的语音。处理器5603还可以被编程为基于对多个图像的分析,检测与个体的嘴相关联的至少一个唇部移动。处理器5603还可以被编程为基于声纹或检测到的唇部移动中的至少一个,识别多个音频信号中与个体的语音相关联的第一音频信号。处理器5603还可以被编程为引起对第一音频信号的选择性调节或其他处理。处理器5603还可以被
编程为使收发器5604将经选择性调节的第一音频信号发送到被配置为向用户100的耳朵提供声音的听觉接口设备。
618.在一些实施例中,处理器5603可以被编程为获取个体的声纹。例如,可以基于对话中较早时收集的个体的语音(例如,当他个体单独讲话而没有其它背景噪声时)来识别声纹。如本文所使用的,“较早时”可以指同一事件中的前一段,或指在此期间已创建并存储声纹的前一经历。然后可以基于声纹和检测到的唇部移动的组合来识别第一音频信号。在一些实施例中,在引起对第一音频信号的选择性调节时,处理器5603可以被编程为相对于多个音频信号中的至少一个第二音频信号来放大第一音频信号或从第一音频信号中去除背景噪声。在一些实施例中,在引起对第一音频信号的选择性调节时,处理器5603可以被编程为相对于第一音频信号衰减多个音频信号中的至少一个第二音频信号,或滤除多个音频信号中的至少一个第二音频信号。在一些实施例中,在引起对第一音频信号的选择性调节时,处理器5603可以被编程为改变所识别语音的速率或在所识别语音的词语或句子之间引入一个或多个停顿。
619.在一些实施例中,识别第一音频信号可以包括确定用户100已知该个体。确定用户100已知该个体可以包括从存储在存储器5605中的个体信息数据库5606检索信息。个体信息数据库5606可以将声纹与个体和/或个体的图像相关联。
620.图57是示出符合所公开实施例的助听器系统5600的用户100的示例性环境的示意图。由用户100佩戴的助听器系统5600可以被配置为捕捉多个声音5704、5705和5706,并识别用户环境内的一个或多个个体。例如,在多个声音5704、5705和5706中,用户100可能希望关注来自个体5701的声音5704。在一些实施例中,个体5701可能是用户100的朋友、同事、亲戚或以前的熟人。在一些实施例中,用户100可能不知道个体5701。如图57所示,助听器系统5600可以被配置为检测唇部5703的一个或多个运动或识别与用户100的环境内的个体5701相关联的语音5707。
621.助听器系统5600可以被配置为使用麦克风5602来捕捉声音5704、5705和5706。声音5704与个体5701的语音5707相关联,并且声音5705和5706可以与用户100的环境中的附加声音或背景噪声相关联。在一些实施例中,多个声音可以包括用户100附近的一个或多个体和/或一个或多个对象的语音或非语音声音、环境声音(例如,音乐、音调或环境噪声)等。处理器5603可以被配置为分析由麦克风5602捕捉的音频信号,以分离与个体5701的语音5707相关联的声音5704。例如,处理器5603可以使用个体5701的预先获取的声纹,该个体5701可以被确定为正在说话。如果用户100知道个体5701,则可以检索并使用先前存储的声纹。例如,处理器5603可以访问声纹数据库5607,其可以包括对应于一个或多个个体的一个或多个声纹。处理器5603可以将表示声音5704的声纹与存储在声纹数据库5607中的声纹进行比较,以确定数据库中是否存在个体5701的更好的声纹。
622.助听器系统5600可以被配置为使用可穿戴相机5601来捕捉个体5701的一个或多个面部图像5702。处理器5603可以被配置为分析捕捉的个体5701的面部图像5702。例如,如上文关于图23a-图23c所述,处理器5603可以被配置为使用一种或多种图像处理技术(诸如卷积神经网络(cnn)、尺度不变特征变换(sift)、定向梯度直方图(hog)特征或其他技术)来检测个体5701的一个或多个面部特征,其可以包括但不限于个体5701的嘴5703。处理器5603还可以被配置为检测与个体5701的嘴5703相关联的一个或多个点,并实时跟踪个体
5701的唇部的运动。基于检测到的唇部移动,处理器5603可以从多个音频信号中识别与个体5701的声音5704相关联的音频信号。例如,处理器5603可以将检测到的唇部移动的定时与接收到的音频信号中的语音模式的定时进行比较,以确定对应于唇部移动的音频信号。因此,个体5701的语音可以被识别为与其他信号分离和/或使用读唇结合预先获取的声纹进行处理。与单独使用每种技术相比,这种联合分析可以提供更好的结果。
623.在一些实施例中,在发送与个体5701的声音5704相关联的音频信号之前,处理器5603可以被编程为执行用户100的声音的选择性调节。在一些实施例中,用户100的声音的选择性调节可以包括相对于来自用户环境的至少一个第二音频信号来放大用户的音频信号或从用户的音频信号中去除背景噪声。在一些实施例中,用户100的声音的选择性调节可以包括相对于用户的音频信号衰减来自用户环境的至少一个第二音频信号或滤除至少一个第二音频信号。在一些实施例中,用户100的声音的选择性调节可以包括改变用户的语速或在的词语或句子之间引入一个或多个停顿。
624.图58是示出符合所公开实施例的用于选择性地调节或以其他方式处理助听器系统中的声音的示例性方法5800的流程图。处理器5603可以执行过程5800,以在系统5600捕捉个体5701的语音的音频信号和/或个体5701的图像之后选择性地调节来自用户100的周围环境的声音。
625.方法5800可以包括从用户的环境接收多个图像的步骤5801。多个图像可以由可穿戴相机捕捉。例如,在步骤5801处,处理器5603可以接收由可穿戴相机5601捕捉的多个图像。在一些实施例中,该多个图像可以包括个体5701的面部图像5702。
626.方法5800可以包括基于对多个图像的分析,检测与个体的嘴相关联的至少一个唇部移动的步骤5802。例如,在步骤5802处,过程5603可以基于对多个图像的分析,检测与个体5701的嘴5703相关联的至少一个唇部移动或唇部位置。处理器5603可以识别与个体5701的嘴5703相关联的一个或多个点。在一些实施例中,处理器5603可以开发与个体5701的嘴5703相关联的轮廓,该轮廓可以定义与个体的嘴或唇部相关联的边界。可以在多个帧或图像上跟踪在图像中识别出的唇部,以识别唇部移动。因此,处理器5603可以使用如上所述的各种视频跟踪算法。
627.方法5800还可以包括接收表示由至少一个麦克风捕捉的声音的多个音频信号的步骤5803。例如,在步骤5802处,麦克风5602可以捕捉多个声音5704、5705和5706,处理器5603可以接收表示多个声音5704、5705和5706的多个音频信号。声音5704与个体5701的语音相关联,并且声音5705和5706可以是用户100的环境中的附加声音或背景噪声。在一些实施例中,声音5705和5706可以包括个体5701以外的一个或多个体的语音或非语音声音、环境声音(例如,音乐、音调或环境噪声)等。
628.方法5800可以包括获得与用户环境内的个体相关联的声纹的步骤5804。在一些实施例中,可以基于多个图像或多个音频信号中的至少一个来识别个体。例如,步骤5804可以包括使用面部识别、语音识别或用于识别个体的其他手段。可以以各种方式获得声纹。在一些实施例中,获得声纹可以包括基于与个体的语音相关联的先前音频信号来生成声纹。例如,这可以包括检测个体5701在其中单独说话的片段,以及在该片段期间提取个体5701的声纹。
629.在一些实施例中,获得声纹包括基于对多个图像中的至少一个中的说话者的识别
来从数据库检索声纹。例如,可以通过将一个或多个捕捉图像中的个体5701的表示或特征与个体信息数据库5606中的条目进行比较来识别个体5701。基于该比较,可以从声纹数据库5607检索个体5701的先前声纹。提取出的声纹或检索到的声纹可用于分析接收的音频信号以分离和处理个体5701的语音。在一些实施例中,如果没有先前的声纹可用,或者如果提取出的声纹比从声纹数据库5607检索到的声纹具有更高的质量(例如,在较安静区域捕捉的音频上生成的声纹等),则新生成的声纹可以除了先前存储的声纹之外被存储在数据库中或者替代先前存储的声纹而存储。步骤5804可以使用训练的模型来确定音频信号是否包括与特定声纹相关联的语音,或者提供音频信号包括与特定声纹相关联的语音的概率。在一些实施例中,可以只发生步骤5801和5802,从而只执行读唇。在一些实施例中,可以只发生步骤5803和5804,从而只执行语音签名检测。在一些实施例中,可以发生所有步骤5801-5804,从而执行读唇和语音签名检测两者。
630.方法5800可以包括基于声纹或检测到的唇部移动中的至少一个,识别多个音频信号中与个体5701的语音相关联的第一音频信号的步骤5805。例如,这可以包括将第一音频信号与不与个体相关联的一个或多个音频信号分离。例如,在步骤5805处,处理器5603可以基于在步骤5804处创建或检索出的声纹或在步骤5802处检测到的唇部移动中的至少一个,从与声音5704、5705和5706相关联的多个音频信号中识别与个体5701的语音5707相关联的音频信号。在一些实施例中,处理器5603可以基于在步骤5804处获得的声纹和在步骤5802处检测到的唇部移动的组合,从多个音频信号中识别与个体5701的声音相关联的音频信号。如上所述,一旦分离出第一音频信号,处理器5603可以将检测到的特定唇部移动与在第一音频信号中识别出的音素或其他特征进行比较。在一些实施例中,识别第一音频信号可以包括确定用户已知该个体。确定用户已知该个体可以包括从存储在存储器中的数据库中检索信息,该数据库将声纹与该个体相关联。例如,数据库中将一个或多个声纹与一个或多个个体相关联的信息可以包括映射表,映射表还可以包括指示一个或多个个体是否为用户100已知以及他们与用户100的关系的信息。处理器5603可以访问个体信息数据库5606,以检索存储在存储器5605中的个体信息,并确定用户是否已知该个体。
631.方法5800可以包括处理第一音频信号的步骤5806。在一些实施例中,如贯穿本公开所描述的,该处理可以包括选择性调节。例如,在步骤5806处,处理器5603可以对与个体5701的语音相关联的音频信号执行各种形式的选择性调节。在一些实施例中,处理第一音频信号可以包括相对于多个音频信号中的至少一个第二音频信号放大第一音频信号或去除第一音频信号的背景噪声。例如,处理器5603可以相对于与声音5705和5706相关联的音频信号中的至少一个放大与个体5701的语音相关联的音频信号。放大可以通过各种手段来执行,诸如方向性麦克风的操作、改变与麦克风相关联的一个或多个参数、或数字化处理音频信号。处理器5603还可以去除与个体5701的语音相关联的音频信号的背景噪声。在一些实施例中,处理第一音频信号可以包括相对于第一音频信号衰减多个音频信号中的至少一个第二音频信号或滤除多个音频信号中的至少一个第二音频信号。例如,处理器5603可以选择性地衰减与声音5705和5706相关联的音频信号中的至少一个,或滤除与声音5705和5706相关联的音频信号中的至少一个。在一些实施例中,处理第一音频信号可以包括改变识别出的语音的速率或在识别出的语音的词语或句子之间引入一个或多个停顿。例如,处理器5603可以改变与个体5701的语音相关联的音频信号相关联的识别出的语音的速率,或
者在与个体5701的语音相关联的音频信号相关联的识别出的语音的词语或句子之间引入一个或多个停顿。在一些实施例中,处理第一音频信号可以包括改变与个体5701的语音相关联的音频信号的音调。在一些实施例中,处理第一音频信号可以包括转录第一音频信号。
632.方法5800可以包括使经选择性调节的第一音频信号传输到听觉接口设备的步骤5807,该听觉接口设备被配置为向用户的耳朵提供声音。例如,收发器5604可以将经调节的音频信号发送到听觉接口设备(诸如听觉接口设备1710),该听觉接口设备可以向用户100提供对应于与个体5701的语音相关联的音频信号的声音。在一些实施例中,听觉接口设备可以包括与听筒相关联的扬声器。例如,听觉接口设备可以至少部分地插入用户的耳朵中,用于向用户提供音频。听觉接口设备也可以在耳朵外部,诸如耳后听觉设备、一个或多个耳机、小型便携式扬声器等。在一些实施例中,听觉接口设备可以包括骨传导耳机1711(诸如上文讨论的骨传导耳机1711),其被配置为通过用户头骨的振动向用户提供音频信号。这样的设备可以与使用者的皮肤外部接触放置,或者可以通过外科手术植入并附接到使用者的骨骼上。
633.在一些实施例中,存储器5605可以包括存储由处理器5603执行以执行如上所述的方法5800的程序指令的非暂时性计算机可读存储介质。
634.上述描述是为了说明的目的而提出的。它不是穷尽性的,并且不限于所公开的精确形式或实施例。从所公开的实施例的说明书和实践的考虑来看,修改和适配对于本领域的技术人员将是显而易见的。另外,尽管所公开的实施例的方面被描述为存储在存储器中,但本领域技术人员将理解,这些方面也可以存储在其他类型的计算机可读介质(诸如辅助存储设备)上,例如硬盘或cd rom,或其他形式的ram或rom、usb介质、dvd、蓝光、超高清蓝光或其他光驱介质。
635.基于书面描述和公开的方法的计算机程序在有经验的开发人员的技能范围内。各种程序或程序模块可以使用本领域技术人员已知的任何技术来创建,或者可以结合现有软件来设计。例如,程序部分或程序模块可以用.net framework、.net compact framework(以及相关语言,如visual basic、c等)、java、c++、objective-c、html、html/ajax组合、xml或html及其附带的java小程序来设计。
636.此外,虽然本文已经描述了说明性实施例,但是本领域技术人员基于本公开将理解具有等效元素、修改、省略、组合(例如,跨各种实施例的方面)、自适应和/或改变的任何和所有实施例的范围。权利要求中的限制应基于权利要求中使用的语言广义地解释,而不限于本说明书中描述的示例或在应用程序的执行过程中描述的示例。这些示例将被解释为非排他性的。此外,可以以任何方式修改所公开的方法的步骤,包括通过重新排序步骤和/或插入或删除步骤。因此,本说明书和实例仅被认为是说明性的,其真正的范围和精神由下面的权利要求及其等同物的全部范围来指示。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1