语音测听评分的制作方法

文档序号:30710810发布日期:2022-07-10 10:18阅读:175来源:国知局
语音测听评分的制作方法
语音测听评分
1.本技术作为pct国际专利申请提交于2020年11月18日,并且要求2019年11月21日提交的美国专利临时申请序列号62/938,572的优先权和权益,所述临时申请的全部公开内容以全文引用的方式并入。


背景技术:

2.测听涉及对人的听力的测量。测听测试可以包括测量用户对声音的反应。例如,用户可以在隔声室中收听短词,并口头复述用户所理解的内容。在无辅助测听测试中,测试用户的自然听力(例如,没有听觉设备的增强)。在辅助测听测试中,测试由听觉设备增强的用户听力。测试可以每次针对用户的一只或两只耳。测试的内容可以包括单音节词、双音节词、整个句子或采取其它形式。听力学家可以倾听响应并对其进行评分。


技术实现要素:

3.在示例中,存在一种存储指令的计算机可读介质,所述指令当由一个或多个处理器执行时,使所述一个或多个处理器:从测听测试的多个词中选择目标词;提供所发音的目标词的测试音频;通过用户界面获得作为文本数据的用户响应;将文本数据转换成用户响应语音表示;获得目标词的目标词语音表示;比较用户响应语音表示和目标词语音表示以获得比较数据;并且基于比较数据来确定用户的听力能力。
4.在另一个示例中,存在一种方法,该方法包括:向用户提供包括所发音的目标词的测试音频;从用户获得用户响应;将用户响应转换成用户响应语音表示;将目标词转换成目标词语音表示;比较用户响应语音表示和目标词语音表示以获得比较数据;并且基于比较数据来确定用户的听力能力。
5.在又一个示例中,存在一种系统,该系统包括:文本输入部件;声音输出部件;一个或多个处理器;和存储指令的存储器,所述指令当由所述一个或多个处理器执行时,使所述一个或多个处理器:通过声音输出部件提供包括所发音的目标词的测试音频;从文本输入部件获得文本数据;将文本数据转换成用户响应语音表示;获得目标词的目标词语音表示;比较用户响应语音表示和目标词语音表示以获得比较数据;并且基于比较数据来确定用户的听力能力。
附图说明
6.在所有附图中,相同的标号表示相同的元件或相同类型的元件。
7.图1示出了用于执行一个或多个测听测试的测听系统。
8.图2示出了用于进行测听测试的方法。
9.图3示出了基于对目标词的响应的最终得分的示例产生。
10.图4示出了基于对目标词的响应的最终得分的另一示例产生。
11.图5由图5a、图5b和图5c组成,示出了示例测听测试结果。
12.图5a示出了示例测听测试结果。
13.图5b示出了结果表的示例实施方式。
14.图5c示出了音素分析数据的示例实施方式。
15.图6示出了可因本文所公开的技术的使用而受益的示例耳蜗植入系统。
16.图7是可因本文所公开的技术的使用而受益的示例经皮骨传导设备的视图。
17.图8示出了可用其实施一个或多个所公开的示例的计算系统的示例。
具体实施方式
18.本技术涉及测听测试技术。对于一个或多个目标词的测听测试的每个目标词,测试系统可以向用户可听地提供目标词,并接收用户可听地感知到的内容的响应。响应可以包括字素(例如,用户感知到的内容的正字拼写)。然后使用例如语言的词典或发音规则将字素转换成音素以产生响应的一个或多个音素表示。随后可以在目标词与用户响应的语音表示之间进行比较(例如,使用levinshtein算法确定其间的距离)。在存在多个潜在语音表示的情况下,可以进行多个比较(例如,将每个用户响应表示与每个目标词表示进行比较),并且使用最佳匹配对。
19.一个或多个比较的结果可用于确定音素得分。可使用其它数据补充或替代音素得分。可以在测听测试的多个比较中发现错误模式。例如,某人可能倾向于产生特定类型的错误,例如听不清元音、摩擦音或爆破音。所得数据音素得分可以反映用户的听力能力,并且如果结果表明用户可能遭受听力损失,则可以作为一个或多个治疗措施的依据。例如,治疗措施可以包括向用户提供听力设备或修改用户的现有听力设备(例如,响应于元音错误而调整设备的低频增益或响应于摩擦音错误而调整高频增益)。其它治疗措施可以包括使用康复锻炼,例如具有用户听不清的声音的词语的播放列表。
20.作为具体示例,目标词可以是“dog”,并且用户的响应可以是“do”。然后将目标词转换成三个不同的语音发音:每个语音发音与该词的不同地方发音有关。随后将用户的响应(“do”)标音(例如,使用字素转音素系统)成三种可能的语音形式:和/do:/。可以比较所得的音素,其中最佳匹配介于目标词语音表示和用户响应语音表示之间。比较这两个表示可以得到67%的音素得分(例如,三个部分中有两个部分匹配)。
21.图1中示出了用于执行测听测试的示例测听系统。
22.测听系统
23.图1示出了用于为用户执行一个或多个测听测试的测听系统100。测听系统100包括被配置成执行测听的计算设备110。测听系统100还可以包括经由网络102连接到计算设备110的服务器170。测听系统100还可以包括临床医生计算设备180。在一些示例中,测听系统100的用户可以是听觉设备120的接受者。
24.网络102是计算机网络,例如互联网,其促进数据在连接到网络102的计算设备之间的电子通信。
25.计算设备110可以是具有计算机功能的设备。计算设备110可以是用户或用户的家长或护理人员拥有或主要使用的消费者计算设备,例如电话、平板电脑、膝上型计算机、台式计算机、消费者增强现实设备、消费者虚拟现实设备、智能手表或消费者心率监测器等设备。在其它示例中,计算设备110可以是由组织例如学校、诊所或测听服务机构拥有或使用
的设备。如图所示,计算设备110可以包括文本输入部件112、声音输出部件114和测听应用程序116。在用户具有听觉设备120的情况下,计算设备110可以包括听觉设备应用程序118。计算设备110可以包括相对于图8的计算系统800描述的一个或多个部件或功能。
26.文本输入部件112可以是计算设备110可通过其接收来自用户的文本数据的部件,例如被配置成接收触摸输入的触摸屏(例如,计算设备110可以将触摸输入转换成文本数据)。在文本输入部件112包括触摸屏的情况下,文本输入部件112可显示虚拟键盘,并将虚拟键盘按键处的轻击或轻扫触摸输入转换成文本数据。在另一个示例中,文本输入部件112是被配置成接收按钮输入并将按钮输入转换成文本数据的一个或多个按钮(例如,键盘的按键)。在另一个示例中,文本输入部件112是由计算设备110提供的语音转文本系统的部件(例如,麦克风)。计算设备110可以被配置成使得在计算设备110上运行的应用程序可以经由文本输入部件112接收文本输入。
27.声音输出部件114可以是计算设备110可通过其提供声音输出的部件,例如一个或多个扬声器。声音输出部件114可以是与另一个设备协作以提供声音输出的部件。例如,声音输出部件114可以是计算设备110的音频输出端口或无线发射器(例如,蓝牙部件),其被配置成连接到提供音频输出的另一个设备(例如,扬声器、耳机或听觉设备120的部件)。计算设备110可以被配置成使得在计算设备110上运行的应用程序可以经由声音输出部件114提供音频输出。
28.测听应用程序116可以是在计算设备110上操作并且引起本文所述的测听操作的执行的软件。在许多示例中,测听应用程序116提供音频输出,接收用户响应,分析响应,并提供用户听力能力的指示。图2中描述了由测听应用程序执行的示例操作。在一些示例中,指令可以作为可下载的包的一部分获得,例如可从软件分发平台下载。在一些示例中,测听应用程序116是通过其访问服务器170以提供测听功能的浏览器(例如,测听测试web应用程序可以由服务器170提供并且由计算设备110的浏览器访问)。
29.听觉设备应用程序118可以是在计算设备110上操作并且与听觉设备120协作的软件。听觉设备应用程序118可以作为计算机可执行指令存储在计算设备110的存储器中,所述计算机可执行指令当被执行时,执行与听觉设备应用程序118有关的一个或多个任务。例如,听觉设备应用程序118可以控制听觉设备120(例如,通过自动地或基于在计算设备110处从接受者接收到的输入来修改听觉设备设置122),监控听觉设备120的使用,并从听觉设备120获得数据。计算设备110可以经由例如无线射频通信协议(例如,蓝牙或wi-fi)连接到听觉设备120。听觉设备应用程序118可以通过这种连接从听觉设备120传输或接收数据。听觉设备应用程序118可用于将音频例如从计算设备110的麦克风或在计算设备110上运行的应用程序(例如,测听应用程序116)流式传输到听觉设备120。
30.听觉设备120可以是与用户的听觉有关的装置。听觉设备120可以采取各种形式,包括耳蜗植入物、电声设备、经皮骨传导设备、无源经皮骨传导设备、有源经皮骨传导设备、中耳设备、完全可植入的听觉设备、耳鸣管理设备、大部分可植入的听觉设备、听觉脑干植入设备、助听器、牙锚式听力设备、个人声音放大产品、其他听觉假体以及上述设备的组合(例如,双耳系统,其包括用于接受者的第一只耳的假体和用于第二只耳的相同或不同类型的假体)。听觉设备120的具体示例实施方式在图6(示出耳蜗植入物)和图7(示出经皮骨传导设备)中更详细地描述。本文所公开的技术可以与感官设备例如消费者听觉设备(例如,
助听器或个人声音放大产品)一起使用。此外,听力正常的人或有听力损失的人可以在听力测试期间使用听觉设备120,例如耳机或标准听力计。如图所示,听觉设备120可以包括声音输出部件114。听觉设备120可以根据一个或多个听觉设备设置122操作。
31.听觉设备设置122可以是具有影响听觉设备120如何操作的值的一个或多个参数。例如,听觉设备120可以从环境接收音频输入(例如,使用麦克风),将音频输入转换成刺激信号,并且使用刺激信号产生刺激(例如,振动或电刺激)以在用户中引起听觉感知。听觉设备设置122可以包括具有用于刺激通道的最小刺激水平和最大刺激水平的映射。然后听觉设备120可以使用该映射控制所提供的刺激量。在听觉设备120是耳蜗植入物的情况下,该映射可基于所接收的音频输入来影响耳蜗植入物的哪些电极用于刺激以及量多大。在一些示例中,听觉设备设置122包括可由接受者选择的两个或更多预定义的设置分组。听觉设备设置122还可以包括在感官输入转换成刺激信号之前修改感官输入的设置。此类设置可以包括例如特定音频均衡器设置可以提高或降低各种频率下的音频强度。在示例中,听觉设备设置122可以包括所接收的音频输入引起刺激的最小阈值、用于防止会引起不适的水平以上的刺激的最大阈值、增益参数、强度参数(例如,响度)和压缩参数。听觉设备设置122可以包括影响听觉设备120产生的刺激的动态范围的设置。如上所述,许多听觉设备设置122影响听觉设备120的物理操作,例如听觉设备120如何响应于从环境接收到的音频输入而向用户提供刺激。因此,修改听觉设备设置122可以修改由听觉设备120提供的治疗。用于听觉假体的设置、设置修改和预处理的示例在美国专利号9,473,852和9,338,567中描述,这些专利都以引用的方式并入本文以用于任何和所有目的。
32.服务器170可以是远离计算设备110的服务器计算设备。服务器170可以包括处理单元和存储器,它们在图8中更详细描述。服务器170还可以包括指令,所述指令可执行以执行本文所述操作中的一个或多个操作。服务器170可以经由网络102通信地耦合到计算设备110。服务器170可以通过计算设备110(例如,经由听觉设备应用程序118)间接通信地耦合到听觉设备120。在某些示例中,计算设备110可以被视为服务器170的客户端设备。在一些示例中,由服务器170或其部件提供的功能可以由接受者本地的设备(例如,计算设备110或听觉设备120)提供或位于该设备上。听觉设备应用程序118和测听应用程序116中的一者或两者可以是被配置成与服务器170交互的客户端应用程序。例如,如图所示,服务器170可以包括测听数据172,例如可用于提供测听测试的测听测试数据。测试数据可以指定要运行的测试种类,以及用于这些测试的数据。例如,测试数据可以包括说出的目标词的音频文件。然后音频文件可以被流式传输到计算设备110,或作为下载内容提供给计算设备110。在一些示例中,测听数据172包括测听测试的结果,例如以供临床医生经由临床医生计算设备审核。在示例中,测听测试处理可在服务器处执行。例如,本文描述为由测听应用程序116在计算设备110上执行的一个或多个操作可以至少部分地在服务器170上执行。
33.临床医生计算设备180可以是临床医生使用的计算设备。临床医生可以是医疗专业人士,例如听力学家。在示例中,临床医生是向用户提供护理或监督的医疗专业人士。临床医生计算设备180包括可用于监控测听测试的一个或多个软件程序。例如,响应于为用户执行的测听测试,可以经由临床医生计算设备180将测试的结果提供给临床医生,以进行分析或决定如何进行。在一些示例中,临床医生可以使用临床医生计算设备180来远程连接到计算设备110以实施测听测试。
34.方法
35.图2示出了用于进行测听测试202的示例方法200。在一些示例中,可以作为一个或多个处理器执行一个或多个指令的结果而执行方法200。例如,所述指令可以是存储在非暂时性计算机可读介质例如计算设备110之一上的测听应用程序指令。
36.测听测试202可以是用户听力的测试。测听测试202可以采取各种形式中的任一种。测听测试202可以包括要可听地提供给用户的目标词204的列表。每个目标词204可以是要提供给用户并且用户对其提供响应(在许多示例中,提供用户将目标词理解为什么的指示)的特定提示。例如,目标词204可以是辅音-元音-辅音(cvc)词、ccvc词、cvcc词或采取另一种形式。cvc词不一定只是三个字母的词。相反,它可以是具有辅音、接着是元音、然后是另一个辅音的词。虽然本文在“词”的上下文中提及,但在某些示例中,目标词204可以是短语(具有多个词)或词的部分。
37.测听测试202可以以适当格式例如标记语言(例如,xml)指定目标词204的列表。在一些实施方式中,不需要预定义的目标词204的列表。在一些示例中,任意地选择目标词204的列表的内容。在其它示例中,列表或列表的内容可出于特定原因而选择,例如测试用户难以感知或被认为难以感知的特定种类的词或声音。在另外的示例中,听力学家选择测听测试202(例如,远离临床医生计算设备180)。可从测听测试202的多个目标词中选择目标词204。测听测试202可以存储在各种位置,例如通过存储在计算设备110本地或服务器170处。在示例中,测听测试202从服务器170下载到计算设备110。
38.在示例中,测听测试202可以指定其它数据。例如,测听测试202可以在提供目标词204时指定要添加的一个或多个复杂因素。例如,测听测试可以将特定复杂因素添加到与特定条件(例如,白噪声、布朗噪声、发生的一个或多个对话的声音、回声、混响、失真或其它效应)有关的测试音频。测听测试202可以进一步指定如何提供目标词204,例如采用特定音量。此外,可以存在含有目标词204(例如,具有不同的口音、发音或嗓音特性)的多个不同音频文件,并且测听测试202可以识别要用于目标词204的特定音频文件。在另一个示例中,目标词204可以由文本转语音系统提供,并且测听测试202可以指定要使用哪个文本转语音系统或在生成语音时要使用的参数(例如,嗓音特性)。
39.在一些示例中,方法200可以从操作206开始。
40.操作206包括从测听测试202中选择目标词204。选择目标词204可以包括选择测听测试202的第一目标词204或测听测试202的下一个目标词204。该选择可以按定义的顺序(例如,在列表中依序)或者可以任意地选择(例如,随机或伪随机地选择词直到词总数已用作测听测试202的一部分)。该选择可以包括选择与目标词204相关联的标识符、与目标词204相关联的音频文件或目标词204的文本。在操作206之后,方法200可以移动到操作210。
41.操作210包括提供测试音频212。测试音频212可以包括所发音的目标词204。提供测试音频212可以包括引起声音基于测试音频来产生。可以使用声音输出部件114提供测试音频212。例如,提供测试音频212可以包括使用扬声器、耳麦或听觉设备120提供测试音频212以可听地产生测试音频212。操作210可以包括例如使用目标词204的标识符获得测试音频212。例如,目标词204的标识符可以用来访问存储测试音频212的文件或从服务器170(例如,从存储在其上的测听数据172)流式传输测试音频。在一些示例中,提供测试音频212包括生成测试音频212。例如,计算设备110可以包括文本转语音功能(例如,使用ios的
avspeechutterance类别或android的texttospeech api)或提供文本转语音功能的远程计算设备。测听应用程序116可以将目标词204的文本提供给文本转语音系统以引起产生含有目标词204的音频输出。在还其它示例中,某人可以提供测试音频212,例如通过用目标词204提示。在一些示例中,可以处理测试音频212(例如,以添加噪声或失真)。在操作210之后,方法200的流程可以移动到操作220。
42.操作220包括从用户获得用户响应222。可以通过用户界面获得用户响应222。用户响应222可以包括文本数据224或音频数据226。用户响应222可以是用户对测试音频212的响应。在一些示例中,在提供测试音频212之前、期间或之后,测听应用程序116可以提示用户提供描述用户从测试音频212感知或理解到的内容的用户响应222。获得用户响应222可以包括提供用户界面,可通过该用户界面接收用户响应222。例如,用户界面可以包括文本输入部件112,诸如图1中所述。操作220可以包括使文本输入部件112可用于接收用户响应222的文本数据224。操作220可以包括使音频输入部件(例如,麦克风)可用于接收用户响应222的音频数据226。在一些示例中,获得用户响应222可以包括检查用户响应222。该检查可以包括例如确定用户响应222是否包括有效词。如果用户响应222包括无效词(例如,不包含在用户语言词典中的词),则计算设备110可以向用户通知该词无效(例如,指示该词可能拼错)。在其它示例中,可以允许提供无效词作为输入。在操作220之后,方法200的流程可以移动到操作230。
43.操作230包括将用户响应222转换成用户响应语音表示232。例如,在用户响应222包括文本数据224的情况下,此操作230可以包括对文本数据224执行字素-音素转换以生成用户响应语音表示232。用户响应语音表示232是语音形式的用户响应222的表示。例如,用户响应语音表示232可以使用arpabet或ipa语音系统表示用户响应222。arpabet包括表示具有不同序列的ascii字符的通用美式英语的音素和音位变体的语音标音码。ipa是主要基于拉丁字母的语音注音的字母系统。可以使用其它表示或表示的组合。
44.在示例中,可使用一个或多个词典产生该转换。例如,可以基于文本数据224来搜索一个或多个词典以获得一个或多个用户响应语音表示232。所述一个或多个词典可以包括例如标准语言特定的语料词典(例如,cmu语音词典,其是美式英语arpabet词典)或扩展词典,可以(例如,由听力学家)调整该扩展词典以延长或否决该对话(例如,以纠正方言特定的发音)。在示例中,数据结构(例如,散列表、数据库或词典数据结构)可以允许对文本输入执行查找以产生一个或多个语音表示作为输出。作为使用一个或多个词典的补充或替代,可以使用一个或多个规则执行该转换。所述规则可以是将文本数据224转换成语音标音的符号替换规则。例如,所述规则可以以特定语言反映如何将书面形式转换成口头形式的标准规则。在一些示例中,可以首先使用所述一个或多个词典尝试该转换,然后如果所述一个或多个词典中找不到一个或多个匹配,则可以使用所述规则尝试该转换。
45.在用户响应222包括音频数据226的情况下,将用户响应222转换成用户响应语音表示232可以包括将音频数据226标音成一个或多个音素以生成用户响应语音表示232。例如,可以使用语音转音素算法。在其它示例中,可以将音频数据226标音成文本数据(例如,使用语音转文本过程),然后使用上述技术将文本数据转换成音素。
46.在操作230之后,方法200的流程可以移动到操作240。
47.操作240包括获得目标词204的目标词语音表示242。目标词语音表示242可以以各
种方式中的任一种获得。例如,目标词语音表示242可以预先生成并且与作为测听测试202的一部分的目标词204相关联地存储。在此类示例中,可以通过查找目标词204的所存储的语音表示来获得目标词语音表示242。在其它示例中,经由获得用户响应语音表示232的类似过程生成目标词204。例如,目标词204的文本形式可以用于使用词典或基于规则的方法获得目标词语音表示242。在操作240之后,方法200的流程可以移动到操作250。
48.操作250包括比较用户响应语音表示232和目标词语音表示242以获得比较数据252。在一些示例中,比较数据252包括得分,并且操作250可以包括基于用户响应语音表示232与目标词语音表示242之间的差异来确定得分。在一些示例中,可以确定初始得分254,然后修改该初始得分以达到最终得分256。在存在多个用户响应语音表示232和/或目标词语音表示242的情况下,可以在这些表示的不同对之间计算多个不同得分,并且可以选择最高得分作为得分。
49.在示例中,初始得分254可以基于语音表示232、242的特定部分是否匹配。例如,在目标词是辅音-元音-辅音(cvc)词的情况下,可以将初始得分分成具有形式[c1,v,c2]的三个分量,其中c1,v,c2∈{0,1}并且其中值1表示匹配且值0表示不存在匹配。可以使用其它种类的配置,并且不必限于三部分形式或cvc形式。
[0050]
在目标词语音表示242是(“dog”)并且用户响应语音表示是)并且用户响应语音表示是(“dig”)的情况下,则初始得分254可以是[1,0,1],这反映了表示目标词204的辅音的语音部分匹配并且对应于元音的语音部分不匹配。在示例中,插入和替换另外的音素会使正确的音素无效。作为具体示例,目标词语音表示242是(“sap”)并且用户响应语音表示232是(“snap”)。由于目标词语音表示242的辅音和元音在用户响应语音表示232中,所以初始得分254可以是[1,1,1],但是由于将额外音素“n”添加到了第一辅音部分,因此可以修改初始得分254以将第一辅音部分设定为不正确。此变化可以使得最终得分256为[0,1,1]。
[0051]
在一些示例中,比较数据252包括基于[c1,v,c2]表示的得分,诸如按如下计算的得分s:s=c1+v+c2或测听测试202的总得分可以是基于与每个目标词204相关联的比较数据252的一些或所有单独得分的组合的总和、平均值或另一计算结果。
[0052]
在一些示例中,可以基于用户响应语音表示232与目标词语音表示242之间的距离来生成得分或其它比较数据252。该差异可以基于各种技术中的任一种来确定,例如levenshtein距离、hamming距离、damerau

levenshtein距离或另一距离技术。例如,在使用levenshtein距离的情况下,得分或其它比较数据可以是两个表示232、242匹配所需的删除、插入和替换的最小数目。在一些示例中,添加了最小成本计算,其利用音素是元音或辅音的知识来确定最可能的编辑操作。在存在多个标音(例如,目标词204或用户响应222的多个不同可能的语音表示)的情况下,可以比较所有标音并且可以使用最佳匹配(例如,最高得分)。在一些实例中,得分或比较数据252可以跟踪或基于辅音和元音的使用变化,例如通过使用以下编辑指示符:
[0053]
编辑类型缩写正确辅音cc
正确元音cv删除d插入辅音ic插入元音iv由相同音素类型替换s从元音替换为辅音svc从辅音替换为元音scv
[0054]
正确辅音编辑类型可以指示用户响应语音表示232与目标词语音表示242的辅音部分(例如“s”与“s”)之间的语音匹配。正确元音编辑类型可以指示用户响应语音表示232与目标词语音表示242的元音部分(例如“ɑ”与“ɑ”)之间的语音匹配。删除编辑类型可以指示用户响应语音表示232完全缺少目标词语音表示的成分(例如辅音或元音)。例如,在目标词204是“dog”的情况下,(“do”)的用户响应语音表示232可以表示(“dog”)的目标词语音表示242的第二辅音部分(“ɡ”)的删除。插入辅音编辑类型可以指示用户响应语音表示232添加不存在于目标词204中的辅音部分。例如,在目标词204是“do”的情况下,(“dog”)的用户响应语音表示232表示与目标词语音表示242相比添加第二辅音部分(“ɡ”)。插入元音编辑类型可以指示用户响应语音表示232添加不存在于目标词204中的元音部分。例如,在目标词语音表示242是[d,
ɑ
,t](“dot”)并且用户响应语音表示232是(“data”)的情况下,音素的添加可以被视为插入元音编辑。由相同音素类型替换编辑类型可以指示用户响应语音表示232将一个音素换为相同类型的另一个音素。例如,在上述点数据示例中,用户响应语音表示232中存在而不是“ɑ”可以表示相同音素类型的替换。从元音替换为辅音编辑类型可以指示在目标词语音表示242包括元音的地方用户响应语音表示232包括辅音。例如,在目标词语音表示242是(“ate”)并且用户响应语音表示是(“kit”)的情况下,用“k”替换“e”可以表示从元音替换为辅音。从辅音替换为元音编辑类型可以指示在目标词语音表示242包括辅音的地方用户响应语音表示232包括元音。例如,在目标词语音表示242是(“kit”)并且用户响应语音表示是(“ate”)的情况下,用“e”替换“k”可以表示从辅音替换为元音。
[0055]
图3和图4中示出了从操作250得到的比较数据252的示例。图3示出了基于对目标词204的用户响应222的最终得分256和其它比较数据252的示例产生。在该示例中,目标词204是“tam”,其具有[t,
ɑ
,m]的目标词语音表示242。将目标词204提供给用户,并且接收到“term”的用户响应222,其具有[t,ε,r,m]的用户响应语音表示232。该比较揭示了正确辅音(“t”)、相同音素类型替换(用元音“ε”替换“ɑ”)、插入辅音(“r”)和正确辅音(“m”)。该比较得到[1,0,1]的初始得分254,因为第一个辅音和最后一个辅音匹配并且元音不匹配。进一步处理得到[1,0,0]的最终得分,因为最后一个辅音不正确,原因是除了正确“m”之外还插入了“r”。图4示出了基于对目标词204的用户响应222的最终得分256和其它比较数据252的另一示例产生。在该示例中,目标词204是“hen”,其具有[h,ε,n]的目标词语音表示242。将目标词204提供给用户,并且接收到“end”的用户响应222,其具有[ε,n,d]的用户响应语音表示232。该比较揭示了删除辅音(“h”)、正确元音(“ε”)、正确辅音(“n”)和插入辅音(“d”)。
该比较得到[0,1,1]的初始得分254,因为元音和最后一个辅音匹配。进一步处理得到[0,1,0]的最终得分256,因为最后一个辅音不正确,原因是除了正确辅音之外还插入了不正确辅音(“d”)作为最终辅音的一部分。
[0056]
返回图2,如上文可见,各种技术中的任一种可用于比较用户响应语音表示232和目标词语音表示242以生成比较数据252,并且比较数据252可以包括各种数据中的任一种。在操作250之后,方法200的流程可以移动到操作260。在一些示例中,如果测听测试202中存在附加目标词204,则方法200的流程可返回到操作206以选择下一个目标词204。如果没有要提供的附加目标词204,则该方法的流程可以移动到操作260。
[0057]
操作260包括基于比较数据252来确定用户的听力能力262。用户的听力能力262可以采取各种形式中的任一种。在一些实例中,用户的听力能力262可以是定性得分,例如在比较数据252中确定的一个或多个得分的总和或平均值。另外或替代地,所确定的听力能力262可以包括用户难以听到或理解的特定声音、频率、音素、音节、语音部分或其它方面的识别。另外或替代地,听力能力262可以涉及使用特定耳朵或在特定条件下倾听的能力。例如,测听测试可以将特定复杂因素添加到与特定条件(例如,白噪声、布朗噪声、发生的一个或多个对话的声音、回声、混响、失真或其它效应)有关的测试音频,并且听力能力262还可以包括与用户听起来更佳或更差的条件有关的数据。
[0058]
在一些示例中,用户听力能力262的确定进一步基于用户对测试音频212作出响应所用的时间量。例如,方法200可以包括确定测试音频212结束与开始接收用户响应222之间的时间量。时间量可以是用户感知测试音频212的容易度或困难度的指示。
[0059]
在操作260之后,方法200的流程可以移动到操作270。
[0060]
操作270包括基于听力能力262来执行治疗措施272。例如,治疗措施可以包括向用户提供听力设备或修改用户的现有听力设备(例如,响应于元音错误而调整设备的低频增益或响应于摩擦音错误而调整高频增益)。在一些示例中,治疗措施272包括将用户诊断为患有特定听力病症。
[0061]
在示例中,治疗措施272是涉及与接受者的听觉系统相关联的医学病症的治疗的措施。可以确定或推荐各种治疗措施272。在示例中,治疗措施272包括例如向临床医生(例如,帮助引导治疗)或护理者(例如,帮助向护理者保证用户的听觉设备按预期工作)报告用户的听力的性能质量。在示例中,治疗措施272包括提供估计接受者感知特定声音的能力的度量。在示例中,治疗措施272包括推荐纠正措施。
[0062]
在示例中,治疗措施272包括推荐纠正措施(例如,重新配置、重新编程或修改治疗,例如通过从单侧假体发展到双侧假体)。在一些示例中,治疗措施272可以包括用户的听觉设备120的一个或多个听觉设备设置122的推荐或修改。修改听觉设备设置122可以引起由听觉设备120提供的正在进行的治疗的修改。基于测听测试结果500,可以确定听觉设备设置122次优地引起接受者中相对于特定听觉输入(例如,特定音素或声音)的听觉感知,并且听觉设备设置122的一个或多个改变可能能够改善听觉设备120的性能。基于该确定,可将与所述一个或多个改变有关的信息提供给接受者、护理者或临床医生(例如,通过向临床医生计算设备180的报告)。在一些示例中,所述一个或多个改变自动地由听觉设备120自身采用。然后更改听觉设备设置122,从而修改听觉设备120的正在进行的操作。在一些示例中,更改场景特定的听觉设备设置122。例如,更改与语音模式(例如,如由听觉设备120的场
景分类器确定)相关联的听觉设备设置122,但在其他模式(例如,音乐或风模式)下不更改听觉设备设置。
[0063]
治疗措施242可以包括使用听力能力262或测听测试结果500作为听力康复训练计划的输入。听力康复计划可以采取各种形式中的任一种。例如,听力康复计划可以包括使用康复锻炼,例如具有用户听不清的声音的词语的播放列表。作为特定示例,测听应用程序116可以(自动地或基于临床医生反馈)向用户提供要执行的特定锻炼,例如收听从特定音素(例如,听力测试指示接受者难以理解的特定音素)开始的词语的列表。
[0064]
示例测听测试结果
[0065]
图5由图5a、图5b和图5c组成,示出了测听测试202(例如,使用方法200进行)的示例测听测试结果500。如图5a所示,测听测试结果500可以包括结果表501、音素分析590和所推荐的一个或多个治疗措施272。测听测试结果500可以例如作为如上所述操作250和/或260的一部分来生成。
[0066]
图5b示出了结果表501的示例实施方式。结果表501可以是在提供测听测试202之后产生的数据表。可以将结果表501提供给临床医生或分析程序以确定接受者的听力能力。结果表501包括十个条目502,每个条目对应于不同的词响应周期。结果表501还包括若干字段,包括文件字段510、目标词字段520、用户响应字段530、目标词音素字段540、用户响应音素字段550、音素得分字段560、词得分字段570和响应时间字段580。文件字段510是描述哪个文件(例如,音频文件)用于产生含有目标词204的音频的字段。目标词字段520描述目标词204的文本。用户响应字段530以文本形式描述用户响应222。目标词音素字段540是描述目标词语音表示242的字段。用户响应音素字段550是描述用户响应语音表示532的字段。如图所示,多于一个不同的音素表示可以与音素字段540、550相关联地存储。音素得分字段560是描述音素得分的字段。在所示的示例中,音素得分呈上述三部分cvc形式:[c1,v,c2],其中c1,v,c2∈{0,1}。其它配置也是可能的。词得分字段570描述词得分。在所示的示例中,词得分是音素得分字段560中的匹配的计数。响应时间字段580是描述提供目标词204与用户开始提供用户响应之间的时间量的字段。在所示的示例中,响应时间字段580以毫秒形式描述数据。
[0067]
图5c示出了音素分析数据590的示例实施方式。在所示的示例中,音素分析数据590包括音素结果数据592和得分数据594。
[0068]
音素结果数据592可以包括与测听测试202有关的音素特定的数据。音素结果数据592可以以各种方式中的任一种表达。在所示的示例中,音素结果数据592被实现为表格,该表格显示对于测试期间呈现的每个音素,用户响应相对于特定音素的正确或不正确程度。此类数据可用于例如帮助识别用户难以听到的特定声音。某些音素可倾向于以比其他音素更高或更低的频率产生。例如,与词“hope”中发音的音素“ow”相比,词“bean”中发音的音素“iy”为相对较高的频率。与音素“iy”有关的不正确答案的高发生率可以指示用户难以听到高频声音。而与和低频声音相关联的音素有关的不正确答案的高发生率可以指示用户难以听到低频声音。
[0069]
得分数据594可以包括与用户在测听测试202中的得分有关的数据。例如,如图所示,得分数据594可以包括[c1,v,c2]形式的cvc词的部分的正确答案总数形式的总音素得分。另外或替代地,得分数据594可以包括总词得分(例如,正确成分的总数)或正确答案百
分比。另外或替代地,可以使用其它数据。
[0070]
听觉设备
[0071]
本文所述的测听测试可以与各种用户中的任一用户一起使用,包括作为一个或多个听觉设备120的接受者的用户。听觉设备120可以包括与接受者的听觉有关的设备。听觉设备120可以采取各种形式,包括耳蜗植入物、电声设备、经皮骨传导设备、无源经皮骨传导设备、有源经皮骨传导设备、中耳设备、完全可植入的听觉设备、大部分可植入的听觉设备、听觉脑干植入设备、助听器、牙锚式听力设备、个人声音放大产品、其他听觉假体以及上述设备的组合(例如,双耳系统,其包括用于接受者的第一只耳的假体和用于第二只耳的相同或不同类型的假体)。
[0072]
本文所述的测听测试可以用于确定用户的听觉设备120的工作状况,以及听觉设备设置122的一个或多个改变是否可能有益。
[0073]
听觉设备的示例实施方式在图6(示出耳蜗植入物)和图7(示出经皮骨传导设备)中更详细地描述。
[0074]
听觉设备—耳蜗植入系统
[0075]
图6示出了可因本文所公开的技术的使用而受益的示例耳蜗植入系统610。耳蜗植入系统610包括可植入部件644,该可植入部件通常具有内部接收器/收发器单元632、刺激器单元620和细长引线618。内部接收器/收发器单元632允许耳蜗植入系统610从外部设备650接收信号和/或将信号传输到该外部设备。外部设备650可以是穿戴在头部上的按钮声音处理器,其包括接收器/收发器线圈630和声音处理部件。替代地,外部设备650可以只是与包括声音处理部件和麦克风的耳后设备通信的发射器/收发器线圈。
[0076]
可植入部件644包括内部线圈636以及优选地相对于内部线圈636固定的磁体(未示出)。磁体可以与内部线圈636一起嵌入在柔韧硅胶或其它生物相容性密封剂中。发送的信号通常对应于外部声音613。内部接收器/收发器单元632和刺激器单元620被气密密封在生物相容性壳体内,它们有时统称为刺激器/接收器单元。所包括的磁体(未示出)可以促进外部线圈630和内部线圈636的操作对准,使得内部线圈636能够从外部线圈630接收电力和刺激数据。外部线圈630包含在外部部分内。细长引线618具有连接到刺激器单元620的近端和植入接受者的耳蜗640中的远端646。细长引线618从刺激器单元620穿过接受者的乳突骨619延伸到耳蜗640。细长引线618用于基于刺激数据来将电刺激提供给耳蜗640。可以使用声音处理部件并基于听觉设备设置122来在外部声音613的基础上创建刺激数据。
[0077]
在某些示例中,外部线圈630经由射频(rf)链路将电信号(即,电力和刺激数据)传输到内部线圈636。内部线圈636通常是具有电绝缘单股或多股铂丝或金丝的多个匝的线天线线圈。内部线圈636的电绝缘可以由柔性硅胶模制件提供。各种类型的能量传递,例如红外(ir)、电磁、电容和电感传递,可用于将电力和/或数据从外部设备传递到耳蜗植入物。虽然以上描述已经描述了内部线圈和外部线圈由绝缘线形成,但在很多情况下,内部线圈和/或外部线圈可以经由导电迹线来实现。
[0078]
听觉设备—经皮骨传导设备
[0079]
图7是可因本文所公开的技术的使用而受益的示例经皮骨传导设备700的视图。例如,可以使用所公开的技术的一个或多个方面来定制设备700的感官假体设置146。骨传导设备700定位在该设备的接受者的外耳701后方。骨传导设备700包括用于接收声音信号707
的声音输入元件726。声音输入元件726可以是麦克风、拾音线圈或类似元件。在本示例中,声音输入元件726可以位于例如骨传导设备700之上或之中,或位于从骨传导设备700延伸的电缆之上。另外,骨传导设备700包括声音处理器(未示出)、振动电磁致动器和/或各种其它操作部件。
[0080]
更具体地,声音输入元件726将接收到的声音信号转换成电信号。这些电信号由声音处理器处理。声音处理器生成使致动器振动的控制信号。换句话说,致动器将电信号转换成机械力以向接受者的颅骨736施加振动。电信号转换成机械力可以基于感官假体设置146,使得不同的感官假体设置146可使得由相同声音信号707生成不同机械力。
[0081]
骨传导设备700还包括用于将骨传导设备700附接到接受者的耦合装置740。在所示的示例中,耦合装置740附接到植入接受者体内的锚固系统(未示出)。示例性锚固系统(也称为固定系统)可以包括固定到颅骨736的经皮基台。基台从颅骨736延伸穿过肌肉734、脂肪728和皮肤732,使得耦合装置740可以附接到其上。这种经皮基台为耦合装置740提供了促进机械力的有效传递的附接位置。
[0082]
示例计算系统
[0083]
图8示出了可用其实施一个或多个所公开的示例的合适计算系统800的示例。可适合与本文所述的示例一起使用的计算系统、环境或配置包括但不限于个人计算机、服务器计算机、手持式设备、膝上型设备、多处理器系统、基于微处理器的系统、可编程消费电子产品(例如,智能手机)、网络pc、小型计算机、大型计算机、平板电脑、包括任何上述系统或设备的分布式计算环境,等等。计算系统800可以是在联网环境中通过至一个或多个远程设备的通信链路操作的单个虚拟或物理设备。远程设备可以是听觉设备(例如,听觉设备120)、计算设备110、个人计算机、服务器、路由器、网络个人计算机、对等设备或其它公共网络节点。在示例中,计算设备110和服务器170包括计算系统800的一个或多个部件或部件的变型。此外,在一些示例中,听觉设备120包括计算系统800的一个或多个部件。
[0084]
在基本配置中,计算系统800包括一个或多个处理器802和存储器804。
[0085]
所述一个或多个处理器802可以包括可获得并执行指令的一个或多个硬件或软件处理器(例如,中央处理单元或微处理器)。所述一个或多个处理器802可以与计算系统800的其它部件通信并控制所述其它部件的性能。
[0086]
存储器804可以包括一个或多个基于软件或硬件的计算机可读存储介质,其可操作以存储可由所述一个或多个处理器802访问的信息。除了别的以外,存储器804可以存储指令以及其它数据,所述指令可由所述一个或多个处理器802执行以实施应用程序或使得执行本文所述的操作。存储器804可以是易失性存储器(例如,ram)、非易失性存储器(例如,rom)或它们的组合。存储器804可以包括暂时性存储器或非暂时性存储器。存储器804还可以包括一个或多个可移除或不可移除的存储设备。在示例中,存储器804可以包括ram、rom、eeprom(电可擦可编程只读存储器)、闪存存储器、光盘存储装置、磁存储装置、固态存储装置或可用于存储信息以供稍后访问的任何其它存储器介质。在示例中,存储器804涵盖调制数据信号(例如,其一个或多个特性以诸如在信号中编码信息的方式进行设定或改变的信号),例如载波或其它传送机构,并且包括任何信息传递介质。作为示例而非限制,存储器804可以包括有线介质,例如有线网络或直接布线连接,以及无线介质,例如声学、rf、红外和其它无线介质或它们的组合。
[0087]
在所示的示例中,系统800还包括网络适配器806、一个或多个输入设备808和一个或多个输出设备810。系统800可以包括其它部件,例如系统总线、部件接口、图形系统、电源(例如,电池)以及其它部件。
[0088]
网络适配器806是提供网络访问的计算系统800的部件。网络适配器806可以提供有线或无线网络访问,并且可以支持各种通信技术和协议中的一种或多种,例如以太网、蜂窝、蓝牙、近场通信和rf(射频),等等。网络适配器806可以包括根据一种或多种无线通信技术和协议来配置用于无线通信的一个或多个天线和相关联的部件。
[0089]
所述一个或多个输入设备808是计算系统800通过其接收来自用户的输入的设备。所述一个或多个输入设备808可以包括物理上可致动的用户界面元件(例如,按钮、开关或拨号盘)、触摸屏、键盘、鼠标、笔和语音输入设备,以及其它输入设备。
[0090]
所述一个或多个输出设备810是计算系统800能够通过其向用户提供输出的设备。输出设备810可以包括显示器、扬声器和打印机,以及其它输出设备。
[0091]
***
[0092]
应当理解,虽然上文已说明和讨论本技术的特定用途,但所公开的技术可根据本技术的许多示例来与各种设备一起使用。上述讨论并非意在表示所公开的技术仅适合在类似于附图中所示的系统内实施。一般来说,可以使用额外配置来实践本文的过程和系统,和/或可以在不脱离本文所公开的过程和系统的情况下排除所描述的一些方面。
[0093]
本公开参考附图描述了本发明技术的一些方面,附图中仅示出了一些可能的方面。然而,其它方面可以以许多不同形式体现,并且不应被解释为限于本文阐述的方面。相反,提供这些方面是为了使本公开详尽且完整并且向本领域技术人员充分传达可能方面的范围。
[0094]
应当理解,本文相对于附图描述的各个方面(例如,部分、部件等)并不旨在将系统和过程限于所描述的特定方面。因此,可以使用额外配置来实践本文的方法和系统,和/或可以在不脱离本文所公开的方法和系统的情况下排除所描述的一些方面。
[0095]
类似地,在公开了方法的步骤的情况下,这些步骤是出于说明本发明方法和系统的目的而描述的,并不旨在将本公开限于特定步骤序列。例如,可以按不同的顺序执行这些步骤,可以同时执行两个或更多个步骤,可以执行另外的步骤,并且可以在不脱离本公开的情况下排除所公开的步骤。此外,可以重复所公开的过程。
[0096]
尽管本文描述了具体方面,但本技术的范围不限于那些具体方面。本领域技术人员将认识到在本发明技术范围内的其它方面或改进。因此,具体结构、动作或介质仅作为说明性方面来公开。本技术的范围由以下权利要求及其中的任何等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1