基于语音分析的自动生理和病理评定的制作方法

文档序号:35415436发布日期:2023-09-10 02:02阅读:48来源:国知局
基于语音分析的自动生理和病理评定

本发明涉及用于自动评定受试者的生理和/或病理状态的计算机实施的方法,特别地包括分析来自词语朗读测试的话音记录。本发明也描述了实施这些方法的计算装置。本发明的方法和装置应用于影响呼吸、嗓音音调、疲乏和/或认知能力的病理和生理状况的临床评定中。


背景技术:

1、对患有各种病症的患者进行远程监测有可能改善许多患者的医疗结果、质量和舒适度。因此,人们对开发患者可用来自己收集生物标志物数据(然后可由该患者的医疗团队对其进行评定)的装置和方法产生了很大兴趣。在慢性疾病或终身病症(诸如心脏病或哮喘)的情况下,远程监测的潜在好处是特别迫切的。基于非侵入性生物标志物的方法由于其较低的风险而特别可取。例如在心力衰竭(maor等人,2018年)、哮喘、慢性阻塞性肺疾病(copd)(saeed等人,2017年)以及最近的covid-19(laguarta等人,2020年)的评定中,已经建议使用嗓音分析来收集此类生物标志物信息。

2、然而,这些方法中的全部都存在一致性限制。实际上,这些方法中的许多都依赖于自发的语音或声音(诸如咳嗽),或者朗读一组标准段落(诸如彩虹段落)(murton等人,2017年)。自发语音或声音的使用在患者之间和同一患者的重复评定之间两者都存在高可变性,因为每个话音记录的内容可能差别很大。一组标准段落的使用控制了由于内容而导致的该固有可变性,但会受到与受试者在重复测试时习惯于标准文本相关联的神经心理学效应的干扰。这强烈地限制了话音分析生物标志物在远程监测情况下的实际使用。

3、因此,仍然需要改进的方法来自动评定病理和生理状况,可远程并且轻松地执行这些方法,使患者承受最小的负担。


技术实现思路

1、本发明人已经开发了一种用于自动评定受试者的生理和/或病理状态的新装置和方法,特别地包括分析来自词语朗读测试的话音记录。本发明人已经确定,来自词语朗读测试(诸如stroop测试)的记录可用于导出可再现且可提供信息的生物标志物,用于评定受试者的病理和/或生理状态,并且特别地用于评定影响呼吸、嗓音音调、疲乏和/或认知能力的病症。

2、stroop测试(stroop,1935年)是三部分神经心理学测试(词语、颜色和干扰),已经用于诊断精神和神经失调。例如,其构成了根据广泛使用的统一亨廷顿病评定量表(uhdrs)来量化亨廷顿病(hd)严重程度的认知测试成套的部分。stroop测试的词语和颜色部分表示“一致条件”,其中用黑色墨水打印颜色词语,并且用匹配的墨水颜色打印颜色标识。在干扰部分中,与墨水颜色不一致地打印颜色词语。要求患者尽可能快地朗读词语或说出墨水颜色的名称。临床医师将回应解释为正确或不正确。将分数报告为在给定45秒时间内的每个条件下的正确答案的数量。一致性条件被认为是测量处理速度和选择性注意。干扰条件需要词语与颜色之间的心理转换,因此旨在测量认知灵活性。

3、本文所述的方法基于从受stroop测试启发的词语朗读测试的记录中自动确定一个或多个已被识别为可用作生物标志物的度量,该度量选自话音音高、正确词语率、呼吸百分比和未发声/发声比率。该方法是独立于语言、完全自动化、可再现的,并且适用于影响呼吸、嗓音音调、疲乏和/或认知能力的各种病症。因此其使得能够在大量群体中远程自我评定和监测此类病症的症状、诊断或预后。

4、因此,根据第一方面,提供了一种评定受试者的病理和/或生理状态的方法,该方法包括:从来自该受试者的词语朗读测试中获得话音记录,其中该话音记录来自包括朗读抽取自一组n个词语的词语序列的词语朗读测试;以及通过以下来分析该话音记录或其部分:识别该话音记录的对应于单一词语或音节的多个音段;至少部分地基于识别的音段来确定选自呼吸%、未发声/发声比率、话音音高和正确词语率的一个或多个度量的值;将该一个或多个度量的值与一个或多个相应参考值进行比较。

5、该方法可具有以下特征中的任何一个或多个特征。

6、识别该话音记录的对应于单一词语或音节的音段可包括:获得该话音记录的功率梅尔语谱图(mel-spectrogram);计算该梅尔语谱图沿频率轴的最大强度投影;将音段边界定义为该梅尔语谱图沿该频率轴的该最大强度投影与阈值相交的时间点。

7、本文所述的词语/音节分割方法能够实现从话音记录中准确且灵敏地分割词语(并且在某些情况下也可从多音节词语中分割音节),即使在语音节奏相对快速(即词语之间不包含停顿或包含短停顿)的情况下,其中通常基于能量包络的现有方法可能不能良好地执行。其进一步能够实现在词语朗读任务中从数据自动量化从识别的发声音段导出的度量(诸如例如呼吸%、未发声/发声比率,以及率(诸如正确词语率)),该数据可远程地简单轻松地获取,诸如例如通过患者记录自己朗读在计算装置(例如,移动计算装置,诸如智能手机或平板电脑或个人计算机,通过应用程序或网络应用程序,如本文将进一步描述的)上显示的词语。

8、话音记录的对应于单一词语或音节的音段可被定义为包括在两个连续的词语/音节边界之间的音段。优选地,话音记录的对应于单一词语或音节的音段可被定义为:第一边界(梅尔语谱图的最大强度投影从较低值到较高值地与阈值相交处)与第二边界(梅尔语谱图的最大强度投影从较高值到较低值地与阈值相交处)之间的音段。有利地,可排除话音记录的不满足该定义的边界之间的音段。

9、确定一个或多个度量的值可包括将与记录相关联的呼吸百分比确定为话音记录中识别的音段之间的时间的百分比,或记录中识别的音段之间的时间与记录中识别的音段之间和识别的音段内的时间总和的比率。

10、确定一个或多个度量的值可包括将与记录相关联的未发声/发声比率确定为记录中识别的音段之间的时间与记录中识别的音段内的时间的比率。

11、确定一个或多个度量的值可包括通过计算对应于正确朗读词语的识别的音段的数量除以第一个识别的音段的开始与最后一个识别的音段的结束之间的持续时间的比率来确定与话音记录相关联的正确词语率。

12、确定一个或多个度量的值可包括通过获得识别的音段每一者的基频的一个或多个估计来确定与记录相关联的话音音高。确定该话音音高的值可包括获得识别的音段中的每一者的基频的多个估计,并且将滤波器应用于该多个估计以获得过滤的多个估计。确定该话音音高的值可包括获得多个音段的汇总话音音高估计,诸如例如该多个音段的(任选地为过滤的)多个估计的均值、中值或众数。

13、确定一个或多个度量的值可包括:通过计算对应于话音记录中的朗读或正确朗读词语的识别的音段的数量随时间的累积和以及计算拟合到累积和数据的线性回归模型的斜率,来确定与话音记录相关联的总词语率或正确词语率。有利地,该方法引起对总词语率或正确词语率的稳健估计,作为在整个记录上每单位时间朗读或正确朗读词语的数量。由此获得的估计对异常值可能是稳健的(诸如例如可能致使正确词语率的孤立瞬时变化的分心),同时对总词语率或正确词语率的真正减慢(诸如例如真正的疲乏、呼吸和/或认知障碍导致频繁的具有缓慢语音的音段)是敏感的。此外,该方法独立于记录的长度。因此,其可使得能够比较针对不同长度的话音记录或针对同一话音记录的不同部分获得的总词语率或正确词语率。此外,其可能对外部因素具有稳健性,诸如受试者因与认知或呼吸障碍无关的原因而暂停或不说话(诸如例如因为该受试者最初没有意识到话音记录已经开始)。此外,该方法也有利地对与词语开始的具体定时相关的和/或与考虑的词语持续时间的变化相关的不确定性具有稳健性。

14、在该方法包括确定话音记录中的正确词语率的情况下,该方法可包括:计算每个音段的一个或多个梅尔频率倒谱系数(mfcc)以获得多个值向量,每个向量与音段相关联;将该多个值向量聚类成n个聚类,其中每个聚类具有对应于n个词语中的每一者的n个可能标签;对于n!个标签排列中的每一者,使用与聚类的值向量相关联的标签来预测话音记录中的词语序列,并在预测的词语序列与词语朗读测试中使用的词语序列之间执行序列比对;选择引起最佳比对的标签,其中比对中的匹配对应于话音记录中的正确朗读词语。

15、有利地,本文所述的确定正确词语率的方法完全由数据驱动,并且因此独立于模型和语言。特别地,由于聚类步骤是无监督学习步骤,因此其不需要每组音段所表示的实际词语(基本事实)的任何知识。在可替代的实施方案中,可用诸如隐马尔可夫模型的监督学习方法来代替聚类。然而,此类方法需要重新训练每种语言的模型。

16、有利地,本文所述的确定正确词语率的方法进一步能够处理诸如构音障碍的语音障碍,该语音障碍可能会阻止传统的词语识别方法识别正确朗读但不正确地发音的词语。其进一步能够实现从数据中自动量化词语朗读任务中的正确词语率,可简单且轻松地远程获取该数据,诸如例如通过患者记录自己朗读计算装置(例如诸如智能手机或平板电脑的移动计算装置)上显示的词语。

17、在实施方案中,使用与聚类的值向量相关联的标签来预测话音记录中的词语序列包括预测对应于聚类的值向量中的每一者的相应聚类标签的词语序列,该聚类的值向量按照从其中导出值向量的音段的顺序来排序。

18、在一些实施方案中,使用与聚类的值向量相关联的标签来预测话音记录中的词语序列包括预测对应于聚类的值向量中的每一者的相应聚类标签的词语序列,该聚类的值向量被分配到具有满足一个或多个预定标准的置信度的聚类。换句话说,使用与聚类的值向量相关联的标签来预测话音记录中的词语序列包括可包括排除对不与任何具体聚类相关联的聚类的值向量的预测,该具体聚类具有满足一个或多个预定标准的置信度。可使用值向量属于n个聚类中的一者的概率的阈值、值向量与n个聚类中的一者的代表值向量(例如聚类的中心点或质形心的坐标)之间的距离或它们的组合来定义该一个或多个预定标准。

19、在一些实施方案中,使用与聚类的值向量相关联的标签来预测话音记录中的词语序列包括预测对应于聚类的值向量中的每一者的相应聚类标签的词语序列。在一些此类实施方案中,在使用多音节词语(尤其是包括一个强调音节的多音节词语)的情况下,可预测多音节词语的多个词语预测,因为可识别并且聚类多个音段。据发现,在此类情况下,仍可根据本文所述的方法确定话音记录中的正确朗读词语的数量。实际上,如上所述,据信聚类步骤可能对来自额外音节的“噪声”的存在是稳健的,使得仍可识别主要由n个词语中的每一者中的单一音节确定的聚类。此外,据信序列比对步骤将能够处理作为序列内插入的此类附加音节,该插入将存在于n!个标签排列中的每一者中,因为它们是由附加预测词语的存在引起的,预期该预测词语不会存在于词语朗读测试中使用的词语序列中。因此,比对中的匹配的数量仍将对应于话音记录中的正确朗读词语的数量。

20、在实施方案中,计算一个或多个mfcc以获得音段的值向量包括:计算音段的每个帧的一组i个mfcc,以及通过在音段中的帧上压缩由i个mfcc中的每一者形成的信号来获得音段的一组j个值,以获得音段的i×j个值的向量。例如,在音段中的帧上压缩由i个mfcc中的每一者形成的信号可包括执行所述信号的线性内插。

21、在实施方案中,计算一个或多个mfcc以获得音段的值向量包括:计算音段的每个帧的一组i个mfcc,以及对于每个i,通过内插,优选地为线性内插来获得音段的一组j个值,以获得音段的i×j个值的向量。

22、因此,多个音段中的每一者的值向量都具有相同的长度。此类值向量可有利地用作识别多维空间中点聚类的任何聚类方法的输入。

23、计算一个或多个mfcc以获得音段的值向量可如上所述来执行。如本领域技术人员所理解的,使用固定长度的时间窗口来获得音段的mfcc意味着每个音段的mfcc总数可根据音段的长度而变化。换句话说,音段将具有多个帧f,每个帧与一组i个mfcc相关联,其中f根据该音段的长度而变化。因此,对应于较长音节/词语的音段将与比对应于较短音节/词语的音段更大数量的值相关联。当这些值被用作音段的特征代表以在公共空间中聚类音段时,这可能是有问题的。内插步骤解决了该问题。在实施方案中,计算音段的一个或多个mfcc包括计算该音段的每个帧的多个第二至第十三mfcc。优选地不包括第一mfcc。不希望受理论的约束,假设第一mfcc表示音段中的能量,其主要与记录条件相关并且几乎不包含与词语或音节的标识相关的信息。相反地,其余12个mfcc覆盖人类听觉范围(根据mfcc的定义),并且因此捕获与人类如何产生和听到词语相关的声音特征。

24、在实施方案中,多个第二至第十三mfcc包括第二至第十三mfcc中的至少2个、至少4个、至少6个、至少8个、至少10个或全部12个。第二至第十三mfcc可有利地包含可用于使用简单的聚类方法将词语与作为超空间中的点的封闭词语组区分开来的信息。特别地,如上所述,第二至第十三mfcc覆盖人类听觉范围,并且因此被认为可捕获与人类如何产生和听到词语相关的声音特征。因此,使用该12个mfcc可有利地捕获被认为与区分人类话音记录中的一个词语/音节与另一个词语/音节相关的信息。

25、在使用本文所述的分割方法的情况下,可能已经将识别的音段的每个帧的mfcc计算为排除表示错误检测的音段的步骤的部分。在此类实施方案中,先前计算的mfcc可有利地用于获得值向量,以便确定话音记录中的正确朗读词语的数量。

26、在实施方案中,选择参数j,使得对于在聚类步骤中使用的所有音段,j≤f。换句话说,可选择参数j,使得内插引起信号压缩(其中对于每个mfcc,信号是所述mfcc在音段的帧上的值)。在实施方案中,可选择参数j,使得对于聚类中使用的所有音段,内插引起的信号压缩在40%与60%之间(或至少为音段的设定比例,诸如例如90%)。如本领域技术人员所理解的,使用固定参数j,应用于音段的压缩水平可取决于该音段的长度。使用在40%与60%之间的信号压缩,可确保将每个音段中的信号压缩到其原始信号密度的大约一半。

27、在方便的实施方案中,在10与15之间选择j,诸如例如12。不希望受理论的约束,步长为10ms的25ms帧通常用于计算声音信号的mfcc。此外,音节(和单音节词语)的平均长度可以是大约250ms。因此,使用j=12可能引起从平均25个值(对应于250ms音段上的25个帧)压缩到该数量值的大约一半(即平均压缩大约40%至60%)。

28、在实施方案中,使用k-means来执行将多个值向量聚类成n个聚类。有利地,k-means是简单且计算高效的方法,被发现在分离由mfcc值向量表示的词语时执行良好。或者,可使用其他聚类方法,诸如围绕中心点的分区或分层聚类。

29、此外,获得的聚类的形心可对应于mfcc空间中的对应词语或音节的表示。这可能会提供有关过程(例如是否已经令人满意地执行了分割和/或聚类)和/或有关话音记录(以及因此的受试者)的有用信息。特别地,此类聚类的形心可在个体之间进行比较和/或用作进一步的临床信息测量(例如因其捕获了受试者清晰发音音节或词语的能力的方面)。

30、在实施方案中,在聚类和/或内插之前,在记录中的音段上对一个或多个mfcc进行归一化。特别地,可单独地对每个mfcc进行置中和标准化,使得每个mfcc分布具有相等的方差和零均值。这可有利地提高聚类过程的性能,因为其可防止某些mfcc在以高方差分布时“主导”聚类。换句话说,这可确保聚类(即使用的每个mfcc)中的所有特征在聚类中具有类似的重要性。

31、在实施方案中,执行序列比对包括获得比对分数。在一些此类实施方案中,最佳比对是满足一个或多个预定标准的比对,这些标准中的至少一者应用于比对分数。在实施方案中,最佳比对是具有最高比对分数的比对。

32、在实施方案中,使用局部序列比对算法进行,优选地是smith-waterman算法来执行序列比对步骤。

33、局部序列比对算法非常适合比对选自封闭组的两个字母字符串的任务,其中字符串相对较短并且不一定具有相同的长度(像此处的情况一样,因为可能在朗读任务中和/或在词语分割过程中遗漏词语)。换句话说,局部序列比对算法(诸如smith-waterman算法)特别适合于部分重叠序列的比对,这在本发明的情况下是有利的,由于受试者实现少于100%正确词语计数和/或由于分割过程中的错误,所以预期比对具有不匹配和间隙。

34、在实施方案中,使用smith-waterman算法,其中间隙代价在1与2之间(优选地为2),并且匹配分数=3。通过与手动注释的数据进行比较,这些参数可使得准确识别话音记录中的词语。不希望受理论的约束,使用更高的间隙代价(例如2而不是1)可能导致搜索空间的限制和更短的比对。这可有利地捕获预期匹配的情况(即假设存在聚类标签分配,其使得预测词语序列的许多字符可与已知词语序列的字符比对)。

35、在实施方案中,识别话音记录的对应于单一词语或音节的音段进一步包括对话音记录的功率梅尔语谱图进行归一化。优选地,相对于记录中具有最高能量的帧对功率梅尔语谱图进行归一化。换句话说,可将功率梅尔语谱图的每个值除以功率梅尔语谱图中的最高能量值。

36、如本领域技术人员所理解的,功率梅尔语谱图是指在梅尔标度上的声音信号的功率语谱图。此外,获得梅尔语谱图包括沿话音记录定义帧(其中帧可对应于沿时间轴应用的固定宽度的窗口中的信号)以及计算每个帧的梅尔标度上的功率语谱。该过程会生成每个帧(时间仓)的每个梅尔单位的功率值矩阵。获得此类语谱图相对于频率轴的最大强度投影包括选择每个帧的梅尔语谱上的最大强度。

37、归一化有利地简化了可能与同一或不同受试者相关联的不同话音记录之间的比较。这可能是特别有利的,例如在组合来自同一受试者的多个单独话音记录的情况下。例如,在优选地为短记录(例如因为受试者是虚弱的)的情况下,在优选标准或其他期望长度的词语朗读测试的情况下,这可能是特别有利的。相对于记录中具有最高能量的帧对梅尔语谱图的归一化,有利地引起记录中最响亮的帧对于任何记录具有0db的相对能量值(在最大强度投影之后的值)。其他帧将具有低于0db的相对能量值。此外,由于对功率梅尔语谱图进行归一化引起表示话音记录之间可比较的相对能量(随时间变化的db值)的最大强度投影,因此公共阈值(可预先确定或动态确定该阈值)可有利地用于多个记录。

38、将异常值检测方法应用于从单一词语/音节音段中导出的数据,有利地使得能够去除对应于错误检测的音段(诸如例如由不精确的发音、呼吸和非语音声音引起的音段)。可使用适用于一组多维观察的任何异常值检测方法。例如,可使用聚类方法。在实施方案中,将异常值检测方法应用于多个值向量包括排除其值向量高于距其余值向量预定距离的所有音段。

39、识别话音记录的对应于单一词语或音节的音段可进一步包括:通过计算音段的梅尔语谱图上的谱通量函数来对音段中的至少一者执行起始检测,以及每当在音段内检测到起始时就定义进一步的边界,从而形成两个新音段。

40、在实施方案中,识别话音记录的对应于单一词语/音节的音段进一步包括:通过去除短于预定阈值和/或具有低于预定阈值的平均相对能量的音段来排除表示错误检测的音段。例如,可有利地排除短于100ms的音段。类似地,可有利地排除具有低于-40db的平均相对能量的音段。此类方法可简单且有效地排除确实对应于词语或音节的音段。优选地,在计算音段的mfcc并且应用如上所述的异常值检测方法之前,过滤音段以排除短的和/或低能量的音段。实际上,这有利地避免了计算错误音段的mfcc的不必要步骤,并且防止此类错误音段在异常值检测方法中引入进一步的噪声。

41、在任何方面的一些实施方案中,话音记录包括参考音调。例如,可能已经使用计算装置获得了记录,该计算装置被配置为在开始记录用户执行的朗读测试后不久发出参考音调。这对于向用户提供何时开始朗读任务的指示可能是有用的。在话音记录包括参考音调的实施方案中,可选择该方法的一个或多个参数,使得该参考音调被识别为对应于单一词语或音节的音段,和/或使得在去除错误检测的过程中排除包括参考音调的音段。例如,可选择在错误检测去除过程中使用的一组mfcc和/或在该过程中使用的预定距离,使得在每个话音记录(或至少话音记录的选择的百分比)中去除对应于参考音调的音段。

42、识别话音记录的对应于单一词语或音节的音段可进一步包括:通过计算音段的一个或多个梅尔频率倒谱系数(mfcc)来排除表示错误检测的音段以获得多个值向量,每个向量与音段相关联,以及将异常值检测方法应用于该多个值向量。识别话音记录的对应于单一词语或音节的音段可进一步包括:通过去除短于预定阈值短和/或具有低于预定阈值的平均相对能量的音段来排除表示错误检测的音段。

43、n个词语可以是单音节的或双音节的。n个词语可以各自包括在相应词语内部的一个或多个元音。n个词语可以各自包括单一强调音节。n个词语可以是颜色词语,任选地其中在词语朗读测试中以单一颜色显示词语,或其中在词语朗读测试中以独立地选自一组m种颜色的颜色来显示词语。

44、在本发明的上下文中,受试者是人类受试者。在本公开内容中可互换地使用词语“受试者”、“患者”和“个体”。

45、从来自受试者的词语朗读测试中获得话音记录包括从第一词语朗读测试中获得话音记录,以及从第二词语朗读测试中获得话音记录,其中该词语朗读测试包括朗读抽取自为颜色词语的一组n个词语的词语序列,其中在该第一词语朗读测试中以单一颜色显示词语,并且在该第二词语朗读测试中以独立地选自一组m种颜色的颜色显示词语,任选地其中该第二词语朗读测试中的该词语序列与该第一词语朗读测试中的该词语序列相同。

46、词语序列可包括预定数量的词语,选择该预定数量以确保记录包含足够的信息来估计一个或多个度量和/或使得能够将一个或多个度量与先前获得的参考值进行比较。词语序列可包括至少20个、至少30个或约40个词语。例如,本发明人已经发现了包含40个词语的序列的词语朗读测试,以提供足够的信息来估计感兴趣的度量中的全部,同时即使对于患有严重呼吸困难和/或疲乏的受试者(诸如失代偿性心力衰竭患者),也表示可管理的努力。

47、预定数量的词语可取决于受试者的预期生理和/或病理状态。例如,可选择预定数量的词语,使得可预期患有特定疾病、失调或病症的受试者在预定时间长度内朗读词语序列。可使用比较训练队列来确定每个预定时间段的预期词语数量。优选地,比较训练队列由患有与预期用户相似的病症、疾病或失调和/或与预期用户相似的疲乏和/或呼吸困难程度的个体组成。预定时间长度有利地小于120秒。太长的测试可能会受到外部参数的影响,诸如无聊或身体虚弱和/或可能对用户来说不太方便,可能导致领会减少。预定时间长度可选自:30秒、35秒、40秒、45秒、50秒、55秒或60秒。可基于标准和/或比较测试的存在来选择预定时间长度和/或词语数量。

48、优选地,记录与受试者朗读向其显示的词语序列所需的时间一样长。因此,计算装置可记录话音记录,直到受试者指示将停止话音记录和/或直到受试者已经朗读了显示的整个词语序列。例如,计算装置可记录话音记录,直到受试者通过用户界面提供输入,指示其已经完成了测试。作为另一个实例,计算装置可记录预定时间长度的话音记录,并且可剪辑该记录以包括对应于词语序列中的预期词语数量的多个音段。或者,计算装置可记录话音记录,直到其检测到受试者在预定时间长度内尚未说出词语。换句话说,该方法可包括使与受试者相关联的计算装置记录从计算装置接收到开始信号时到计算装置接收到停止信号时的话音记录。可通过用户界面从受试者接收开始和/或停止信号。或者,可自动生成开始和/或停止信号。例如,可由计算装置在开始显示词语时生成开始信号。停止信号可例如通过计算装置确定在设定的最小时间段(诸如例如2秒、5秒、10秒或20秒)内尚未检测到话音信号来生成。不希望受理论的约束,据信使用预期包含已知词语数量(对应于一组词语中的词语数量)的话音记录在本发明的任何方面都可能是特别有利的。实际上,此类实施方案可有利地简化比对步骤,因为已知词语序列然后将具有任何记录的已知长度。

49、该记录可包括多个记录。每个记录都可来自包括朗读至少20个、至少25个或至少30个词语的序列的词语朗读测试。例如,可将包括朗读例如40个词语的序列的词语朗读测试分为两个包括朗读20个词语的序列的测试。当受试者的病理或生理状态使得其不能在一次测试中朗读预定长度的序列时,这可使得能够实现来自包括朗读预定长度的序列的词语朗读测试的记录。在使用多个单独的话音记录的实施方案中,识别对应于单一词语/音节的音段的步骤有利地至少部分地针对单独的话音记录单独地执行。例如,有利地针对每个记录单独地执行包括归一化、动态阈值化、缩放等的步骤。在使用多个单独的话音记录的实施方案中,可针对每个记录单独地执行比对步骤。相反地,可有利地在来自多个记录的组合数据上执行聚类步骤。

50、显示用于词语朗读测试的词语序列和记录词语记录的步骤可由远离执行分析步骤的计算装置的计算装置来执行。例如,显示和话音记录的步骤可由用户的个人计算装置(其可以是pc或移动装置,诸如移动电话或平板电脑)来执行,而话音记录的分析可由远程执行计算机(诸如服务器)来执行。这可使得能够例如在患者家中远程获取临床相关数据,同时利用远程计算机的增加的计算能力进行分析。

51、在实施方案中,与受试者相关联的计算装置是移动计算装置,诸如移动电话或平板电脑。在实施方案中,通过应用程序执行使与受试者相关联的计算装置显示词语序列并且记录话音记录的步骤,该应用程序可以是在与受试者相关联的计算装置上本地运行的软件应用程序(在移动装置上下文中有时称为“移动应用程序”或“本地应用程序”)、在网络浏览器中运行的网络应用程序,或将移动网站嵌入本地应用程序内的混合应用程序。

52、在实施方案中,获得话音记录包括记录话音记录和执行分析话音记录的步骤,其中由同一计算装置(即在本地)执行获取和分析。这可有利地消除对连接到远程装置进行分析的需要,以及传输敏感信息的需要。分析结果(例如正确词语率、音高等)和话音记录或其压缩版本在此类实施方案中仍然可被传送到远程计算装置以用于存储和/或元分析。

53、该方法可用于评定已被诊断为患有影响呼吸、嗓音音调、疲乏和/或认知能力的病症或处于患有影响呼吸、嗓音音调、疲乏和/或认知能力的病症的风险中的受试者的状态。该方法可用于将受试者诊断为患有影响呼吸、嗓音音调、疲乏和/或认知能力的病症。在本发明的上下文中,如果该个体的任务(诸如词语朗读测试)的执行受到心理、生理、神经或呼吸因素的影响,则可认为个体患有影响呼吸、嗓音声调、疲乏和/或认知能力的病症。可能影响受试者的呼吸、嗓音声调、疲乏状态或认知能力的病症、疾病或失调的实例包括:

54、(i)心血管疾病,诸如心力衰竭、冠心病、心肌梗塞(心脏病发作)、心房颤动、心律失常(心律失调)、心脏瓣膜病;

55、(ii)呼吸道疾病、失调或病症,诸如阻塞性肺病(例如哮喘、慢性支气管炎、支气管扩张和慢性阻塞性肺疾病(copd))、慢性呼吸道疾病(crd)、呼吸道感染和肺部肿瘤)、呼吸道感染(诸如例如covid-19、肺炎等)、肥胖症、呼吸困难(诸如例如与心力衰竭相关的呼吸困难、惊恐发作(焦虑症)、肺栓塞、肺的物理限制或损伤(诸如例如肋骨骨折、肺萎陷、肺纤维化等)、肺动脉高压或任何其他影响肺/心肺功能(例如可通过肺活量计测量)的疾病、失调或病症等;

56、(iii)神经血管疾病或失调,诸如卒中、神经退行性疾病、肌病、糖尿病性神经病等;

57、(iv)精神疾病或失调,诸如抑郁症、嗜睡、注意力缺失症、慢性疲乏综合症;

58、(v)通过全身机制影响个体的疲乏状态或认知能力的病症,诸如疼痛、异常葡萄糖水平(诸如例如由于糖尿病)、肾功能受损(诸如例如在慢性肾功能衰竭或肾脏替代疗法的情况下)等。

59、因此,本文所述的方法可用于诊断、监测或治疗上述病症、疾病或失调中的任何病症、疾病或失调。

60、在本发明的上下文中,词语朗读测试(在本文中也称为“词语朗读任务”)是指这样的测试:其要求个体朗读一组未连接以形成句子的词语(在本文中也称为“词语序列”),其中词语是抽取自预定组的(例如词语可以是随机地或伪随机地抽取自组的)。例如,一组词语中的词语中的全部都可以是名词,诸如所选语言中的一组颜色的词语。

61、如本领域技术人员所理解的,分析来自受试者的话音记录的方法是计算机实施的方法。实际上,本文所述的话音记录分析,包括例如所描述的音节检测、分类和比对需要通过复杂的数学运算来分析大量数据,该数学运算超出了心理活动的范围。

62、根据第二方面,提供了一种监测患有心力衰竭的受试者或将受试者诊断为患有心力衰竭恶化或失代偿性心力衰竭的方法,该方法包括:从来自该受试者的词语朗读测试中获得话音记录,其中该话音记录来自包括朗读抽取自一组n个词语的词语序列的词语朗读测试;以及通过以下来分析该话音记录或其部分:识别该话音记录的对应于单一词语或音节的多个音段;至少部分地基于识别的音段来确定选自呼吸%、未发声/发声比率、话音音高和正确词语率的一个或多个度量的值;将该一个或多个度量的值与一个或多个相应参考值进行比较。该方法进一步包括第一方面的特征中的任何特征。

63、根据第三方面,提供了一种治疗患有心力衰竭恶化或失代偿性心力衰竭的受试者的方法,该方法包括:使用前述方面的方法将该受试者诊断为患有心力衰竭恶化或失代偿性心力衰竭;以及治疗该受试者的心力衰竭。该方法可进一步包括使用任何前述方面的方法来监测疾病的进展、监测受试者的治疗和/或恢复。该方法可包括在第一时间点和进一步的时间点监测受试者,并且如果比较与第一时间点和进一步的时间点相关联的一个或多个指标的值指示受试者的心力衰竭状态尚未改善,则增加治疗或以其他方式修改治疗。该方法可包括在第一时间点和进一步的时间点监测受试者,并且如果比较与第一时间点和进一步的时间点相关联的一个或多个指标的值指示受试者的心力衰竭状态已经改善,则维持治疗或减少治疗。

64、根据第四方面,提供了一种监测已被诊断为患有与呼吸困难和/或疲乏相关联的病症或处于患有与呼吸困难和/或疲乏相关联的病症的风险中的受试者的方法,该方法包括:从来自该受试者的词语朗读测试中获得话音记录,其中该话音记录来自包括朗读抽取自一组n个词语的词语序列的词语朗读测试;以及通过以下来分析该话音记录或其部分:识别该话音记录的对应于单一词语或音节的多个音段;至少部分地基于识别的音段来确定选自呼吸%、未发声/发声比率、话音音高和正确词语率的一个或多个度量的值;将该一个或多个度量的值与一个或多个相应参考值进行比较。该方法可具有关于第一方面描述的特征中的任何特征。

65、根据第五方面,提供了一种评定受试者的呼吸困难和/或疲乏程度的方法,该方法包括:从来自该受试者的词语朗读测试中获得话音记录,其中该话音记录来自包括朗读抽取自一组n个词语的词语序列的词语朗读测试;以及通过以下来分析该话音记录或其部分:识别该话音记录的对应于单一词语或音节的多个音段;至少部分地基于识别的音段来确定选自呼吸%、未发声/发声比率、话音音高和正确词语率的一个或多个度量的值,优选地其中该一个或多个度量包括该正确词语率;将该一个或多个度量的值与一个或多个相应参考值进行比较。该方法可具有关于第一方面描述的特征中的任何特征。

66、根据第六方面,提供了一种治疗已被诊断为患有与呼吸困难和/或疲乏相关联的病症或处于患有与呼吸困难和/或疲乏相关联的病症的风险中的受试者的方法,该方法包括:使用前述方面的方法来评定受试者的呼吸困难和/或疲乏程度,以及根据该评定的结果来治疗该受试者的病症或调整该受试者的病症治疗。该方法可包括在第一时间点和进一步的时间点执行该评定,并且如果比较与第一时间点和进一步的时间点相关联的一个或多个指标的值指示该受试者的疲乏和/或呼吸困难程度已经增加或尚未改善,则增加治疗或以其他方式修改治疗。该方法可包括在第一时间点和进一步的时间点执行该评定,并且如果比较与第一时间点和进一步的时间点相关联的一个或多个指标的值指示该受试者的疲乏和/或呼吸困难程度已经改善或尚未增加,则维持治疗或减少治疗。该方法可具有关于第一方面描述的特征中的任何特征。

67、根据第七方面,提供了一种将受试者诊断为患有呼吸道感染或治疗已被诊断患有呼吸道感染(诸如covid-19)的患者的方法,该方法包括:从来自该受试者的词语朗读测试中获得话音记录,其中该话音记录来自包括朗读抽取自一组n个词语中的词语序列的词语朗读测试;以及通过以下来分析该话音记录或其部分:识别该话音记录的对应于单一词语或音节的多个音段;至少部分地基于识别的音段来确定选自呼吸%、未发声/发声比率、话音音高和正确词语率的一个或多个度量的值;其中该一个或多个度量至少包括该话音音高;以及将该一个或多个度量的值与一个或多个相应参考值进行比较。该方法可进一步包括第一方面的特征中的任何特征。

68、该方法可包括:如果比较指示该受试者患有呼吸道感染,则治疗该受试者的呼吸道感染。该方法可进一步包括使用任何前述方面的方法来监测受试者的治疗和/或恢复。该方法可包括在第一时间点和进一步的时间点监测受试者,并且如果比较与第一时间点和进一步的时间点相关联的一个或多个指标的值指示受试者的呼吸道感染尚未改善,则增加治疗或以其他方式修改治疗。该方法可包括在第一时间点和进一步的时间点监测受试者,并且如果比较与第一时间点和进一步的时间点相关联的一个或多个指标的值指示受试者的呼吸道感染已经改善,则维持治疗或减少治疗。

69、根据第八方面,提供一种系统,其包括:至少一个处理器;以及至少一个非暂时性计算机可读介质,其包含指令,该指令当由该至少一个处理器执行时,使该至少一个处理器执行操作,该操作包括任何前述方面的方法的任何实施方案的步骤。

70、一个或多个计算机可读介质,其存储指令,该指令当由至少一个处理器执行时,使该至少一个处理器执行操作,该操作包括任何前述方面的方法的任何实施方案的步骤。

71、一种计算机程序产品,其包括指令,该指令当由至少一个处理器执行时,使该至少一个处理器执行操作,该操作包括任何前述方面的方法的任何实施方案的步骤。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1