用于处理患者声音的方法与装置与流程

文档序号:18939155发布日期:2019-10-23 01:00阅读:469来源:国知局
在第一方面,本发明涉及用于检测患者的咳嗽声音的自动方法与装置。在第二方面,本发明涉及用于根据诸如咳嗽声音的患者声音来诊断疾病状态的方法与装置。
背景技术
::对现有技术的方法、装置或文件的任意引用均不构成它们形成的或形成公知常识的部分的任意证据或承认。咳嗽是身体的一种防御机制,以清除呼吸道中意外吸入的或因感染而在内部产生的异物[1]。它是一些呼吸疾病,例如哮喘和顿咳(百日咳)以及肺炎的常见症状,肺炎是5岁以下儿童死亡的主要原因。据估计[2],肺炎每年引起该组中超过160万人死亡,大于97%[3]的病例发生在发展中国家。世界卫生组织(who)也报道,在那些国家,百日咳已成为主要儿童发病率之一,每年估计有5000万病例和300000人死亡[4]。尽管咳嗽在呼吸疾病中是常见的,并且被认为是重要的临床症状,但并没有评估咳嗽的黄金标准。在典型的会诊中,医师可以听取自然或自发咳嗽的几次发作,以获得诸如咳嗽的“湿润”的定性信息。这种定性信息在对呼吸疾病的诊断以及处置中极其有用。然而,人工分析遭受操作者偏差的问题,并且产生主观结果。在会诊期间,医师也可以寻求关于咳嗽的定量信息,例如咳嗽事件在给定时间间隔上的发生频率。该信息能够被用于确定咳嗽的性质(例如急性、慢性)和严重度,以及用于监测处置效率。然而,为了获得该信息,医师严重依赖患者或他们的照护者的主观报告。存在对于一种能够尤其在儿童疾病中计数咳嗽的次数的自动设备的需要。更重要地,需要能够从长的儿科记录中自动提取咳嗽事件的技术,以便帮助对诸如肺炎、百日咳及哮喘的疾病的诊断。已经采取一些途径来开发自动咳嗽计数系统(例如hull自动咳嗽计数器(hacc)[5]、莱斯特咳嗽监测器(lcm)[6]、lifeshirt[7]、vitaloja[8],以及pulmotrack[9])。这些设备的性能各异。hacc声称有(80%、96%)的灵敏度和特异性[5]。该数字针对lifeshirt、pulmotrack、lcm以及vitalojak分别为(78%、99%)、(94%、96%)、(85.7%、99.9%),以及(97.5%、97.7%)[6、10-13]。它们依赖声音强度相关的技术,使得它们易受记录条件及所用的特定器械的变化的影响。据发明人所知,这些商业化设备中还没有一个在儿科群体上测试过。在儿童,尤其是较年幼的那些上的咳嗽记录带来一些额外的挑战。较年幼的儿童不能根据要求产生自发咳嗽。靶向于儿科群体的任意方法均应能够使用在感兴趣时期上记录的自然咳嗽。在儿科记录中,发现有大量与咳嗽声音混杂的哭叫、发声和咕哝。因此,针对成年人开发的技术在儿童上的使用不太可能是最优的。来自儿童的咳嗽记录中的另一个问题是咳嗽声音强度变化。诸如严重儿科肺炎的疾病能急剧降低咳嗽声音的幅度。即使在健康人中,咳嗽声音也能有大的动态范围,覆盖大声咳嗽至几乎听不到。该情况可能使基于强度的技术针对现场使用不可靠。性能也将取决于使用的具体声音捕获器械、校准状态以及测量协议。现有的商品化咳嗽计数设备(例如lifeshirt、vitalojak和pulmotrack)采用接触传感器。尽管接触传感器的使用可以有一些优点,但它们也带有一些缺陷。介于中间的肌肉组织严重削减使用接触传感器记录的咳嗽的带宽;自由空气系统对此免疫。接触传感器,与非接触(自由空气)麦克风相比,对抗通过空气传播的背景声音是鲁棒的。然而,它们对通过组织和骨骼传导的声音更为脆弱;因传感器移动造成的假摩擦声音也可能是个问题。在传染性疾病中,需要精细的工作以避免通过接触仪器造成患者的交叉感染。此外,在儿科对象中,接触传感器也可能因患者不舒服而难以附着。咳嗽声音承载有关于气道的状态的非常有用的信息。然而,现有的设备使用仅能够检测事件的存在(“咳嗽检测”)却不能自动提取咳嗽事件(“咳嗽分割”)用于进一步分析的方法。因此,它们被限制在对咳嗽的计数。咳嗽分割,除咳嗽检测能力以外,还要求关于每次咳嗽事件的精确开始以及结束的知识。已知咳嗽间的间隙、咳嗽的持续时间以及咳嗽的幅度可以承载与呼吸疾病相关的信息[14]。其症状包括咳嗽的一种疾病是肺炎。肺炎是世界范围内幼童的主要杀手。其相当于每年多余19%的五岁以下儿童死亡数。它是一种贫穷病,并且与营养不良和差的医疗设施强烈相关。因此,儿童肺炎死亡数在发展中国家非常高。肺炎也是全世界老年人中的问题。肺炎被定义为肺部的感染,具有炎性细胞和分泌物在肺泡中的积累。肺炎的常见症状包括:咳嗽、呼吸困难、发热、头痛、食欲不振、流鼻涕、以及气喘。在严重肺炎的情况中,小婴儿费力呼吸并且可能遭受抽搐、皮肤苍白、失去知觉、体温过低以及嗜睡。肺炎是一种难以诊断的疾病。目前的诊断方法包括临床检查(例如:生理指标、胸部听诊)、生化检测(例如:痰液分析、氧饱和度)以及医学成像(例如:胸部x射线以及在一些情况中为x射线ct)。目前的诊断方法的问题是什么:胸部x射线(cxr)被认为是用于诊断肺炎的常用参考准则。然而,其并非黄金标准。在疾病早期,或者当疾病涉及在cxr中不容易看到的肺部分时,单独使用cxr难以诊断肺炎。而且,有时cxr结果能够因肺部疤痕或充血性心力衰竭(它们能够在cxr中模仿肺炎)而是误导性的。尽管x射线ct可以提供更好的结果,但在发展中国家它们甚至在三级保健医院中都没有广泛使用。痰液测试要求实验室培养并且最少要花2-3天,使得它们对于初步诊断来说太慢。阳性痰液测试并不一定指示肺炎的存在,因为引起肺炎的病原体中许多都天然地存在于健康人的喉咙中。因此,痰液测试主要是用来检查已在患者上启动的特定抗生素的敏感性。临床检查连同经由听诊器的胸部听诊是在临床环境中被用于对肺炎的初步检查的一线途径;x射线在可用时可以被用于证实诊断。上述方法中没有一个可用于在世界上肺炎肆虐的偏远地区大规模部署。它们昂贵、资源密集,并且要求训练有素的医疗专业人员执行它们。为了克服该问题,世界卫生组织(who)已开发出一套高度简化的指南[参考3],以在世界上资源贫乏且偏远的地区诊断儿童肺炎。根据这些,出现呼吸困难或咳嗽的儿童,如果他们有呼吸急促(快速呼吸),则被诊断出肺炎。快速呼吸被定义为:在小于2个月的婴儿中每分钟60次呼吸或更多,针对2个月至12个月的婴儿每分钟50次呼吸或更多,以及针对年龄在12个月至5岁的儿童每分钟40次呼吸或更多[参考3、4]。胸部凹入、皮肤苍白以及失去直觉可以指示严重肺炎,并且也属于who危险指征。该系统在现场更容易实施,并且被设计为具有高诊断灵敏度(约90%患有疾病的患者被找出)。然而,who指南遭受差的诊断特异性的问题;大量没有肺炎的患者也被找出认为患有肺炎。已知who算法的特异性为约20%。尽管who指南已帮助使死亡率降至每年160万儿童死亡数,但该方法仍有几个问题。由于其低特异性[参考6],大量非肺炎的儿童不必要地接受抗生素。这已导致由社区性抗生素耐药性引起的处置失败。在许多肺炎流行地区,诸如疟疾的疾病也是常见的。肺炎和疟疾两者都有发热、快速呼吸和咳嗽的症状,并且针对肺炎的who算法能够导致误诊并延误治疗。不需要抗生素的几种其他疾病/病况(例如copd、哮喘、肺水肿、肺癌等)可能出现与肺炎类似的临床特征。为了改善who标准的特异性,cardoso等人[参考6]提议包括发热的存在,以诊断肺炎。他们示出,增加发热显著改善了诊断特异性(高达50%)。过去的几个其他研究者已评估了who标准在儿童肺炎诊断中的准确度。harari等人[参考7]在185名儿童中研究了包括呼吸急促的几个变量,以确定哪些临床指征最佳地预测肺炎的影像学证据。他们报道,仅以呼吸急促(针对<12个月的小孩呼吸率(rr)50≥次呼吸/分钟,以及如果年龄为1岁或更大则为rr≥40次呼吸/分钟)作为预测指标,在诊断肺炎时灵敏度为73%和特异性为64%。当他们增加胸部凹入到呼吸急促时,以特异性为代价(下降6%)使灵敏度改善了4%。与其他临床症状(例如鼻翼扇动、发热、睡眠欠佳、咳嗽>2天等)类似地,灵敏度和特异性在20%至90%之间变化[参考6-10]。以特异性为代价获得高灵敏度,反之亦然。本发明的第一方面的目的是提供一种改进的用于识别咳嗽声音的方法。此外,本发明的另外一方面的目的是提供一种用于从咳嗽声音诊断特定疾病状态(例如肺炎、哮喘和鼻咽炎)的方法。技术实现要素:根据本发明的第一方面,提供一种操作计算设备以处理患者声音的方法,所述方法包括以下步骤:从所述患者声音的片段提取特征;以及基于所提取的特征和预定准则,将所述片段归类为咳嗽或非咳嗽声音。所述患者声音将优选地包括所述患者的声音记录。在本发明的优选实施例中,从所述患者声音记录提取特征的所述步骤包括处理所述片段,以确定预定统计学参数。例如,在优选实施例中,所述预定统计学参数包括对应于所述片段的梅尔频率倒谱系数“mk”所述预定统计学参数也可以包括非高斯性评分“nk”,指示所述片段与高斯模型的偏差。从所述患者声音记录提取特征的所述步骤也可以包括估计针对所述片段的共振峰频率“fk”。优选地,提取特征的所述步骤包括确定针对所述片段的过零率“zk”,以由此检测与其相关联的周期性。在本发明的优选实施例中,从所述片段提取特征的所述步骤包括确定小波香农熵值“sk”、计算峰态(vk)、音高(pk)、双频谱评分(bk)、对数能量(ek)。优选地,所述方法包括基于所述mk、nk、fk、zk、sk、vk、pk、bk和ek,计算归一化特征向量fk。优选地,将所述片段归类为咳嗽或非咳嗽声音的所述步骤包括,通过将所提取的特征或从所提取的特征推导的参数(例如所述归一化特征向量)与预录咳嗽声音的数据集的特征进行比较,确定它们是否满足所述预定标准。归类所述片段的所述步骤可以包括针对对应于测试声音片段的测试特征的后续归类,利用预录咳嗽声音的所述数据集的特征训练人工神经网络,以由此将所述测试声音片段归类为非咳嗽或咳嗽类别。或者,也可以使用其他模式归类器,例如逻辑回归归类方法。优选地,所述方法还包括基于所述患者声音记录中被归类为咳嗽声音的片段,诊断疾病相关状态。所述方法可以还包括监测来自若干传感器的患者数据。例如,所述方法可以包括监测来自以下中的一个或多个的患者数据:呼吸检测传感器、温度传感器、移动传感器、eeg传感器、氧水平传感器。所述方法可以包括将咳嗽声音分类为“湿咳”或“非湿咳”声音。当所述方法包括诊断疾病状态时,其将还包括以下步骤:将所述患者声音的咳嗽事件分类为患病或非患病的;计算患病咳嗽指数,所述患病咳嗽指数指示被分类为患病咳嗽事件的比例;以及如果所述患病咳嗽指数符合预定要求,则认为所述患者遭受所述特定疾病状态。所述预定要求可以是所述患病咳嗽指数超过预定阈值。优选地,将所述咳嗽事件分类为患病或非患病的所述步骤包括,根据归类程序处理从所述咳嗽事件提取的特征。例如,所述归类程序可以包括逻辑回归模型的应用。或者,所述归类器可以包括受训人工神经网络的应用。根据本发明的另一方面,提供一种计算设备,其包括与电子存储器通信的至少一个电子处理器,所述电子存储器包含针对所述处理器的指令,以执行前述用于处理患者的声音记录以将所述记录的片段分类为咳嗽或非咳嗽声音的方法。例如,所述计算设备可以包括被编程为执行前述方法的移动电话或类似设备。根据本发明的另外一方面,提供一种承载有形指令的机器可读介质,所述有形指令用于由电子处理器运行,以执行前述方法。根据本发明的另外一方面,提供一种操作计算设备的方法,以处理患者的患者声音,以由此将所述声音转换为指示对所述患者的特定疾病状态的诊断。例如,所述疾病状态可以包括肺炎。优选地,所述患者声音包括所述患者的声音记录。优选地,所述诊断方法包括以下步骤:将所述声音记录的咳嗽事件分类为患病或非患病的;计算患病咳嗽指数,所述患病咳嗽指数指示被分类为患病咳嗽事件的比例;以及如果所述患病咳嗽指数符合预定要求,则认为所述患者遭受所述特定疾病状态。例如,所述预定要求可以为所述患病咳嗽指数超过预定阈值。所述方法可以包括检测来自以下中的一个或多个的患者数据:移动传感器、eeg传感器、氧水平传感器、呼吸检测传感器和温度传感器。优选地,将所述咳嗽事件分类为患病或非患病的所述步骤包括根据归类程序处理从所述咳嗽事件提取的特征。例如,所述归类程序可以包括逻辑回归模型的应用。或者,所述归类器可以包括受训人工神经网络、贝叶斯归类器、基于隐马尔科夫模型(hmm)的归类器、支持向量机(svm)等等的应用。在一个实施例中,用于所述归类器的训练集包括从遭受诸如以下的不适的患者记录的非肺炎声音:哮喘、支气管炎、鼻咽炎与气喘、扁桃体咽炎(tonsillopharyngitis)、充血性心脏病、喉软骨软化病(laryngomalacia)及异物吸入。本发明的各个实施例涵盖在诸如疗养院的老年照护设施中对同院病人的长期监测(没有接触传感器)。将认识到,肺炎是老年人中的严重问题,并且最好尽早开始处置。需要医师的干预的任意呼吸病况,应由工作人员紧急标出,并且本文描述的方法的应用有助于满足该要求。这样的方法,根据本发明的一方面的实施例,可以被应用于慢性病患者(患有免疫系统或呼吸系统疾病),例如艾滋患者。本发明的各方面的实施例涵盖在医院环境内外对等待看特定专科的呼吸患者的分流。根据本发明的另一方面,提供一种计算设备,其包括与电子存储器通信的至少一个电子处理器,所述电子存储器包含针对所述处理器的指令,以执行前述方法,以处理患者的声音记录,以将所述记录的片段分类为咳嗽或非咳嗽声音。根据本发明的另外一方面,提供一种承载有形执行的计算机可读介质,所述有形指令用于由电子处理器运行,以执行前述方法。根据本发明的另一方面,提供一种操作计算设备以处理为数字电子格式的患者声音的方法,所述方法包括以下步骤:操作所述计算设备的至少一个处理器,以从所述患者声音的片段提取特征的步骤,基于所提取的特征和预定准则,将所述片段归类为咳嗽或非咳嗽声音,以及将片段有形地标记为所归类的咳嗽或非咳嗽,以由所述计算设备进一步处理。附图说明可以从以下具体实施方式领悟本发明的优选特征、实施例和变型,所述具体实施方式为本领域技术人员提供用于执行本发明的足够信息。所述具体实施方式不应被视为以任何方式限制前面的
发明内容。所述具体实施方式将参考如下几个附图:图1为根据本发明的实施例的咳嗽处理系统的框图。图2为根据本发明的一方面的优选实施例的方法的流程图。图3,tdnn的结构,其包括输入层、隐藏层和输出层。tdnn的输入为d个连续特征向量fk。例如,针对d=5,所述输入为{fk-4j,fk-3j,……,fkj}。为了归类所有子区块,将所述输入向右移一子区块。图4,咳嗽片段的持续时间(τs)的平滑概率密度函数。其具有为0.373s的平均,以及为0.144s的标准偏差。图5图示降噪过程。(a)记录中的典型信号,(b)为高通滤波器的输出,并且(c)为输出谱减法滤波器。所形成的滤波器显著改善所述信号的snr(信噪比)。图6,随机选择的梅尔频率倒谱系数的概率密度函数(pdf)(出于显示目的而平滑化)。尽管存在交叠,系数m(4)能够被用于区分咳嗽与器具声音,系数m(9)在咳嗽与哭喊之间区分,并且m(l1)在咳嗽与发声之间区分。图7,五个第一共振峰频率的pdf(f(l)-f(5))。尽管所述共振峰频率的分布交叠,但它们具有不同的平均、偏态和峰态,尤其针对f(l)、f(3)和f(5)。图8,能量、过零率(zcr)、香农熵和非高斯性评分(ngs)的pdf。ngs能够被用于在咳嗽与发生和哭喊之间区分,而zcr在咳嗽与器具声音之间区分。声音之间的对数能量和香农熵的轮廓相似,但它们具有不同的偏态和峰态。图9图示咳嗽片段识别。(a)来自降噪过程的声音信号,(b)来自tdnn的输出信号,(c)在平滑化过程之后的输出信号,以及(d)阈值处理过程之后的输出信号。来自所述阈值处理的信号可能包括假片段(例如fd片段)。图10,对来自分割算法的输入信号和输出信号的图示。虚线指示分割输出,能够在这里确定每个咳嗽片段的开始和结束。假片段fd(在图9(d)中示出的)被丢弃,因为其持续时间在持续时间的准则以外(τ最小<τs<τ最大)。所述算法成功将所有咳嗽声音分割,包括与说话(sp)交叠的cg3。图11,对信号的分割输出(虚线),其包含咳嗽和哭喊声音。我们的分割算法成功地分割两个咳嗽声音,并丢弃哭喊声音。仅小部分的哭喊声音被错误地检测为咳嗽片段。图12,针对使用咳嗽特征的肺炎诊断所提出的算法的框图。图13,样本肺炎咳嗽声音。在小心聆听咳嗽事件之后,手动标记咳嗽事件的开始和结束。图14,数字高通滤波器的幅值响应。肺炎归类方法。图15,针对湿咳和干咳声音归类所提出的算法的框图。图16,针对200个训练和测试数据集达到的灵敏度和特异性的柱状图。仅选择的特征被用于lr模型设计。图17为根据本发明的另外的实施例,用于对疾病状态(例如肺炎)的诊断的方法的流程图。图18包括呈现与图17的方法的应用相关联的对象的细节的图表。图19示出(a)肺炎咳嗽、(c)哮喘咳嗽、(e)支气管炎咳嗽和(g)毛细支气管炎咳嗽波形以及它们对应的功率谱图的典型范例。图20为根据本发明的一方面另外的且优选的实施例的自动咳嗽归类程序的框图。图21示出来自两位患者的干咳波形和湿咳波形的典型范例。图22a和图22b为针对咳嗽声音的snr的柱状图。图23示出被用于图20中图示的方法的分析与讨论中的统计学信息。具体实施方式i.用于咳嗽归类的第一方法2.1.咳嗽记录协议咳嗽记录系统包括以下:具有超心型指向性束模式的低噪声麦克风53、55(澳大利亚悉尼modelnt3,),之后是前置放大器52和a/d转换器51(美国加利福尼亚modelmobilepre-usb,)用于信号采集。mobilepre-usb的输出被连接到膝上型计算机52的usb端口50。从所述麦克风到对象42的口部的标称距离为50cm。实际距离能够因对象移动而在40cm至100cm之间变化。然而,所提出的方法不依赖于声音强度,并且结果独立于口部到麦克风的距离。我们保持采样率在44.1k样本/s以及16-bit的分辨率,以获得最佳声音品质。根据本发明的各方面的优选实施例,计算机系统52作为咳嗽/非咳嗽归类系统和/或基于咳嗽的诊断系统而操作,同时运行计算机程序,马上将描述所述计算机程序。个人计算机系统52包括为指向设备60和键盘58的形式的数据输入设备,以及为显示器56的形式的数据输出设备。所述数据输入与输出设备被耦合到包括中央处理单元70的处理箱54。显示器56包括人机接口,用于呈现由本文描述的所述方法实施的各个归类程序的结果。其他人机接口也是可能的,例如智能手机或打印机。中央处理单元(cpu)70与储存设备接口连接,所述储存设备可由机器读取并且有形地体现可由cpu运行的指令的程序。这些储存设备经由主板68包括ram62、rom64以及二级储存设备,即硬磁盘66和光盘读取器48。所述个人计算机系统也包括usb端口50,用于与外部adc模块51的通信,外部adc模块51前置放大、滤波并数字化来自麦克风53和55的信号。所述麦克风从躺在床40上的对象42拾取声音,例如咳嗽声音。二级储存设备66为带有用于由中央处理器70运行的有形指令的磁性数据储存介质。典型地将已从安装盘(例如光盘46)安装了这些指令,尽管也可以在存储器集成电路中,或经由计算机网络从远程服务器安装设施来提供它们。所述指令构成软件产品72,其被载入到ram62的电子存储器中。在被运行时,所述指令使计算机系统52作为基于咳嗽的诊断系统,和/或咳嗽或非咳嗽患者声音归类器而操作,并且尤其实施马上将描述的多种方法之一。本领域技术人员将认识到,软件产品72的编程直接鉴于本发明的所述方法,现在将描述所述方法的实施例。在以下方法中,各个变量均被操纵。将认识到,在计算机系统52用于实施所述方法的操作期间,cpu70的对应的寄存器将被增量,并且借助电子信号沿被蚀刻在主板68上的传导总线行进,而将数据写到二级储存设备66和ram62并从二级储存设备66和ram62检索所述数据。因此,随着计算机系统72运行软件以实施现在将描述的方法,在计算机系统52内发生物理效应及变换。尽管所述计算设备已被视为包括个人计算机(例如台式或膝上型计算机),但本发明的实施包含其他计算设备。例如,本发明的实施例包含专用医学设备以及还有装载有应用(即用于实施本文描述的方法中的一个或多个的“app”)的智能手机。在智能手机的情况中,所述手机的内置麦克风可以被用于监测所述患者声音,或者备选地一个或多个高品质外部麦克风可以被连接到智能手机用于这样的监测。根据本文描述的方法,智能手机可以经由移动电话网络和/或因特网,将患者声音的数字记录传输到远处的计算机,所述计算机然后处理所述数字记录。可以将所述处理的结果传输回智能手机,用于在其上的显示,或者备选地在远处的计算机的控制下被显示在电子显示设备上。所述计算设备也可以被接口连接到多个患者传感器,例如移动传感器;eeg传感器;氧水平传感器、呼吸检测传感器、温度传感器。也可以在本文描述的各个方法的执行期间,使用来自这些传感器的数据。针对该工作的数据是在印度尼西亚日惹的sardjito医院,从针对呼吸不适而被收治的儿科患者记录的。我们在自然医院环境中采集数据,除了将我们的声音记录系统放置在床边以外,没有以任何方式修改它(参见图1)。在白天期间,在两种类型的病房(单人和双人房间)中进行记录。研究协议已接收来自sardjito医院和澳大利亚昆士兰大学的伦理审查。我们的数据库包括来自跨度5-64个月年龄范围的儿童的咳嗽声音。纳入与排除准则的细节参见表1。表1研究中使用的纳入与排除准则在医师已检查对象并且初始处置已开始之后,启动所述记录。针对每个对象的记录的持续时间为4-6小时。在表2中,我们说明所了对象的人口统计学细节。表2该研究中涉及的对象的人口统计学信息。2.2.咳嗽分割方法能够如下将离散化的声音记录,r[n],建模为咳嗽声音sc[n]、背景噪声b[n]与非咳嗽声音snc[n](例如说话、哭喊、发声、器具移动等)的加和:r[n]=sc[n]+b[n]+snc[n](1)本发明的实施例提供一种用于从记录r[n]提取sc[n]的自动方法。在图2中示出总体方法的框图。其包括四个主要过程:(a)降噪,(b)从数据子区块的特征提取,(c)数据子区块到咳嗽组(cg)与非咳嗽组(ng)类别的归类,以及(d)通过合适地分组cg/ng归类的连续数据子区块,识别/形成咳嗽片段。在2.2.1-2.2.4节,我们提供对所述方法的详细描述。2.2.1降噪为了降低背景噪声b[n],我们通过两个不同的滤波器处理r[n]:(a)高通滤波器(hpf),以及(b)功率谱减法(pss)滤波器。hpf被设计为四阶巴特沃斯滤波器。其被用于降低可能来自麦克风架或床的移动的低频干扰。pss滤波器被用于降低局部静止的背景噪声。其通过以原始声音信号的功率谱减去估计的背景噪声,估计干净声音信号[15]。能够如下改写滤波之后的输出信号我们通过在降噪过程之前和之后计算信噪比[snr],测量了所述滤波器的性能,所述信噪比[snr]被定义为信号幅值相对于背景噪声的量度。所述snr被计算为:其中rs和rb分别为信号和背景噪声b[n]的均方根(rms)值。在所述降噪过程之后,被用作对特征提取单元的输入。2.2.2对声音信号的特征提取在该节,我们描述咳嗽声音产生的模型以及特征提取单元的细节。(a)咳嗽声音建模基于生理学考虑,咳嗽声音通常被视为四个不同相位的组合[1]:吸气、收缩、压缩和排出。所述吸气相位由吸入开始并且由声门、上喉部括约肌或两者的关闭而结束。在所述收缩相位,呼吸肌肉群收缩抵住声门结构,产生以齿槽、胸膜和声门下气道压明显升高为特征的压缩相位。在所述排出相位中,声门快速打开随后是空气在大压力梯度下的快速呼出。从肺部排出的空气的快速移动生成咳嗽声音,其具有来自呼吸系统的不同区域的贡献。咳嗽声音产生的机制与语言产生共有一些相似点。(b)特征设计与提取为了获得声音信号的特征,我们对应用长度为n的矩形滑动窗口wr[n],生成数据子区块。使第k个数据子区块由sk[n]指代,因此能够被表达为子区块sk[n]的串联,即其中k为中子区块的总数目。我们针对每个子区块sk[n]计算以下特征。i)梅尔频率倒谱系数(mfcc):mfcc被广泛用于语言处理[16、17],并且被发现针对打鼾分析也高度有用[18-21]。在该工作中,受咳嗽/呼吸声音与打鼾和语言的相似性的启示,我们探索了mfcc在咳嗽分割中的应用。我们计算每个子区块sk[n]的第一l梅尔频率倒谱系数m(l)k={m(l)k,1=1,2,…,l}。通过利用信号sk[n]乘以汉明窗口wh,随后应用快速傅立叶变换(fft)、梅尔频率滤波器组fm滤波和离散余弦变换的连续过程,计算所述系数。在(4)中限定所述梅尔频率滤波器fm,并且在(5)中给出m(l)k。其中dc(c=1,2,…,c)为梅尔滤波器组的输出。ii)共振峰频率:在语言中,共振峰频率示出声道共振的特性;在打鼾声音分析中,它们指示上气道的共振。我们假设在咳嗽/呼吸声音中,共振峰可以携带整个呼吸道的共振。例如,源于肺部的支气管的振动的气喘声音可以贡献于咳嗽声音中较高频率的共振峰(共振频率)。在该工作中,我们估计第一p共振峰频率f(p)k={f(p)k,p=1,2,...,p}。通过经由莱文森德宾递归求解yule-walker方程,确定lpc谱及其参数[22]。iii)过零率(zcr):被定义为信号跨过零轴的总时间的zcr是用于检测信号的周期性质而无论其幅值的简单但有用的方法。如下计算zcr特征zk。其中,如果自变数a为真,则指示函数π{α}为1,否则为0。iv)非高斯性评分(ngs):非高斯性评分(ngs)提供一种容易的方法,以量化给定信号与高斯模型的偏差。在我们关于打鼾声音分析的先前工作中[23],该特征显示筛查阻塞性睡眠呼吸暂停的能力。为了获得ngs,在每个且每一个sk[n]中,我们计算正太累积分布函数(γ)的倒数(f-1),如在(7)中给出的。γ=f-1(p|μ,σ)={γ:f(γ|μ,σ)=p}(7)其中,μ,σ分别为sk[n]的平均和标准偏差,并且在(8)中定义p。ngs(nk)为sk[n](γ)的概率图与在(9)中给出的其参考高斯概率图(g)的偏差,其中g[n]和γ[n]分别表示参考正态数据与被分析数据的概率。v)香农熵:咳嗽声音是表示来自呼吸道的各个子结构的贡献的复杂信号。这些分量中的一些显示伪周期性结构,而其他的具有随机性的随机特性。在一些情况中,咳嗽声音具有从吸气相位到呼气相位的突然转变。该时期可以包含立即中段以及高频分量。在该工作中,我们计算了香农小波熵,以捕获这些特征。在小波分析中,能够使用互补滤波器,将在刻度i的信号sk[n]分解成其高频分量和低频分量,所述互补滤波器包括低通和高通滤波器。将来自低和高滤波器的输出定义为近似与细节(分别为ai和di)。使用在(9)中的定义,通过计算如在(10)中的小波能量谱ei,获得小波香农熵sk[24]。ei=|di[n]2|(10)针对每个子区块sk[n]计算在b(i)-b(v)中描述的特征。在每个特征中,我们计算mk、fk、zk、sk和nk中每个特征的最小值和最大值。我们使用这些值,以将对应的特征的分量归一化到-1至1的范围中。然后将sk[n]的归一化参数向量fk定义为:fk={[mkfkzksknk]t}。针对第j个患者的总体特征矩阵gj则由gj={f1,1,f1,2,…,fk,j,…,fk,j}给出。如图2中图示的,根据本发明的实施例的咳嗽分割技术通过以下而开始,即基于特征向量fk,j,将每个且每一个数据子区块sk[n]归类为咳嗽组(cg)和非咳嗽组(ng)的两个非重叠类别。在2.2.3节,我们描述我们在子区块水平针对该cgng归类开发的模式归类方案。2.2.3子区块到咳嗽和非咳嗽类别的归类本发明的一个实施例利用人工神经网络(ann)作为在子区块水品的cg/ng模式归类器。我们使用了通过人脑的功能启示的ann,以识别不同类型的咳嗽声音,而无论它们的强度、持续时间或湿度。而且,ann具有几个优点,在于其能够基于具有一套给定范例的监督式学习的过程,使用非线性决策边界归类数据。相比较常规方法,已证明其具有利用有限的训练数据集工作的能力[25]。在该工作中,我们使用了被称为时延神经网络(tdnn)的特定形式的ann[26],其已在语言识别应用中获得成功。tdnn能够归类减损输入特征集的时间平移[26]的数据子区块sk[n]。我们在图3中示出tddn的结构。其包括输入层、隐藏层和输出层。在tdnn中,我们使用矩阵gj的d个连续特征向量,以将子区块归类为cg/ng类别。为了归类下一个子区块,我们将输入右移一子区块,并且使用下一组的特征向量。我们从矩阵gj的开始到结束执行该过程,因此能够将中的全部子区块都归类成cg/ng类别。贯穿训练、验证和测试的整个过程,执行使用tdnn对子区块的归类。为了完成这些过程,我们准备数据集,选择训练参数,训练tdnn,并且验证归类结果。在以下子节中描述这些过程的细节。(a)tdnn数据集准备我们形成了包括来自记录的咳嗽和其他声音的数据集。在我们的数据集中有665个咳嗽声音。我们将我们的数据集划分成三个非重叠的随机分区,并将它们分别命名为训练(tds)、验证(vds)和测试(teds)。tds、vds和teds占数据库的比例(分别为40%、30%和30%)。我们用符号cm指代第m个这样的随机分区,m=1,2,…,m,其中m为该工作中使用的随机分区的总数目。独立地分析全部归类数据集。我们通过应用使用随机子采样(sub-sampling)技术的k-折交叉验证方法,有效地使用我们的数据集。通过使用归类数据集的信息咳嗽片段位置,我们定义矩阵wk=[w1,w2,...,wk,…,wk,wk=π{cg类别}],其中wk为当π{cg类别}的自变数为正确时由“1”填充否则由“0”填充的每个子区块的类别。矩阵wk被用作训练过程中的目标。注意,wk的维数类似于gj。(b)tdnn训练过程用于该研究的tdnn具有如在表3中规定的参数。表3tdnn训练参数我们在3.4节解释了被用于确定对神经元的数目的选择的程序。我们构建了tdnn的网络,用netc指代,其包括输入层li、隐藏层lh和输出层lo。线性与sigmoid函数被选择为层之间的激活函数。为了确定初始权重和偏差,我们使用了nguyen-widrow初始化方法。为了在训练过程期间更新神经元的偏项和权重,我们采用弹性反传(rprop)算法[27]。发现rprop成功地克服了确定学习率用于更新神经元的权重的问题。在梯度下降算法中,太小的学习率增加了计算时间,而太大的学习率将在以合理误差到达最佳点之前产生振荡。相反,rprop使用自适应的值以更新权重,因此其能够快速达到最大优化。在[27]中描述了该算法的细节。在所述训练过程中,我们定义了停止准则:(a)训练数据的均方差(mse)小于10-5,(b)验证误差开始增大,以及(c)达到训练性能中为10-10的最小梯度。除非训练被更早停止,否则允许神经网络训练直到100次。一旦已设定了这些参数,我们开始训练tdnn。在训练过程中,我们让tdnn的网络netc学习将子区块归类成cg/ng类别。通过提供d个从gj到netc的连续特征向量以逼近wk中的目标,进行所述过程。我们调查了fk中的特征的几个组合,以寻找在归类cg和ng类别中提供最佳结果的输入的组合。我们在训练过程期间将netc的输入指代为wk的近似值。为了识别咳嗽片段,如在以下节中处理2.2.4咳嗽片段的识别在该节中,我们描述在片段识别过程中用于通过处理tdbb的输出获得咳嗽片段的技术。所述过程包括以下:平滑化tdnn的输出,应用阈值到平滑化的信号以获得片段,对片段的持续时间的测量,以及基于准则对片段的选择。在以下步骤中描述总体过程:(s1)定义参数β,确定移动平均滤波器(h)的跨度的小的正整数。对滤波器h应用以产生平滑信号(s2)应用阈值(λ)到平滑信号来自该过程的输出信号被指代为在(11)中给出的中连续元素的组被定义为咳嗽片段候选。(s3)计算中包含‘1’的对应片段的持续时间(τs)。通过确定每个片段的开始和结束执行该过程。a.开始k=1,寻找k的最小值(称作ka),其中全部子区块对应于ng类别的类。取子区块k=ka的开始为ng片段的开始。b.为了识别咳嗽片段的开始,在ka<k<k的域中开始搜索。寻找该域中k的最小值(称作kb),使得中没有一个子区块对应于ng。取子区块k=kb的开始为cg片段的开始。c.在类似于步骤(s3.a)的过程中确定ng的结束,其中搜索针对k被设定为kb<k<k的域。(s4)定义τ最小和τ最大的参数,小的正分数,其确定来自儿童的典型咳嗽声音的最小和最大片段持续时间。持续时间在该约束外的片段将被丢弃。我们将该过程的输出信号指定为步骤(s1)-(s4)描述了用于确定sc[n]每个片段的开始与结束,以及用于削减记录中snc[n]的片段的方法。为了验证结果,将在中全部获得的咳嗽片段与wk中的咳嗽片段进行比较。ii.结果与讨论3.1咳嗽片段持续时间在我们的临床数据中,我们通过视觉观察与倾听的组合过程,识别了每个咳嗽片段的持续时间(τs)。在图4中图示τs的平滑化概率密度函数。咳嗽片段具有为(τ最小=0.18s和τ最大=11.6s)的最小和最大持续时间。咳嗽片段的平均和标准偏差为(μs=0.373,σs=0.144)。在分割过程中,我们使用τ最小和τ最大作为准则之一,以将预测片段确定为咳嗽或非咳嗽声音。我们在3.5节中描述该过程。3.2降噪非受控环境中的记录使得数据更容易受背景噪声影响。在我们的记录中,我们识别了噪声的两个独立分量:(a)10hz以下的低频噪声和(b)白高斯噪声(参见图5(a))。从所述图可见,记录在1.54-5.92db的范围上具有差的信噪比(snr)。为了减少这些噪声,我们使用了具有10hz截止频率的四阶巴特沃斯高通滤波器(hpf)以及功率谱减法(pss)滤波器。这些滤波器显著改善了snr。hpf使其增大到11.98-17.19db(图5(b))并且pss进一步使其增大到12.62-17.44db(图5(c))。这些结果显示,所开发的滤波器能够降低背景噪声,并改善记录信号的snr。3.3声音特征的特性如在2.2.2节中所述,我们针对sc[n]的每个子区块,计算了特征向量fk={mkfkzksknk}。我们使用子区块大小n=882(20ms)。所选择的子区块大小为用于对mfcc的特征提取的基本单元。更小的大小(例如10ms)由于在梅尔滤波器积分中涉及很少的样本而一般导致失真的结果;更大的大小倾向于增大误字率[28]。特征向量fk包含22个元素:14个mk的系数(包括对数能量以及第0-第12倒谱系数),5个fk的系数,以及每个zk、sk和nk的1个系数。为了揭示这些特征的特性,我们计算了在cg和ng类别中的特定声音的概率密度函数(pdf)。ng表示宽范围的非咳嗽声音,因此在该工作中,我们选择最主要的声音,例如哭喊(cy)、发声(简写为vc,例如讲话、典型的宝宝声)以及器具声音(简写为as,例如来自门框、推车、床的声音)。我们在图6-8中图示了fk的每个特征的平滑pdf。如从这些图可见,特征(mk、fk、zk、sk和nk)在咳嗽与其他声音之间的分布是重叠的。然而,特征的每个分量具有独特的分布。图6示出来自mfcc的随机选择的元素(m(1)、m(4)、m(9)和m(11))的pdf。从图5(a)和图5(b)可见,m(1)的pdf在cg和as类别中具有不同的平均值(μ=0.31对0.18)。m(9)的pdf在图5(c)中显示,cg具有比cy低的平均值(μ分别=-0.01对=-0.13)。图7展现共振峰频率的pdf。f(1)、f(3)和f(5)的共振峰频率的统计分布(平均,标准偏差,偏态,以及峰态)在cg与as之间是可区别的。f(2)的分布在cg、cy、vc和as中的分布看起来相似,然而cg具有最低的平均值(-0.06)。而且,f(4)在ts中的分布在类别中具有最低的平均值(-0.003)。在图8中,我们图示cg、cy、vc和as的ngs指数。ngs具有将cg与vc和cy区分的潜力(图7(d))。类似地,从图6(b)可见,zcr能够被用于区分cg与as。特征的pdf显示,没有显著特征能够被单独用作针对tdnn的输入以归类cg/ng类别。因此,为了获得所述特征的每个分量的最大利益,我们将它们组合并将d个连续特征向量用作tdnn的输入,以归类cg/ng类别。3.4在cg/ng归类中的基于tdnn的分析在该工作中,我们使用了五个连续特征向量(d=5);因此输入层中神经元的数目为(li=110)。在所述输出层中,仅有一个神经元(lo=l)以代表cg或ng类别。为了确定lh中神经元的数目,我们在训练过程期间测试了几个数目的神经元。为了评价网络(netc)的性能,我们计算了有以下等式定义的灵敏度和特异性。灵敏度=tp/(tp+fn)×100(12)特异度=tn/(fp+tn)×100(13)其中tp=真阳性,tn=真阴性,fp=假阳性,并且fn=假阴性。在表4中,我们示出针对不同值的lh的netc的性能。表4tdnn针对隐藏层(lh)不同组合的性能。具有20个神经元的隐藏层显示最好的归类性能从表4可见,在测试集(teds)中,在隐藏层中具有20个神经元的netc具有最高的灵敏度和特异性(两者均为91.51%)。因此,针对该讨论的剩余部分,我们固定网络netc(li=110,lh=20,lo=1)。netc中神经元的数目足够紧凑以被用于具有有限的计算资源的系统中。小数目的层和神经元也改进了网络用于开发针对cg/ng归类的最佳模型以及用于避免存储训练中给出的样本的能力。我们在表5中示出使用特征的不同组合,子区块sk[n]到咳嗽(cg)和非咳嗽(ng)类别的归类的性能。表5tdnn在特征的不同组合中的性能。{mkfkzksknk}的完整组合具有最优的灵敏度和特异性。在所述测试集(teds)中,使用{zkshknk}的归类结果显示最低的灵敏度和特异性(分别为79.95和99.98)。{mkfk}的组合具有较高的结果,89.37%的灵敏度和特异性。与之对比,{mkfkzksknk}的组合达到为91.51%的最优灵敏度和特异性。接下来,我们探讨了组合{mkfkzksknk}作为针对tdnn的输入。在表6中示出tdnn针对m=14,(cm,m=1,2,…,14)的性能。表6针对m=14,(cm,m=1,2,…,14),来自tdnn的ng/cg归类结果的汇总。计算针对每次实现的归类结果,cm,m=1,2,…,14,并且估计灵敏度和特异性的平均和标准偏差(分别为91.13±0.0073%和91.14±0.0073%)。2.3.咳嗽片段从子区块的形成我们在图9中图示了从在3.4节中归类的子区块开始,咳嗽片段的形成。图9(a)示出来自降噪过程的信号,而图9(b)图示来自基于tdnn的归类的输出信号。在图9(b)中,我们示出网络netc的输出,表示对cg和ng类别的状态的近似值(分别为1和0)。如可见,与咳嗽声音相关联的子区块的组形成具有接近于1的值的片段,并且否则为来自非咳嗽声音的子区块的组。从图9(b)也可见,网络netc有效地将子区块归类成cg和ng类别,即使它们与讲话重叠(在cg3信号中图示)。然而,cg2和cg5片段的中间部分中的子区块中的一些被错误归类为ng类别,由从高到低的值的尖锐转变指示。为了细化片段并减少片段中被错误归类的子区块,我们基于移动平均滤波器,将信号处理成平滑过程。在该阶段中,我们小心地选择移动平均滤波器的跨度为(β=9)。我们在图9(c)中示出从平滑过程获得的平滑信号如从图9(c)可见,对于的片段中的尖锐转变部分得以减少。为了确定咳嗽片段的开始和结束,将中的全部元素与阈值(λ)进行比较。如果则对应的元素将被设置为1,否则对于为0,其中λ被设置为0.05。选择该λ的值以使归类器性能最大化。我们在图9(d)中示出来自阈值处理过程的输出信号其现在包含两组从1与0元素形成的片段。我们将具有为1的元素的片段表示为咳嗽片段候选。接下来,我们将咳嗽片段候选中的第一元素定义为片段的开始,并且将最后的元素定义为片段的结束。从3.3和3.4节我们知道,片段中的每个元素都代表20ms子区块的类别。因此,我们能够通过将片段的开始与结束之间的元素的数目乘以20ms,计算片段的持续时间。我们计算了每个片段的持续时间(τs),并将τs相对于在3.1节中获得的最小和最大咳嗽持续时间进行测试。仅将持续时间在边界以内(τ最小<τs<τ最大)的咳嗽片段选择为咳嗽片段。在图10中示出对该过程的图示。从该图可见,所提出的方法有效地分割咳嗽(cg1-cg6),即使它们具有不同的强度和持续时间。而且,尽管咳嗽声音cg3与讲话重叠,但所述方法能够提取对应的咳嗽声音。图9(d)中示出的假片段(fd)也已被消除。图11图示所述分割方法在典型的信号中的输出,所述信号包含与哭喊生混杂的咳嗽声音。所述方法成功地从所述信号提取到两个咳嗽声音,并且仅从长持续时间的哭喊中检测到一个假片段。我们在表7中示出我们的分割方法针对m=14,(cm,m=1,2,…,14)的性能。表7咳嗽分割方法针对m=14,(cm,m=1,2,…,14)的性能。计算针对每次实现,cm,m=1,2,…,14,的分割结果并估计灵敏度和特异性的平均和标准偏差(分别为95.07±3.43%和94.76±4.02%)。结果也示出,相比较子区块归类的结构,咳嗽片段从子区块的形成过程使灵敏度和特异性改善了约4%。所提出的方法成功地削减了诸如哭喊、发声的声音,以及其他环境声音。在该工作中,我们使用非接触式传感器记录了来自印度尼西亚儿科病房中的儿童的咳嗽。我们发现,非接触式传感器因容易部署和感染控制,而针对该目的是优选的。我们的工作集中在小于5.5岁的儿科群体,这是先前的研究所未触及的区域。该年龄范围的儿童更易受呼吸系统疾病侵害,显示有高发病率和死亡率。因此,用于开发分析来自该群体的信号的方法的研究极为重要。肺炎/非肺炎以及湿咳/非湿咳声音归类方法现在参考图12,示出图示根据本发明另外一方面的优选实施例的方法的框图。开发图12中图示的方法用于对与患者相关联的特定疾病状态的诊断,例如肺炎/非肺炎归类。在该说明书的最后讨论根据本发明的实施例的归类方法另外的实施例。临床评估及纳入-排除准则该工作的数据采集环境为印度尼西亚gadjahmada大学sardjito医院的的呼吸医学单元。我们的对象群体包括具有呼吸系统疾病的症状的个体。由临床医师针对存在的症状评估医院的普通病房收治的患者。在标准纸上记述全部观察结果。观察结果包括咳嗽、流涕、呼吸困难、腹泻等等的存在。临床医师也记录温度、呼吸速率、spo2和心率。表8列出纳入与排除准则。接洽满足纳入标准的全部患者。完成知情同意。在患者收治的前12小时内招募他们。在知情同意之后,针对接下来的4-6小时进行连续声音记录。表8.研究中使用的纳入与排除准则a.数据采集与记录系统。声音记录是在医院的普通成人病房中进行的。患者与通过窗帘隔开的5名其他患者共用房间。患者由它们的家人陪伴。主治医师定期访问患者,然而不记录与患者有关的机密信息。记录中存在的常见噪声来自吊扇、脚步、讲话、敲门声、推车移动以及来自房间外部的其他模糊的噪声。使用两个系统进行咳嗽声音记录,(i)计算机数据采集系统——高保真度专业品质的前置放大器和a/d转换器单元,(美国加利福尼亚m-audio的modelmobile-preusb),带有相匹配的一对具有超心型指向性束模式的低噪声麦克风(澳大利亚悉尼rode的modelnt3)。(ii)便携式记录系统——高端轻质便携式2-aa电池供电的录音机(olympusls-11),具有两个精密电容式麦克风。在两种记录设置中,我们使用44.1khz的采样速率,具有16bit的分辨率。从麦克风到患者的口部的标称距离为50cm,但由于患者移动而能够从40cm到70cm变化。我们接收到数字声音数据,辅以来自医院的临床诊断信息。在严格的口令控制方案下,将数据完全去除识别信息并且储存在安全防火墙之后。对数据的访问被限制到由主要研究者个体授权的参与研究者。b.根据咳嗽声音数据的特征计算图12示出针对肺炎/非肺炎归类形成的总体算法的框图,而图15示出针对湿咳/非湿咳声音归类形成的算法的框图。图13示出具有两个咳嗽事件的咳嗽声音的样本。在仔细聆听之后手动标记咳嗽事件的开始和结束。在对咳嗽事件的开始和结束的手动评分之后,我们遵循之后的步骤,以根据咳嗽事件数据计算数学特征。[c1].使x[k]指代离散时间咳嗽声音的第k个样本。滤波器x[k]使用数字高通滤波器以得到y[k]。由(1)给出所述滤波器在z-变换中的传递函数。图14示出具有b=[1-0.85]和a=[1]的滤波器响应。针对湿咳/非湿咳,声音归类将y[k]划分成‘n’个相等大小的片段。使yn[k]表示y[k]的第n个片段。针对肺炎/非肺炎归类,不考虑该子分割。[c2].在肺炎归类的情况中从经滤波的咳嗽片段y[k],并且在湿咳/非湿咳归类的情况中从每个经滤波的子片段yn[k],计算以下特征。1.非高斯性评分(ngs)——ngs给出数据的给定片段的非高斯性的量度。正常概率图能够被用于获得对一组数据的高斯性的视觉量度。能够使用(2)计算数据片段y[k]的ngs。注意在(2)中,p(k)和q(k)表示概率,并且和分别代表参考正常数据与被分析数据的平均值。能够在[29]中找到计算ngs的详细方法。2.共振峰频率——在人类语音分析中,共振峰被称作人类声道的共振。它们表现为在声学信号的lpc谱中的最大幅度峰。我们在我们的特征集中包含了第1四个共振峰频率(fl、f2、f3、f4)。以往在语言和声学分析中的研究已显示,f1-f4对应于上呼吸道的各个声学特征[30]。我们通过峰值拾取所述lpc谱,计算f1-f4。针对该工作,我们使用了第14阶lpc谱,并且连同levinson-durbin递归程序一起经由yule-walker自回归方法来确定其参数[31]。3.对数能量(loge)——使用等式3计算针对片段y[k]的对数能量。其中ε为任意小的正常数,添加其以防止任意偶然的为0的对数计算。4.过零率(zcr)——针对每个咳嗽事件计数的过零的数目。5.峰态(kurt)——峰态为使用(4)计算的与咳嗽事件数据y[k]的概率分布相关联的峰度的量度,其中(4)中的μ和σ为y[k]的平均和标准偏差。6.梅尔频率倒谱系数(mfcc)——mfcc通常被用于语音分析系统[32]。它们基于非线性梅尔刻度频率上的对数功率谱的余弦变换,表示声学信号的短期功率谱。我们在我们的特征集中包含12个mfcc系数。7.双频谱分(bs)——信号的三阶谱被称作双频谱。能够经由估计三阶累积量并然后进行2d傅立叶变换,估计所述双频谱,遵循该方法,其被称为估计所述双频谱的间接方法。使用(5)估计所述三阶累积量c(τ1,τ2),如在[33]中定义的。通过向累积量估计应用双频谱窗口函数,获得窗口累积量函数cw(τ1,τ2)。为此目的,我们使用在[34]中描述的最低双频谱-偏置上确界窗口(minimumbispectrum-biassupremumwindow)。使用(6)将片段y[k]的双频谱b(ω1,ω2)估计为累积量估计cw(τ1,τ2)的2d傅立叶变换。我们使用512个点的fft长度。在频域中,可以针对数据片段y[k]定义量使得描述了以角度tan-1ф偏向于ω1轴并且沿ω2轴从原点移动量ρ,(-π<ρ<π)的一维切片[5]。针对该工作,我们设ф=1并且ρ=0,使得所考虑的双频谱的切片偏向于ω1轴45度,并且穿过原点(即,在(ω1,ω2)平面中由ω1=ω2描述的线)。然后使用(8)计算双频谱分(bs)。在(8)中我们使用ω1=90hz,ω2=5khz,ω3=6khz并且ω4=10.5khz。在特征计算之后,针对每个咳嗽片段,在肺炎归类的情况中我们形成包含21个特征的特征向量(12个来自mfcc;4-共振峰频率;来自ngs、loge、zcr、kurt和双频谱中的每个各1个),并且在湿咳/非湿咳归类的情况中我们得到包含63个特征的向量(36个来自mfcc;12-共振峰频率;来自ngs、loge、zcr、kurt和双频谱中的每个各3个)。c.肺炎归类模型与特征优化我们使用基于咳嗽的特征,遵循针对肺炎归类的三步过程,所述三步过程如下:步骤1.在第一步骤中,我们将每个咳嗽事件归类为两个类别之一:‘肺炎咳嗽’或‘非肺炎咳嗽’。为了解决该问题,我们针对每个咳嗽事件形成特征向量,并且推导模型,所述模型能将咳嗽事件分成两个类别。利用如在表9中所示的不同的特征集推导不同的模型。表9.用于咳嗽事件到类别‘肺炎咳嗽’和‘非肺炎咳嗽’的归类的推导的逻辑回归模型。‘√’指示该特征在模型设计中的纳入。呼吸指数是通过从所记录的呼吸速率减去呼吸阈值而计算的。针对所述咳嗽归类,我们使用逻辑回归统计模型。其为广义线性模型,使用几个预测器(自变量)以估计分类事件的概率(因变量)。在该工作中(肺炎归类建模),假设因变量y针对肺炎咳嗽等于“一”(y=1)并且针对非肺炎咳嗽等于“零”(y=0)。使用逻辑回归函数推导模型,以估计概率y=l(即属于‘肺炎咳嗽’的种类的咳嗽事件),假设自变量(即特征集)如下:z=β0+β1x1+β2x2+...+βnxn(10)在(10)中β0被称作截距,并且β1,β2等等分别被称作自变量(特征)x1,x2的回归系数。使用matlab统计工具箱7.5版设计逻辑回归模型。选择特征以在最终模型中仅包含有助于所述归类的最优自变量(具有低‘p’值的变量)。然后将所述最终模型用于估计概率p,并使用概率阈值pth将每个咳嗽事件归类为属于两个类别中的任一个。步骤2.在第二步骤中,针对每位患者,我们加和‘肺炎咳嗽’的数目并使用(9)计算被称作‘肺炎咳嗽指数(pci)’的指数。步骤3.在第三步骤中,我们应用(在保持特异性>75%的同时针对高灵敏度而优化的)预定阈值pcith到所述pci,以将患者归类为两类,‘i类-肺炎’和‘ii类-非肺炎’。湿咳/非湿咳归类模型针对湿咳和非湿咳归类,我们再次使用逻辑回归统计模型。在该情况中,假设因变量y针对湿咳等于“一”(y=1)并且针对非湿咳等于“零”(y=0)。使用逻辑回归函数推导模型,以估计概率y=l(即属于‘湿咳’的种类的咳嗽事件),假设自变量(即特征集)使用(9)和(10)。然后选择特征以仅包含有助于归类的最优自变量(具有低‘p’值的变量)。然后将最终模型用于估计概率p,并使用概率阈值将每个咳嗽事件归类为属于两个类别中的任一个。iii.3.肺炎归类结果a.数据库和临床诊断从81个对象声音记录分析总计541个咳嗽事件(最少2个、最多12个,并且平均6.6+2.14个咳嗽事件)。81个对象中,50个为肺炎患者,并且31个为非肺炎患者。非肺炎患者患有以下疾病,例如,哮喘-11、支气管炎-8、鼻咽炎-6,以及其他(哮喘、扁桃体咽炎、心脏病、喉软骨软化病、异物吸入)-6。在全部疑似肺炎患者上执行胸部x光。未在其上执行胸部x光的十九名患者中,8名为哮喘、5名鼻咽炎、2名支气管炎并且4名其他疾病患者。表10给出患者数据库的年龄与性别统计资料。表10.该研究中使用的患者的年龄和性别统计资料针对在2.d节步骤1中使用逻辑回归推导咳嗽归类模型,我们将我们的数据库随机划分成两组,训练集和测试集。为了验证所述模型,我们从81个对象的数据库生成了200个不同的训练和测试数据集。每个训练集和测试互相排斥并且分别有56和25个对象。b.针对肺炎诊断的who准则vs临床诊断表11示出针对我们81个对象的数据库,使用who准则的肺炎诊断与临床诊断的肺炎病例的列联表。表11.使用who准则的肺炎诊断vs临床诊断的肺炎的列联表。bpm—每分钟呼吸次数。c.基于肺炎咳嗽指数的肺炎诊断表12示出在使用表9中给出的设计的4个逻辑回归模型将咳嗽事件分成两类时的训练与测试归类结果。表12.在2.d节步骤1中给出的方法之后,使用表3中示出的不同逻辑回归模型将咳嗽事件归类成两个类别(‘肺炎咳嗽’和‘非肺炎咳嗽’)的归类结果。被用于形成所述模型的选择的咳嗽特征为bsg、ff1、ff2、ff4、zcr、mfcc3和mfcc6。表13给出使用肺炎咳嗽指数的肺炎归类结果。根据表12,lr-模型5提供针对咳嗽事件归类的最优归类结果(平均灵敏度和特异性分别为85.6±8%和80.1±12%)。然而,在肺炎归类任务中,lr-模型4比lr-模型5表现更好。其达到分别为86.2±9.6与84.3±15的平均灵敏度与特异性。表13.在仅选择的咳嗽特征被用于所述模型训练之后,针对基于肺炎咳嗽指数的肺炎诊断的结果。选择的咳嗽特征为bl,ff1,ff2,zcr,mfcc系数4、6和9。iv.湿咳/非湿咳归类结果a.训练与测试数据集分析了来自46个对象的总计178个咳嗽事件。数据库中的对象的男女比率为1:1。对象的平均年林为3岁1个月。在儿童疾病领域专攻慢性咳嗽哮喘以及其他呼吸系统疾病的具有大于20年临床与研究经验的儿科医师,在小心聆听之后,手动将178个咳嗽事件归类为湿的和非湿的。我们将该手动归类视为‘参考标准’,将通过设计的lr模型的自动归类的结果与之进行比较。178个咳嗽事件中,82个为湿的并且96个为非湿,如通过参考标准归类的。我们使用咳嗽事件的70%(124个咳嗽事件)用于训练,并且30%(54个咳嗽事件)用于测试所述模式。使用随机数生成器随机选择训练和测试咳嗽事件。为了验证所述模型,我们从所述178个咳嗽事件生成了200个不同的训练与测试数据集。b.归类结果当全部咳嗽特征均被用于训练所述模型时,针对测试数据集使用lr-模型的湿/非湿归类的平均灵敏度和特异性分别为74.8±9%和69.9±9.4%。当仅使用选择的咳嗽特征时,平均灵敏度和特异性值跳至79±9%和72.7±8.7%。在特征优化之后,从63个中选择共22个特征。所选择的特征为来自bsg、loge和kurt中每个各1个;2个来自ngs;3个来自zcr;5个来自共振峰频率;以及9个来自mfcc。表14示出针对训练和测试数据集的平均灵敏度、特异性、准确度和kappa结果。lr-模型与参考方法之间的kappa一致性在使用全部咳嗽特征时为0.45±0.12,并且在仅使用选择的咳嗽特征时为0.52±0.1。表14针对200个设计的lr模型,灵敏度、特异性、准确度和kappa的平均±std值图16示出使用200个训练和测试数据集的灵敏度和特异性的柱状图。表15示出针对200个中的最优lr-模型的列联表。其具有90%的灵敏度、80%的特异性以及0.71的高kappa一致性。表15针对最优lr模型的列联表(lr=149)现在将描述根据本发明一方面的另外的且优选的实施例的第二肺炎诊断方法。v.2.第二肺炎诊断方法的材料与方法本发明的优选实施例的整体途径汇总于图17中。所述方法包括三个主要阶段:从对象对数据的采集,特征的形成以及模式归类器的训练,以及对技术的预期验证及性能评价。在2a-2c节,我们提供这些步骤的细节。d.咳嗽声音数据库的形成针对该工作的临床数据采集环境为印度尼西亚gadjahmada大学sardjito医院的呼吸医学单元。表16列出对象的纳入与排除准则。表16针对该研究招募疑似急性呼吸系统疾病(例如肺炎、细支气管炎、支气管炎、哮喘、鼻咽炎等等)的患者。使用由gadjahmada大学和昆士兰大学的人类伦理委员会认可的表单完成知情同意。在患者收治的前12小时内招募他们。儿科临床医师针对存在的症状评估患者。在标准纸上记述全部观察结果(例如咳嗽、流涕、发热、呼吸困难、腹泻等等)。数据库也包含常规人口统计信息和临床结果(例如胸部听诊、呼吸速率、血样定量、温度)以及实验室(例如血液、痰液分析)调查。在该讨论中针对肺炎诊断使用的参考标准是由医师在临床表现、实验室测试、胸部x光以及疾病的临床病程的基础上提供的整体诊断。为了使对儿童的辐射暴露最小化,仅在临床上疑似肺炎的对象上,或者存在对x射线的明确临床需要时,执行x射线。因此,在我们的数据库中并非所有对象均经历x射线成像。在初步医学评估之后,在呼吸病房的自然环境中进行声音记录。我们使用床边麦克风(nt7或lsi1,44.1khz采样率),收集来自每位患者的6-8小时持续时间的声音数据记录。取决于所述患者的头的位置,从口部到所述麦克风的距离能够在40cm至70cm之间变化。发明人的目的是开发对抗强度变化的鲁棒技术,使得从口部到记录设备的距离在诊断中不具有显著作用。我们使用总计91名患者(63个肺炎和28个非肺炎对象),以开发并验证我们的技术。诸如细支气管炎、哮喘、支气管炎、咽炎、喉骨软化病的疾病被集中在非肺炎组内。在图18中给出对象的细节。我们支配的整体数据集被分成两个非重叠的组:模型开发数据集(dmd)和预期验证数据集(dpv)。这两个数据集完全独立于彼此。集dmd和dpv不共享任意咳嗽或任意对象。基于到医院的呼吸诊室的出现次序,将患者分派到每个组。dmd和dpv分别包括nmd=66和npv=25个对象。来自每个对象的声音数据包括约6-8小时或连续的记录。在仔细聆听过程之后,手动分割咳嗽声音。没有用于对咳嗽的自动识别的已被接受的方法,并且手动分析仍在临床工作以及研究文献中被用作黄金标准。图19示出(a)肺炎咳嗽、(c)哮喘咳嗽、(e)支气管炎咳嗽和(g)细支气管炎咳嗽波形的典型范例,以及它们对应的功率谱图。可见肺炎咳嗽与其他咳嗽之间在持续时间和功率谱图幅值中明显的特性差异。e.特征提取与模型归类器设计我们针对该节描述的工作使用模型开发数据集dmd。设cmd为dmd中来自对象的咳嗽事件的总数目。这里采取的途径使用留一法模型构建与验证过程以形成特征,并优化模型参数。在该框架内,我们的方法能够被描述为四个主要过程步骤(参见图17),如下所述的步骤1至步骤4。在第一步骤中,我们计算特征矩阵。在第二步骤中,我们使用来自步骤1的特征矩阵设计自动归类器,以将咳嗽声音归类成‘肺炎咳嗽’和‘非肺炎咳嗽’类别。在第三步骤中,我们选择最佳归类器,并且在第四步骤中,我们定义新的指数(被称作肺炎咳嗽指数(pci)),以识别患有肺炎的患者。步骤1:咳嗽特征的提取与增大在该步骤中,我们的第一个目标是从咳嗽声音提取要被用于肺炎诊断算法的特征。来自dmd中的每个咳嗽事件的数学特征如下被计算:[1].设x指代来自任意咳嗽事件的离散时间声音信号。[2].将x分割成'n=3'相等大小的非重叠子片段。在文献19中,临床医师和科学家均已描述咳嗽声音包括3个相位,(i)初始开放爆发,(ii)继之以嘈杂气流,以及最后的(iii)声门闭合。已显示,这些相位携带有对咳嗽的质量而言特异的不同显著信息。在此基础上,我们将每个咳嗽片段划分成n=3个子片段。设xi代表x的第i个子片段,其中i=1,2,3,...,n。[3].针对子片段xi中的每个,计算如下特征:双频谱分(bgs)、非高斯性评分(ngs)、前四个共振峰频率(ff)、对数能量(loge)、过零率(zcr)、峰态(kurt)以及十二个梅尔频率倒谱系数(mfcc)。注意,我们不利用mfcc的第0个系数,其代表信号xi中的能量。[4].针对dmd中的全部cmd咳嗽事件重复步骤(i)-(iii)。该过程得到针对每个子片段xi大小为cmd×cf的候选咳嗽特征矩阵mc。其中,cf=63代表基于咳嗽的特征,并且cmd为数据库dmd中的总咳嗽事件。在最简单形式的诊断算法中,我们将仅使用基于咳嗽的特征以诊断肺炎。然而,我们认识到一些简单临床测量结果的存在,其能够被用于以在复杂度方面最低的成本改进我们的算法。针对资源贫乏区域的who算法,表17,使用年龄和呼吸速率,并且其他研究者已经使用发热的存在。表17尽管这些中没有一个单独或组合地已在偏远地区获得期望的诊断性能,但这些测量结果具有增大咳嗽衍生特征的潜力。受使用年龄作为参数之一的who算法启示,我们使用以月为单位的年龄,作为我们的模型中的候选参数。我们还使用发热的存在或不存在作为二元变量。在who算法中,呼吸速率在诊断肺炎中被用作主要参数。在我们的工作中,我们提出一种新量度(参见(1)),我们将其称作呼吸指数(bri),以捕获肺炎中的呼吸速率升高。在(1)中,br为呼吸速率,并且年龄为以月为单位的患者的年龄。尽管发热为肺炎的常见症状,但其并不特异于肺炎。类似的观察适用于呼吸速率。表18示出候选特征集fc={cf,f1,f2,…,ff},其中,cf代表咳嗽衍生的特征,并且剩下的指代在我们的模型中使用的增广特征。表18-被用于形成2-b节[步骤1]中的特征矩阵的六种不同组合的特征。这里打勾指示该特征在所述模型设计中的纳入。呼吸指数是通过从所记录的呼吸速率减去呼吸阈值而计算的。我们的算法中的最终特征将来自候选特征的组。特征选择、模型开发和验证的细节将在以下步骤2中描述。[步骤2]特征选择与自动归类器设计-本发明人使用逻辑回归模型(lrm)作为优选的模式归类器。然而,本领域技术人员将认识到,其他归类器方法也是适用的。lrm为广义线性模型,其使用几个独立特征以估计分类事件的概率(因变量)。在该工作中,设因变量y针对肺炎咳嗽等于“一”(y=l)并且针对非肺炎咳嗽等于“零”(y=0)。利用对肺炎的诊断归类从对象抽选的咳嗽事件被标记为肺炎咳嗽,反之亦然。使用回归函数推导模型,以估计概率y,假设独立咳嗽特征(即fc={cf,f1,f2,…,ff})如下:z=β0+β1f1+β2f2+...+βnff(3)在(2)和(3)中,f1,f2,...ff为特征向量fc(自变量)的元素,β0被称作截距并且β1、β2等等被称作自变量的回归系数。为了从y选择最佳决策阈值λ(如果y在λ以上则所述咳嗽为肺炎否则为非肺炎),我们使用接收者工作曲线(roc)分析。我们使用留一法交叉验证(lov)技术用于lrm设计。如名称所表明的,lov技术涉及使用来自除一个以外的全部患者的数据用于训练模型,以及来自一个患者的咳嗽事件用于验证模型。系统地重复该过程,使得dmd中的每个患者均有一次被用作验证数据。在该过程的最后,我们以nmd不同的lrm模型结束。为了评价所设计的nmdlrm的性能,计算性能量度,例如灵敏度、特异性、准确度、阳性预测值(ppv)、阴性预测值(npv)、cohen'skappa(k)统计。(i)特征选择:特征选择是选择相关特征的子集用于构建鲁棒学习模型的技术。理论上,最佳特征选择要求对特征的全部可能子集的穷举搜索。然而,针对大量特征这么做将是计算密集型且不实际的。因此,我们使用p值搜索了令人满意的特征的集。在lrm设计中,针对每个特征计算p值,并且其指示该特征多么显著地贡献于模型的开发。重要的特征具有低的p值。我们使用lrm的该性质,以在训练阶段期间,在模型中选择有助于归类的特征的合理组合(具有低p值的自变量)。计算针对fc特征在smdlrm上的平均p值。选择具有小于由pths给出的阈值的平均p值的特征。使cfs为从cf选择的咳嗽特征的子集,并且fcs为通过利用选择的咳嗽特征增大的特征形成的候选特征集。(ii)鲁棒lrm设计:一旦已知子集fcs,我们在另一次留一法验证过程之后,使用那些特征并再一次构建一套新的lrm。在该过程结束时,我们有nmd数量的lrm使用fcs作为输入特征集。[步骤3]从nmdlrm选择良好模型-从将所选特征fcs用作输入特征的候选lrm,我们基于k均值聚类算法选择一个模型作为最好的。在k均值聚类算法中,目标是将d维空间里的q个数据点划分成k个聚类,使得在所述聚类内,距重心的平方距离得以最小化。我们手里的问题是从对我们可用的nmd个模型选择良好模型。为了这么做,我们将d维空间里nmd个模型划分成k=2个聚类,即高性能模型聚类和低性能模型聚类。我们设空间维度d等于模型参数加上三个性能量度(灵敏度、特异性和kappa)。然后从所述高性能模型的聚类,我们选择相对于重心具有最低均方差值的模型。设代表所选的lrm并且为针对特征的特定组合的对应的概率决策阈值(使用roc曲线确定的值,使得归类器性能得以最大化)。一旦选择了我们固定模型的全部参数,并完全终止所述训练过程。然后将模型用作最优模型,以将每个个体咳嗽事件归类为‘肺炎咳嗽’或‘非肺炎咳嗽’组。[步骤4]肺炎咳嗽指数-在该步骤中,针对dmd中的每个nmd=66患者,我们使用以下定义计算肺炎咳嗽指数(pci)。肺炎咳嗽指数(pci)的定义:使‘p’为从患者记录并分析的咳嗽的总数目。并且使用在步骤3中选择的lrm将‘p’次咳嗽中的‘q’次归类为肺炎咳嗽。然后如下计算针对所述患者的pci指数pci=q/p(4)然后使用roc分析,我们计算阈值pcith(在保持可接受的特异性的同时针对高灵敏度得到优化),以将患者归类为两类,‘肺炎’和‘非肺炎’。f.在dpv上对选择的lrm和pci的测试遵循在2-b节[步骤1]中描述的程序并使用来自数据集dpv中的npv=25名患者的咳嗽事件声音数据,计算大小为cpv×cf的咳嗽事件特征矩阵mcdpv。cpv为dpv中的总咳嗽事件,并且cf=63代表基于咳嗽的特征。通过利用选择的咳嗽特征cfs扩增临床特征,从mfcsdpv形成mcdpv。使用在2-b节[步骤3]中选择的lrm以将mfcsdpv中的数据归类为类别‘肺炎咳嗽’和‘非肺炎咳嗽’。然后使用(4)计算针对dpv中的每名患者的pci。将在2-b节[步骤4]中计算的pciths应用于pci,并在pci>pcith时将患者归类为‘肺炎’,否则为‘非肺炎’。将通过pci的自动归类的结果与主治临床医师的结果进行比较,并计算性能量度。d.数据库与临床诊断使用来自n=91名患者(48名男性和43名女性)的声音记录。对象的平均年龄为3岁1个月(标准偏差3岁11个月)。对象的年龄范围从1个月至15岁。91个对象中,63个为肺炎患者并且28个为非肺炎患者。非肺炎患者患有诸如哮喘、支气管炎、鼻咽炎及其他(气喘、扁桃体咽炎、心脏病、异物吸入)的疾病。对65名患者执行胸部x射线(cxr),以证实诊断。未对其进行cxr的26名患者中,八名已被临床诊断为肺炎,并且17名为非肺炎患者。图18给出数据库中的年龄和疾病种类的分布。e.咳嗽声音特性图4示出肺炎咳嗽、哮喘咳嗽、支气管炎咳嗽和细支气管炎咳嗽波形,以及它们对应的功率谱图的典型范例。我们能够看到,在肺炎咳嗽与其他咳嗽之间,在持续时间和功率谱图幅值方面,有明显特征差异。肺炎咳嗽持续时间短,具有直到20khz的广泛分布功率谱。相反,其他咳嗽持续时间长,具有直到15khz的功率谱。肺炎咳嗽的平均持续时间(使用n=401次咳嗽为0.26±0.7s)显著小于(2侧t检验,p<0.005,t=-8.6786)其他咳嗽的平均持续时间(使用n=198次咳嗽为0.32±0.08s)。咳嗽声音波形一般是干净的,具有高信噪比(snr)。针对dmd的平均snr为15.8±5.6db(最大=28.05db并且最小=2.08db),并且针对dpv的为16.7±5db(最大=26.7db并且最小=7.9db)。f.基于who准则的肺炎诊断表19示出使用who准则的肺炎诊断与临床诊断的肺炎的列联表。针对社区环境中的肺炎诊断的who指南是针对2个月至5岁年龄组的儿童设计的18。“具有肺炎体征的小于2个月的婴儿被立即送到最近的医疗机构,因为他们有遭受严重疾病或死亡的高风险”。因此表19是使用我们数据库中的#68个对象生成的,其落入2个月至5岁的年龄范围。who准则在挑取临床证实的肺炎病例中达到83%的高灵敏度,然而呈现47%的差的特异性。g.使用在训练/验证数据集上设计的模型的肺炎诊断从n=91名患者,分析总计c=599个咳嗽事件。平均分析每名患者6.6±2个咳嗽事件(每名患者最少=2并且最多=12)。在2-a节中,我们将n=91名患者划分到两个数据集dmd(训练/验证数据集)和dpv(预期研究数据集)。dmd有来自nmd=66名患者的数据,具有cmd=440个咳嗽事件(平均=6.7±2,最少=2,最大=12)。dpv有来自npv=25名患者的数据,具有cpv=159个咳嗽事件(平均=6.4±1,最小=5,最大=10)。特征矩阵:遵循在2-b节[步骤1]中给出的方法,我们计算特征矩阵mc。我们使用n=3以将每个咳嗽片段划分成3个子片段。设置n=3从每个咳嗽事件给出63个数学特征,包括:(36mfcq+(12ff)+(bsg、ngs、loge、zcr和kurt每个3个)。利用咳嗽特征6扩增临床特征,创建咳嗽事件特征矩阵mfc。遵循lov技术,设计nmd=66lrm(由于在dmd中nmd=66名患者)。在特征选择之前使用lrm的肺炎咳嗽归类:针对f1特征组合(仅咳嗽的数学特征),在将咳嗽事件归类为肺炎和非肺炎咳嗽类别中,在66个lrm上的平均训练灵敏度和特异性为81±1%。验证灵敏度和特异性分别为63%和52%。当包括bri为特征时,验证集的灵敏度和特异性分别跳至71%和55%。并且当伴随咳嗽的数学特征,全部特征(年龄、发热的存在和bri)均被包括在训练lrm中时,灵敏度和特异性分别进一步增大到73%和62%。表20给出在使用特征的不同组合将咳嗽事件归类为肺炎与非肺炎咳嗽类别中,所述模型的性能。表20-当全部特征均被用于训练所述lrm模型时,所述模型在训练/验证数据集上,将咳嗽事件归类为‘肺炎咳嗽’和‘非肺炎咳嗽’类别中的性能。fc代表不同的特征组合。在特征选择之后使用lrm的肺炎咳嗽归类:遵循在2-b节[步骤2]中描述的程序并使用p值,我们选择针对每个fcs的特征。表6给出所选择的咳嗽特征以及被用于选择的pths的细节。表21-在所述特征选择步骤之后,从cf=63个特征选择30个咳嗽特征。表22给出特征选择之后,在将咳嗽事件归类为肺炎和非肺炎咳嗽类别中所述模型的性能。表22-当选择的特征被用于训练所述lrm模型时,所述模型在训练/验证数据集上,将咳嗽事件归类为‘肺炎咳嗽’和‘非肺炎咳嗽’类别中的性能。根据表22,我们看到针对全部fc,在所述特征选择之后模型性能的全面改进。当仅来自咳嗽事件的数学特征被用于训练所述模型时,针对f1s的验证灵敏度和特异性分别增加到69%和64%,其中k=0.31。针对f6s达到分别为80%和73%的最优灵敏度和特异性。基于pci的归类:从使用来自dmd的数据针对每个fcs的nmd=66个设计的lrm,使用如在2-b节[步骤3]讨论的k均值聚类方法选择鲁棒模型针对在2-b节的步骤[4]中的使用,固定所选择的模型以及其全部参数,针对每名患者计算pci指数。通过roc分析选择pcith并将其应用于pci,以将患者归类为‘肺炎’和‘非肺炎’。表23示出针对6种特征组合fcs的基于pci的肺炎/非肺炎归类结果。表23–在使用肺炎咳嗽指数诊断肺炎中,所选择的lrm在训练/验证数据集dmd上的性能。除f3s(其得到为86%的略低的特异性)以外,全部特征组合均达到大于90%的灵敏度和特异性。f1s(其仅使用咳嗽特征)具有93%的灵敏度,其中,k=0.83。h.使用所设计的模型在预期研究数据集上的肺炎诊断在包括npv=25名患者和cpv=159个咳嗽事件的完整新数据集dpv上测试在2-b节[步骤3]中选择的模型针对在将咳嗽事件归类为肺炎和非肺炎咳嗽中的性能,以及在使用pci将患有肺炎的患者与非肺炎分离开中的性能两者,测试模型。表24示出所选择的lrm在将咳嗽事件归类为肺炎和非肺炎咳嗽类别中的性能。表24-在前瞻数据集dpv上,所选择的lrm在将咳嗽事件归类为‘肺炎咳嗽’和‘非肺炎咳嗽’类别中的性能。表25示出模型在将患者归类为肺炎和非肺炎中的性能。表25-在预期数据集dpv上,所选择的lrm在使用肺炎咳嗽指数诊断肺炎中的性能。针对咳嗽归类,模型(所选择的咳嗽特征连同发热的存在、年龄和bri)达到最优归类,其中,灵敏度=88%并且特异性=85%。仅使用咳嗽特征的具有分别为83%和58%的灵敏度和特异性。在分开肺炎与非肺炎患者中,表现前3的模型为和全部具有大于0.7的kappa一致性,实质一致。达到分别为94%和75%的高灵敏度和特异性。vi.4.讨论与结论-第二种肺炎诊断方法本发明前面的实施例提供了用于使用咳嗽声音诊断肺炎的自动程序。所述方法基于首先将个体咳嗽事件归类为‘肺炎咳嗽’和‘非肺炎咳嗽’类别,并然后在全部所记录的咳嗽事件上计算肺炎咳嗽指数(pci)。在来自被诊断患有多种呼吸系统疾病的91名儿科患者的599个咳嗽事件上工作,我们示出能够在保持特异性>85%的同时以灵敏度>90%归类肺炎的方法。据本发明人认识,这是世界上首次尝试开发针对集中于咳嗽声音的肺炎诊断的客观模型。结果指示,在资源贫乏地区诊断肺炎时采取以咳嗽为中心的途径的可行性。此外,使用仅从咳嗽衍生的特征,我们以75%的特异性获得灵敏度>90%。能够利用非接触式器械记录咳嗽,并且我们的算法能够在普遍使用的平台(例如智能手机)上,以可由最少受训人员方便使用的方式,得以实施。所述设备将不要求与对象的物理接触,使得容易消毒且要求针对现场使用而言最少的操作者训练。所述技术,以最简单的版本,将要求5-10之间的咳嗽声音,并且将自动地且立即地提供诊断。这样的系统预期将成为在偏远地区肺炎诊断领域中颠覆性的新颖事物。所提出的技术的简单性以及在普遍使用的设备上潜在的低成本实施方式,使得我们的途径在长期监测中有价值。其也将在开发新疫苗以及针对儿童肺炎的管理策略中具有实质性的战略价值。在世界上资源有限地区中实施的新肺炎疫苗的临床试验需要可靠的工具,以测量干预的效力。对于评估靶向于大群体的任何新肺炎管理策略的有效性而言,同样如此。没有用于诊断肺炎的可现场部署的黄金标准,尤其是早期(不严重的)疾病,在其中甚至胸部x光也不起作用4。现有的who算法因其低的诊断性能而受限。尽管所述算法在挑取肺炎的潜在病例中扮演非常有用的角色,但这么做的代价,低的特异性,使其难以用于评估新干预的效度。使用逻辑回归的自动咳嗽归类器图20示出根据本发明的实施例的自动咳嗽归类过程的框图。其被划分成四个阶段,(a)数据采集过程(b)创建咳嗽声音数据库以及通过专家评分到干/湿类别的归类(c)自动归类器的设计(d)归类器在预期咳嗽声音数据库上的测试。在ii-a节至ii-d节中,我们描述所述方法的细节。a.数据采集针对该工作的临床数据采集环境为印度尼西亚gadjahmada大学sardjito医院的呼吸医学单元。表26列出对象的纳入与排除准则。表26–针对对象的纳入与排除准则接洽满足所述纳入标准的全部患者。使用由gadjahmada大学和昆士兰大学的人类伦理委员会认可的表单完成知情同意。在患者收治的前12小时内招募他们。在初步医学评估之后,针对在呼吸病房的自然环境中,针对接下来的4-6小时,进行声音记录。使用两个系统进行声音记录,1.计算机数据采集系统——高保真度系统,具有专业品质的前置放大器和a/d转换器单元,(美国加利福尼亚m-audio的modelmobile-preusb)以及相匹配的一对具有超心型指向性束模式的低噪声麦克风(澳大利亚悉尼rode的modelnt3)。使用adobeaudition软件第2版,以将声音数据记录到膝上型计算机上。—参见图1为该类型布置的图示。2.便携式记录系统——高端轻质便携式2-aa电池供电的录音机(olympusls-11),带有两个精密电容式麦克风。在两种声音记录系统中,我们使用44.1khz的采样速率,具有16bit的分辨率(cd品质记录)。从麦克风年到患者的口部的标称距离为50cm,但由于患者移动而能够从40cm到70cm变化。针对每名患者,我们也接收最终诊断以及实验室和临床检查结果。b.咳嗽声音数据集以及通过专业人员评分到湿和干的归类设n为使用其声音记录的患者的数目,并且c为来自n名患者的咳嗽事件的总数目。在对每名患者的声音数据的6-8小时的筛查之后,手动分割这c个咳嗽事件。没有被接受的方法用于对咳嗽事件的开始与结束的自动标记。手动标记仍被认为是黄金标准。在仔细聆听之后,手动标记全部咳嗽事件的开始与结束。我们将具有c个咳嗽事件的n名患者划分到两个数据集中,(i)ds1(模型设计数据集)以及(ii)ds2(预期研究数据集)。基于到医院的呼吸诊室的出现次序,将患者划分到ds1和ds2中。数据集ds1与ds2中的患者互不包含。(i)ds1——包括来自n1名患者的c1个咳嗽事件。来自该数据集的咳嗽事件被用于设计最佳模型。(ii)ds2——包括来自n2名患者的c2个咳嗽事件。来自该数据集的咳嗽事件被用于测试所设计的模型。来自ds2的咳嗽事件对模型设计的过程而言是盲的。在儿科呼吸系统疾病中具有15-20年经验的两名专家评分者然后将来自两个数据集的咳嗽事件评分为两个类别,干的或湿的。评分者对对象的历史和诊断是盲的。将该手动归类视为相对于比较自动归类的结果的参考标准。c.咳嗽声音归类器的设计为了设计用于对咳嗽声音的自动归类的系统,我们使用来自ds1的咳嗽事件。设dsll为ds1中包含两名评分者对咳嗽声音的类别意见一致的那些咳嗽事件的子集。我们在ds11中有c11个咳嗽事件。使用ds11中的咳嗽事件以设计自动归类器模型。这是个三步骤过程。[步骤1]咳嗽事件特征矩阵计算:在该步骤中,从c11咳嗽事件中的每个,计算包含‘f’数学特征的特征向量,并形成大小为c11×f的咳嗽事件特征矩阵‘mds11’。使用以下步骤以从咳嗽事件计算‘f’特征。(i)设x指代来自咳嗽事件的离散事件声音信号。(ii)通过用其除以绝对最大值归一化x。(iii)将x分割成‘n’个大小相等的非重叠子片段。设xi代表x的第i个子片段,其中i=1,2,3,...,n。(iv)针对每个子片段计算以下特征,并形成包含f特征的特征向量:双频谱分(bgs)、非高斯性评分(ngs)、共振峰频率(ff)、音高(p)、对数能量(loge)、过零率(zcr)、峰态(kurt)以及十二个梅尔频率倒谱系数(mfcc)。(v)针对全部c11个咳嗽事件重复步骤(i)-(iii),并形成大小为c11×f的咳嗽事件特征矩阵mds11。[步骤2]自动归类器设计:在本发明目前描述的方面的优选实施例中,我们使用逻辑回归模型(lrm)作为模式归类器。lrm为广义线性模型,其使用几个独立预测器,以估计分类事件的概率(因变量)。在该工作中,假设因变量y针对湿咳等“一”(y=1)并且针对干咳等于“零”(y=0)。使用回归函数推导模型,以估计概率y=l(即咳嗽事件属于‘湿咳’种类),假设自变量(即f特征)如下:z=β0+β1f1+β2f2+...+βnff(2)在(1)和(2)中f1,f2,....ff为特征向量(自变量)的元素,β0被称作截距,并β1,β2等等被称作自变量的回归系数。为了从y选择最佳决策阈值λ(如果y在λ以上则所述咳嗽为湿的否则为干的),我们使用接收者工作曲线(roc)分析。使用矩阵mds11中的数据(来自f自变量的c11观察结果)并采用留一法交叉验证(lov)技术用于lrm设计。如名称所表明的,lov技术涉及使用来自除一个以外的全部咳嗽事件的数据用于训练所述模型,并且一个咳嗽事件用于验证所述模型。系统地重复该过程c11次,使得ds11中的每个咳嗽事件均有一次被用作验证数据。这得到lc11数目的lrm。为了评价所设计的lc11的性能,计算性能量度,例如灵敏度、特异性、准确度、阳性预测值(ppv)、阴性预测值(npv)、cohen'skappa(k)统计。关于如何解读k值请参见附录a2。设计逻辑回归模型(lrm),用于(i)特征选择:特征选择是选择相关特征的子集用于构建鲁棒学习模型的技术。理论上,最佳特征选择要求对特征的全部可能子集的穷举搜索。然而,针对大量特征这么做将是计算密集型且不实际的。因此,我们使用p值搜索了令人满意的特征的集。在lrm设计中,针对每个特征计算p值,并且其指示该特征多么显著地贡献于所述模型的开发。重要的特征具有低的p值。我们使用lrm的该性质,以在训练阶段期间,在所述模型中选择有助于所述归类的特征的合理组合(具有低p值的自变量)。计算针对‘f’特征在c11lrm上的平均p值。选择具有小于pths的平均p值的特征。设fs为从f选择的特征的子集。(ii)鲁棒lrm设计:从mds11创建大小为c11×fs的矩阵m'ds11。矩阵m'ds11为仅具有从ds11中的c11咳嗽事件选择的特征fs的咳嗽事件特征矩阵。使用m'ds11并采用lov,再训练c11lrm。[步骤3]从lc11lrm选择良好模型:从lc11lrm我们选择一个模型作为最优的,使用k均值聚类算法9,以在预期研究数据集ds2上测试。在k均值聚类算法中,目标是将d维空间中的q个数据点划分成k个聚类,从使得在聚类内,距重心的平方距离得以最小化。我们手里的问题是从对我们可用的lc11个模型选择良好模型。为了这么做,我们我们将d维空间里lc11个模型划分成k=2个聚类,即高性能模型模型聚类和低性能模型聚类。我们设空间维度d等于模型参数加上三个性能量度(灵敏度、特异性和kappa)。然后从所述高性能模型的聚类,我们选择相对于重心具有最低均方差值的模型。设代表所选的lrm并且为对应的概率决策阈值(使用roc曲线确定的值,使得所述归类器性能得以最大化)。一旦选择了我们固定所述模型的全部参数,并使用其用于归类所述预期数据集ds2中的咳嗽声音。d.对选择的lrm的测试遵循在c节[步骤1]中描述的所述程序,并使用来自数据集ds2的咳嗽事件,计算大小为c2×f的咳嗽事件特征矩阵mds2。c2为ds2中的总咳嗽事件,并且‘f’为特征向量。通过仅选择鲁棒fs特征,从mds2形成m'ds2。使用选择的lrm以将m'ds2中的数据归类为类别湿的或干的。从的输出对湿/干类别的决策过程如下:设到给定咳嗽输入的输出为则如果所述咳嗽被归类为湿的否则为干的。将通过的自动归类的结果与专家评分者的结果进行比较,并计算在c节[步骤2]中描述的性能量度。全部算法均使用软件编程语言matlab7.14.0.739(r2012a)版被开发。咳嗽声音数据集以及专家评分之间的一致性本发明人使用了来自n=78名患者(41名男性和37名女性)的声音记录数据。对象的平均年龄为2岁11个月。对象的年龄范围从1个月至15岁,并且患有诸如哮喘、肺炎、支气管炎和鼻咽炎的疾病。表27给出患者的人口统计学与临床细节。表27–对象的人口统计学与临床细节从n=78名患者,分析总计c=536个咳嗽事件。每名患者平均有7个咳嗽事件得到分析(最小=2并且最大=13)。数据集dsl具有来自n1=60名患者的c1=385个咳嗽事件,并且数据集ds2具有来自n2=18名患者的c2=151个咳嗽事件。表28示出在将来自ds1和或ds2的咳嗽事件归类为两个类别湿和干时,两名评分者之间的列联表。表28-针对将咳嗽归类为湿/y的人类评分者之间的列联表。针对ds1,k=0.56并且%一致性=80.5%,以及针对ds2,k=0.54并且%一致性=77.5。在385个咳嗽事件中的ds1中,评分者在被用于形成子集ds11的咳嗽事件的类别上一致c11=310次(80.5%)。在数据集ds2中,它们在151个中一致117次(77.5%)。评分者1与评分者2之间的kappa一致性针对ds1为0.55并且针对ds2为0.54。在ds11的310个咳嗽事件中,82个属于湿类别并且228个属于干类别。然后将ds1l咳嗽事件用于设计lrm模型,如在ii-c节中描述的。e.我们的数据库中的咳嗽声音特性ds11中的干咳的均值持续时间为260+77ms(使用228次干咳计算的),并且湿咳的为238±54ms(使用82次湿咳计算的)。图21示出来自两名患者(id分别为#35和#38)的干咳波形和湿咳波形的典型范例。咳嗽声音波形一般是干净的,具有高信噪比(snr)。针对ds11的均值信噪比为15.2±5.5db(最大=28.65db并且最小=2.9db),并且针对ds2的为18.6±4.5db(最大=27.8db并且最小=11.1db)。图22a和图22b为针对ds11和ds2中的咳嗽声音的snr的柱状图。由人类操作者在聆听咳嗽声音之后仔细标记每次咳嗽的开始与结束,如在图21中所示。遵循在ii-c节[步骤1]中给出的所述方法,我们计算特征矩阵mds11。我们使用n=3以将每个咳嗽片段划分成3个子片段。在文献中,临床医师和科学家均已描述咳嗽声音包括3个相位,(i)初始开放爆发,(ii)继之以嘈杂气流,以及最后的(3)声门闭合24,25。已显示,这些相位携带有对咳嗽的品质而言不同的显著信息。在此基础上,我们将每个咳嗽片段划分成3个子片段。设置n=3得到长度为66的包括以下特征的特征向量f(n×12mfcc)+(n×4ff)+([n×[bgs,ngs,p,loge,zcr,kurt])。从c11=310个咳嗽事件和e=66个特征,创建咳嗽事件特征矩阵mds11。f.使用lrm的自动归类训练阶段期间的特征矩阵及lrm性能:遵循lov技术,设计lc11=310个lrm。针对310个lrm的均值训练灵敏度和特异性分别为92±1%和93±0.5%。针对这些模型的验证灵敏度和特异性分别为62%和84%。表4-(a)给出当全部f=66个特征均被用于训练lrm时的详细归类结果。表29:特征选择之前与之后的lrm性能。表中提供的统计数据为均值±标准偏差。在底部提供训练数据集的均值的95%置信区间。针对评分者1和评分者2,样本大小为来自数据集ds1中的n1=60名患者的c1=385个咳嗽事件。在385个咳嗽事件中,评分者在c11-310个咳嗽事件上具有湿/干一致。遵循在ii-b节[步骤2]中描述的所述过程,并使用pths=0.06,我们选择了fs=31个特征。图23示出与在c11=310个lrm上计算的f=66个特征相关联的均值‘p值’。选择具有小于pths=0.06的均值‘p值’的全部特征。所选择的特征为来自双频谱分、峰态及过零率数的每个1个,来自非高斯性频分和对数能量的每个2个,来自共振峰频率的5个,以及来自梅尔频率倒谱系数的19个。表30给出用于设计最终lrm选择的特征的细节。表30:通过在ii-c节[步骤2]使用n=3,从每个咳嗽片段计算f=66个特征。‘√’指示在ii-c节[步骤2]选择该特征用于设计所述最终模型。根据该表,基于mfcc的特征是最主要的。31个选择的特征中,19个特征是由不同的mfcc分量贡献的。在mfcc共振峰频率之后,利用5个特征进行第二最主要的贡献。而且除了第4个共振峰频率和基于音高的特征(其被完全忽略)以外,全部其他特征贡献于来自至少一个子片段的用于构建最终lrm模型的特征。当仅选择的特征fs被用于再训练lrm时,均值训练灵敏度和特异性分别被记录为87±1%和88±0.5%,并且验证灵敏度和特异性为81%和83%。lrm与评分者之间的验证kappa一致性在全部所述特征均被用于训练lrm时为0.46,并且当仅使用选择的特征时增加到0.58。表29-(b)给出在特征选择之后的详细训练与验证结果。lrm的选择:从使用来自ds11的数据设计的lc11=310个lrm,使用如在ii-c节[步骤3]中讨论的k均值聚类方法,选择最佳模型基于模型参数和性能量度,将模型聚类为两组,高性能模型和低性能模型。310个模型中,202个被聚类到高性能模型组中并且108个被聚类到低性能模型组中。lrm模型#26具有相对于高性能模型的重心的最低均方差值。选择该模型并固定其全部参数用于以后使用。在预期数据集ds2上测试在前瞻数据集ds2上的性能:表31给出相对于专家评分者的归类结果。表31-在数据集ds2预期研究数据集上的性能当评分者1,湿/干归类被用作参考标准时,具有77.5%的灵敏度、76%的特异性和0.47的kappa一致性。针对评分者2,结果为灵敏度75%、特异性64%和kappa0.31。当仅在其中评分者1和评分者2对归类意见一致的那些事件(117个咳嗽事件)上测试模型时,灵敏度跳至84%并且kappa值跳至0.51。表32示出列联表。表32:针对在数据集ds2上测试的选择的lrm的列联表k=0.51。当针对年龄和性别匹配时的lrm结果:表33示出当针对年龄和性别匹配时,lrm在ds11和ds2上的性能。表33-针对年龄和或性别匹配的数据集ds11和前瞻数据集ds2的lrm验证结果由于数据的有限可用性,我们仅考虑4个分类:(i)年龄<=60个月的男性,(ii)年龄<=60个月的女性,(iii)年龄>60个月的男性和(iv)年龄>60个月的女性。根据该表,在模型设计阶段期间,与不考虑分类时相比较,在四个分类上的模型验证性能大体上未见显著差异,表29和表33(a)。类似于此,在预期数据集ds2上,除了在第三个分类中(年龄>60的男性)以外(在其中的性能非常差),选择的模型在全部分类上均表现良好(表31和表33(b))。本发明的实施例包含用于将咳嗽声音归类为湿和干种类的自动客观的方法。具发明人所知,这是用于开发儿科咳嗽声音的干/湿归类的客观技术的首次尝试,尤其是在诸如肺炎的疾病中。相比较在它们的描述性分析中使用不多于30次咳嗽的现有工作,本文中呈现的结果基于来自78名对象的536个咳嗽事件。出于这些原因,尚无其他工作可用于与所述结果直接比较。用于对我们的技术的评估的参考方法是由来自不同国家的两名儿科呼吸系统医师对咳嗽声音到湿/干类别的主观归类。这些评分者对对象的实际临床诊断是盲的。在逐个事件的咳嗽归类中,两名专家在中等水平上彼此意见一致(κ=0.54的kappa值)。在5中,针对湿咳/干咳的临床医师间一致性报道为κ=0.88。然而应注意,在5中,临床医师是在患者水平上而非在个体咳嗽水平上评估咳嗽的湿度。当我们在患者水平上计算评分者之间的一致性时,kappa值增大到κ=0.66(基本一致)。这些数字进一步说明干/湿归类的主观性。我们的归类器技术是使用仅两名评分者达成共识的事件,在来自训练集(集ds1)的咳嗽上进行训练的。作为训练过程的输出,我们识别良好逻辑回归模型并固定其参数。然后以几种不同的方式在预期集(集ds2)上测试所述模型。当我们相对于在ds2内的共识事件测试时,达到最高灵敏度和特异性(84%和76%)的归类。有趣的是我们注意到,这些数字一致地高于我们通过相对于每名评分者的个体归类结果进行测试所得到的。我们的方法的另一突出特征在于,当评分者共识数据被用作基准时,其具有高阴性预测值(npv=93%)。这意味着如果所述模型将咳嗽归类为非湿的(干的),则最有可能的是两名专家评分者将独立地达到相同的结论。然而,与人类评分者相比,我们的方法的阳性预测值更低(ppv=55%)。因此,咳嗽中被所述模型归类为湿的相当大部分结果是被人类评分者达成共识地归类为干的。该现象似乎得到chang等人5呈现的结果的解释,他们发现专家人类评分者低评分了湿咳。在5中,他们系统地比较了专家临床医师的主观干/湿归类与气道粘液的支气管镜指示。他们报道,临床医师对干咳的归类不必然指示不存在分泌物。气道中的特定情形,例如小量的分密度,可能未在咳嗽声音中以足以被人类观察者检测到的幅值得到反映。在我们的方法中发现的较低ppv值的可能的原因之一可能是黄金标准(人类评分者,用于生成我们的性能统计数据)的该弱点。未来需要相对于支气管镜发现小心验证该假设。正确检测气道粘液的能力能够在化脓性肺部疾病的管理中尤为重要3,5。咳嗽是诸如肺炎、支气管炎和细支气管炎的疾病中的早期症状。对该症状的准确评估是在诊断急性疾病或监测慢性症状与处置效力中是关键因素。已知在儿童中,湿咳更可能与下呼吸道感染相关联3。作为检测气道粘液的方法,甚至在专家临床医师的方面,对湿咳的主观归类也具有低灵敏度。用于对干/湿咳的归类的准确客观的技术目前在商业或研究水品上均仍是欠缺的。据我们所知,该工作是世界上用于开发这样的技术的首次尝试。我们提供的第一种途经,用于使对咳嗽的干-湿归类自动化。可以通过系统性地优化参数以及精细调谐归类器的训练过程,改善本文中已呈现的结果。已讨论的启发式模型选择过程使得所报道的结果悲观估计。本发明人也相信,能够改进特征设置,并且能够进一步增大所述方法的归类准确度。然而在优化尝试之前,我们需要解决的问题是改进在临床诊断中使用的‘黄金标准’。小心控制的支气管镜检研究将最适合作为黄金标准。对该研究的另一个可能的限制因素是咳嗽声音数据库向干咳的偏差;几乎70%的咳嗽声音为干的,如由专家人类评分者所认识的。然而,利用所有这些因素,本发明的实施例目前能以高灵敏度(84%)和特异性(76%)以及与专家人类评分者的良好一致性(κ=0.51)归类湿咳与干咳。鉴于以上,将认识到,根据本文描述的本发明的实施例的方法能以高准确度和与儿科医师的良好一致性,将咳嗽声音归类为干的和湿的类别。据发明人所知,这是以在显著大的咳嗽样本上的完整训练与测试结果呈现的,首个已知用于湿/干归类的方法。其也是用于使在患有一系列呼吸系统感染疾病的儿科群体中的湿/干归类自动化的首次尝试。其有潜力成为用于长期咳嗽监测以及在对处置效力的评估中或在对下呼吸道感染的表征中的有用临床工具。其在其中需要咳嗽质量(干/湿)的以小时为基础的时间模式的临床或研究中将是非常有用的。可以与其他可以能够检测肺中实变和粘液的潜在技术一起实施本文描述的方法,所述技术例如为微波成像和超声成像。对在解释前述实施例中使用的术语中的一些的解释如下:[a2].kappa统计被广泛用于在其中应比较两种技术之间的一致性的情形。以下是用于解读kappa值的指导。[a3].被用于评价lrm的性能的统计度量的定义。真阳性(tp)-湿咳被lrm正确地识别为‘湿’。假阳性(fp)-干咳被lrm不正确地识别为‘湿’。真阴性(tn)-干咳被lrm正确地识别为‘干’。假阴性(fn)-湿咳被lrm不正确地识别为‘干’。本发明一个方面的优选实施例包括一种方法,其能够通过限定咳嗽片段的开始和结束,从记录提取咳嗽声音。从声音信号计算一组不同特征,并将其用作对决策引擎的输入,例如基于自适应神经网络的模式识别算法或逻辑回归模型。在一个实施例中,所提出的方法达到约为95%的分割灵敏度和特异性。该方法能够被用作咳嗽分析系统的前端;因此能够自动分析来自记录中较大量咳嗽声音的定量和定性信息。根据本发明另外一方面的优选实施例,提供一种操作计算设备的方法,以处理患者的声音记录用于对患者的特定疾病状态的诊断。例如,如在本文中详细讨论的,所述疾病状态可以包括肺炎。参考文献[1]a.j.hotaling和g.t.moynihan,"cough,"pediatircotolaryngology,第二卷,edphiladelphia:saunders,2003,第1395-1404页。[2]r.e.black等,"global,regional,andnationalcausesofchildmortalityin2008:asystematicanalysis,"thelancet,第375卷,第1969-1987页,2010。[3]igorrudan等,"epidemiologyandetiologyofchildhoodpneumonia,"bulletinoftheworldhealthorganization,第86卷,第408-416页,2008。[4]who,"who-recommendedstandardsforsurveillanceofselected-preventablediseases,"geneva,who/v&b/03.01,2003。[5]s.barry等,"theautomaticrecognitionandcountingofcough,"cough,第2卷,第8页,2006。[6]s.matos等,"anautomatedsystemfor24-hmonitoringofcoughfrequency:theleicestercoughmonitor,"biomedicalengineering,ieeetransactionson,第54卷,第1472-1479页,2007。[7]pdacortex,(于2011年10月12日访问),lifeshirtanewerainambulatorymonitoring,可在http://www.pdacortex.corrjvivometrics.htm获得。[8]j.thomas,(于2011年10月12日访问),vitalojakcoughmonitor.可在http://www.trustech.org.uk/case-study/the-vitaloiak/获得。[9]karmelsonix,(于2011年10月12日访问),pulmotrack.可在http://www.karmelsonix.com/solution-pulmotrack.html获得[10]m.a.coyle等,"evaluationofanambulatorysystemforthequantificationofcoughfrequencyinpatientswithchronicobstructivepulmonarydisease,"cough,第l卷,第3页,2005。[11]e.vizel等,"validationofanambulatorycoughdetectionandcountingapplicationusingvoluntarycoughunderdifferentconditions,"cough,第6卷,第3页,2010。[12]k.mcguinness等,"automatedcoughdetection:anovelapproach[abstract],"amjrespcritcaremed,第175页:a381,2007。[13]j.smith和a.woodcock,"newdevelopmentsintheobjectiveassessmentofcough,"lung,第186卷,第48-54页,2008。[14]s.ferrari等,"coughsoundanalysistoidentifyrespiratoryinfectioninpigs,"computersandelectronicsinagriculture,第64卷,第318-325页,2008。[15]r.martin,"noisepowerspectraldensityestimationbasedonoptimalsmoothingandminimumstatistics,"speechandaudioprocessing,ieeetransactionson,第9卷,第504-512页,2001。[16]s..greenberg等,speechprocessinginauditorysystem.newyork:springer,2004。[17]s.chatterjee和w.b.kleijn,"auditorymodelbasedmodifiedmfccfeatures,"inacousticsspeechandsignalprocessing(icassp),2010ieeeinternationalconferenceon,2010,第4590-4593页。[18]w.d.duckitt等,"automaticdetection,segmentationandassessmentofsnoringfromambientacousticdata,"physiologicalmeasurement,第27卷,第1047页,2006。[19]e.goldshtein等,"automaticdetectionofobstructivesleepapneausingspeechsignals,"biomedicalengineering,ieeetransactionson,第58卷,第1373-1382页,2011。[20]s.k.asela等,"multi-featuresnoresoundanalysisinobstructivesleepapnea-hypopneasyndrome,"physiologicalmeasurement,第32卷,第83页,2011。[21]u.r.abeyratne等,"multi-parametricanalysisofsnoresoundsforthecommunityscreeningofsleepapneawithnon-gaussianityindex,"美国专利,2010。[22]j.e.markel和a.h.gray,linearpredictionofspeech:springer-verlagnewyork,inc.,1982。[23]h.ghaemmaghami等,"normalprobabilitytestingofsnoresignalsfordiagnosisofobstructivesleepapnea,"inengineeringinmedicineandbiologysociety,2009.embc2009.annualinternationalconferenceoftheieee,2009,第5551-5554页。[24]s.elsafty和a.el-zonkoly,"applyingwaveletentropyprincipleinfaultclassification,"internationaljournalofelectricalpower&energysystems,第31卷,第604-607页,2008。[25]g.m.foody,"usingpriorknowledgeinartificialneuralnetworkclassificationwithaminimaltrainingset,"internationaljournalofremotesensing,第16卷,第301-312页,1995/01/011995。[26]a.waibel等,"phonemerecognitionusingtime-delayneuralnetworks,"acoustics,speechandsignalprocessing,ieeetransactionson,第37卷,第328-339页,1989。[27]m.riedmiller和h.braun,"adirectadaptivemethodforfasterbackpropagationlearning:therpropalgorithm,"inneuralnetworks,1993.,ieeeinternationalconferenceon,1993,第586-591页第1卷。[28]v.tyagi等,"avariable-scalepiecewisestationaryspectralanalysistechniqueappliedtoasr,"inmachinelearningformultimodalinteraction,edinburgh,2005,第274-284页。[29]1.ghaemmaghami,h.,u.abeyratne和c.hukins,normalprobabilitytestingofsnoresignalsfordiagnosisofobstructivesleepapnea.2009:ieee。[30].ng,a.k.等,couldformantfrequenciesofsnoresignalsbeanalternativemeansforthediagnosisofobstructivesleepapnea?sleepmedicine,2008.9(8):第894-898页。[31]oppenheim,a.v.,r.w.schafer和j.r.buck,discrete-timesignalprocessing.第1999卷.1989:prenticehallenglewoodcliffs,nj:。[32]zheng,f.,g.zhang和z.song,comparisonofdifferentimplementationsofmfcc.journalofcomputerscienceandtechnology,2001.16(6):第582-589页。[33]abeyratne,u,blindreconstructionofnon-minimum-phasesystemsfrom1-dobliqueslicesofbispectrum.1999:iet。[34]mendel,j.m.,tutorialonhigher-orderstatistics(spectra)insignalprocessingandsystemtheory:theoreticalresultsandsomeapplications.proceedingsoftheieee,1991.79(3):第278-305页。3.tessawardlaw,e.w.johansson和m.hodge,pneumonia:theforgottenkillerofchildren.unicef/who,2006。4.berman,s.,e.simoes和c.lanata,respiratoryrateandpneumoniaininfancy.archivesofdiseaseinchildhood,1991.66(1):第81-84页。5.who,childhooddisease,who。6.cardoso,m.r.a.等,addingfevertowhocriteriafordiagnosingpneumoniaenhancestheabilitytoidentifypneumoniacasesamongwheezingchildren.archivesofdiseaseinchildhood,2011.96(1):第58页。7.harari,m.等,clinicalsignsofpneumoniainchildren.thelancet,1991.338(8772):第928-930页。8.lozano,j.等,clinicalpredictorsofacuteradiologicalpneumoniaandhypoxaemiaathighaltitude.archivesofdiseaseinchildhood,1994.71(4):第323-327页。9.mulholland,e.等,standardizeddiagnosisofpneumoniaindevelopingcountries.thepediatricinfectiousdiseasejournal,1992.11(2):第77页。10.palafox,m等,diagnosticvalueoftachypnoeainpneumoniadefinedradiologically.archivesofdiseaseinchildhood,2000.82(1):第41-45页。本发明的任意实施例意为仅是说明性的并且不意为限制本发明。因此,应认识到,能够对所描述的任意实施例进行各种其他改变和修改,而不偏离本发明的精神和范围。在本说明书和权利要求书中,要以开放式的意义将词语“包括”及其相关和衍生词解释为包含所记载整体的每个,但不排除包含一个或多个另外的整体。当前第1页12当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1