一种咳嗽自动识别装置的制作方法

文档序号：2824279阅读：188来源：国知局

专利名称：一种咳嗽自动识别装置的制作方法
技术领域：
本实用新型属于声音处理技术领域，特别涉及一种咳嗽自动识别装置。
背景技术：
慢性咳嗽是原因未明的、咳嗽为惟一症状或主要症状、时间超过8周、胸部X线检查无明显异常者。嗜酸细胞性支气管炎是慢性咳嗽的首位原因(22%)，其他常见病因包括鼻后滴漏综合征(17%)、咳嗽变异型哮喘(14%)、胃食管反流性咳嗽(12%)等)。要明确慢性咳嗽的诊断，需要有肺功能仪、诱导痰细胞分类检查和食道PH值监测等技术，目前大多数医院不具备这些条件，慢性咳嗽患者得不到及时的诊治；同时，咳嗽发作的特点(包括频率和强度的动态变化)和诱因跟天气、环境、饮食和睡眠状态等有很大的关系，若能找出咳嗽发作与天气、环境、饮食和睡眠状态的关系，可有助于了解慢性咳嗽的病因；但是，大多数患者不能准确、客观地描述咳嗽发作的特点，而现有的技术中，也没有相关技术或设备能够获取准确、客观地描述咳嗽发作的特点，因此常常会导致因就诊医生对咳嗽发作病因得不到到有效的信息而影响对病人的及时诊治。

实用新型内容本实用新型的首要目的在于克服上述现有技术的缺点与不足，提供一种可通过声音进行病人咳嗽信号处理，并能准确地获取咳嗽信号，且能对咳嗽信号进行统计的咳嗽自动识别装置为达上述目的，本实用新型采用如下的技术方案一种咳嗽自动识别装置，包括用于输入声音并测量声压变化，将测量结果转化为PCM格式的语音信号的声音输入装置；用于对PCM格式的语音信号进行端点检测、特征提取和咳嗽识别的识别器；用于存储语音信号的SD卡；用于显示声音输入、识别状态及识别结果的显示装置；一组用于控制声音输入和咳嗽识别的按钮；所述声音输入装置、SD卡、显示装置、按钮均分别与识别器连接。所述声音输入装置包括麦克风和用于将输入的声音转化为PCM格式的语音信号的编码器，所述麦克风与编码器连接，所述编码器与识别器连接。所述识别器由依次连接的处理器、随机存取存储器和可擦除可编程存储器构成。所述识别器中的处理器包括用于实现端点检测的端点检测单元、用于提取特征向量序列的特征提取单元以及用于利用所提取的特征向量序列实现咳嗽识别的识别单元；所述端点检测单元、特征提取单元和识别单元依次连接，且均与所述按钮连接。分析按钮按下，所述端点检测单元、特征提取单元和识别单元依次运行。所述特征提取单元中设有由一组26通道、具有32ms窗口及预修正系数为0. 97的Mel频率滤波器构成的滤波器组。所述按钮包括用于对输入的声音进行录音并将其保存至SD卡的录音按钮以及用于启动咳嗽识别分析的分析按钮；所述录音按钮和分析按钮均与识别器连接。所述显示装置为显示屏。上述装置的实现步骤具体如下(1)声音输入装置测量声压变化，并通过编码器将测量结果转为PCM格式的语音信号，存入SD卡；(2)端点检测单元对所述步骤(1)中的PCM格式的语音信号进行端点检测，剔除非咳嗽信号，其余信号作为候选咳嗽信号；(3)特征提取单元对候选咳嗽信号按帧提取特征，将其转换为特征向量序列；所述特征向量序列优选为一 39维的倒频谱向量序列；具体地说，特征提取单元将所述步骤(2)分帧后的候选咳嗽信号经过一组26通道的Mel频率滤波器对进行处理，得到一个12维的MFCC参数(Mel频率倒谱系数)，再加上短时能量作为附加参数，构成13维向量；同时，为描述信号帧之间的相关性和咳嗽的动态特征，引入一、二阶差分，形成一 39维的特征向量序列。由于各次咳嗽持续时间不同，因此，候选咳嗽信号最终按帧转换为特征向量序列，例如持续时间为η帧的候选咳嗽序列对应为η列维数为39的特征向量序列；(4)识别单元根据步骤(3)所提取的特征向量序列训练隐马尔可夫模型，对候选咳嗽信号进行识别，判断是否为咳嗽信号；(5)对一定时间段内所述步骤(4)咳嗽识别所得的咳嗽信号进行统计。所述步骤(2)中的端点检测，包括如下步骤(2-1)将步骤⑴的PCM格式的语音信号进行分帧；(2-2)采用哈明窗对所述步骤(2-1)所得的每一帧信号进行加窗处理，并计算该帧内的短时过零率，构成候选过零率阈值集合；所述短时过零率满足
η
Zn= ZlsSn[对 ”)]-sgn[x("-1)]lw(w_w)，其中，ZnS短时过零率， χ (.)为输入的PCM格式
m=n-N+i
的语音信号，W(.)和Sgn[x]分别为是哈明窗函数和符号函数，N = 512;(2-3)确定过零率阈值；(2-4)识别候选咳嗽信号与非咳嗽信号，若短时过零率大于过零率阈值，则该帧被视为候选咳嗽信号，否则被视为非咳嗽信号而置零剔除；(2-5)若持续数帧满足短时过零率大于过零率阈值，则将这些帧合并为一段声音信号，作为候选咳嗽信号，记录其起始点和终止点。所述步骤(2-1)的分帧步骤为以帧为单位读取PCM格式的语音信号，在取数据时，前一帧和后一帧的交叠部分为帧移。帧长取32ms，即对应512个采样值；所述帧移为8ms，即对应128个采样值。所述步骤(2-3)中的过零率阈值的确定步骤为(2-3-1)将所述步骤(2-2)获得的短时过零率按从小到大的顺序重新排列，记为 {Ζ” ‘ · · ·，Zr} ；(2-3-2)确定期望端点检测误判率，在所述步骤(2-3-1)选取相应的短时过零率作为过零率阈值，所述过零率阈值在步骤(2-3-1)所得集合{Z1; Z2, ... , Ζκ}的排列序号满足h = int( ε XK)，其中，ε为期望端点检测误判率，K为集合{Z1; Z2, ... , Ζκ}的元素个数；h为过零率阈值在{Z1; Z2, ..., ζκ}的排列序号。所述步骤(4)中对候选咳嗽信号进行咳嗽识别的具体步骤为(4-1)对帧数为N的候选咳嗽信号，若N= 1，则候选咳嗽信号的相似度值为零；若 N = 2，则取1 2帧信号的特征向量，再补一帧维数为13的零向量作为第3帧的特征向量，利用训练好的隐马尔可夫模型进行识别，识别结果作为候选咳嗽信号的相似度；若N > 2，则重复进行N-2次识别，其中第i次识别取i i+2帧的特征向量，利用训练好的隐马尔可夫模型进行识别，识别结果记为Pi ；最后取P = max{Pl, p2, ... , pN_2}作为候选咳嗽信号的相似度；(4-2)确定相似度阈值；(4-3)对每一帧的候选咳嗽信号进行识别，若该帧的相似度大于相似度阈值，则该段候选咳嗽信号为咳嗽信号，否则为非咳嗽信号。所述步骤(4-2)中的相似度阈值的确定步骤为(4-2-1)将所述步骤(4-1)获得的相似度按从小到大的顺序重新排列，记为{ λ ”
λ 2， · · ·，入 Μ}；(4-2-2)确定期望识别误判率，在所述步骤(4-2-1)选取相应的相似度作为相似度阈值，所述相似度阈值在步骤(4-2-1)所得集合{λ” λ 2，...，λΜ}的排列序号满足1 =int( ξ ΧΜ)；其中，ξ为期望识别误判率，M为集合U1, λ2,..., λ J的元素个数；1为相似度阈值在U1, λ 2，...，λ J的排列序号。所述步骤(5)具体为每半小时统计一次咳嗽强度，并以加窗信号的绝对值作为信号强度，以每半小时内所有咳嗽信号的帧的信号强度均值作为该时段咳嗽强度。本实用新型可通过实时记录和自动识别咳嗽声音，结合患者的生活日记，将能了解咳嗽发作的特点和诱因及其与天气、环境、饮食和睡眠状态的关系，有利于就诊医生的及时诊治。与现有技术相比，本实用新型具有如下优点和有益效果1、本实用新型可对病人咳嗽信号的实时记录和自动识别，提供咳嗽频率和强度的动态变化特点，有利于医生了解咳嗽发作与环境、天气、饮食和睡眠等因素的关系，可使得咳嗽病人得到及时的治疗。2、本实用新型可对病人咳嗽信号进行统计，并能通过显示屏进行显示，具有人性化、统计准确等优点。

图1是本实用新型装置的结构示意图。图2是图1所示装置的实现流程示意图。
具体实施方式
下面结合实施例及附图对本实用新型作进一步详细的描述，但本实用新型的实施方式不限于此。实施例如图1所示，本咳嗽自动识别装置包括用于输入声音并测量声压变化，将测量结果转化为PCM格式的语音信号的声音输入装置；用于对PCM格式的语音信号进行端点检测、特征提取和咳嗽识别的识别器14 ；用于存储语音信号的SD卡13 ；用于显示声音输入、识别状态及识别结果的显示装置；一组用于控制声音输入和咳嗽识别的按钮；所述声音输入装置、SD卡13、显示装置、按钮均分别与识别器14连接。所述声音输入装置包括麦克风10和用于将输入的声音转化为PCM格式的语音信号的编码器16，所述麦克风10与编码器16连接，所述编码器16与识别器14连接。所述识别器14由依次连接的处理器、随机存取存储器和可擦除可编程存储器构成。所述识别器14中的处理器包括用于实现端点检测的端点检测单元、用于提取特征向量序列的特征提取单元以及用于利用所提取的特征向量序列实现咳嗽识别的识别单元；所述端点检测单元、特征提取单元和识别单元依次连接，且均与所述按钮连接。所述特征提取单元中设有由一组26通道、具有32ms窗口及预修正系数为0. 97的 Mel频率滤波器构成的滤波器组。所述按钮包括用于对输入的声音信号进行录音并将其保存至SD卡13的录音按钮 11以及用于启动咳嗽识别分析的分析按钮12 ；所述录音按钮11和分析按钮12均与识别器 14连接；分析按钮12按下，所述端点检测单元、特征提取单元和识别单元依次运行。所述显示装置为显示屏15。如图2所示，上述装置实现的步骤具体如下(1)声音输入装置测量声压变化，并通过编码器将测量结果转为PCM格式的语音信号，存入SD卡；(2)端点检测单元对所述步骤(1)中的PCM格式的语音信号进行端点检测，剔除非咳嗽信号，其余信号作为候选咳嗽信号；(3)特征提取单元对候选咳嗽信号按帧提取特征，将其转换为特征向量序列；所述特征向量序列为一 39维的倒频谱向量序列；具体地说，特征提取单元将所述步骤(2)分帧后的候选咳嗽信号经过一组26通道的Mel频率滤波器对进行处理，得到一个12维的MFCC参数(Mel频率倒谱系数)，再加上短时能量作为附加参数，构成13维向量；同时，为描述信号帧之间的相关性和咳嗽的动态特征，引入一、二阶差分，形成一 39维的特征向量序列。由于各次咳嗽持续时间不同，因此，候选咳嗽信号最终按帧转换为特征向量序列，例如持续时间为η帧的候选咳嗽序列对应为η列维数为39的特征向量序列；(4)识别单元根据步骤(3)所提取的特征向量序列训练隐马尔可夫模型，对候选咳嗽信号进行识别，判断是否为咳嗽信号；[0073](5)对一定时间段内所述步骤(4)咳嗽识别所得的咳嗽信号进行统计。所述步骤(2)中的端点检测，包括如下步骤(2-1)将步骤(1)的PCM格式的语音信号进行分帧；(2-2)采用哈明窗对所述步骤(2-1)所得的每一帧信号进行加窗处理，并计算该帧内的短时过零率，构成候选过零率阈值集合；所述短时过零率满足
η
Zn= Σ1-sgn[x( -1)]ι w(n-m)，其中，Zn 为短时过零率，χ(.)为输入的 PCM格
m=n-N+l
式的语音信号，《(.)和sgn[x]分别为是哈明窗函数和符号函数，N = 512;(2-3)确定过零率阈值；(2-4)识别候选咳嗽信号与非咳嗽信号，若短时过零率大于过零率阈值，则该帧被视为候选咳嗽信号，否则被视为非咳嗽信号而置零剔除；(2-5)若持续数帧满足短时过零率大于过零率阈值，则将这些帧合并为一段声音信号，作为候选咳嗽信号，记录其起始点和终止点。所述步骤(2-1)的分帧步骤为以帧为单位读取PCM格式的语音信号，在取数据时，前一帧和后一帧的交叠部分为帧移。帧长取32ms，即对应512个采样值；所述帧移为8ms，即对应128个采样值。所述步骤(2-3)中的过零率阈值的确定步骤为(2-3-1)将所述步骤(2-2)获得的短时过零率按从小到大的顺序重新排列，记为 {Ζ” ‘ · · ·，Zr} ；(2-3-2)确定期望端点检测误判率，在所述步骤(2-3-1)选取相应的短时过零率作为过零率阈值，所述过零率阈值在步骤(2-3-1)所得集合{Z1; Z2, ... , Ζκ}的排列序号满足h = int( ε XK)，其中，ε为期望端点检测误判率，K为集合{Z1; Z2, ... , Ζκ}的元素个数；h为过零率阈值在{Z1; Z2, ..., ζκ}的排列序号。所述步骤(4)中对候选咳嗽信号进行咳嗽识别的具体步骤为(4-1)对帧数为N的候选咳嗽信号，若N= 1，则候选咳嗽信号的相似度值为零；若 N = 2，则取1 2帧信号的特征向量，再补一帧维数为13的零向量作为第3帧的特征向量，利用训练好的隐马尔可夫模型进行识别，识别结果作为候选咳嗽信号的相似度；若N > 2，则重复进行N-2次识别，其中第i次识别取i i+2帧的特征向量，利用训练好的隐马尔可夫模型进行识别，识别结果记为Pi ；最后取P = max{Pl, p2, ... , pN_2}作为候选咳嗽信号的相似度；(4-2)确定相似度阈值；(4-3)对每一帧的候选咳嗽信号进行识别，若该帧的相似度大于相似度阈值，则该段候选咳嗽信号为咳嗽信号，否则为非咳嗽信号。所述步骤(4-2)中的相似度阈值的确定步骤为(4-2-1)将所述步骤(4-1)获得的相似度按从小到大的顺序重新排列，记为{ λ
λ 2， · · ·，入 Μ}；(4-2-2)确定期望识别误判率，在所述步骤(4-2-1)选取相应的相似度作为相似度阈值，所述相似度阈值在步骤(4-2-1)所得集合{λ” λ2，...，λΜ}的排列序号满足1
7=int( ξ ΧΜ)；其中，ξ为期望识别误判率，M为集合{ λ ρ λ 2，. . .，λ J的元素个数；1为相似度阈值在U1, λ2，...，λΜ}的排列序号。所述步骤(5)具体为每半小时统计一次咳嗽强度，并以加窗信号的绝对值作为信号强度，以每半小时内所有咳嗽信号的帧的信号强度均值作为该时段咳嗽强度。上述实施例为本实用新型较佳的实施方式，但本实用新型的实施方式并不受上述实施例的限制，其他的任何未背离本实用新型的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本实用新型的保护范围之内。
权利要求一种咳嗽自动识别装置，其特征在于包括用于输入声音并测量声压变化，将测量结果转化为PCM格式的语音信号的声音输入装置；用于对PCM格式的语音信号进行端点检测、特征提取和咳嗽识别的识别器；用于存储语音信号的SD卡；用于显示声音输入、识别状态及识别结果的显示装置；一组用于控制声音输入和咳嗽识别的按钮；所述声音输入装置、SD卡、显示装置、按钮均分别与识别器连接。
2.根据权利要求1所述的咳嗽自动识别装置，其特征在于所述声音输入装置包括麦克风和用于将输入的声音转化为PCM格式的语音信号的编码器，所述麦克风与编码器连接，所述编码器与识别器连接。
3.根据权利要求1所述的咳嗽自动识别装置，其特征在于所述识别器由依次连接的处理器、随机存取存储器和可擦除可编程存储器构成。
4.根据权利要求3所述的咳嗽自动识别装置，其特征在于所述处理器包括用于实现端点检测的端点检测单元、用于提取特征向量序列的特征提取单元以及用于利用所提取的特征向量序列实现咳嗽识别的识别单元；所述端点检测单元、特征提取单元和识别单元依次连接，且均与所述按钮连接。
5.根据权利要求4所述的咳嗽自动识别装置，其特征在于所述特征提取单元中设有由一组26通道、具有32ms窗口及预修正系数为0. 97的Mel频率滤波器构成的滤波器组。
6.根据权利要求1述的咳嗽自动识别装置，其特征在于所述按钮包括用于对输入的声音进行录音并将其保存至SD卡的录音按钮以及用于启动咳嗽识别分析的分析按钮；所述录音按钮和分析按钮均与识别器连接。
7.根据权利要求1所述的咳嗽自动识别装置，其特征在于所述显示装置为显示屏。
专利摘要本实用新型提供了一种咳嗽自动识别装置，包括声音输入装置、识别器、SD卡、显示装置以及一组按钮，所述声音输入装置、SD卡、显示装置、按钮均分别与识别器连接。所述声音输入装置包括麦克风和用于将输入的声音转化为PCM格式的语音信号的编码器，所述麦克风与编码器连接，所述编码器与识别器连接。所述识别器包括用于实现端点检测的端点检测单元、用于提取特征向量序列的特征提取单元以及用于利用所提取的特征向量序列实现咳嗽识别的识别单元；所述端点检测单元、特征提取单元和识别单元依次连接，且均与所述按钮连接。本实用新型可对咳嗽音实时记录和自动识别，提供咳嗽频率和强度的动态变化的特点。
文档编号G10L19/00GK201716985SQ201020247529
公开日2011年1月19日申请日期2010年7月2日优先权日2010年7月2日
发明者田联房, 莫鸿强, 郑则广, 钟南山, 陈荣昌申请人:华南理工大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：田联房;郑则广;莫鸿强;陈荣昌;钟南山
技术所有人：华南理工大学
我是此专利的发明人

上一篇：语音控制音乐播放器的制作方法
上一篇：一种耐磨且不易断弦的弹拨乐器的制作方法