基于深度学习的咳嗽监测方法及装置与流程

文档序号：16906572发布日期：2019-02-19 18:23阅读：529来源：国知局

本公开涉及人工智能技术领域，特别涉及一种基于深度学习的咳嗽监测方法及装置。

背景技术：

咳嗽是呼吸道疾病的常见症状，通过病人的咳嗽情况可以反映病人的身体状况或者病人病情的恢复情况。一般病人的咳嗽情况是通过病人的陪护人员(例如病人家属)在日常陪护过程中所记录的咳嗽时间、咳嗽次数等获取到的。但是陪护人员并不是随时都陪在病人身边，因而通过陪护人员在陪护过程中记录所获得的咳嗽情况并不全面，而且由专门的陪护人员来记录病人的咳嗽情况工作量也大。

因此咳嗽监测效果和咳嗽监测效率还有待提高。

技术实现要素：

为了解决相关技术中存在的问题，本公开提供了一种基于深度学习的咳嗽监测方法及装置。

一种基于深度学习的咳嗽监测方法，包括：

对采集的音频数据进行预处理得到若干帧音频序列；

对所述若干帧音频序列进行咳嗽识别，以确定所述音频数据是否为咳嗽音频；以及

对所述若干帧音频序列进行声纹识别，以确定所述音频数据的发声者；

如果所述音频数据为咳嗽音频，则根据所述音频数据对所述发声者的咳嗽监测数据进行更新处理。

一种基于深度学习的咳嗽监测装置，包括：

预处理模块，被配置为执行：对采集的音频数据进行预处理得到若干帧音频序列；

咳嗽识别模块，被配置为执行：对所述若干帧音频序列进行咳嗽识别，以确定所述音频数据是否为咳嗽音频；以及

声纹识别模块，被配置为执行：对所述若干帧音频序列进行声纹识别，以确定所述音频数据的发声者；

监测数据更新模块，被配置为执行：如果所述音频数据为咳嗽音频，则根据所述音频数据对所述发声者的咳嗽监测数据进行更新处理。

在一实施例中，所述预处理模块包括：

短时傅里叶变换单元，被配置为执行：对采集的音频数据进行短时傅里叶变换得到所述音频数据对应的声谱图；

分段单元，被配置为执行：根据指定时长进行所述声谱图的分段，得到所述若干帧音频序列。

在一实施例中，所述咳嗽识别模块包括：

局部特征向量提取单元，被配置为执行：从所述若干帧音频序列中提取得到所述音频数据的若干局部特征向量；

全连接单元，被配置为执行：进行所述若干局部特征向量的全连接，得到所述音频数据的全局特征向量；

咳嗽标签预测单元，被配置为执行：对所述全局特征向量进行咳嗽标签预测，得到所述音频数据的咳嗽标签；

判读单元，被配置为执行：根据所述咳嗽标签判断所述音频数据是否为咳嗽音频。

在一实施例中，所述声纹识别模块包括：

声纹特征提取单元，被配置为执行：从所述若干帧音频序列中提取得到所述音频数据的声纹特征；

发声者标签预测模块，被配置为执行：根据所述声纹特征进行发声者标签预测，得到所述音频数据的发声者标签；

发声者确定模块，被配置为执行：根据所述发声者标签确定所述音频数据的发声者。

在一实施例中，监测数据更新模块包括：

时间戳信息提取单元，被配置为执行：如果所述音频数据为咳嗽音频，则从所述音频数据中提取得到时间戳信息；

咳嗽时间信息和咳嗽频次信息生成单元，被配置为执行：根据所述咳嗽音频以及所对应的所述时间戳信息生成咳嗽时间信息和咳嗽频次信息；

短时咳嗽监测数据获取单元，被配置为执行：将所述咳嗽时间信息和咳嗽频次信息作为所述发声者在所述音频数据中的短时咳嗽监测数据；

监测数据更新单元，被配置为执行：将所述短时咳嗽监测数据上传到监测数据库中，以更新所述监测数据库中所述发声者的咳嗽监测数据。

在一实施例中，咳嗽时间信息和咳嗽频次信息生成单元包括：

端点检测单元，被配置为执行：对所述咳嗽音频进行端点检测以确定所述咳嗽音频中每次咳嗽的起点和终点；

获取单元，被配置为执行：根据所述每次咳嗽的起点和终点所对应时间戳信息得到所述咳嗽时间信息，以及统计所述咳嗽音频中咳嗽的起点数或终点数得到所述咳嗽频次信息。

一种基于深度学习的咳嗽监测装置，包括：

处理器；以及

用于存储处理器可执行指令的存储器；

其中，所述可执行指令被所述处理器执行时实现以上所述的基于深度学习的咳嗽监测方法。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上所述的基于深度学习的咳嗽监测方法。

本公开的实施例提供的技术方案可以包括以下有益效果：通过对音频数据进行咳嗽识别以及声纹识别，来确定音频数据是否为咳嗽音频以及音频数据对应的发声者，进而对咳嗽音频分析得到发声者的咳嗽监测数据，实现了对咳嗽的自动监控，方便快捷，不需要专人进行咳嗽监测，提高了咳嗽监测的效率，保证了咳嗽监测数据的实时性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并于说明书一起用于解释本发明的原理。

图1是根据本公开所涉及的实施环境的示意图；

图2是根据一示例性实施例示出的一种咳嗽监测服务器的框图；

图3是根据一示例性实施例示出的一种基于深度学习的咳嗽监测方法的流程图；

图4是图3所示实施例的步骤s110的流程图；

图5是图3所示实施例的步骤s130的流程图；

图6是图3所示实施例的步骤s140的流程图；

图7是图3所示实施例的步骤s150的流程图；

图8是图7所示实施例的步骤s152的流程图；

图9是图3所示实施例的步骤s150之后的流程图；

图10是用于咳嗽识别的神经网络模型的示意图；

图11是根据一示例性实施例示出的基于深度学习的咳嗽监测装置的框图；

图12是根据另一示例性实施例示出的基于深度学习的咳嗽监测装置的框图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

图1是根据本公开所涉及的实施环境的示意图。该实施环境包括：咳嗽监测服务器200。咳嗽监测服务器200可以采用本公开提供的方法对音频数据进行咳嗽识别和声纹识别以得到咳嗽监测数据。

根据需要，该实施环境中还将包括音频采集设备100，用于提供咳嗽监测服务器进行咳嗽识别和声纹识别的音频数据。音频采集设备100可以布置在相关发声者的生活环境中，比如家里，针对医院的应用场景，音频采集设备100可以布置在病人的病房中(针对该种情况，病人即为本公开所涉及的发声者。)音频采集设备100实施进行音频数据采集，然后将采集到的音频数据传输到咳嗽监测服务器200进行处理，进而得到发声者的咳嗽音频数据。

其中音频采集设备100可以是独立的音频采集设备，例如麦克风、录音机，还可以携带有麦克风的电子设备，比如录像机、智能手机、电脑等，在此并不进行限定。

根据需要，该实施环境中还将包括咳嗽监测终端300，该咳嗽监测终端300用于进行咳嗽监测数据的显示等。咳嗽监测服务器200将处理得到的发声者的咳嗽监测数据返回到咳嗽监测终端300中，从而便于用户获知实施的咳嗽监测数据。

音频采集设备100与咳嗽监测服务器200之间预先建立了无线或者有线的网络连接，进而通过网络连接实现音频采集设备100与咳嗽监测服务器200之间的数据传输，例如，音频采集设备100采集的音频数据。相应的，咳嗽监测终端300与咳嗽监测服务器200之间预先建立了有线或者无线的网络连接，进而可以通过网络连接实现咳嗽监测服务器200和咳嗽监测终端300之间的数据传输。

应当说明的是，本公开基于深度学习的咳嗽监测方法，不限于在咳嗽监测服务器200中部署相应的处理逻辑，其也可以是部署于其它机器中的处理逻辑。例如，在具备计算能力的咳嗽监测终端300中部署对采集的音频数据进行咳嗽识别和声纹识别的的处理逻辑等。

图2是根据一示例性实施例示出的一种咳嗽监测服务器的框图。具有此硬件结构的服务器可用于进行咳嗽监测而部署在图1所示的实施环境中。

需要说明的是，该咳嗽监测服务器只是一个适配于本公开的示例，不能认为是提供了对本公开使用范围的任何限制。该咳嗽监测服务器也不能解释为需要依赖于或者必须具有图2中示出的示例性的咳嗽监测服务器200中的一个或者多个组件。

该咳嗽监测服务器的硬件结构可因配置或者性能的不同而产生较大的差异，如图2所示，咳嗽监测服务器200包括：电源210、接口230、至少一存储器250、以及至少一中央处理器(cpu,centralprocessingunits)270。

其中，电源210用于为咳嗽监测服务器200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一usb接口237等，用于与外部设备通信。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。其中，操作系统251用于管理与控制咳嗽监测服务器200上的各硬件设备以及应用程序253，以实现中央处理器270对海量数据255的计算与处理，其可以是windowsservertm、macosxtm、unixtm、linuxtm、freebsdtm等。应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对咳嗽监测服务器200的一系列计算机可读指令。数据255可以是存储于磁盘中的照片、图片、音频等。

中央处理器270可以包括一个或多个以上的处理器，并设置为通过总线与存储器250通信，用于运算与处理存储器250中的海量数据255。

如上面所详细描述的，适用本公开的咳嗽监测服务器200将通过中央处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成咳嗽监测方法。

在示例性实施例中，咳嗽监测服务器200可以被一个或多个应用专用集成电路(applicationspecificintegratedcircuit，简称asic)、数字信号处理器、数字信号处理设备、可编程逻辑器件、现场可编程门阵列、控制器、微控制器、微处理器或其他电子元件实现，用于执行下述方法。因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

图3是根据一示例性实施例示出的一种基于深度学习的咳嗽监测方法的流程图。该方法可以用于图1所示实施环境中的咳嗽监测服务器200，如图3所示，该方法，可以由咳嗽监测服务器200执行，可以包括以下步骤。

步骤s110，对采集的音频数据进行预处理得到若干帧音频序列。

其中，音频数据可以由图1所示实施环境中的音频采集设备采集得到。然后将采集到的音频数据上传到咳嗽监测服务器200中进行处理。

在一示例性实施例中，如图2所示，步骤s110可以进一步包括：

步骤s111，对采集的音频数据进行短时傅里叶变换得到音频数据对应的声谱图。

短时傅里叶变换(stft，short-timefouriertransform)是通过一个时频局部化的窗函数，假定在该窗函数所包含的一个短时间间隔内咳嗽音频是平稳的，然后移动窗函数，使音频数据在不同的有限时间宽度内是平稳信号，从而计算出音频数据在各个不同时刻的功率谱。最后把每一时刻的功率谱沿时间维度堆叠起来，得到类似于一幅图的二维信号形式，即得到音频数据对应的声谱图。

步骤s112，根据指定时长进行声谱图的分段，得到若干帧音频序列。

其中指定时长是指用户所设定的每一帧咳嗽音频帧序列所对应的时间长度。指定时长可以根据咳嗽监测服务器200对音频数据的处理要求进行设定。通过指定时长对声谱图进行分段，进而得到若干咳嗽音频帧序列。

在一具体实施例中，以咳嗽音频为35s，按照指定时长为4毫秒进行声谱图的分段，可以得到8750帧咳嗽音频帧序列，其中每一帧含有64个频率分量。

步骤s130，对若干帧音频序列进行咳嗽识别，以确定音频数据是否为咳嗽音频。

其中对若干音频帧序列进行咳嗽识别是通过深度学习的方式进行，即通过训练后的神经网络模型进行咳嗽识别，从而判断音频数据是否为咳嗽音频。

在一示例性实施例中，如图5所示，步骤s130包括：

步骤s131，从若干帧音频序列中提取得到音频数据的若干局部特征向量。

局部特征向量是用于表征音频序列的特征，不同的音频序列所对应的音频在时域和频域上所表现出的特征有所不同，例如音调、响度、梅尔频率、梅尔频率、梅尔频率倒谱系数(mfcc)、线性预测系数(lpc)、线性预测倒谱系数(lpcc)等。其中所构建的局部特征向量可以是基于以上所列举的特征中某一特征或者某几个特征的组合来构建的。当然，以上所列举的特征仅仅是示例性举例，并不能认为是对本公开使用范围的限制。

对于每一帧音频序列对应构建一个局部特征向量，用于表征这一帧音频序列的特征。

步骤s132，进行若干局部特征向量的全连接，得到音频数据的全局特征向量。

步骤s133，对全局特征向量进行咳嗽标签预测，得到音频数据的咳嗽标签。

步骤s134，根据咳嗽标签判断音频数据是否为咳嗽音频。

其中咳嗽标签包括针对于咳嗽音频的标签“咳嗽”和针对非咳嗽音频的标签“非咳嗽”。在具体实施方式中，可以通过编码来表示咳嗽标签，例如用数字“1”表示“咳嗽”标签，用数字“0”表示“非咳嗽标签”。从而在得到音频数据的咳嗽标签后，可以通过编码规则来判断该咳嗽标签所表示的含义，比如咳嗽或者非咳嗽，进而根据咳嗽标签来判断所该音频数据是否为咳嗽音频。

在进行咳嗽标签预测时，分别预测得到音频数据为“咳嗽”标签的概率p1和音频数据为“非咳嗽”标签的概率p2，然后将p1和p2进行对比，如果p1大于p2，则输出音频数据的咳嗽标签为“咳嗽”标签；如果p1小于p2，则输出音频数据的咳嗽标签为“非咳嗽”音频。

在一示例性实施例中，在对音频数据进行咳嗽识别前，基于神经网络构建了咳嗽识别模型用于音频数据的咳嗽识别。图10示出了咳嗽识别模型的示例性示意图，其中该咳嗽识别模型采用循环神经网络构建，从而可以利用咳嗽音频中的时间相关信息，提高咳嗽识别的精度。如图10所示，该咳嗽识别模型包括：编码器层、解码器层、全连接层以及分类层。

其中，编码器层和解码器层用于通过编码、压缩、降维、解码等运算构建每一帧音频序列的局部特征向量。具体的，编码器层由3层组成的，包括两层双向循环层和一单向层，其中一个双向循环层包括128个循环神经元，另一个双向循环层包括64个循环神经元，单向层具有32个循环神经元。输入的若干帧音频序列依次通过128神经元层、64神经元层和32神经元层，然后进入解码器层。输入的若干帧音频序列经过128个循环神经元层会得到一个具有128个维度的输出，经过64个循环神经元层会得到一个具有64个维度的输出，然后经过32个循环神经元的层会得到一个具有32个维度的输出。编码器层所输出的32个维度的输出作为解码器层的输入。

其中双向的循环神经元是为了让神经元在计算的时候不仅利用音频序列中的历史信息，也能够利用其未来的信息。在编码器层采用循环神经元进行向量的构建和变换，循环神经元的计算是与时间相关的。

解码器层由一个单独的循环层构成，它具有64个长短时记忆(lstm)神经元，64个长短时记忆单元对输入的32个维度的输出进行线性变换和激活，得到每一帧音频序列所对应的只有一个维度的局部特征向量。

进一步的，解码器层的lstm神经元结合了注意力机制，注意力机制是指解码器在输出解码结果的时候，还会输出一个注意力范围，标识接下来的解码要重点关注序列中的哪些部分，然后根据这些部分进行输出。因为在一个时间序列中，某个时刻的状态可能受某些时刻的状态影响更大，因此注意力机制是让解码器层的神经元在解码计算某个时刻的状态时，对不同时刻的隐含变量加权平均。通过结合注意力机制是该lstm神经元主要灌入输入信息的显著部分，进而提高后续咳嗽识别的准确度。

全连接层具有256个使用relu激活函数的神经元，将解码器层输出的局部特征向量进行整合和变换，即进行局部特征向量的全连接，得到针对该音频数据的全局特征向量。

最后的分类层使用softmax分类器，对输入的全局特征向量进行分类预测，得到咳嗽标签，即“咳嗽”标签或者“非咳嗽”标签。

通过在神经网络的每一层针对性的设置不同类型的神经元，可以充分利用音频序列中的信息进行咳嗽识别，保证了咳嗽疾病识别模型的预测精度。

当然，图10所示的咳嗽识别模型仅仅是一示例性举例，是一优选的咳嗽识别模型，其他可以实现咳嗽识别的神经网络模型同样适用于本发明，并不能认为图10所示的示意图是对本公开使用范围的限制。

在一实施例中，在使用咳嗽识别模型进行咳嗽识别前，还包括利用样本数据对咳嗽识别模型进行训练。即采集若干样本音频数据，人工对每一样本音频数据进行标注，对于为咳嗽音频的样本音频数据标注为“咳嗽”，对于非咳嗽音频的样本音频数据标注为“非咳嗽”。然后将样本音频数据及其对应的标注输入到咳嗽识别模型中进行咳嗽识别模型的训练。在训练过程中，针对每一输入的样本音频数据，咳嗽识别模型的分类层对应输出一个标签，将输出的标签与对该样本音频数据的标注结果进行比较，如果输出的标签与标注不相同，调整咳嗽识别模型的参数直到输出的标签与标注相同；如果相同，则继续用其他的样本音频数据进行训练。最后直到咳嗽识别模型的识别精度达到要求的精度，则完成咳嗽识别模型的训练。将训练完成的咳嗽识别模型用于音频数据的咳嗽识别。

以及步骤s140，对若干帧音频序列进行声纹识别，以确定音频数据的发声者。

声纹识别即通过发声者的声音特点来进行发声者身份的识别，即根据一音频数据的音频特点进行发声者的识别。

在一具体实施例中，在一示例性实施例中，如图6所示，步骤s140包括：

步骤s141，从若干帧音频序列中提取得到音频数据的声纹特征。

步骤s142，根据声纹特征进行发声者标签预测，得到音频数据的发声者标签。

步骤s143，根据发声者标签确定音频数据的发声者。

其中可以通过声纹识别模型进行声纹识别，声纹识别模型也是基于神经网络所建立。声纹识别模型进行声纹识别的过程如步骤s141、s142、s143所示。

所提取的声纹特征可以是音频数据的音色特征，当然，还可以是其他可以表征音频数据对应发声者特点的特征，比如音色特征结合梅尔频率、梅尔频率倒谱系数、线性预测倒谱系数中的某一个或者某几个特征。然后根据所提取的声纹特征进行发声者标签。最后根据发声者标签确定音频数据的发声者。

在使用声纹识别模型进行声纹识别前，需要对声纹识别模型进行训练，即用若干人的音频数据进行训练，并对每一音频数据标注对应的发声者，通过音频数据和标注的发声者进行声纹识别模型的训练，从而训练后的声纹识别模型可以针对一输入的音频确定该音频的发声者。

步骤s150，如果音频数据为咳嗽音频，则根据音频数据对发声者的咳嗽监测数据进行更新处理。

如果音频数据为咳嗽音频，可以计算得到该音频数据中的咳嗽时间、咳嗽次数等咳嗽信息，然后将从该音频数据中得到的咳嗽信息添加到已监测到的咳嗽监测数据中，实现咳嗽监测数据的更新。

在一示例性实施例中，如图7所示，步骤s150包括：

步骤s151，如果音频数据为咳嗽音频，则从音频数据中提取得到时间戳信息。

时间戳信息即音频数据中任一节点音频所对应的音频产生时间。其中时间戳信息可以是在音频采集设备100采集音频数据时自动记录音频数据的时间戳信息并将该时间戳信息添加到音频数据中，从而在步骤s151中可以从音频数据中提取时间戳信息。

步骤s152，根据咳嗽音频以及所对应的时间戳信息生成咳嗽时间信息和咳嗽频次信息。

其中咳嗽音频中可能包括发声者的多次咳嗽，通过分析咳嗽音频以及咳嗽音频对应的时间戳信息，可以得到针对该咳嗽音频的咳嗽时间信息和咳嗽频次信息。

其中咳嗽时间信息包括但不限于：每次咳嗽的开始时间、每次咳嗽的结束时间、每次咳嗽的持续时间。咳嗽频次信息包括但不限于在该段咳嗽音频对应的时间范围内的咳嗽次数、咳嗽频率等。

在一示例性实施例中，如图8所示，步骤s152包括：

步骤s210，对咳嗽音频进行端点检测以确定咳嗽音频中每次咳嗽的起点和终点。

端点检测就是从连续的音频流中检测出有效的音频段。在本公开的方案中，咳嗽所对应的音频即为有效的音频端。断点检测包括两个方面，检测出有效音频的起点，检测出有效音频的终点。断点检测通过音频的能量值来确定有效音频的起点和终点。从非咳嗽过渡到咳嗽，在音频能量上的反映是：音频能量急剧增加。而从咳嗽过渡到非咳嗽，在音频能量上的反映是音频能量急剧降低。

所以可以通过设定能量阈值，如果在某一节点，该节点前连续n帧音频序列的能量值低于设定的能量阈值，而在该节点接下来的连续n帧音频序列的能量值大于设定的能量阈值，则该节点可以确定为一次咳嗽的起点。同样的，如果在某一节点，该节点前面连续m帧音频序列的能量值大于设定的能量阈值，而该节点接下来的连续m帧音频序列的能量值小于设定的能量阈值，则该节点可以确定为一次咳嗽的终点。

在对应发声者的一次咳嗽中，此次咳嗽所产生的音频是连续的，通过端点检测可以确定此次咳嗽所对应音频的起点和终点。因而在所采集的音频数据中，可能是对应的一次咳嗽的音频，也可能是多次咳嗽的音频。对于所采集的音频数据是多次咳嗽的音频时，每次咳嗽所对应的音频即为端点检测的有效音频，两次咳嗽之间时间段内的音频可能是背景噪音或者静音，两次咳嗽之间时间段内的音频为无效音频。

步骤s230，根据每次咳嗽的起点和终点所对应时间戳信息得到咳嗽时间信息，以及统计咳嗽音频中咳嗽的起点数或终点数得到咳嗽频次信息。

其中咳嗽时间信息包括但不限于每次咳嗽的咳嗽开始时间、咳嗽结束时间和咳嗽持续时间。咳嗽频次信息包括但不限于在该咳嗽音频对应时间段内咳嗽的次数、咳嗽频率。

其中根据每次咳嗽的起点所对应的时间戳信息即可得到该次咳嗽的咳嗽开始时间，根据每次咳嗽的终点所对应的时间戳信息即可得到该次咳嗽的咳嗽结束时间。然后通过咳嗽开始时间和咳嗽结束时间计算得到该次咳嗽的咳嗽持续时间。

当然在确定了咳嗽音频中每次咳嗽的起点和终点后，可以通过统计起点的数目或者终点的数目得到该段咳嗽音频中咳嗽次数，通过所得到的咳嗽次数即可得到咳嗽的频率。

步骤s153，将咳嗽时间信息和咳嗽频次信息作为发声者在音频数据中的短时咳嗽监测数据。

步骤s154，将短时咳嗽监测数据上传到监测数据库中，以更新监测数据库中发声者的咳嗽监测数据。

监测数据库用于存储发声者的音频数据以及对应的咳嗽监测数据，其中每一个发声者对应于一个子数据库，从该子数据库可以获得该发声者的咳嗽监测数据。例如，在医院的应用场景中，监测数据库可以是针对病人的医疗数据库，从而可以从该病人的子数据中调取该病人的咳嗽监测数据。在具体实施例中，病人的子数据库中还可以包含病人的病例、治疗记录等信息。

已经得到的咳嗽监测数据是基于该音频数据前所采集到的数据分析得到的，所以将基于该音频数据分析得到的短时咳嗽监测数据添加到已经得到的咳嗽监测数据中，进行咳嗽监测数据的更新，包括但不限于咳嗽时间信息的更新、咳嗽频次信息的更新。

咳嗽监测数据在监测数据库更新后，相关人员可以通过该监测数据库查看到咳嗽监测数据，实现对病人咳嗽监测情况的远程实时监控，并不需要专人在发声者附近进行监控。在具体实施例中，例如在医院，发声者为病人，则该病人的主治医生或者护士可以随时在监测数据库中查看到咳嗽监测数据，进一步的，医生还可以通过一段时间之内的咳嗽监测数据进行病人病情、以及恢复情况的预测。

咳嗽监测数据更新后，可以将更新后的咳嗽监测数据通过咳嗽监测终端300进行显示，该咳嗽监测终端300可以是位于发声者所在的房屋，例如病人的病房，从而不管是家属、护士、医生均可以通过该咳嗽监测终端300快速了解到病人的咳嗽监测情况。

在具体实施例中，可以通过设定时间范围来调整在咳嗽监测终端300上所显示的咳嗽监测数据。例如，如果统计的咳嗽频次为1个小时内的咳嗽频次，那么仅在咳嗽监测终端300上显示1个小时内的咳嗽频次，并进行实时更新。当然其他时间内的咳嗽监测数据可以存储在指定的数据库中，可以供用户实时调取查看。

在一示例性实施例中，该实施例的方法还包括：

步骤s170，根据咳嗽频次信息判断发声者的咳嗽频次是否超出安全频次。

步骤s190，如果超出安全频次，则生成警示信息。

咳嗽频次超出安全频次可能导致呼吸困难，因而通过设定安全频次，如果超出安全频次，则生成警示信息。在具体实施例中，可以通过该警示信息触发外接的报警装置(例如蜂鸣器、报警灯)动作，从而可以让周围的人员及时得知并进行处理。当然，所生成的警示信息还可以通过语音自动播报，让相关人员及时了解到该情况。

值得说明的是，本公开的技术方案不仅可以应用到医院的场景中，用于需要监控咳嗽情况的病人，也可以用于养老院、疗养院、家里等场景进行咳嗽监控，在此不进行具体限定。

下述为本公开装置实施例，可以用于执行本公开上述移动终端110执行的基于深度学习的咳嗽监测方法实施例。对于本公开装置实施例中未披露的细节，请参照本公开基于深度学习的咳嗽监测方法实施例。

图11是根据一示例性实施例示出的一种基于深度学习的咳嗽监测装置的框图，该装置可以用于图1所示实施环境的咳嗽监测服务器200中，执行以上任一方法实施例所示的基于深度学习的咳嗽监测方法的全部或者部分步骤。如图11所示，该提醒装置包括但不限于：预处理模块110、咳嗽识别模块130、声纹识别模块140以及监测数据更新模块150。

预处理模块110，被配置为执行：对采集的音频数据进行预处理得到若干帧音频序列。

咳嗽识别模块130，该模块与预处理模块110连接，被配置为执行：对若干帧音频序列进行咳嗽识别，以确定音频数据是否为咳嗽音频。以及

声纹识别模块140，该模块与预处理模块110连接，被配置为执行：对若干帧音频序列进行声纹识别，以确定音频数据的发声者。

监测数据更新模块150，该模块与咳嗽识别模块130、声纹识别模块140连接，被配置为执行：如果音频数据为咳嗽音频，则根据音频数据对发声者的咳嗽监测数据进行更新处理。

在一实施例中，预处理模块110包括：

短时傅里叶变换单元，被配置为执行：对采集的音频数据进行短时傅里叶变换得到音频数据对应的声谱图。

分段单元，被配置为执行：根据指定时长进行声谱图的分段，得到若干帧音频序列。

在一实施例中，咳嗽识别模块包括：

局部特征向量提取单元，被配置为执行：从若干帧音频序列中提取得到音频数据的若干局部特征向量。

全连接单元，被配置为执行：进行若干局部特征向量的全连接，得到音频数据的全局特征向量。

咳嗽标签预测单元，被配置为执行：对全局特征向量进行咳嗽标签预测，得到音频数据的咳嗽标签。

判读单元，被配置为执行：根据咳嗽标签判断音频数据是否为咳嗽音频。

在一实施例中，声纹识别模块包括：

声纹特征提取单元，被配置为执行：从若干帧音频序列中提取得到音频数据的声纹特征。

发声者标签预测模块，被配置为执行：根据声纹特征进行发声者标签预测，得到音频数据的发声者标签。

发声者确定模块，被配置为执行：根据发声者标签确定音频数据的发声者。

在一实施例中，监测数据更新模块包括：

时间戳信息提取单元，被配置为执行：如果音频数据为咳嗽音频，则从音频数据中提取得到时间戳信息。

咳嗽时间信息和咳嗽频次信息生成单元，被配置为执行：根据咳嗽音频以及所对应的时间戳信息生成咳嗽时间信息和咳嗽频次信息。

短时咳嗽监测数据获取单元，被配置为执行：将咳嗽时间信息和咳嗽频次信息作为发声者在音频数据中的短时咳嗽监测数据。

监测数据更新单元，被配置为执行：将短时咳嗽监测数据上传到监测数据库中，以更新监测数据库中发声者的咳嗽监测数据。

在一实施例中，咳嗽时间信息和咳嗽频次信息生成单元包括：

端点检测单元，被配置为执行：对咳嗽音频进行端点检测以确定咳嗽音频中每次咳嗽的起点和终点。

获取单元，被配置为执行：根据每次咳嗽的起点和终点所对应时间戳信息得到咳嗽时间信息，以及统计咳嗽音频中咳嗽的起点数或终点数得到咳嗽频次信息。

上述装置中各个模块/单元的功能和作用的实现过程具体详见上述基于深度学习的咳嗽监测方法中对应步骤的实现过程，在此不再赘述。

可以理解，这些模块/单元可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时，这些模块可以实施为一个或多个硬件模块，例如一个或多个专用集成电路。当以软件方式实现时，这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序，例如图2的中央处理器270所执行的存储在存储器250中的程序。

可选的，本公开还提供一种基于深度学习的咳嗽监测装置1000，如图12所示，包括：

处理器1001；以及

用于存储处理器1001可执行指令的存储器1002；

其中，可执行指令被处理器1001执行时实现以上方法实施例中任一所示的全部或者部分步骤，可执行指令可以是计算机可读指令，在处理器工作时，可以通过数据线/通信线1003读取存储器1002中的计算机可读指令并执行。

该实施例中的装置的处理器执行操作的具体方式已经在有关该基于深度学习的咳嗽监测方法的实施例中执行了详细描述，此处将不做详细阐述说明。

可选的，本公开还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以上任一实施例所示的基于深度学习的咳嗽监测方法。其中，该计算机可读存储介质可以为包括计算机程序的临时性和非临时性计算机可读存储介质，该计算机可读存储介质例如包括计算机程序的存储器250，上述计算机程序可由咳嗽监测服务器200的中央处理器270执行以完成上述基于深度学习的咳嗽监测方法。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭话易;蔡元哲;黄章成;王健宗;肖京
技术所有人：平安科技（深圳）有限公司
我是此专利的发明人

上一篇：一种带有惰性载体循环的脱硫废水蒸发器及方法与流程
上一篇：一种CIC多相内插滤波超声相控阵波束延时方法与流程