喉咙识别方法、装置、系统、存储介质以及设备与流程

文档序号：18476679发布日期：2019-08-20 21:12阅读：419来源：国知局

导航： X技术> 最新专利>计算;推算;计数设备的制造及其应用技术

本发明涉及图像检测领域，特别是涉及一种喉咙识别方法、装置、系统、存储介质以及设备。

背景技术：

随着全球变暖、环境恶化越来越严重，人们经常会觉得耳鼻喉出现异常的情况。喉咙是连接口腔和肺胃的通路，又为经脉循行的要冲，喉咙直接与外部环境接触，在用嗓过度或食用刺激性食物或受到刺激性气味时易造成异常。

发明人在实现本发明的过程中，发现喉咙由于处于口腔内部，个人难以清楚的获悉喉咙当前的状态情况，需要依赖于他人乃至需要专业的人来查看喉咙状态，给人带来了不便。

技术实现要素：

为克服相关技术中存在的问题，本公开提供了一种喉咙识别方法、装置、系统、存储介质以及设备。

根据本公开实施例的第一方面，提供一种喉咙识别方法，包括如下步骤：

获取待识别的喉咙图像；

将待识别的喉咙图像输入至第一喉咙识别模型中进行识别，并从待识别的喉咙图像中确定出喉咙图像；其中，所述第一喉咙识别模型为通过喉咙样本图像和非喉咙样本图像进行训练后建立的模型；

将喉咙图像输入至第二喉咙识别模型中进行识别，获得喉咙的状态分值；其中，所述第二喉咙识别模型为通过喉咙样本图像以及对应的喉咙的状态分值进行训练后建立的模型。

根据本公开实施例的第二方面，提供一种喉咙识别装置，包括：

图像获取模块，用于获取待识别的喉咙图像；

喉咙图像确定模块，用于将待识别的喉咙图像输入至第一喉咙识别模型中进行识别，并从待识别的喉咙图像中确定出喉咙图像；其中，所述第一喉咙识别模型为通过喉咙样本图像和非喉咙样本图像进行训练后建立的模型；

状态分值确定模块，用于将喉咙图像输入至第二喉咙识别模型中进行识别，获得喉咙的状态分值；其中，所述第二喉咙识别模型为通过喉咙样本图像以及对应的喉咙的状态分值进行训练后建立的模型。

根据本公开实施例的第三方面，提供一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现前述所述的喉咙识别方法的步骤。

根据本公开实施例的第四方面，提供一种喉咙识别系统，包括存储器，处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现如前述所述的喉咙识别方法的步骤。

根据本公开实施例的第五方面，提供一种喉咙识别设备，包括摄像装置和图像处理装置，所述摄像装置用于拍摄待识别的喉咙图像，所述图像处理装置用于实现前述所述的喉咙识别方法的步骤。

由此，本公开的实施例提供的技术方案可以包括以下有益效果：

本公开实施例发现通过拍摄获取待识别的喉咙图像，再通过第一喉咙识别模型和第二喉咙识别模型对待识别的喉咙图像进行识别，从而获得喉咙的状态分值，进而使用户无需依赖他人和专业人群，即可方便快捷地获悉喉咙的状态。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为本公开的实施例的应用场景的示意图；

图2为本公开一个示例性实施例示出的一种喉咙识别方法的流程图；

图3为本公开一个示例性实施例示出的确定喉咙图像的方法的流程图；

图4为本公开一个示例性实施例示出的建立第一喉咙识别模型的方法的流程图；

图5为本公开一个示例性实施例示出的建立第二喉咙识别模型的方法的流程图；

图6为本公开一个示例性实施例示出的调整待识别的喉咙图像的方法的流程图；

图7为本公开一个示例性实施例示出的喉咙识别装置的结构示意框图；

图8为本公开一个示例性实施例示出的喉咙识别装置的结构示意框图；

图9为本公开一个示例性实施例示出的图像调整模块的结构示意框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

请参阅图1，其是本公开的实施例的应用场景的示意图。如图1所示，通过摄像装置11对着人13的喉咙进行拍摄，获得拍摄的待识别的喉咙图像，再将待识别的喉咙图像传送给图像处理装置12；图像处理装置12获取待识别的喉咙图像后，对待识别的喉咙图像进行识别，获得喉咙的状态分值。其中，摄像装置11和图像处理装置12可以集成于同一终端设备内，例如该终端设备可为带摄像头的手机、带摄像头的ipad、带摄像头的电脑等终端设备，这些终端设备内可安装有图像处理应用，进而可对拍摄的待识别的喉咙图像进行识别处理，获得喉咙的状态分值。摄像装置11和图像处理装置12也可以不集成于同一终端设备内，例如通过相机对着人的喉咙进行拍摄，获得拍摄的待识别的喉咙图像，再传送到手机、ipad、电脑等设备，由手机、ipad、电脑安装的图像处理应用，对待识别的喉咙图像进行识别处理，获得喉咙的状态分值。

请参阅图2，本公开一个示例性实施例示出的一种喉咙识别方法，包括如下步骤：

步骤s1：获取待识别的喉咙图像。

其中，可以通过带摄像头的手机、带摄像头的ipad、带摄像头的电脑等设备拍摄获得待识别的喉咙图像，也可以通过专门用于拍摄的装置如相机获取用户待识别的喉咙图像，再传送到手机、ipad、电脑等处理设备。

步骤s2：将待识别的喉咙图像输入至第一喉咙识别模型中进行识别，并从待识别的喉咙图像中确定出喉咙图像；其中，所述第一喉咙识别模型为通过喉咙样本图像和非喉咙样本图像进行训练后建立的模型。

请参阅图3，在一个实施例中，所述将待识别的喉咙图像输入至第一喉咙识别模型中进行识别，并从待识别的喉咙图像中确定出喉咙图像的步骤，包括：

步骤s21：将待识别的喉咙图像切分为多个同等大小的图像窗口。

其中，如果待识别的喉咙图像可为4000*3000像素的照片，那么可以以2000*2000像素作为图像窗口，以10像素为步长滑动，可得到399*299＝119301个同等大小的图像窗口。

步骤s22：将各个所述图像窗口分别输入至第一喉咙识别模型中，获得各个图像窗口的喉咙分值。

其中，第一喉咙识别模型可为神经网络模型或者其他分类模型，请参阅图4，在一个实施例中，以神经网络为例，通过喉咙样本图像和非喉咙样本图像进行训练建立第一喉咙识别模型的步骤包括：

步骤s221：获取样本图像，并将样本图像切分为多个同等大小的样本图像窗口。

步骤s222：对各个样本图像窗口标注分值。

其中，喉咙面积大小超过图像面积大小的2分之1为喉咙图像，标注分值为1；喉咙面积大小超过图像面积大小的2分之1为非喉咙图像，标注分值为0；或者，喉咙面积大小超过图像面积大小的2分之1为喉咙图像，标注分值为0；喉咙面积大小超过图像面积大小的2分之1为非喉咙图像，标注分值为1。

其中，标注的分值大小可以根据需要进行修改，但是一旦标注确定后，则在整个系统中表示的意义则不能再改变。

步骤s223：取一样本图像窗口输入至第一喉咙识别模型中，获得该样本图像窗口的识别结果，并根据该样本图像窗口的识别结果与该样本图像窗口标注的分值，计算第一喉咙模型的设定代价函数值。

步骤s224：如果第一喉咙模型的设定代价函数值满足设定值，则建立该第一喉咙识别模型；如果第一喉咙模型的设定代价函数值不满足设定值，则更新第一喉咙识别模型，取下一样本图像，回到步骤s223。

所述第一喉咙识别模型的表示方式为：

其中，w和b为第一喉咙识别模型的参数，是待训练的变量；x为第一喉咙识别模型的输入，在训练过程中，x为样本图像窗口，在识别过程中，x为图像窗口；y为第一喉咙识别模型的输出，其为0至1之间的分值。

所述第一喉咙识别模型中的参数的更新方式为：

计算各个参数的梯度

更新各个参数w＝w-λδw,b＝b-λδb，其中λ是可调的更新步长，比如设为0.1，具体最优设值需要根据具体的样本情况来判断。参数更新的方法还有其他的，比如adam算法等，不作限定。

所述第一喉咙识别模型的代价函数为交叉熵函数，其表示方式为：

其中，为步骤s222中对各个样本图像窗口标注的分值，y是第一喉咙识别模型输出的样本图像窗口的识别结果。

所述设定值可根据实际需要进行确定，其确定原则是越小越好，可以为l小到一定程度或者不再下降，则不再进行训练。

步骤s23：如果最高的喉咙分值超过第一设定阈值，则将该最高的喉咙分值对应的图像窗口作为喉咙图像。

其中，所述第一设定阈值可以根据实际需要的分类敏感度和准确度要求来设定。阈值设得越高，敏感度越低，准确度越高；阈值设得越低，敏感度越高，准确度越低。其中，敏感度是指，在所有是喉咙的样本里面，分类器判定为喉咙的样本比例。准确度是指，在所有分类器判定为喉咙的样本里面，确实是喉咙的样本的比例。具体的计算公式如下：

步骤s24：如果最高的喉咙分值超过第一设定阈值，则提示该待识别的喉咙图像不包括喉咙图像的信息。

本公开不限定所述步骤sa～sl的先后顺序，也即，在其他实施例中，可根据所述步骤s21～s24之间的逻辑关系，而适应性地调整所述步骤s21～s24的执行顺序，所述执行顺序并不唯一，例如，步骤s23和步骤s24的位置可以互换。

步骤s3：将喉咙图像输入至第二喉咙识别模型中进行识别，获得喉咙的状态分值；其中，所述第二喉咙识别模型为通过喉咙样本图像以及对应的喉咙的状态分值进行训练后建立的模型。

其中，第二喉咙识别模型可为神经网络模型或者其他分类模型，请参阅图5，在一个实施例中，通过根据喉咙样本图像以及对应的喉咙的状态分值进行训练建立第二喉咙识别模型的步骤，包括：

步骤s31：获取多个喉咙样本图像，并对各个喉咙样本图像标注喉咙的状态分值。

其中，喉咙状态为正常的图像，标注为1，喉咙状态为异常的图像，标注为0；或者，喉咙状态为正常的图像，标注为0，喉咙状态为异常的图像，标注为1。

其中，标注的大小可以根据需要进行修改，但是一旦标注确定后，则在整个系统中表示的意义则不能再改变。

步骤s32：取一喉咙样本图像输入至第二喉咙识别模型中，获得第二喉咙识别模型输出的喉咙样本图像的状态分值，并根据第二喉咙识别模型输出的喉咙样本图像的状态分值与表注的喉咙样本图像的状态分值，计算第二喉咙模型的设定代价函数值。

步骤s33：如果第二喉咙模型的设定代价函数值满足设定值，则建立该第二喉咙识别模型；如果第二喉咙模型的设定代价函数值不满足设定值，则更新第二喉咙识别模型，取下一喉咙样本图像，回到步骤s32。

其中，所述第二喉咙识别模型的表示方式为y＝f(f(x))，为一个复合函数，其中f()为分类器，其表示方式、参数的更新方式、代价函数和设定值的确定与第一喉咙识别模型相同，这里不加以赘述。f(x)是特征提取器集合，其可包括多个特征提取器，每个特征提取器的表示方式为：其中，x是指从原图片中切出来的切片窗口即喉咙样本图像的像素的矩阵向量，比如原图为2000*2000像素，喉咙样本图像的大小为5*5，则x为25维的向量，也是25维的向量，表示第i个特征提取器的参数，conv()为卷积函数，表示对括号内的参数进行卷积运算；表示第i个特征提取器。

其中，训练特征提取器的方式为：确定喉咙图像的特征，比如白斑点、红斑点各为一种图像特征，选定这两种图像特征，就有两个特征提取器；然后从原图片中把含有白斑点的窗口人工选定，切片出来，作为正样本；其他没有白斑点的区域抽样一定的切片数量作为负样本。红斑点或者其他特征亦如此。将正样本标注为1，负样本标注为0，然后对特征提取器进行训练，并通过结果预测方程对训练结果进行预测，获得训练后的特征提取器，进而确定各个特征提取器的值。结果预测方程中的表示第i个特征提取器的结果预测方程的权重参数；表示第i个特征提取器；b2表示结果预测方程的偏置参数。其中，特征提取器的训练过程中的参数的更新方式和设定值的确定与第一喉咙识别模型相同，这里不加以赘述。

当各个特征提取器确定后，通过各个特征提取器分别对喉咙样本图像进行卷积运算，获得该多个特征提取器对应的喉咙样本图像的特征集合，再将该特征集合前后拼接作为分类器的输入，实现对喉咙样本图像的分类，从而提高分类器的准确性。在本实施例中，在训练特征提取器时，选定了一图像特征，通过将图像特征如白斑点从训练样本图像中切分出来作为训练正样本，其他没有图像特征的作为训练负样本，以实现对特征提取器的训练，进而通过该特征提取器对喉咙图像进行特征提取时，只提取喉咙图像中的图像特征，从而使得分类器可根据图像特征实现快速准确分类，提高分类器的准确性。

在一个实施中，步骤s3中将喉咙图像输入至第二喉咙识别模型中进行识别，获得喉咙的状态分值的步骤之后，还包括：如果喉咙的状态分值超过第二设定阈值，则提示喉咙为异常的信息；如果喉咙的状态分值没有超过第二设定阈值，则提示喉咙为正常的信息。

请参阅图6，在一个更优的实施例中，为使得获得的喉咙图像更加完整和清晰，在步骤s2中将待识别的喉咙图像输入至第一喉咙识别模型中进行识别，并从待识别的喉咙图像中确定出喉咙图像之后，还包括调整待识别的喉咙图像的方法，具体如下步骤：

步骤s2a：获取喉咙图像的坐标信息。

步骤s2b：根据所述喉咙图像的坐标信息，计算喉咙图像的中心坐标。

其中，喉咙图像的坐标信息为(x，y，w，h)；x，y代表喉咙窗口左上角的坐标；w，h代表窗口的宽度、高度；则喉咙图像的中心坐标为(x+w/2，y+h/2)。

步骤s2c：如果喉咙图像的中心坐标中的横坐标在设定的横坐标范围内，且喉咙图像的中心坐标中的横坐标在设定的纵坐标范围内，则跳到步骤s3。

其中，所述设定的横坐标范围为与待识别喉咙图像的中心坐标中的横坐标的差值的绝对值小于横坐标的设定阈值的坐标，例如，如果喉咙图像的中心坐标中的横坐标为1500，横坐标的设定阈值为500，则所述设定的横坐标范围为1000至2000。所述设定的纵坐标范围为与待识别喉咙图像的中心坐标中的纵坐标的差值的绝对值小于纵坐标的设定阈值的坐标，例如，如果喉咙图像的中心坐标中的纵坐标为1600，纵坐标的设定阈值为500，则所述设定的纵坐标范围为1100至2100。

步骤s2d：如果喉咙图像的中心坐标中的横坐标不在设定的横坐标范围内，则如果喉咙图像的中心坐标中的横坐标与设定的横坐标的差值小于0，则提示获取待识别的喉咙图像的摄像装置11向左移动；如果喉咙图像的中心坐标中的横坐标与设定的横坐标的差值大于0，则提示获取待识别的喉咙图像的摄像装置11向右移动，回到步骤s2。

步骤s2e：如果喉咙图像的中心坐标中的横坐标在设定的横坐标范围内，但喉咙图像的中心坐标中的纵坐标不在设定的纵坐标范围内，则如果喉咙图像的中心坐标中的纵坐标与设定的纵坐标的差值小于0，则提示获取待识别的喉咙图像的摄像装置11向上移动；如果喉咙图像的中心坐标中的纵坐标与设定的纵坐标的差值大于0，则提示获取待识别的喉咙图像的摄像装置11向下移动；回到步骤s2。

请参阅图8，与前述喉咙识别方法的实施例对应，本公开还提供了一种喉咙识别装置20，应用于终端中，包括：

图像获取模块21，用于获取待识别的喉咙图像；

喉咙图像确定模块22，用于将待识别的喉咙图像输入至第一喉咙识别模型中进行识别，并从待识别的喉咙图像中确定出喉咙图像；其中，所述第一喉咙识别模型为通过喉咙样本图像和非喉咙样本图像进行训练后建立的模型；

状态分值确定模块23，用于将喉咙图像输入至第二喉咙识别模型中进行识别，获得喉咙的状态分值；其中，所述第二喉咙识别模型为通过喉咙样本图像以及对应的喉咙的状态分值进行训练后建立的模型。

在一个实施例中，所述喉咙图像确定模块22包括：

切分模块221，用于将待识别的喉咙图像切分为多个同等大小的图像窗口。

喉咙分值确定模块222，用于将各个所述图像窗口分别输入至第一喉咙识别模型中，获得各个图像窗口的喉咙分值。

喉咙图像确定模块223，用于如果最高的喉咙分值超过第一设定阈值，则将该最高的喉咙分值对应的图像窗口作为喉咙图像。

提示模块224，用于如果最高的喉咙分值超过第一设定阈值，则提示该待识别的喉咙图像不包括喉咙图像的信息。

在一个实施中，本公开的喉咙识别装置还包括状态提示模块(图中未示)，用于如果喉咙的状态分值超过第二设定阈值，则提示喉咙为异常的信息；如果喉咙的状态分值没有超过第二设定阈值，则提示喉咙为正常的信息。

请参阅图9，在一个更优的实施例中，为使得获得的喉咙图像更加完整和清晰，本公开的喉咙识别装置还包括图像调整模块25，所述图像调整模块25包括：

坐标信息获取模块251，用于获取喉咙图像的坐标信息。

中心坐标计算模块252，用于根据所述喉咙图像的坐标信息，计算喉咙图像的中心坐标。

跳转模块253，用于如果喉咙图像的中心坐标中的横坐标在设定的横坐标范围内，且喉咙图像的中心坐标中的横坐标在设定的纵坐标范围内，则将喉咙图像输入至第二喉咙识别模型中进行识别，获得喉咙的状态分值。

第一移动提示模块254，用于如果喉咙图像的中心坐标中的横坐标不在设定的横坐标范围内，则如果喉咙图像的中心坐标中的横坐标与设定的横坐标的差值小于0，则提示获取待识别的喉咙图像的摄像装置11向左移动；如果喉咙图像的中心坐标中的横坐标与设定的横坐标的差值大于0，则提示获取待识别的喉咙图像的摄像装置11向右移动，则将待识别的喉咙图像输入至第一喉咙识别模型中进行识别，并从待识别的喉咙图像中确定出喉咙图像。

第二移动提示模块255，用于如果喉咙图像的中心坐标中的横坐标在设定的横坐标范围内，但喉咙图像的中心坐标中的纵坐标不在设定的纵坐标范围内，则如果喉咙图像的中心坐标中的纵坐标与设定的纵坐标的差值小于0，则提示获取待识别的喉咙图像的摄像装置11向上移动；如果喉咙图像的中心坐标中的纵坐标与设定的纵坐标的差值大于0，则提示获取待识别的喉咙图像的摄像装置11向下移动；则将待识别的喉咙图像输入至第一喉咙识别模型中进行识别，并从待识别的喉咙图像中确定出喉咙图像。

本公开还提供一种计算机可读存储介质，其上储存有计算机程序，该计算机程序被处理器执行时实现如上述方法中对应步骤的实现过程，在此不再赘述。

本公开可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

本公开还提供一种计算机设备，包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时实现上述方法中对应步骤的实现过程，在此不再赘述。

本公开还提供一种喉咙识别设备，包括摄像装置11和图像处理装置12，所述摄像装置11用于拍摄待识别的喉咙图像，所述图像处理装置12用于实现上述方法中对应步骤的实现过程，在此不再赘述。

其中，摄像装置11和图像处理装置12可以集成于同一终端设备内，例如该终端设备可为带摄像头的手机、带摄像头的ipad、带摄像头的电脑等终端设备，这些终端设备内可安装有图像处理应用，进而可对拍摄的待识别的喉咙图像进行识别处理，获得喉咙的状态分值。摄像装置11和图像处理装置12也可以不集成于同一终端设备内，例如通过相机对着人的喉咙进行拍摄，获得拍摄的待识别的喉咙图像，再传送到手机、ipad、电脑等设备，由手机、ipad、电脑安装的图像处理应用，对待识别的喉咙图像进行识别处理，获得喉咙的状态分值。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出如果干变形和改进，这些都属于本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄斐铨;宋嵘
技术所有人：中山大学
我是此专利的发明人

上一篇：一种具有螺二芴结构的有机化合物及其应用的制作方法
上一篇：一种机场跑道胶痕自动识别方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。