基于深度学习的嘴巴张闭状态检测方法与流程

文档序号：12471107阅读：来源：国知局

技术特征：

1.一种基于深度学习的嘴巴张闭状态检测方法，其特征在于，所述方法包括：

步骤S1，对输入的图像进行预处理；

步骤S2，对于预处理后的图像提取特征；

步骤S3，利用神经网络对于提取到的特征进行分类，通过对于分类结果进行归一化得到某一图像属于张嘴和闭嘴的预测结果；

步骤S4，计算神经网络输出结果的误差并将其反传，以调整神经网络的参数；

步骤S5，对输入的待检测图像进行测试，得到检测结果。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1包括以下步骤：

步骤S11，将输入的图像归一化；

步骤S12，将归一化后的图像转换为灰度图像。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2中，采用神经系统中的卷积层和最大池化层来进行特征的提取。

4.根据权利要求3所述的方法，其特征在于，所述卷积层的数量为四个，最大池化层的数量为三个。

5.根据权利要求3所述的方法，其特征在于，所述步骤S2中，卷积计算按照下式进行：

$<mrow> <msup> <mi>y</mi> <mrow> <mi>j</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>=</mo> <mo>|</mo> <mi>tanh</mi> <mrow> <mo>(</mo> <msup> <mi>b</mi> <mrow> <mi>j</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>+</mo> <munder> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> </munder> <msup> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>×</mo> <msup> <mi>x</mi> <mrow> <mi>i</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>)</mo> </mrow> <mo>|</mo> </mrow>$

其中，xⁱ代表第i层神经元的输入，y^j代表第j层神经元的输出，上标r代表该层神经元的序数，w^ij代表从第i层到第j层的权重矩阵，b^j是第j层神经元的偏置项，tanh代表双曲正切函数。

6.根据权利要求5所述的方法，其特征在于，所述步骤S2中，池化层按照下式进行操作：

$<mrow> <msup> <mi>y</mi> <mrow> <mi>j</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mrow> <mn>0</mn> <mo>,</mo> <msup> <mi>b</mi> <mrow> <mi>j</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>+</mo> <munder> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> </munder> <msup> <mi>w</mi> <mrow> <mi>i</mi> <mi>j</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>×</mo> <msup> <mi>x</mi> <mrow> <mi>i</mi> <mrow> <mo>(</mo> <mi>r</mi> <mo>)</mo> </mrow> </mrow> </msup> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mrow>$

其中，max代表取大值。

7.根据权利要求1所述的方法，其特征在于，所述步骤S3通过神经网络中的全连接层以及归一化操作来进行特征分类。

8.根据权利要求1所述的方法，其特征在于，所述步骤S4中，误差表示为：

$<mrow> <mi>J</mi> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>Σ</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mi>y</mi> <mi>i</mi> </msup> <mi>log</mi> <mi> </mi> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>y</mi> <mi>i</mi> </msup> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>x</mi> <mi>i</mi> </msup> <mo>)</mo> </mrow> </mrow>$

其中，m为样本数量，xⁱ、yⁱ分别代表第i个样本判断的张闭状态和第i个样本的实际张闭状态，且x∈{0，1}，y∈{0，1}，1代表张嘴，0代表闭嘴。

9.根据权利要求1所述的方法，其特征在于，所述步骤S5中，对于输入的待检测图像先重复所述步骤S1、S2、S3，当输出的张嘴概率大于闭嘴概率时便认为预测结果为张嘴，反之则认为是闭嘴。

10.根据权利要求1所述的方法，其特征在于，所述步骤S5还包括根据对检测结果和输入图像人工标注标签的比较得到检测准确率的步骤。

完整全部详细技术资料下载

当前第2页1 2 3