一种基于自编码网络的拉曼光谱数据分类方法与流程

文档序号:16136852发布日期:2018-12-01 01:06阅读:192来源:国知局

本发明属于人工智能应用技术领域,具体涉及一种基于自编码网络的拉曼光谱数据分类方法。

背景技术

阿尔茨海默病(alzheimer'sdisease),是老年痴呆中最常见的一种病型。它是一种中枢神经系统变性病,也是一种慢性的变性疾病,会对大脑造成损伤,临床症状表现为认知功能障碍、记忆障碍及语言障碍等,直接影响患者的正常生活。根据2006年的数据显示,全球已有两亿多的ad患者。并且,社会老龄化程度也越来越高,ad的患病患者也越来越多,阿尔茨海默病已经成为整个社会不得不面对的一种疾病。每一个ad患者都会给一个家庭或数个家庭带来沉重的负担并且通过相关的医疗计划等间接地影响着社会的方方面面,因此,这种疾病的治疗已经引起了广泛的公众关注。但到目前为止,由于对ad发病机制的认识不足,其诊断和治疗还主要依靠主治医师的临床经验,心理测试和医学成像,如计算机断层扫描(ct)和核磁共振成像(nmr)等。然而,这些诊断方法大多具有一定的主观性,误诊和漏诊现象时有发生,而且存在对早期ad患者无法鉴别的缺陷。因此,在临床实践中迫切需要一种客观、准确诊断ad的依据,从而能够在疾病的不同阶段鉴别和诊断ad。

单细胞的拉曼光谱检测在1990年被pupples率先报道,随后拉曼光谱技术在疾病诊断方面的应用越来越多,拉曼光谱技术有着非破坏性和非侵入式检测的优点,从而使得其可以理想地检测生化样品,得到有效数据。而拉曼光谱技术结合一些分类算法诸如偏最小二乘法、线性判别分析、支持向量机等统计分析方法,可以用于分析阿尔兹海默症患者不同病龄血小板的不同特征并加以鉴别。

在生物学方面,拉曼光谱应用于对细胞病变的研究往往是一些生物学家或者化学家进行的,他们一般用spss软件等工具实现对数据的分析及处理。传统的拉曼光谱分类方法,例如主成分分析法、偏最小二乘法等方法,这些方法都是将原始数据经过某种程度上的变换即特征空间的映射,在新的特征空间中,找到合适的特征表示方法,从而实现分类。这类方法往往计算复杂,分类效果不佳。一些浅层的学习方法,例如支持向量机、线性回归分析等,则是根据输入的带标签数据找出决策边界。但是通常会出现这样一种情况,即输入的训练样本中某些样本与其他样本差异较大时,分类的决策边界会受到较大的影响。



技术实现要素:

为了解决上述问题,本发明提出了一种基于自编码网络的拉曼光谱数据分类方法,本发明根据栈式稀疏自编码,结合softmax分类器针对不同病龄阿尔兹海默症患者血小板拉曼光谱进行分析和识别。

本发明的方案为一种基于自编码网络的拉曼光谱数据分类方法,其特征在于,包括以下步骤:

步骤1:通过光镊拉曼系统提取不同病龄的阿尔兹海默症患者血小板的拉曼光谱图,并对拉曼光谱图进行背景扣减、基线校正、平滑及平均处理,将处理之后的拉曼光谱图随机分为训练集和测试集;

步骤2:将训练集样本作为第一层自动编码器输入数据,通过逐层贪婪训练法训练得到第一层自动编码器的各层权重系数和各层偏置向量,将第一层自动编码器的深层特征作为第二层自动编码器输入数据通过逐层贪婪训练法训练得到第二层自动编码器的各层权重系数和各层偏置向量,通过第一层自动编码器以及第二层自动编码器构建两层特征层的栈式稀疏自编码网络;

步骤3:将步骤2中所述第二层自动编码器的深层特征作为输入数据以训练softmax分类器,通过梯度下降算法优化求解softmax分类器,将训练后softmax分类器作为softmax分类层以替换两层特征层的栈式稀疏自编码网络的输出层;

步骤4:根据两层特征层的栈式稀疏自编码网络的第一特征层、第二层特征层以及softmax分类层构建初始分类网络,通过反向传播算法优化初始分类网络得到优化后分类网络;

步骤5:将测试集作为优化后分类网络输入数据,构建神经元数量优化第一层特征层以及神经元数量优化第二层特征层,通过神经元数量优化第一层特征层、神经元数量优化第二层特征层以及优化后分类网络的softmax分类层得到神经元数量优化的分类网络;

作为优选,步骤1中所述训练集中样本数量为m张,测试集中样本数量为k张;

作为优选,步骤2中所述将训练集样本作为第一层自动编码器输入数据为将步骤1中所述训练集中样本x(i)(i∈[1,m],x(i)表示特征维度为s1的向量),作为输入数据组成第一层输入层;

步骤2中所述通过逐层贪婪训练法训练得到第一层自动编码器的各层权重系数和各层偏置向量为:

对x(i)进行编码操作得到第一层自动编码器特征层的深层特征y(i)

y(i)=s(w1x(i)+b1)

其中,w1为第一层自动编码器特征层权重系数,b1为第一层自动编码器特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

对第一层自动编码器特征层的深层特征y(i)进行解码操作得到第一层自动编码器输出层重构向量

其中,w′1为第一层自动编码器输出层权重系数,b′1为第一层自动编码器输出层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

构建第一层自动编码器交叉熵函数模型为:

其中,m为步骤1所述训练集中样本的数量,w是自编码网络模型的权重系数,b是自编码网络模型的偏置向量矩阵;

第一层自动编码器特征层中,对每个神经元加入稀疏约束实现稀疏表达,神经元j的平均激活度为:

其中,fθ(x(i))为输入数据为样本x(i)时神经元j的激活度,定义平均激活度系数为ρ,平均激活度与平均激活度系数为ρ的相对熵为:

第一层自动编码器稀疏自编码器损失函数为:

其中,s2是第一层自动编码器特征层中神经元的数量,j为神经元序号,β是稀疏系数;

通过采用逐层贪婪训练法对第一层自动编码器稀疏自编码器损失函数最小时进行优化求解,得到第一层自动编码器特征层权重系数w1、第一层自动编码器特征层偏置向量矩阵b1、第一层自动编码器输出层权重系数w′1以及第一层自动编码器输出层偏置向量矩阵b′1;

步骤2中所述将第一层自动编码器的深层特征作为第二层自动编码器输入数据通过逐层贪婪训练法训练得到第二层自动编码器的各层权重系数和各层偏置向量:

将逐层贪婪训练法训练后第一层自动编码器特征层的深层特征y(i)作为输入数据作为第二层自动编码器输入层,经过编码操作得到第二层自动编码器特征层的深层特征为:

y'(i)=s(w2y(i)+b2)

其中,w2为第二层自动编码器特征层权重系数,b2为第二层自动编码器特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

对第二层自动编码器特征层的深层特征y'(i)进行解码操作,得到第二层自动编码器输出层重构向量为:

其中,w2'为第二层自动编码器输出层权重系数,b'2为第二层自动编码器输出层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

根据步骤2中所述构建第二层自动编码器稀疏自编码器损失函数,结合第二层自动编码器特征层中神经元的数量s3,通过采用逐层贪婪训练法对第二层自动编码器稀疏自编码器损失函数最小时进行优化求解,得到第二层自动编码器特征层权重系数w2、第二层自动编码器特征层偏置向量矩阵b2、第二层自动编码器输出层权重系数w2'以及第二层自动编码器输出层偏置向量矩阵b'2;

步骤2中所述通过第一层自动编码器以及第二层自动编码器构建两层特征层的栈式稀疏自编码网络:

将逐层贪婪训练法训练后,将第一层自动编码器输入层作为两层特征层的栈式稀疏自编码网络的输入层,将第一层自动编码器特征层作为两层特征层的栈式稀疏自编码网络的第一特征层,将第二层特征层自动编码器特征层作为两层特征层的栈式稀疏自编码网络的第二特征层,将第二层自动编码器输出层作为两层特征层的栈式稀疏自编码网络的输出层,构建两层特征层的栈式稀疏自编码网络;

作为优选,步骤3所述将步骤2中所述第二个自动编码器的深层特征y′(i)作为输入数据以训练softmax分类层,对于一个k分类问题,需要输出一个k维向量来这k个估计的概率值,假设函数hθ(x):

其中,θ为模型的全部参数是一个k×(n+1)维的矩阵,其下标指某一具体神经元的参数,其上标t代表矩阵的转置,n是y′(i)的特征维度;

步骤3中所述通过梯度下降算法优化求解softmax分类器为:

对输入数据y′(i)进行一次softmax回归,建立一次softmax回归代价函数模型为:

其中,m为步骤1所述训练集中样本的数量,i是样本序号,k是分类的类别数量,j为类别序号,θ为模型的全部参数,其下标指softmax分类层某一具体神经元的参数,n是y′(i)的特征维度,γ是权重项衰减系数;

对代价函数进行求导为:

其中,m为步骤1所述训练集中样本的数量,i是样本序号,k是分类的类别数量,j为类别序号,θ为模型的全部参数,其下标指softmax分类层某一具体神经元的参数,n是y′(i)的特征维度,γ是权重项衰减系数;

以j(θ)最小化为优化目标,通过梯度下降算法优化求解,从而得到训练后softmax分类器;

作为优选,步骤4中所述两层特征层的栈式稀疏自编码网络的第一特征层为:

y(i)=s(w1x(i)+b1)

其中,w1为第一层特征层权重系数,b1为第一层特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

两层特征层的栈式稀疏自编码网络的第二层特征层为:

y'(i)=s(w2y(i)+b2)

其中,w2为第二层自动编码器特征层权重系数,b2为第二层自动编码器特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

两层特征层的栈式稀疏自编码网络的softmax分类层为:

对于一个k分类问题,需要输出一个k维向量来这k个估计的概率值,假设函数hθ(x)如下:

θ为模型的全部参数,是一个k×(n+1)维的矩阵,其下标指某一具体神经元的参数,其上标t代表矩阵的转置,n是y′(i)的特征维度;

步骤4中所述构建初始分类网络为:

将栈式稀疏自编码网络的第一特征层作为初始分类网络的第一层特征层,将栈式稀疏自编码网络的第二层特征层作为初始分类网络的第二层特征层,将栈式稀疏自编码网络的softmax分类层作为初始分类网络的softmax分类层;

步骤4中所述通过反向传播算法优化初始分类网络得到优化后分类网络:

优化后分类网络的第一层特征层:

其中,为优化后第一层特征层权重系数,为优化后第一层特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

优化后分类网络的第二层特征层:

其中,为优化后第二层特征层权重系数,为优化后第二层特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

优化后分类网络的softmax分类层:

其中,为优化后模型的全部参数是一个k×(n+1)维的矩阵,其下标指某一具体神经元的参数,其上标t代表矩阵的转置,n是y′(i)的特征维度;

作为优选,步骤5中所述构建神经元数量优化第一层特征层为:

将步骤1中所述测试集输入到优化后分类网络得到分类结果,遍历优化后分类网络的第一层特征层的神经元数量即调整优化后分类网络的第一层特征层的神经元数量,固定其他参数,将病龄分类结果与步骤1中所述测试集实际病龄进行对比,将与实际病龄对比结果误差最小的神经元数量作为优化后分类网络的第一层特征层的神经元数量,得到神经元数量优化第一层特征层;

步骤5中所述构建神经元数量优化第二层特征层为:

将步骤1中所述测试集输入到第一层特征层的神经元数量优化后分类网络,遍历优化后分类网络的第二层特征层的神经元数量即调整优化后分类网络的第二层特征层的神经元数量,固定其他参数,将病龄分类结果与步骤1中所述测试集实际病龄进行对比,将与实际病龄对比结果误差最小的神经元数量作为优化后分类网络的第二层特征层的神经元数量,得到神经元数量优化第二层特征层;

与现有技术相比,本发明优点在于提高了分类的准确性以及稳定性。

附图说明

图1:本发明方法流程图;

图2:不同病龄阿尔兹海默症小白鼠血小板的拉曼光谱图;

图3:两层栈式自编码网络第一层的训练示意图;

图4:两层栈式自编码网络第二层的训练示意图;

图5:softmax分类层的示意图;

图6:两层栈式自编码网络结合softmax分类器的网络结构图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施示例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。

下面结合图1至图6介绍本发明的实施方式,本发明的实施方式具体包括以下步骤:

步骤1:通过光镊拉曼系统提取不同病龄的阿尔兹海默症患者血小板的拉曼光谱图,并对拉曼光谱图进行背景扣减、基线校正、平滑及平均处理,将处理之后的拉曼光谱图随机分为训练集和测试集;

步骤1中所述训练集中样本数量为m=328张,测试集中样本数量为k=40张;

步骤2:将训练集样本作为第一层自动编码器输入数据,通过逐层贪婪训练法训练得到第一层自动编码器的各层权重系数和各层偏置向量,将第一层自动编码器的深层特征作为第二层自动编码器输入数据通过逐层贪婪训练法训练得到第二层自动编码器的各层权重系数和各层偏置向量,通过第一层自动编码器以及第二层自动编码器构建两层特征层的栈式稀疏自编码网络;

步骤2中所述将训练集样本作为第一层自动编码器输入数据为将步骤1中所述训练集中样本x(i)(i∈[1,328],x(i)表示特征维度为s1=440的向量),作为输入数据组成第一层输入层;

步骤2中所述通过逐层贪婪训练法训练得到第一层自动编码器的各层权重系数和各层偏置向量为:

对x(i)进行编码操作得到第一层自动编码器特征层的深层特征y(i)

y(i)=s(w1x(i)+b1)

其中,w1为第一层自动编码器特征层权重系数,b1为第一层自动编码器特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

对第一层自动编码器特征层的深层特征y(i)进行解码操作得到第一层自动编码器输出层重构向量

其中,w′1为第一层自动编码器输出层权重系数,b′1为第一层自动编码器输出层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

构建第一层自动编码器交叉熵函数模型为:

其中,m为步骤1所述训练集中样本的数量,w是自编码网络模型的权重系数,b是自编码网络模型的偏置向量矩阵;

第一层自动编码器特征层中,对每个神经元加入稀疏约束实现稀疏表达,神经元j的平均激活度为:

其中,fθ(x(i))为输入数据为样本x(i)时神经元j的激活度,定义平均激活度系数为ρ=0.05,平均激活度与平均激活度系数为ρ的相对熵为:

第一层自动编码器稀疏自编码器损失函数为:

其中,s2=400是第一层自动编码器特征层中神经元的数量,j为神经元序号,β=0.1是稀疏系数;

通过采用逐层贪婪训练法对第一层自动编码器稀疏自编码器损失函数最小时进行优化求解,得到第一层自动编码器特征层权重系数w1、第一层自动编码器特征层偏置向量矩阵b1、第一层自动编码器输出层权重系数w′1以及第一层自动编码器输出层偏置向量矩阵b′1;

步骤2中所述将第一层自动编码器的深层特征作为第二层自动编码器输入数据通过逐层贪婪训练法训练得到第二层自动编码器的各层权重系数和各层偏置向量:

将逐层贪婪训练法训练后第一层自动编码器特征层的深层特征y(i)作为输入数据作为第二层自动编码器输入层,经过编码操作得到第二层自动编码器特征层的深层特征为:

y'(i)=s(w2y(i)+b2)

其中,w2为第二层自动编码器特征层权重系数,b2为第二层自动编码器特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

对第二层自动编码器特征层的深层特征y'(i)进行解码操作,得到第二层自动编码器输出层重构向量为:

其中,w2'为第二层自动编码器输出层权重系数,b'2为第二层自动编码器输出层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

根据步骤2中所述构建第二层自动编码器稀疏自编码器损失函数,结合第二层自动编码器特征层中神经元的数量s3=60,通过采用逐层贪婪训练法对第二层自动编码器稀疏自编码器损失函数最小时进行优化求解,得到第二层自动编码器特征层权重系数w2、第二层自动编码器特征层偏置向量矩阵b2、第二层自动编码器输出层权重系数w2'以及第二层自动编码器输出层偏置向量矩阵b'2;

步骤2中所述通过第一层自动编码器以及第二层自动编码器构建两层特征层的栈式稀疏自编码网络:

将逐层贪婪训练法训练后,将第一层自动编码器输入层作为两层特征层的栈式稀疏自编码网络的输入层,将第一层自动编码器特征层作为两层特征层的栈式稀疏自编码网络的第一特征层,将第二层特征层自动编码器特征层作为两层特征层的栈式稀疏自编码网络的第二特征层,将第二层自动编码器输出层作为两层特征层的栈式稀疏自编码网络的输出层,构建两层特征层的栈式稀疏自编码网络;

步骤3:将步骤2中所述第二层自动编码器的深层特征作为输入数据以训练softmax分类器,通过梯度下降算法优化求解softmax分类器,将训练后softmax分类器作为softmax分类层以替换两层特征层的栈式稀疏自编码网络的输出层;

步骤3所述将步骤2中所述第二个自动编码器的深层特征y′(i)作为输入数据以训练softmax分类层,对于一个k=4分类问题,需要输出一个k=4维向量来这k=4个估计的概率值,假设函数hθ(x):

其中,θ为模型的全部参数是一个k×(n+1)维的矩阵,其下标指某一具体神经元的参数,其上标t代表矩阵的转置,n是y′(i)的特征维度;

步骤3中所述通过梯度下降算法优化求解softmax分类器为:

对输入数据y′(i)进行一次softmax回归,建立一次softmax回归代价函数模型为:

其中,m=328为步骤1所述训练集中样本的数量,i是样本序号,k=4是分类的类别数量,j为类别序号,θ为模型的全部参数,其下标指softmax分类层某一具体神经元的参数,n是y′(i)的特征维度,γ=3e^(-3)是权重项衰减系数;

对代价函数进行求导为:

其中,m=328为步骤1所述训练集中样本的数量,i是样本序号,k=4是分类的类别数量,j为类别序号,θ为模型的全部参数,其下标指softmax分类层某一具体神经元的参数,n是y′(i)的特征维度,γ=3e^(-3)是权重项衰减系数;

以j(θ)最小化为优化目标,通过梯度下降算法优化求解,从而得到训练后softmax分类器;

步骤4:根据两层特征层的栈式稀疏自编码网络的第一特征层、第二层特征层以及softmax分类层构建初始分类网络,通过反向传播算法优化初始分类网络得到优化后分类网络;

步骤4中所述两层特征层的栈式稀疏自编码网络的第一特征层为:

y(i)=s(w1x(i)+b1)

其中,w1为第一层特征层权重系数,b1为第一层特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

两层特征层的栈式稀疏自编码网络的第二层特征层为:

y'(i)=s(w2y(i)+b2)

其中,w2为第二层自动编码器特征层权重系数,b2为第二层自动编码器特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

两层特征层的栈式稀疏自编码网络的softmax分类层为:

对于一个k=4分类问题,需要输出一个k=4维向量来这k=4个估计的概率值,假设函数hθ(x)如下:

θ为模型的全部参数,是一个k×(n+1)维的矩阵,其下标指某一具体神经元的参数,其上标t代表矩阵的转置,n是y′(i)的特征维度;

步骤4中所述构建初始分类网络为:

将栈式稀疏自编码网络的第一特征层作为初始分类网络的第一层特征层,将栈式稀疏自编码网络的第二层特征层作为初始分类网络的第二层特征层,将栈式稀疏自编码网络的softmax分类层作为初始分类网络的softmax分类层;

步骤4中所述通过反向传播算法优化初始分类网络得到优化后分类网络:

优化后分类网络的第一层特征层:

其中,为优化后第一层特征层权重系数,为优化后第一层特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

优化后分类网络的第二层特征层:

其中,为优化后第二层特征层权重系数,为优化后第二层特征层偏置向量矩阵,s(·)为激活函数,本发明为sigmoid函数;

优化后分类网络的softmax分类层:

其中,为优化后模型的全部参数是一个k×(n+1)维的矩阵,其下标指某一具体神经元的参数,其上标t代表矩阵的转置,n是y′(i)的特征维度;

步骤5:将测试集作为优化后分类网络输入数据,构建神经元数量优化第一层特征层以及神经元数量优化第二层特征层,通过神经元数量优化第一层特征层、神经元数量优化第二层特征层以及优化后分类网络的softmax分类层得到神经元数量优化的分类网络;

步骤5中所述构建神经元数量优化第一层特征层为:

将步骤1中所述测试集输入到优化后分类网络得到分类结果,遍历优化后分类网络的第一层特征层的神经元数量即调整优化后分类网络的第一层特征层的神经元数量,固定其他参数,将病龄分类结果与步骤1中所述测试集实际病龄进行对比,将与实际病龄对比结果误差最小的神经元数量作为优化后分类网络的第一层特征层的神经元数量,得到神经元数量优化第一层特征层;

步骤5中所述构建神经元数量优化第二层特征层为:

将步骤1中所述测试集输入到第一层特征层的神经元数量优化后分类网络,遍历优化后分类网络的第二层特征层的神经元数量即调整优化后分类网络的第二层特征层的神经元数量,固定其他参数,将病龄分类结果与步骤1中所述测试集实际病龄进行对比,将与实际病龄对比结果误差最小的神经元数量作为优化后分类网络的第二层特征层的神经元数量,得到神经元数量优化第二层特征层;

应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1