本发明提供一种药用真菌近红外光谱分析方法,用于中药材的有效成分的快速检测,属于中药材活性成分分析技术领域。
背景技术:
药用真菌,如冬虫夏草,牛樟芝和松茸等,具有增强人体免疫力,抗肿瘤和抗癌的功效,药用真菌中的活性成分可用于广泛的临床治疗,并且这些成分可通过近红外光谱快速检测,近红外光谱(nirs)是一种方便,快速,无侵入性的分析方法,已应用于药用真菌数据的定量分析。通过扫描样品的近红外光谱,可以记录分子中单个化学键的频率信息,由于nirs的优势,研究人员可以快速准确地分析药用真菌中各种活性成分的含量,当前已有很多近红外光谱分析方法,如偏最小二乘法(pls)和径向基函数神经网络(rbfnn)等,均显示出良好的预测精度和性能。如mengqf等人使用pls方法通过采用最佳波长建立令人满意的nirs校准模型;kimg等人使用最大归一化预处理技术消除光谱中无关噪声;lujh等人使用基于小波变换预处理的rbfnn分析近红外光谱,同时移动窗口方法被用作为原始光谱数据输入rbfnn模型前的一个预处理步骤,通过使用度近似作为标准来选择特征波长变量;jintaox等人使用人工神经网络(ann)通过进行提取主要成分的预处理,对比了pls和ann,验证了ann具有更优的非线性拟合性能;liut等人深度自动编码器(dae),可以通过将高维数据转换为具有线性和非线性组合特征的低维码来从近红外光谱数据中提取有效特征。
目前面临的问题是由于近红外光谱数据维度高信息复杂的特点,在原始近红外光谱数据中存在大量的噪声波段,这会影响对特征波段选取的准确性,因此,当前近红外光谱方法需要对原始近红外光谱进行人为的特征选取预处理,这些预处理方法需要依赖专家的经验,这样会由于认为的因素而丢失原始光谱中一些微小但重要的特征峰。
技术实现要素:
本发明提供了一种药用真菌近红外光谱分析方法,针对原始光谱数据进行完全自主的光谱预处理和特征波段提取的近红外光谱分析(abrn),通过attention模块实现对原始光谱进行增强特征波段,减弱噪声波段的自动预处理,然后使用残差神经网络对经attention模块处理后的光谱数据进行特征提取和最终的含量预测。解决了在原始近红外光谱数据中大量噪声波段影响对特征波段选取准确性的问题,以及需要依赖专家经验进行人为的特征预处理而造成的一些微小特征的丢失,本发明针对原始近红外光谱无需人为干预,实现对原始近红外光谱中特征波段的自动提取以及活性成分含量的预测。
本发明公开的一种药用真菌近红外光谱分析方法,其技术解决方案如下:
1)数据源
采集、存储药用真菌的近红外光谱图,记录药用真菌内活性成分的含量值,并保存为excel表格形式作为实验数据集。
2)构建abrn
abrn主体分为两个部分,即attention模块和残差网络,在传统残差网络的输入层之前,加入attention模块进行对原始光谱数据的自动预处理,得到预处理后的数据直接作为残差网络的新输入。
a.attention模块
attention模块作为特征权重重新分配的自动预处理,由输入层,特征分布比例重分配层,相似度计算层以及矩阵变维层构成。
原始长序列光谱输入向量(xsd)定义为
(1)式中:xsd表示原始输入向量;
num表示样本的数量;
k表示样本序号;
将原始输入向量先输入至attention模块的输入层中,然后通过特征分布比例重分配层中的softmax函数重新计算原始输入向量中各个特征所占比重,softmax函数如下所示:
(2)式中:i表示向量维度序号;
softmax表示归一化指数函数;
将特征分布比例重分配层的输出与原始输入向量共同输入至相似度计算层,通过如下函数计算二者的相似度:
(3)式中:
i,j均表示向量维度序号;
n表示向量总维度;
exp表示以自然常数e为底的指数函数。
将特征权重方阵与xsd进行矩阵乘法操作,计算与xsd的每个维度相对应的特征权重重分配向量,如下所示:
(4)式中:
将attention模块的自动预处理之后的特征增强噪声减弱的新向量,通过矩阵变维层将一维光谱向量转换为二维光谱矩阵,该矩阵作为attention模块最终的输出。
b.残差网络
attention模块的输出向量直接作为第二部分残差网络输入层的输入向量,残差网络主要由两种残差块组成,即identity块和convolution块。
残差网络共分为五个不同的阶段,每个阶段的输入均为前一阶段的输出,阶段1的输入即为attention模块的输出:
阶段1是标准卷积层;
阶段2是一个convolution块后添加两个identity块;
阶段3是一个convolution块后添加三个identity块;
阶段4是一个convolution块后添加五个identity块;
阶段5与阶段2相同;
最后将阶段5的输出矩阵经过均值池化操作后,展开为一维向量输入至最后的全连接网络,进行最终的非线性预测,最终输出对药用真菌中活性成分的预测值。
本发明的积极效果在于:
本发明相对于现有技术,优势在于无需依赖专家经验对原始光谱数据进行人为的特征选取以及去除噪声的预处理,实现了完全自主的特征波段强化,噪声波段减弱的预处理,解决了由于经验不足等人为因素所导致的误差对原始近红外光谱特征提取以及活性成分含量预测的准确性。
附图说明:
图1为本发明整体结构流程图;
图2为本发明attention模块结构图;
图3为本发明残差网络中identity块和convolution块的结构图;
图4为本发明牛樟芝样本(a)和松茸样本(b)的近红外光谱图。
具体实施方式:
通过以下实施例进一步举例描述本发明,并不以任何方式限制本发明,在不背离本发明的技术解决方案的前提下,对本发明所作的本领域普通技术人员容易实现的任何改动或改变都将落入本发明的权利要求范围之内。
实施例1
1)采集、存储165个牛樟芝样本和200个松茸样本的近红外光谱图,如图4所示,使用日本岛津uv-3150型紫外可见近红外分光光度计和日本岛津isr-3100积分球附件对牛樟芝样本和松茸样本进行扫描,扫描波长范围为800-2500nm,光谱带密度为12nm,以硫酸钡对照品作为空白对照,光谱采样间隔为1nm,每个样品进行3次光谱扫描,最终取平均值最为样品的光谱数据,并使用化学试剂通过侵入式方法分别测量牛樟芝样本中多糖与三萜以及松茸样本中多糖与麦角固醇共4种活性成分的含量,并将这4组数据记录为excel表格形式作为实验数据集,对这4组数据集进行划分,每组数据集中随机选取该组总数量的80%作为训练集,剩余20%作为验证集。
2)构建abrn,如图1所示,分别构建abrn中attention模块和残差网络,将attention模块的输出结果直接输入至残差网络中进行特征波段提取,以及最终的活性成分含量预测,具体步骤如下:
a.attention模块
定义165个牛樟芝样本的原始光谱输入向量和200个松茸样本的原始光谱输入向量为:
其中i表示向量维度序号,k表示样本序号。
将定义好的原始光谱输入向量矩阵输入至attention模块的输入层中,如图2所示,先经过特征分布比例重分配层中的softmax函数重新计算原始输入向量中各个特征所占比重,然后将得到的输出与原始输入向量xsd共同输入至相似度计算层计算二者的相似度,计算公式如下:
其中
然后将原始输入向量矩阵与特征权重方阵进行矩阵乘法和将维度为1764的光谱向量变维为44×44,得到attention模块最终的输出,即已经将原始向量中特征波段强化,噪声波段减弱后的新的光谱向量:
b.残差网络
经过attention模块自动预处理后,得到165×44×44的牛樟芝输入数据和200×44×44的松茸输入数据,输入至传统残差网络中,进行特征提取,实现对牛樟芝中多糖和三萜活性成分含量的预测和对松茸中多糖和麦角固醇活性成分含量的预测。
残差网络的优势在于其拥有identity块和convolution块,如图3所示,通过identity块和convolution块的组合能够对光谱向量中特征的提取更准确。
残差网络使用均方根误差rmse作为损失函数,使用adam优化算法,卷积核的大小设置为1×3,移动步长设为1,卷积核的初始权重是使用随机数进行初始化的,残差网络中各个超参数设置为:学习率lr=0.001,beta_1=0.9,beta_2=0.999,epsilon=1e-08,训练过程中的batch_size设置为10。
由于样本数量有限,为了防止模型在训练过程中发生过拟合,在网络中的每个卷积层后加入正则化层和dropout机制来防止。
最后通过计算相关系数来表示4组活性成分的预测值与真实值的拟合效果,用来评价模型的预测性能,公式如下:
其中ypre表示网络对牛樟芝样本中多糖与三萜活性成分含量的预测值,以及松茸样本中多糖与麦角固醇活性成分含量的预测值,ylabel表示牛樟芝样本中多糖与三萜活性成分含量的真实值,以及松茸样本中多糖与麦角固醇活性成分含量的真实值,mean表示计算平均值函数,r2表示活性成分的预测值与真实值之间的相关系数。
试验例1
为证明本发明的可靠性,将本发明与当前流行的三种近红外光谱分析方法,即偏最小二乘(pls),径向基神经网络(rbfnn),残差网络(resnet)进行了对比试验,分别用这三种方法与本发明方法对牛樟芝中多糖和三萜与松茸中多糖和麦角固醇4种活性成分的含量进行了预测,在4组对比试验中,都以训练集与测试集上的均方根误差,以及对牛樟芝中多糖和三萜活性成分含量与松茸中多糖和麦角固醇含量的预测值与真实值的拟合系数作为评价分析方法性能好坏的指标,结果如表1所示:
表1
rmset表示训练集的均方根误差,rmsev表示验证集的均方根误差,均方根误差越接近0,表明分析方法的预测值与真实值的偏差越小,
结论:
表1的对比结果表明,在分析原始近红外光谱数据并预测牛樟芝样本中多糖与三萜活性成分含量和松茸样本中多糖与麦角固醇活性成分含量的四组实验中,本发明提出的abrn方法表现出最优的性能,拥有最低的均方根误差和最高的预测值与真实值的拟合系数。
虽然在对比实验中,偏最小二乘(pls),径向基神经网络(rbfnn),残差网络(resnet)三种方法均先采用依赖专家经验的滑动窗口方式对原始近红外光谱数据进行人为的预处理,再将预处理后的近红外光谱数据输入至模型中进行活性成分含量的预测,但由于人为因素的影响,会错失一些微小但同样重要的特征波段,而这样的误差会直接影响模型对近红外光谱数据中特征信息提取的完整性,从而影响最终对活性成分含量预测的准确性。
而本发明的abrn直接对原始近红外光谱数据进行分析,既能最大程度的保留原始光谱数据中的特征信息,解决现有方法存在的需依赖专家经验对原始光谱数据进行人为预处理而造成特征信息丢失的局限性问题,又能实现对原始光谱进行特征增强,噪声减弱的自动预处理,减少了人为因素的干扰和人力成本,由表1也可看出,本发明提出的abrn在四组活性成分含量的预测实验中,均表现出最低的均方根误差和最高的预测准确性,而预测准确性由预测值与真实值之间的拟合系数决定,拟合系数越接近于1,表明预测准确性越高。