一种基于多谱图信息融合技术的中草药品质鉴别方法与流程

文档序号:18398973发布日期:2019-08-09 23:41阅读:305来源:国知局
一种基于多谱图信息融合技术的中草药品质鉴别方法与流程

本发明所涉及一种多谱图信息融合技术的中草药品质鉴别方法,具体的说是将模式识别技术、信息融合技术与中草药谱图分析技术相结合的一种化学计量学分析新方法,以谱图分析技术为化学检测,通过信息融合,综合反映样品各种特征,输入模式识别分类器进行中草药质量鉴定新技术。

2

背景技术:

中药材成分非常复杂,在短期内要完全清楚的了解复方所有药效成分及其药理作用是十分困难,把质量评价建立在研究清楚每个内在成分的基础上,也很不现实,这就要求在尚不清楚全体化学成分的情况下,实现对物质群整体的控制。

目前,国内外对中药材质量评价主要应用单一检测仪器,集中在以化学成分为中心的中药指纹谱图的质量评价,即以分子结构清楚,构效关系明确的已知的活性组分为基础建立药材指纹谱图,研究的主要内容集中于建立来源于某单一谱图的指纹谱图。采用该方法需要针对不同的中药材分别通过分析、对比等研究手段来确立各自的指纹谱图特征指标,成本较高。虽然也有部分学者开始在指纹谱图的基础上进行多维多信息的质量评价研究,但也集中于生药学评估、化学评估等方面,而缺乏多谱图信息的融合等方面的研究,从而造成建立的方法局限于某一特定类型的药材,而在算法的泛化方面存在缺陷。

因此,需要一种能将多种化学谱图信息进行融合,并开展中草药品质快速鉴定的方法。

3

技术实现要素:

3.1发明目的

本发明通过将不同类型的谱图信息融合的方法研究,克服现有中药材质量评价工作依赖单一仪器谱图,难以完整地反映出中药材的化学组成特征的问题,融合多谱图信息形成表征中药材完整的化学组成特性,实现中药材质量的准确评价。

3.2技术方案

本发明采用的技术方案为:基于多谱图信息融合技术的中草药品质鉴别方法,主要包括:谱图去噪、归一化处理、谱图底层融合、谱图特征层融合、融合谱图的识别分类、分类效果的交叉验证等步骤,具体如下:

(1)谱图去噪

信号的去噪过程采用小波去噪方法,一般分为3个步骤进行:

a.信号的小波分解。选择一个小波并确定一个小波分解的层次n,然后对信号s进行n层小波分解。

b.对分解得到的小波系数进行阈值处理,本发明采用的软阈值表达式为:

c.进行小波逆变换。将经阈值处理过的小波系数进行重构,得到去噪后的信号。

(2)归一化处理

对采集到的黄芪谱图数据进行归一化处理,通过计算:

将x的值映射到区间[new_mina,new_maxa]中的x'。

在本发明中,由于拟将数据归一化到[-1,1]区间内,则new_maxa=1,new_mina=-1,于是函数的归一化映射可以简化为:

经过谱图预处理后的数据,排除了实验条件的干扰和数据量纲的影响,后面的数据特征提取和数据融合都是基于数据预处理后的结果。

(3)谱图数据的底层融合

①底层数据融合是从数据的数据维出发简单将前处理后的数据拼接在一起构成的综合的谱图数据。本发明的低层级的谱图数据融合示意图如图1所示,各谱图的数据aij,i=1,k,n,j=1,k,u,bij,i=1,k,n,j=1,k,v,cij,i=1,k,n,j=1,k,w单独进行去噪和归一化,

②将预处理后的数据拼接在一起构成融合数据集xij,i=1,k,n,j=1,k,u+v+w,

③然后进行pca分析,最后提取主成分作新的变量输入空间;选取累计贡献率大于85%的所有主成分作为新的变量输入空间。

(4)谱图数据的特征层融合

特征层级数据融合是从数据的特征维出发,先单谱对各谱图进行特征提取的操作,而后选择不同谱图之间特征的组合,从而构成大的融合数据。本发明的特征层谱图数据融合示意图如图2所示,

①各个谱图的数据aij,i=1,k,n,j=1,k,u,bij,i=1,k,n,j=1,k,v,cij,i=1,k,n,j=1,k,w单独进行预处理和pca特征选取。

②通过控制变量法,选取各种谱图最有的主成分个数。其操作为:控制其中一个谱图的主成分(累计贡献率为98%的所有主成分)个数不变,然后优化另外的谱图主成分个数,根据识别率的大小,确定另外的谱图主成分最佳个数;再其它谱图主成分都确定的基础上,再确定这个谱图的最佳主成分个数,最终得到最佳的主成分组合。然后,在src分类器下,进行核函数的选择和参数优化,比较不同谱图组合的好坏。

③在所选的主成分下进行多谱图的特征数据拼接,最后提取主成分作新的变量输入空间。

(5)融合谱图的识别分类

本发明中重点突出谱图数据的融合方法与分析范式,在谱图融合的基础上,采用何种分类器应该根据谱图自身特点决定。作为优选方案,此处采用稀疏表示分类器进行分类,其计算方法如下:

设a=[a1a2…ac]为一组训练样本集,样本总数为n,其中为第i类训练样本集,y∈rm为第i类的一测试样本,则y可由ai线性表示为:

但现实中,测试样本的类别往往是未知的,因此,式(1)可改写为:

y=ax0(2)

其中,

当m>n时,式(2)有唯一解;然而,在大多数应用中,m≤n,这使得式(2)有无穷个解.为了使得测试样本尽可能的用测试样本所在类的训练样本进行线性表示,所求得系数向量x0包含的非零向量应该尽可能少些.那么,对式(2)的求解可转换对式(3)进行求解.

其中,||·||0表示l0范数,其表示计算向量中非零元素的个数.然而,式(3)是一个np难题,求解非常困难.

最近,压缩感知理论揭示出:当所求系数足够稀疏时,最小化l0范数的np难题可以转化为最小化l1范数问题来进行求解.为此,(3)式可改写为:

由于,所获取的数据中经常包含噪声,y很难准确的由a进行线性表示,为此,将式(4)改写为:

式(5)可通过(6)式来求解

通过求解优化问题,所得的y即为样本对应的分类标签。

(6)识别效果的交叉验证

本发明的交叉验证是结合了传统k-cv和leave-one-out方法的特点而专门设计的方法,这样的设计目的一是在不重复的情况下提高样本的利用效率;二是提高实验的稳定性,使得每次方法都能在同样的交叉验证基础上进行,以提高方法之间可对比性。具体的方法设计如下:针对不同产地黄芪都是10个不同批次样本的特点,将每一类样本编号为1-10,而后将每一类编号为1-3的样本为一块,记作a,4-6的样本为一块记作b,和7-10的样本为一块,记作c,那么四类不同产地黄芪样本都被分成a\b\c三块,根据数学组合的原理,每次实验我们分别选择aaaabbbbccccababacacbcbcbabacacacbcb作为测试集,其它的样本作为训练集,那么9次实验一共12+12+16+12+14+14+12+14+14=120个测试样本。

3.3有益效果

本发明利用先进的谱图融合技术及相关的模式识别、化学计量学手段,开展多谱融合检测技术在中药材质量可控方面的应用,通过该研究建立一种对中药材质量进行评价的通用方法,该方法具有建模效率高、算法泛化性好等特点。

4附图说明

图1是技术方案中的底层融合示意图

图2是技术方案中的特征层融合示意图;

图3是具体实施方案中底层融合的实验结果图;

图4不同产地黄芪数据的降维效果图;

图5是具体实施方案中特征层融合的实验结果图;

5具体实施方式

下面结合具体实施案例,进一步阐明本发明,应理解这些仅用于阐释本发明而不用于限制本发明的范围,在阅读本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本发明所附权利要求书所限定的范围。

5.1谱图数据的采集

(1)试剂与仪器

乙醇(色谱级)购买于瑞典oceanpakalexative化学试剂有限公司,黄芪购置于先声再康药业公司。

拉曼光谱使用美国enwaveoptronics公司的prott-ezraman-d3型号激光拉曼光谱仪采集获得。紫外光谱使用北京普析通用仪器有限责任公司的t6新世纪型号紫外光谱仪采集获得。离子迁移谱使用自制离子迁移谱仪采集获得。

(2)样品制备

黄芪样品置于中药材粉碎机中25000转/分钟粉碎至粉末,而后取3克黄芪粉末样品,置于30毫升乙醇溶液,混合均匀后,100摄氏度搅拌条件下,冷凝水回流2小时,而后自然冷却,过滤收集滤液,据此样品进行谱图信号采集。

5.2谱图数据预处理

(1)谱图去噪

信号的去噪过程采用小波去噪方法,采用db4小波进行去噪;

(2)归一化处理

对采集到的黄芪谱图数据进行归一化处理,通过计算:

经过谱图预处理后的数据,排除了实验条件的干扰和数据量纲的影响,后面的数据特征提取和数据融合都是基于数据预处理后的结果。

5.3谱图数据的底层融合

④各谱图的数据aij,i=1,k,n,j=1,k,u,bij,i=1,k,n,j=1,k,v,cij,i=1,k,n,j=1,k,w单独进行去噪和归一化,

⑤将预处理后的数据拼接在一起构成融合数据集xij,i=1,k,n,j=1,k,u+v+w,

⑥然后进行pca分析,最后提取主成分作新的变量输入空间;选取累计贡献率大于85%的所有主成分作为新的变量输入空间。

5.4谱图数据的特征层融合

①各个谱图的数据aij,i=1,k,n,j=1,k,u,bij,i=1,k,n,j=1,k,v,cij,i=1,k,n,j=1,k,w单独进行预处理和pca特征选取。

②通过控制变量法,选取各种谱图最有的主成分个数。其操作为:控制其中一个谱图的主成分(累计贡献率为98%的所有主成分)个数不变,然后优化另外的谱图主成分个数,根据识别率的大小,确定另外的谱图主成分最佳个数;再其它谱图主成分都确定的基础上,再确定这个谱图的最佳主成分个数,最终得到最佳的主成分组合。然后,在src分类器下,进行核函数的选择和参数优化,比较不同谱图组合的好坏。

③在所选的主成分下进行多谱图的特征数据拼接,最后提取主成分作新的变量输入空间。

5.5谱图数据分类器的构建

本发明中重点突出谱图数据的融合方法与分析范式,在谱图融合的基础上,采用何种分类器应该根据谱图自身特点决定。作为优选方案,此处采用稀疏表示分类器进行分类,其计算方法如下:设定融合后所得的变量输入空间为a:

①求解最小化l1范数问题:或求解

②计算残差其中,

③l(y)=argminiri(y).l(y)表示y的标记.

5.69-交叉验证

本发明的交叉验证是结合了传统k-cv和leave-one-out方法的特点而专门设计的方法,这样的设计目的一是在不重复的情况下提高样本的利用效率;二是提高实验的稳定性,使得每次方法都能在同样的交叉验证基础上进行,以提高方法之间可对比性。具体的方法设计如下:针对不同产地黄芪都是10个不同批次样本的特点,将每一类样本编号为1-10,而后将每一类编号为1-3的样本为一块,记作a,4-6的样本为一块记作b,和7-10的样本为一块,记作c,那么四类不同产地黄芪样本都被分成a\b\c三块,根据数学组合的原理,每次实验我们分别选择aaaabbbbccccababacacbcbcbabacacacbcb作为测试集,其它的样本作为训练集,那么9次实验一共12+12+16+12+14+14+12+14+14=120个测试样本。

5.7结果分析

以紫外光谱和离子迁移谱融合为例,详细分析融合后的谱图分析结果,其他方法的识别效率评价以表格的形式展现。

紫外光谱与离子迁移谱的数据融合是单独识别率最高的两个谱图之间的数据融合,即使单谱的情况下,紫外光谱可以达到92.20%,离子迁移谱可以达到94.51%。但谱图融合后的数据能否提高识别效果取决于两种最好的谱图数据之间是相互补充还是相互干扰。另外,在控制变量法下,特征层融合选择的主成分是:紫外光谱第1个,离子迁移谱第1-10个。

图1是技术方案中的底层融合示意图;其中n代表所有黄芪样本数目,u、v和w分别代表黄芪拉曼光谱数据、紫外光谱数据和离子迁移谱数据的特征维度,r是三种谱图融合提取的主成分个数。

图2是技术方案中的特征层融合示意图;其中n代表所有黄芪样本数目,u、v和w分别代表黄芪拉曼光谱数据、紫外光谱数据和离子迁移谱数据的特征维度,t是单个谱图主成分选择后的主成分组合一起的主成分数目。

图3是具体实施方案中底层融合的实验结果:当核函数选取ploynomial,d=0.75时,最高识别率可以达到98.41%,但不够稳定。

图4是此参数条件下,不同产地黄芪数据的降维图,从数据分布可知,不同产地黄芪被良好的区别开来,实现了良好的分类效果。

图5是具体实施方案中特征层融合的实验结果,对于0-20区间,融合数据达到了很高的识别效果,在20-50区间识别率下降明显。选择核函数为ploynomial,d=11.9时,最高识别率可以达到99.21%。

表格不同数据融合方法在kpca+src模型下的识别率

注:r+u_1代表着拉曼光谱和紫外光谱底层融合,r+u_2代表着拉曼光谱和紫外光谱特征层融合;r+i_1代表着拉曼光谱和离子迁移谱底层融合,r+i_2代表着拉曼光谱和离子迁移谱特征层融合;u+i_1代表着紫外光谱和离子迁移谱底层融合,u+i_2代表着紫外光谱和离子迁移谱特征层融合;r+u+i_1代表着拉曼光谱和紫外光谱以及离子迁移谱底层融合,r+u+i_2代表着拉曼光谱和紫外光谱以及离子迁移特征层融合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1