一种用于中药复杂成分分析的实时特征提取方法

文档序号:5867168阅读:355来源:国知局
专利名称:一种用于中药复杂成分分析的实时特征提取方法
技术领域
本发明属于制药领域,涉及中药复杂成分分析的实时在线特征提取方法。
背景技术
中药是中华民族的瑰宝,已有2000多年的临床实践,在中华民族的繁衍生息过程 中起到了不可磨灭的作用。随着国家在中药科技方面的不断投入,中药现代化的进程取得 了可喜进展,一些药物的疗效再次被科学实验证明,有的甚至超过化学药物。当今西方国家 在化药的研究和开发方面具有绝对优势,并且很难在短期内有所改观,故大力发展中药事 业对我国的制药行业具有极其重要的意义。但中药成分及其复杂,且长期以来基础研究不 够深入,这虽然有历史性的原因,但现有技术的局限,显得尤其突出。在液相色谱质谱联用 (LC-MS)技术成熟之前,对中药的研究,需先用植物化学的分离手段从中药中分离到单体化 合物,然后经过四大光谱分析,才能了解其中化合物的结构信息。然而,LC-MS技术完全改观 了传统的中药物质基础研究模式,在提高结构确证速度的同时,也使以前不能分离提取得 到的微量成分的鉴定成为可能。但是,现有LC-MS数据的分析主要靠人工完成,成为当前质 谱应用的一个瓶颈问题,尤其是在需要分析大量的中药组分库样品时。目前,主流的LC-MS 生产商(如热电集团,应用生物公司和Waters公司)提供的工作站,只能在数据采集完毕 后,进行简单的一维数据分析,用户要设定多个参数,一套参数也仅能适用于特定的样本, 不同的样本需做相应调整,故数据的分析成为当前大批LC-MS应用的限速步骤。
LC-MS采集的信号由时间维和质量维构成,而一般的液相色谱与紫外检测器 (LC-UV)连接采集的信号只有一个时间维度。通常人们将从LC-UV中,化合物洗脱的一段 时间内强度的变化称为"色谱峰";而在二维LC-MS中化合物洗脱时,不仅有时间过程,还 有质量的分布,我们称同时含有两维信息的区域成为化合物的"特征",那么用于寻找这些 区域的算法称为特征提取算法或方法。由于LC-MS所采集数据维度的增加,大大增加了从 其中提取信息的难度。在中药领域,研究LC-MS特征提取的方法很少,而在生物信息学领 域,却是一个非常热门的方向,这得益于蛋白组学、代谢组学研究中需要处理大量LC-MS数 据的需求推动。比较著名的开源工具包括XCMS, MZmine等;商业软件包括AnalyzerPro, ProTrawler等。这些工具仅用于LC-MS采集以后数据的离线分析,其算法是建立在整个分 析时间内的数据的基础上的,比如XCMS要先对采集完毕以后的数据就某个质量数范围的 信号合并,然后才能从其中进行峰检测,并且这些软件都需要设定多个参数,一些参数没有 实际的物理意义,比如小波的尺度、系数等,难以被一般用户所理解。

发明内容
本发明针对现有技术的不足和缺陷,提供一种用于中药复杂成分分析的实时特征 提取方法。该方法基于LC-MS的时间维和质量维的两维特征信息,通过二维特征链检测,局 部噪音和基线估计,以及特征分辨来实现,不仅假阳性低,而且运算速度快,可实现实时分 析。本发明通过以下步骤实现
1.质谱数据采集中药复杂样品首先经色谱单元进行分离,然后质谱仪在一定的 采样频率(f)下,顺序以全扫描模式分析色谱洗脱的流份,采集的数据以centroid(棒状 图)格式存储(这是现有质谱仪都支持的格式)。每一时间点(1/f的整数倍)采集的数据 为一张质谱图,对应于质谱维的数据;不同的时间点采集的数据构成色谱维信息,比如每一 时间点采集的质谱图中所有离子的强度相加,得到每一时间点的响应强度,那么所有时间 点的响应强度就构成了总离子流色谱图。本发明中色谱包括液相色谱(HPLC)和超高压液 相色谱(UPLC);质谱包括能进行高分辨和低分辩全扫描,并通过大气压电离源与前述色谱 联用的质谱仪,如单重四级杆质谱,三重四级杆质谱,离子阱质谱或飞行时间质谱;
2. 二维特征链检测BNN(minWidth, CC) 质谱仪每采集到一个时间点的质谱图,即传给BNN模块进行分析。首先质谱图中 的质荷比和强度信息,分别赋值给质荷比数组MZ和强度数组INTEN,然后依时间顺序用双 向最近邻算法检测含有化合物信息的二维特征链,检测到的二维特征链存储在CC中,可被 其他模块随时获取; 3.局部噪音和局部基线估计De_Noise_Baseline(minWidth) 随着采集数据的增多,若CC中的某个二维特征链CCk的长度Nk大于minWidth,则
可对其进行噪音和基线的估计。二维特征链包含色谱维和质谱维双重信息,分别由时间与
MZ和INTEN构成。将二维特征链的响应强度信息与高通滤波器进行线性巻积,并应用3倍
总体标准差过滤掉脉冲信号,即为色谱维的噪音估计。为了估算色谱维中的基线,本发明依
据二维特征链质谱维中组分区与零组分区质量波动的差异,设计以下算法 (l)在二维特征链CCk中找到强度最大的时间点,然后计算其临近区域的平均质量
波动(相邻质荷比的差值)mzMin ; (2)以5倍mzMin为阈值,找到所有质量波动大于此阈值的位置,将这些位置和CCk 的第一个点定义为关键点; (3)这些关键点也对应于色谱维上的关键点,在色谱维上,将这些关键点用直线连 接,即为基线B(x)的估计,若最后一个关键点不是CCk的最后一点,则该关键点水平延伸到 最后的线即为对应区域的基线估计。 4.特征分辨FeatureReslove(minWidth, minSN, feature_list)
当二维特征链CCk的局部噪音和基线估计完成后(指当前时间,特征链在后继的 时间可能还会延长,相应的噪音和基线会被重新估算),即可进行特征分辨。由于特征检测 的实时性,一般当时只有部分特征被洗脱,特征分辨的目的即判断当前时间点处于色谱峰 (特征)洗脱的什么位置起点、终点等。从原始信号强度中减去噪音e (x)和基线B(x) (x 为时间点),得到近似的真实信号估计NS (x)。若是首次对CCk进行特征分辨,则需初始化 特征检测状态s = O,具体算法参看实施例1。检测到的特征保存在feature—list(特征列 表)中, 定义CCk中任意一点的信噪比为
SiV(x) = ——^——^
丄幼 其中LSD为位置x附近的标准差,CCk中的最后一个点即为当前采集的数据点,计 算其信噪比SN。
5
5.以上四步,每采集一张质谱图,即为一个运算周期;每周期仅对可进入二维特 征链的数据进行运算,其他信号被认为是噪音;每一时间点被处理的最大二维特征链数为 上一张质谱图中所有离子的个数,而实际大部分情况下远远小于这个数值,这也是算法运 算快的原因之一。当所有质谱数据采集完毕时,特征检测也相应结束,从而实现了特征的实 时检测。 本发明优点如下 (1) 二维特征链契合了色谱质谱联用数据的分布特征,一般一个数据集中所有二
维特征链的数据量仅占总数据量的一小部分(< 1% ),从本质上提高了特征检测算法的效 率; (2)本发明设计的三点高通滤波器,能准确估算色谱信号中的随机噪音,具有方差 不变的特性; (3)本发明的基线估计方法利用了质谱维中的质量波动信息,克服了单纯从色谱 维信息难以准确估算基线的缺点; (4)本发明设计的算法,参数少且优化简单,具有实际物理意义, 一套参数可适用 于不同复杂度的样本; (5)本发明设计的算法,实现了样品采集与特征提取的同步进行,特别适于数字化 中药组分库大量样品的分析。


图1是LC-MS实时特征提取示意图。 图2是含有高斯白噪音和不同采样频率(d)的模拟信号(A)以及应用高通滤波 器以后的信号(绿线)与原始高斯白噪音(蓝线)的叠加图,其中虚线为3倍标准差位置 (B)。 图3是比较本发明与Savitzky-Golay平滑算法对噪音的估计A图为采样率从1 到20时,不同的算法估算值与实际噪音的标准差比较;B图和C图为取样率在5和15时, 噪音水平从1%到10%时,不同算法的比较;蓝线为理论噪音标准差,绿线为本发明估算的 标准差,红线为Savitzky-Golay估算的标准差。 图4是一个二维特征链实例,来自胃复春片A图为二维特征链的时间维,B图为其 质量维,C图为质量波动与时间的关系(虚线为5倍mzMin);红色星号为关键点位置,基线 用绿线连接。 图5是胃复春片中柚皮芸香苷和柚皮素的特征检测A图为柚皮芸香苷和柚皮素 的准分子离子及其同位素峰的选择离子色谱图;B图为柚皮芸香苷和柚皮素的二维特征区 域,棕色的线为二维特征链,其中检测到的"特征"用绿色方框指示,顶点用红色星号指示。
图6是胃复春片的总离子流色谱图(A图),由检测到的特征重构的色谱图(B图) 以及残留信号和噪音重构的色谱图(C图)。
图7是双丹颗粒的总离子流色谱图。 图8是双丹颗粒中丹酚酸E、丹酚酸B及一未知化合物(m/z 719)特征检测A图 为m/z 719的选择离子色谱图,B图为m/z 718的选择离子色谱图,C图为m/z 717的选择 离子色谱图,D图为丹酚酸E和丹酚酸B的二维特征区域,棕色的线为二维特征链,其中检
6测到的"特征"用绿色方框指示,顶点用红色星号指示。 图9是灯盏细辛注射液的总离子流色谱图(A图),基峰(base-peak)色谱
图(B图)以及由检测到的特征重构的色谱图(C图)。
具体实施例方式
本发明结合附图和实施例作进一步的说明。 实施例1本发明的一种用于中药复杂成分分析的实时特征提取方法
1.通讯模块MS_Communication (acq_mode, cur_ms_data) 该函数负责与质谱进行通讯,若采集模式(acq_mode)为profile,当从质谱获取 到当前数据后,则将其用分水岭算法转化为centroid格式后,通过curjiis—data参数返回; 若采集模式为centroid,则直接返回数据。参数cur_mS_data为包含质荷比及其对应强度 的二维数据。 2. 二维特征链检测BNN(minWidth, CC) 在BNN模块中通过调用MS—Communication,可以得到当前采集的质谱数据,赋值 给质荷比数组MZ和强度数组INTEN。顺序采集到的数据,用双向最近邻算法(Bilateral Nearest Neighbor,BNN)检测二维特征链。BNN算法的原理是依次取当前质谱图中的一个 离子MZi,j(i为扫描数scan—皿mber,相当于当前采集的第i张质谱图;j为MZt中的第j个 离子),然后在上一时间点采集的质谱图中寻找与其质量最接近的离子MZ卜l j ;若在当前质 谱图中与MZi—u最接近的离子也为MZi,j,则连接MZi,j与MZi—u。随着采集质谱数据的增多, 有的二维特征链会延长,有的会中断,只有长度len(CCk)大于minWidth的二维特征链才会 被认为其中可能含有真实信号,并被存储在CC中,否则,被认为是噪音。CC为全局变量,可 被其他模块访问。 3.局部噪音和局部基线估计De_Noise_Baseline(minWidth)
当某个二维特征链CCk(k为已检测到的特征链的序号)的长度大于minWidth时, 即可以开始估算局部的噪音和基线。二维特征链的时间维相当于一张色谱图,一般认为由 真实信号、高斯白噪音和基线构成(F(x) =B(x)+NS(x)+e (x))。其中高斯白噪音e (x)用
原始信号与三点高通滤波器进行线性巻积估计
s(x) = F(x) / 由图2中的模拟信号可知,当真实信号的采样率小于5时,色谱峰区域会残留部分 信号,导致高估此区域的噪音水平。残留的信号具有脉冲噪音特性,并且强度比整体的标准 差大的多,故用3倍整体标准差作为阈值,将大于此阈值的信号置零。经上面巻积和阈值操 作以后的向量即为高斯白噪音的估计,它可准确反应真实白噪音的局部方差,如图2所示。 通过比较不同的采样率和不同的噪音水平,本发明的噪音估算方法与实际值非常接近,优 于常用的平滑滤波方法,相应的结果见图3。 二维特征链的质量维反映了相应的质量波动(图4),当化合物洗脱时,也即检测 到真实信号时,相应的质量波动趋向于一个极小值mzMin(此值与质谱仪的质量精密度有 关),而在没有真实信号的区域,质量波动成随机特征,远远大于mzMin ;同时,质量波动最小的区域也是响应强度最大的区域。具体基线估计方法如下 (1)在CCk中找到强度最大的位置,然后其对应位置附近(本发明中的"附近"意义 为以指定位置为中心,宽度为minWidth的区域,或指定位置前面宽度为minWidth的区域) 的质量质量波动为mzMin ; (2)以5倍mzMin为阈值(图4C),找到所有质量波动大于此阈值的位置,将这些 位置和CCk的第一个点定义为关键点; (3)这些关键点也对应于色谱维上的关键点,在色谱维上,将这些关键点用直线连 接,即为基线B(x)的估计(图4A) 。 4.时间维上的特征分辨FeatureReslove(minWidth, minSN, feature—list) 从原始信号中减去第3步估算的e (x)和B (x),得到近似的真实信号估计NS (x), 其中仍含有一些不规则基线波动残留的成分。定义CCk中任意一点的信噪比为 5W(x)^"^-^——^~^ 其中LSD为位置x附近的标准差,CCk中的最后一个点即为当前采集的数据点,计 算其信噪比SN。用线性最小二乘法拟合CCk的最后minWidth个点,定义其斜率slope为最 后一点的斜率,然后进行如下判断(若是首次对CCk进行特征分辨,则需初始化特征检测状 态s = 0): (1)若slope*minWidth > minSN,且s = O,则此处为一个"特征"的开始,记录在
feature_list (特征列表)中; (2)若slope < 0,则置s = 1 ; (3)若slope*minWidth > -minSN,且s = 1,则此处为一个"特征"的结束,记录在 feature_list中,并置s = 0。 5.本发明算法具有实时特性,质谱采集的数据,立即被BNN等模块进行分析,特征 起点的检测最大可能被延迟minWidth/f (约几秒钟),而一般从色谱柱洗脱的色谱峰都比 这个时间长的多,并不影响特征的检测。本发明用¥0++6.0实现系统原型,用户只需提供 minWidth和minSN两个具有实际物理意义的参数。
实施例2胃复春片中复杂成分分析
A.制备胃复春片总提物 取胃复春片20片,除去薄膜衣,研成细粉。精密称取0. 5g置于50mL具塞锥形瓶 中,准确加入甲醇10mL,超声提取45分钟。提取结束后将锥形瓶取出,冷却后用甲醇溶液补 足重量。提取液摇匀后以12000rpm转速离心15min,上清液经0. 45 y m滤膜滤过后供HPLC 分析。 B. LC-MS分析的色谱和质谱条件 液相为AgilentllOO型高效液相色谱仪(美国Agilent公司),配二元梯度泵、 DAD紫外检测器、柱温箱、自动进样器。色谱柱ZORBAX SB-(^色谱柱(4. 6mmX 250mm, 5 y m, Agilent),前置Agilent (:18预柱。流动相A相0.05%甲酸水;B相乙腈。线性洗脱梯度 (min/% B) :0/5, 15/20, 30/20, 55/30, 75/50, 90/95。流速0. 5mL/min ;柱温30。C ;进样量 为10ii L。质谱为Finnigan LCQ-DECA XP Plus离子阱质谱仪(美国Thermo公司),配电 喷雾离子源及Xcaliburl. 3控制系统,采用ESI负离子模式检测。扫描范围100-1500Da ;喷雾电压4. 5kV ;鞘气和辅助气为氮气,分别为30和10单位。 C.特征检测参数,最小峰宽(minWidth)为9,最小信噪比(minSN)为4。 D.特征检测结果在90分钟的分析时间内,总共检测到1827个特征,其所占方差
为总方差的96. 1%。在图5柚皮芸香苷(tK = 38min)和柚皮素(tK = 42. 3min)的特征区
域,可见本发明的二维特征链涵盖了所有可能存在化合物特征的区域,不仅强度高的准分
子离子[M-H] —(m/z 579)可正确检测,连丰度极低的同位素峰[M-H+3] —(m/z 582)也可正确
检测,说明本方法的检测灵敏度很高。 为了比较直观的评价本发明的特征检测效果,将所有检测到的特征重构成时间维
的色谱图,与所有信号构成的总离子流色谱图进行比较,同时非特征区域的信号构成的色
谱图为噪音或残留色谱图,如图6所示。从图6中可知,几乎所有的真实信号都被正确检测,
而在剩余的残留色谱图中没有明显的特征信号。 实施例3双丹颗粒复杂成分分析 A.制备双丹颗粒样品 精密称取0. 05g研细以后的双丹颗粒(山东孔圣堂制药有限公司,批号040201, 031001),加娃哈哈纯净水lmL,超声提取20min,然后10000rpm离心10min,取上清液 0. 5mL,用甲醇-水-甲酸(50 : 50 : 1)稀释1倍。
B. LC-MS分析的色谱和质谱条件 Agilent 1100型液相色谱系统,包括二元高压泵,自动进样器,柱温箱和DAD检测 器。色谱柱:Agilent SB-C18(2. lX250线3.5m)。流动相0. 1%甲酸乙腈(A)-O. 1%甲酸 水(B) , A相在0 5min从10%线性升到20%, 5 7min线性升到40%, 7 20min线性 升到95% ;流速0. 3mL/min,柱温35°C 。所有分析样品均进样IOL。 Finnigan离子阱质谱仪(LCQ Deca XP plus, CA),配有ESI电离源;负离子检测, 鞘气和辅助气均为N2,流量分别为30和10arb,喷雾电压4. 5kV,源内裂解电压15V,加热毛 细管温度350°C ,扫描方式为一级全扫描,扫描范围100-800Da。
C.特征检测参数最小峰宽minWidth = 9,最小信噪比minSN = 4。
D.特征检测结果 实施例2中的样本经90分钟的梯度洗脱后,主要成分得到了良好的分离,在这种 情况下,特征检测相对容易;而在本实施例中,双丹颗粒的样品经一个20分钟的快速梯度 洗脱,人为的将多个成分的特征压縮在一起,大大增加了特征检测的难度,以此来考察算法 在极端条件下的应用情况。从图7可以看出,双丹颗粒中的主要成分堆积在保留时间10至 13分钟的区域。应用与实施例2相同的检测参数,即可得到良好的特征检测结果,共检测到 510个特征,占所有信号方差的98.5%。下面举例说明,本发明对复杂体系中不完全分离成 分的检测情况。 当复杂体系中的化合物质荷比不同时,即便保留时间相同,它们在LC/MS的二维 投影面上,仍是不同的特征,可被本发明正确检测,与成分被完全分离的结果一样;若不同 化合物的质荷比相同时,就会出现多个特征重叠的现象。图8为丹酚酸B(11.3min)和丹酚 酸E(IO. 9min)的准分子离子m/z 717,及其同位素离子m/z 718, 719的特征区域。由图8A 可见, 一个未知成分m/z 719插到了丹酚酸B与丹酚酸E的同位素离子之间,使3个特征部分重叠在一起。本发明仍可正确分辨这类重叠的特征,它们被分辨为3个不同的特征。另
外,丹酚酸B的峰形严重拖尾,信号波动较大,在其峰顶点到完全洗脱之间,出现很多毛剌
类的伪峰,用质谱工作站自带的峰检测算法(Avalon)分析时,丹酚酸B的色谱峰被分成7
个峰,而本发明的算法,仅用两个参数,即可正确检测这些特征。 实施例4灯盏细辛注射液复杂成分分析 A.分析样品制备 精密吸取灯盏细辛注射液0. 5ml,上样于经活化(甲醇lml, 1 %甲酸水lml活化) 的Waters OASIS HLB固相小柱上,用0. 5ml 1 %甲酸水洗,弃去洗液,加0. 5ml甲醇洗,收集 洗脱液,备用。 B. LC-MS分析的色谱和质谱条件 Agilent 1100型液相色谱系统,包括二元高压泵,自动进样器,柱温箱和DAD检测 器。色谱柱YMC-(^250mmX4.6mm,5m;流动相A相0. 1%甲酸水;B相0. 1%甲酸乙腈, 线性洗脱梯度为:0min :10% B ;20min :17. 5% B ;40min :17. 5% B ;80min :45% B ;90min : 45% B。分流比l : 3。柱温35。C。进样量10L。质谱为Finnigan LCQ-DECA XP Plus离子阱质谱仪(美国Thermo公司),配电喷雾 离子源及Xcaliburl. 3控制系统,采用ESI负离子模式检测。ESI源电压4. 5kV ;鞘气(N2) 流速:30arb ;辅助气(N2)流速:10arb ;毛细管温度350。C ;毛细管电压广15V(-) , 19V(+); 采用全离子扫描方式,扫描范围m/z :100 800。
C.特征检测参数最小峰宽minWidth = 9,最小信噪比minSN = 4。
D.特征检测结果 本实例分析的为中药注射液,其中主要为水溶性的酚酸类成分。由于流动相 添加剂的缘故,产生大量高背景化学噪音,使很多强度低的信号被淹没,即便在基峰 (base-peak)色谱图中仍不能看到低丰度的信号,如图9A和9B所示。应用与前面实施例 2和实施例3相同的特征检测参数,共检测到571个特征,从由这些特征重构的色谱图中可 以发现,已没有高背景噪音的干扰,不仅强度高的信号被正确检测,强度低的信号也显现出 来。这说明本发明不仅可以滤除随机分布的白噪音,即便有明显异方差的有色噪音也可以 自动滤除。
权利要求
一种用于中药复杂成分分析的实时特征提取方法,该方法基于LC-MS的时间维和质量维的两维特征信息,通过二维特征链检测,局部噪音和基线估计,以及特征分辨实现,具体步骤为(1)质谱数据采集中药复杂样品首先经色谱单元进行分离,然后质谱仪在一定的采样频率(f)下,顺序以全扫描模式分析色谱洗脱的流份,采集的数据以棒状图格式存储,每一时间点(1/f的整数倍)采集的数据为一张质谱图,对应于质谱维的数据,不同的时间点采集的数据构成色谱维信息;(2)二维特征链检测质谱仪每采集到一个时间点的质谱图,即传给BNN模块进行分析,首先质谱图中的质荷比和强度信息,分别赋值给质荷比数组MZ和强度数组INTEN,然后依时间顺序用双向最近邻算法检测含有化合物信息的二维特征链,检测到的二维特征链存储在CC中,可被其他模块随时获取;(3)局部噪音和局部基线估计随着采集数据的增多,若CC中的某个二维特征链CCk的长度Nk大于minWidth,则对其进行噪音和基线的估计,二维特征链包含色谱维和质谱维双重信息,分别由时间与MZ和INTEN构成,将二维特征链的响应强度信息与高通滤波器进行线性卷积,并应用3倍总体标准差过滤掉脉冲信号,即为色谱维的噪音估计,真实信号、高斯白噪音和基线构成F(x)=B(x)+NS(x)+ε(x),其中高斯白噪音ε(x)用原始信号与三点高通滤波器进行线性卷积估计 <mrow><mi>&epsiv;</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>=</mo><mi>F</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>&CircleTimes;</mo><mi>f</mi> </mrow> <mrow><mi>f</mi><mo>=</mo><mo>[</mo><mo>-</mo><mn>1</mn><mo>/</mo><msqrt> <mn>6</mn></msqrt><mo>,</mo><mn>2</mn><mo>/</mo><msqrt> <mn>6</mn></msqrt><mo>,</mo><mo>-</mo><mn>1</mn><mo>/</mo><msqrt> <mn>6</mn></msqrt><mo>]</mo><mo>;</mo> </mrow>(4)特征分辨当二维特征链CCk的局部噪音和基线估计完成后(指当前时间,特征链在后继的时间可能还会延长,相应的噪音和基线会被重新估算),进行特征分辨,检测到的特征保存在特征列表,定义CCk中任意一点的信噪比为 <mrow><mi>SN</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>=</mo><mfrac> <mrow><mi>F</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>-</mo><mi>B</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow><mo>-</mo><mi>&epsiv;</mi><mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo></mrow> </mrow> <mi>LSD</mi></mfrac> </mrow>其中LSD为位置x附近的标准差,CCk中的最后一个点即为当前采集的数据点,计算其信噪比SN;(5)实时检测以上四步,每采集一张质谱图,即为一个运算周期,每周期仅对可进入二维特征链的数据进行运算,其他信号被认为是噪音;每一时间点被处理的最大二维特征链数为上一张质谱图中所有离子的个数,当所有质谱数据采集完毕时,特征检测也相应结束,从而实现了特征的实时检测。
2.根据权利要求1所述的一种用于中药复杂成分分析的实时特征提取方法,其特征在 于,步骤(3)为了估算色谱维中的基线,依据二维特征链质谱维中组分区与零组分区质量 波动的差异,设计以下算法(a)在二维特征链CCk中找到强度最大的时间点,然后计算其临近区域的平均质量波 动,即相邻质荷比的差值mzMin ;(b) 以5倍mzMin为阈值,找到所有质量波动大于此阈值的位置,将这些位置和CCk的 第一个点定义为关键点;(c) 这些关键点也对应于色谱维上的关键点,在色谱维上,将这些关键点用直线连接, 即为基线B(x)的估计,若最后一个关键点不是CCk的最后一点,则该关键点水平延伸到最 后的线即为对应区域的基线估计。
3. 根据权利要求1所述的一种用于中药复杂成分分析的实时特征提取方法,其特征在 于,步骤(4)由于特征检测的实时性,一般当时只有部分特征被洗脱,特征分辨的目的即判 断当前时间点处于色谱峰洗脱的起点或终点位置。
4. 根据权利要求1所述的一种用于中药复杂成分分析的实时特征提取方法,其特征在 于,步骤(3)所述的高通滤波器由三个数据点组成,三点的和为O,三点的平方和为1。
5. 根据权利要求1所述的一种用于中药复杂成分分析的实时特征提取方法,其特征 在于,所用色谱包括液相色谱和超高压液相色谱,质谱包括单重四级杆质谱、三重四级杆质 谱、离子阱质谱和飞行时间质谱。
全文摘要
本发明提供一种用于中药复杂成分分析的实时特征提取方法,由数据通讯模块、二维特征链检测、局部噪音和局部基线校正、以及特征分辨四个模块构成,顺序分析质谱仪采集的质谱数据,判断与上一个时间点采集的数据是否有连续特征,从而动态的完成二维特征链的检测;利用二维特征链中所含有的质荷比和时间信息,可快速去除时间维中的噪音和基线,克服了以往算法单纯利用时间维难以准确估算基线的缺点;由于所估算的噪音和基线具有局部特征,所以局部的信噪比是特征链中是否含有组分的特征,简化了特征检测的实现。本发明方法设计合理,数据处理系统不仅具有实时的特点,而且用户自定义参数少,运算速度快,尤其适用于液相色谱质谱联用仪。
文档编号G01N30/86GK101776671SQ20101003954
公开日2010年7月14日 申请日期2010年1月5日 优先权日2010年1月5日
发明者张玉峰, 程翼宇, 范骁辉 申请人:浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1