一种基于改进DBSCAN的核磁谱图基准线提取方法

文档序号:31399364发布日期:2022-09-03 04:12阅读:207来源:国知局
一种基于改进DBSCAN的核磁谱图基准线提取方法
一种基于改进dbscan的核磁谱图基准线提取方法
技术领域
1.本发明属于核磁共振技术领域,特别是一种基于改进dbscan的核磁谱图基准线提取方法。


背景技术:

2.核磁共振波谱是来源于原子核能量间的跃迁,即用一定射频的电磁波对样品进行照射,使特定结构环境中的原子核发生共振跃迁,记录发生核磁共振时的信号峰和强度得到核磁共振波谱。如今,通常将核磁共振谱图信息(峰的化学位移,峰的强度,峰的宽度以及峰的高度等)应用在分子结构上对物质结构的解析。在谱图基础上,对物质结构的分析过程中发现造成分析结果误差的绝大部分原因是基准线设置不准确。图谱基准线的误差会使得图谱中峰强度计算不准确,从而降低物质检测的准确性,因此基于核磁谱图实现在分子结构上对物质进行解析的关键之一就是准确设置核磁谱图的基准线。
3.目前光谱中常用的基准线设置方法主要有:自动迭代移动平均值法,小波变换,惩罚最小二乘法,移动窗口平滑法等等。通过阅读大量文献,发现基于核磁谱图的基准线选取方法相继出现,但都存在一定的限制。因此本发明从机器学习的角度出发,提出一种基于dbscan的核磁谱图基准线提取方法,该方法结合核磁谱图的数据特征与dbscan算法的聚类思想,对预处理后的核磁数据进行聚类,并根据聚类结果提取基准线,最终实验结果与人工选取的基准线和特征峰大致符合。
4.申请公开号cn104458785b,一种核磁共振波谱谱峰对齐及谱峰提取方法,读取各个核磁共振谱图;利用具有内标化合物的谱峰或者预定化合物的特征谱峰对各个核磁共振谱图进行初步校准;将预定选取的核磁共振谱图作为参考谱图并划分为若干个固定区间,在各个固定区间内对待校准的核磁共振谱图进行校准;将每个核磁共振谱图在各个固定区间内校正后谱图进行整合。在该方法中,需要对核磁共振谱图进行多次校准,且该方法涉及多次对比删除操作,其操作流程相当复杂。本发明中对核磁图谱基准线的提取方法侧重于对数据的处理,只需要提取出该谱图的峰顶点坐标,利用改进后的dbscan算法进行聚类即可得到该基准线值和特征峰个数,其流程和思想均容易理解。


技术实现要素:

5.本发明旨在解决以上现有技术的问题。提出了一种基于改进dbscan的核磁谱图基准线提取方法,避免了传统人工设置基准线的不足,为后续润滑油添加剂的成分检测提供可靠的数据支撑。
6.本发明的技术方案如下:
7.一种基于改进dbscan的核磁谱图基准线提取方法,其包括以下步骤:
8.步骤1:将核磁共振频谱仪中提取出的核磁数据进行预处理,即保留谱图中每个峰的顶点坐标,剔除其他无用的坐标点;
9.步骤2:求出数据集中各个顶点坐标之间的距离,得出该数据集的距离分布矩阵;
10.步骤3:把距离分布矩阵中的数据从小到大排列,将距离升序曲线图中曲线的拐点作为dbscan基于密度的噪声应用空间聚类核心参数eps邻域半径的初始值;
11.步骤4:对dbscan的参数eps进行改进,其改进主要在于为eps设置一个误差允许范围[minpeak,2eps-minpeak],其中minpeak为最小峰值,eps为步骤3中获得的拐点,将该eps进行区间划分;
[0012]
步骤5:分别将步骤4中得到的各个区间的端点值作为邻域半径eps,并选取minpts进行聚类;
[0013]
步骤6:若聚类结果的离群点个数在某几个连续区间内稳定不变,则该离群点个数为最优离群点个数,并根据该离群点坐标设置基准线区间。
[0014]
进一步的,求出数据集中各个顶点坐标之间的距离,得出该数据集的距离分布矩阵dist
n*n
,具体包括:
[0015]
dist
n*n
={dist(i,j)|1≤i≤n,1≤j≤n}
ꢀꢀꢀ
(1)
[0016]
dist(i,j)表示点i到j之间的距离,n表示数据集中点的总个数,dist
n*n
表示由dist(i,j)构成的实对称矩阵,矩阵中每一行的数据由小到大排列。
[0017]
进一步的,所述步骤3:把距离分布矩阵中的数据从小到大排列,将距离升序曲线图中的曲线拐点作为dbscan核心参数eps的初始值;
[0018]
从曲线增长率来看,增长率缓慢说明该范围内数据密度较大,而曲线增长率快则表明该范围内数据分布较为稀疏,该eps的选择方式符合dbscan算法根据数据之间的距离划分簇的思想。
[0019]
进一步的,所述步骤4中dbscan算法的步骤为:本发明在k-dist选取eps的基础上,为eps设置一个误差允许范围,该范围的最小值为图谱中最小峰值,最大值为两倍eps与最小峰值的差。也即该eps的改进在于将k-dist与区域划分相结合,全面考虑该eps的所有可能取值。
[0020]
进一步的,所述步骤5中minpts的选取具体为:由于minpts的选取直接影响聚类的质量,minpts值过大,会将原本不属于同一簇的数据归类为同一簇,部分离群点也会因此不能识别出来;minpts值过小,会将原本属于同一簇的数据划分为多个簇,部分核心点或边界点也会被识别为离群点;经过对大量样品进行反复实验,将minpts设置在[7,10]之间。
[0021]
本发明的优点及有益效果如下:
[0022]
本发明借助机器学习领域的dbscan算法实现对核磁图谱基准线的提取。基于图谱中每个峰的顶点坐标提取基准线符合dbscan算法中基于密度进行聚类的思想。本发明通过k-dist与区域划分相结合对该算法的核心参数eps设置进行改进,实验所得的离群点对应该核磁谱图的特征峰。经大量实验验证,该方法设置的基准线可以快速准确的提取特征峰的信息,避免了人工选取基准线效率较低以及在手工记录过程中出现的错峰,遗漏峰的问题。
附图说明
[0023]
图1是本发明提供优选实施例的原始数据,横坐标-ppm,纵坐标-hz;
[0024]
图2为本发明具体实例处理后提取出的峰顶点数据,横坐标-ppm,纵坐标-hz。
[0025]
图3为本发明具体实例距离升序曲线图,横坐标-点的个数,纵坐标-距离。
[0026]
图4为本发明具体实例dbscan聚类的实验结果图,横坐标-ppm,纵坐标-hz。
[0027]
图5为本发明基于改进dbscan的核磁谱图基准线提取方法流程图。
具体实施方式
[0028]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
[0029]
本发明解决上述技术问题的技术方案是:
[0030]
如图5所示,一种基于改进dbscan的核磁谱图基准线提取方法,其包括以下步骤:
[0031]
步骤1:将核磁共振频谱仪中提取出的核磁数据进行预处理,即保留谱图中每个峰的顶点坐标,剔除其他无用的坐标点。
[0032]
如图1所示,核磁谱图中的数据量较大,且该方法对核磁谱图的基准线提取只与峰的高度有关,与峰的宽度,峰的强度,化学位移等无关。因此,我们在对核磁数据聚类之前需要先将该图谱每个峰的峰顶点坐标提取出来。提取后的数据分布如图2所示。
[0033]
步骤2:求出数据集中各个坐标点之间的距离,得出该数据集的距离分布矩阵dist
n*n

[0034]
dist
n*n
={dist(i,j)|1≤i≤n,1≤j≤n}
ꢀꢀꢀ
(1)
[0035]
dist(i,j)表示点i到j之间的距离,n表示数据集点的总个数,dist
n*n
表示由dist(i,j)构成的实对称矩阵,矩阵中每一行的数据由小到大排列。
[0036]
步骤3:将距离分布矩阵中的数据从小到大排列,如图3中距离升序曲线图可以明显看出,在某一点之前曲线增长是缓慢的,但是在该点之后曲线呈指数增长的趋势,该拐点就是dbscan核心参数eps的初始值(由于本实验中数据点的纵坐标差距过大,为使该谱图拐点更加明显,选取部分代表性的数据得到距离升序图)。
[0037]
从曲线增长率来看,增长率缓慢说明该范围内数据密度较大,而曲线增长率快则表明该范围内数据分布较为稀疏。该eps的选择方式符合dbscan算法根据数据之间的距离划分簇的思想。
[0038]
步骤4:对dbscan的参数eps进行改进,将eps的取值范围设置为[minpeak,2eps-minpeak],其中minpeak为最小峰值,eps为步骤3中获得的拐点,将该eps进行区间划分。
[0039]
计算该实例的eps(单位:千万)初始值为4.5,最小峰值为0.088,因此我们将其区间划分为[0.088,1],[1,2],

,[8,8.912]。
[0040]
步骤5:分别将步骤4中得到的各个区间的端点值作为实验的邻域半径eps,并选取minpts进行聚类。
[0041]
minpts的选取:由于minpts的选取直接影响聚类的质量,minpts值过大,会将原本不属于同一簇的数据归类为同一簇,部分离群点也会因此不能识别出来;minpts值过小,会将原本属于同一簇的数据划分为多个簇,部分核心点或边界点也会被识别为离群点。本发明经过对大量样品进行反复实验,发现将minpts设置在[7,10]之间,聚类效果是最好的。
[0042]
在该样品中我们选取minpts为8,分别结合eps参数集中的各个eps对该数据进行聚类分析。
[0043]
步骤6:若聚类结果的离群点个数在某几个连续区间内稳定不变,则该离群点个数为最优离群点个数,并根据该离群点坐标确定基准线区间。
[0044]
本发明以dbscan的核心参数minpts为8,eps(单位:千万)分别选取0.088,1,2,3,4,4.5(初始值),5,6,7,8,8.912,进行实验得出的结果如表1:
[0045]
表1实验结果
[0046][0047]
从表1中可以明显看出,当选取eps(单位:千万)为0.088,1

,4.5时离群点个数变化非常大,当取值为5和6时变化已较为平缓,eps选取为7,8,8.912时,该实验的离群点个数稳定在100不变,也即100为本次实验的最优离群点个数,基于此结果,本发明将基准线区间设置为非离群点最大峰值到离群点最小峰值之间。通过将该实验结果的基准线和离群点个数与传统的人工计算的基准线和特征峰个数对比,发现该实验结果与人工选取结果大致符合,即该发明可以应用于润滑油核磁谱图的基准线计算。
[0048]
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0049]
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1