一种甲状腺功能障碍模型及其建立方法与流程

文档序号:16888744发布日期:2019-02-15 22:52阅读:412来源:国知局
一种甲状腺功能障碍模型及其建立方法与流程

本发明具体涉及一种甲状腺功能障碍模型及其建立方法。



背景技术:

甲状腺疾病的发病率在世界范围内呈逐年上升趋势,平均死亡率约为12%-17%。甲状腺疾病患者需要经常进行检查,如甲状腺功能减退症患者需要终身随访甲状腺功能,甲亢一般每月复查一次。此外,甲状腺功能紊乱已成为许多疾病的危险因素,如心脑血管疾病、生殖系统疾病和糖尿病等。目前,甲状腺功能检测的主要方法有放射免疫分析法(ria)和发光免疫分析法。然而,这两种方法不仅需要大型生化检测设备,而且需要长的检测时间(5-6h)和专业人员操作。随着患病率的增加,只有大型医院才能开展不能满足社会需求的甲状腺功能检查。因此,开发一种便携式、低成本的甲状腺功能快速检测装置,与血糖仪类似,对于社区、家庭和个人用户都具有重要的现实意义。

拉曼光谱是基于非弹性散射的一种无创、高灵敏性的光学分析技术,并且还带有分子的精细结构和大量的指纹类型信息,已经广泛应用于疾病诊断的研究领域。实际应用时,由于拉曼散射信号非常弱,且会受到强荧光影响,因此得到的光谱信号的信噪比不够理想,很难直接观察出不同光谱之间的差异。为了提取有用信息,提高诊断精度,迫切需要鲁棒、强大的光谱数据挖掘算法。近年来,svm在基于拉曼光谱的疾病诊断领域得到了广泛的应用,其识别性能明显优于传统的多元数据诊断算法,已成为拉曼技术研究领域的热点。

但是,在实际的识别和诊断过程中,svm参数的选择直接影响诊断的准确性。目前,svm参数的优化主要是网格搜索(gs)方法。随着gs步长的减小或搜索区间的增加,优化时间将大大增加,从而降低了诊断效率。现有技术提出了人工鱼群算法(afsa),将afsa用在了svm的参数优化中,并结合半透射高光谱成像技术对马铃薯空心心进行无损检测,取得了理想的效果。本发明为了解决gs方法寻优时间较长等问题,采用afsa-svm模型结合血清拉曼光谱,实现甲状腺疾病的快速、低成本检测。

然而,在并行优化的过程中,afsa可以快速找到近似最优解,然后只在最优解的小邻域内进行迭代优化。相对于目标值精度的提高,更明显的是造成了寻优迭代时间的严重增加。为了解决这一问题,本发明在标准afsa的基础上,提出了人工鱼耦合均匀设计算法(afud)。结合拉曼光谱,有效地解决了svm在血清拉曼光谱识别中的参数设置问题,成功地建立了一种更精确、更有效的甲状腺功能诊断模型。基于本发明,可为甲状腺功能障碍患者的快速、低成本检测提供一种新的途径。



技术实现要素:

本发明的目的是提供一种甲状腺功能障碍模型及其建立方法,采用了血清拉曼光谱结合支持向量(svm),建立了甲状腺功能障碍模型,基于该模型,可实现对甲状腺功能疾病的快速、低成本的检测。

为了实现上述目的,所采用的技术方案为:

一种甲状腺功能障碍模型的建立方法,包括以下步骤:

(1)血清样本收集与处理:

收集甲状腺功能障碍患者和甲状腺功能正常人的新鲜血液;

在37℃的洁净环境中,将新鲜血液冷凝一小时后,离心提取血清,得血清样本;

(2)血清拉曼光谱检测:

采用horiba共聚焦拉曼光谱仪检测血清样品,获得血清拉曼光谱;每个血清样品在不同的位置测试2条谱线,并取其平均谱线;

(3)光谱数据分析与预处理:

采用基于五阶多项式的vancouver拉曼算法拟合所有血清自体荧光背景后,将该多项式减去以实现校正基线,再在对校正后的光谱数据进行积分面积归一化处理,得处理后的光谱数据;

(4)光谱数据降维与svm分类模型:

采用pca法对处理后的光谱数据进行降维和特征提取后,采用rbf核作为svm的核函数,建立svm分类模型,得所述的甲状腺功能障碍模型。

进一步的,所述步骤(1)中,甲状腺功能障碍患者和甲状腺功能正常人的数量差不大于10。

再进一步的,所述甲状腺功能障碍患者至少34例,甲状腺功能正常人至少40例。

进一步的,所述步骤(1)中,收集到的新鲜血液在不加抗凝剂的条件下进行冷凝。

进一步的,所述步骤(2)中,所述horiba共聚焦拉曼光谱仪中:显微镜为50倍物镜,积分时间为5s,激发波长为532nm。

再进一步的,所述步骤(2)中,所述的激发光波长为532nm的氩离子激光,检测波数范围为400-1800cm-1

进一步的,所述步骤(4)中,所述svm算法中,采用rbf核作为svm的核函数。

进一步的,所述步骤(4)还包括优化svm分类模型:采用人工鱼群算法与均匀设计方法相结合,构造人工鱼群耦合均匀设计算法,优化支持向量机的参数,进而优化svm分类模型,得优化后的svm分类模型,即所述的甲状腺功能障碍模型。

再进一步的,所述人工鱼群耦合均匀设计算法为:在人工鱼群算法迭代寻优过程中,设定目标函数值的一定阈值和前后两代目标值的差额限度作为算法跳转条件,当人工鱼群算法优化后所得的目标值超过给定的阈值且满足给定的差额限时,此时认为人工鱼群算法已寻得问题的近优解,再执行跳出人工鱼群算法迭代寻优过程,并利用均匀设计方法进行寻优;否则,继续进行人工鱼群算法进行迭代寻优。

与现有技术相比,本发明的有益效果在于:

1、本发明所述的一种甲状腺功能障碍模型及其建立方法,根据甲状腺功能障碍患者血清拉曼光谱的特点,建立了高甲状腺功能障碍模型,基于该模型,实现了快速、低成本检测;

2、本发明所述的一种甲状腺功能障碍模型及其建立方法,采用了人工鱼群耦合均匀设计算法(afud)对svm参数进行优化,优化了高甲状腺功能障碍模型,基于该模型,实现了快速、低成本检测;平均诊断准确率达到82.74%,平均诊断时间为0.45秒。

3、本发明所述的一种甲状腺功能障碍模型及其建立方法,血清拉曼光谱技术结合afud-svm诊断模型对甲状腺功能的检测具有很大的潜力,有望开发出一种便携式、快速、低成本的甲状腺功能检测装置,以满足个人和社区的需求。

附图说明

图1为甲状腺功能障碍患者和甲状腺功能正常人归一化平均光谱的比较图;

图2为前10个主成分的得分百分比和累计得分百分比图;

图3为标准afsa算法优化svm参数在选取不同的核函数时对应的诊断准确率图;

图4为三种算法优化svm参数对应的30次寻优时间;

图5为三种诊断模型的roc曲线图。

具体实施方式

为了进一步阐述本发明一种甲状腺功能障碍模型及其建立方法,达到预期发明目的,以下结合较佳实施例,对依据本发明提出的一种甲状腺功能障碍模型及其建立方法,其具体实施方式、结构、特征及其功效,详细说明如后。在下述说明中,不同的“一实施例”或“实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

在详细阐述本发明一种甲状腺功能障碍模型及其建立方法之前,有必要对本发明中提及的方法等做进一步说明,以达到更好的效果。

svm是由vapnik与cortes以统计学习理论的vc维和结构风险最小化为基础而发展起来的一种机器学习方法,通过最优超平面、软间隔和核思想等技术来实现对分类与回归问题的有效建模,在对小样本、非线性和高维度数据处理时有效的克服了传统的学习算法中存在的“维数灾难”“过学习”等问题已在模式识别领域,尤其在处理分类问题上得到了广泛的应用。

对二分类问题而言,设给定的训练样本集为{(x1,y1),(x2,y2),…,(xn,yn)},其中xi∈rn;yi∈{-1,1},i=1,2,…n,则svm对线性可分问题的约束条件为:

s.t.yi((ω·xi)+b)≥1-ξi,ξi≥0,i=1,2,…,n(1)

其中:ξi为引入的松弛变量,是模型对样本的错分程度的衡量;c为引入的惩罚常数,惩罚参数的选取要合适,过高的话会造成过学习状态;ω和b分别代表分类函数的权值和阈值。

引入lagrange函数,则式(1)的对偶问题为:

其中λi为lagrange乘子。

对(2)式求解可得最优解结合karush-kuhn-tucke条件可得选择λi*的一个正分量可得最终得到svm的判别函数为:

f(x)=sgn((ω*·x)+b*)(3)

而对于线性不可分与非线性可分问题,可通过非线性映射φ将数据集从低维空间rn映射到高维hilbert空间中实现线性可分,相对应的原始最优化问题为:

s.t.yi((ω·xi)+b)≥1-ξi,ξi≥0,i=1,2,…,n(4)

同理可得最终的判别函数为:

在了解了上述方法等之后,下面将结合具体实施例对本发明一种甲状腺功能障碍模型及其建立方法做进一步的详细介绍:

实施例1.

(1)血清样本收集与处理:

收集了34例甲状腺功能障碍患者新鲜血液和40例甲状腺功能正常人的新鲜血液。在不加任何抗凝剂的情况下,每名患者采集3毫升新鲜血液,置于37℃的洁净环境中进行冷凝一小时。然后用高速离心仪(4000转/分钟)将血液在4℃下离心5分钟去提取血清,得血清样本。然后装进离心管中,并保存在80℃的冰箱中,以备后续使用。

(2)血清拉曼光谱检测:

利用horiba共聚焦拉曼光谱仪检测血清样品,所用的激发光波长为532nm的氩离子激光,重点检测400-1800cm-1波数范围,以获得血清拉曼光谱。参数设置为:显微镜为50倍物镜,积分时间为5s,激发波长为532nm。每个样品在不同的位置测试2条谱线,并取其平均谱线作为后续分析使用。

(3)光谱数据分析与预处理:

原始的血清光谱数据包含大量的噪声且受到荧光背景的影响。为了获得信噪比较高的信号,采用基于五阶多项式的vancouver拉曼算法拟合所有血清自体荧光背景,然后将该多项式减去以实现校正基线。然后在对校正后的光谱数据进行积分面积归一化处理,得处理后的光谱数据。

(4)光谱数据降维:

采用pca方法对处理后的光谱数据进行降维和特征提取。处理后的光谱数据包含400-1800cm-1波段的856个强度变量的集合。为了提高svm的诊断精度和效率,需要降低高维光谱数据的维数。pca是一种将高维光谱数据压缩成多个主成分(pcs)的统计方法。一般来说,前几个pcs可以包含原始数据集的大部分方差。因此,这种方法可以忽略更高的pcs而不损失大量的原始信息。

(5)svm分类模型

对处理后的光谱数据进行降维和特征提取后,采用svm算法建立svm分类模型;

svm是由vapnik提出的一种强大的多元数据分类算法。常见的核函数主要有线性核、多项式核、rbf核以及sigmoid核等,因为rbf核只有一个待优化的参数,对高维和低维数据都较适用,故选rbf核作为svm的核函数,其表达式为:

(6)优化svm分类模型:

采用afsa算法与均匀设计方法(ud)相结合,构造人工鱼群耦合均匀设计算法,优化支持向量机的参数,进而优化svm分类模型,得优化后的svm分类模型,即所述的甲状腺功能障碍模型。

在实际应用中,支持向量机核参数选取的好坏对其分类精度与泛化性能有着直接的影响,因此在处理分类问题时,对其参数的优化就显得尤为重要。

afsa算法作为一种新兴的智能优化算法,具有较强的并行寻优能力,对初值不敏感和全局寻优能力等优点。但afsa算法在并行寻优过程中,一般能较快寻得一个近似最优解,后期只是在该解的附近继续迭代寻优,相对于目标值精度的提高,更明显的是造成了寻优迭代时间的严重增加。

基于此,本发明将具有较好迭代寻优性能的afsa算法与较好局部寻优性能的均匀设计方法(ud)相结合,构造了人工鱼群耦合均匀设计(afud)算法,用来优化支持向量机的参数,旨在提高寻优效率的同时尽量提高分类精度。

afud算法的改进思想是:在afsa算法迭代寻优过程中,通过设定目标函数值的一定阈值和前后两代目标值的差额限度作为算法跳转条件,当afsa算法优化后所得的目标值超过给定的阈值且满足给定的差额限时,此时认为afsa算法已寻得问题的近优解,接着执行跳出afsa算法迭代寻优过程,并利用局部寻优方法进行寻优;否则,继续进行afsa算法进行迭代寻优。

本发明的局部寻优采用的是均匀设计方法,它将svm的参数设定问题转化成惩罚参数c与核参数g的2因素和若干水平数的优化设计问题,对于afsa算法在前期寻得的近优解,通过设定合适的水平水数,可以快速准确地寻得所求问题的最优解。

将所构建的afud算法用于svm参数的优化选择中,svm中待优化的参数主要是惩罚参数c和核参数。常见的核函数主要有线性核、多项式核、rbf核以及sigmoid核等,因为rbf核只有一个待优化的参数,对高维和低维数据都较适用,故选rbf核作为svm的核函数,其表达式为:

设g=1/(2r2),则svm待优化的参数为惩罚参数c与核参数g。

用afud算法对svm的二元参数(c,g)进行优化,以分类准确率最大化作为svm的优化目标。

步骤(3)—(5)的具体步骤为:

step1数据的获取和预处理:针对不同的数据需要不同的预处理方法,本发明为拉曼光谱数据,进行了扣除荧光背景以及归一化等操作。

step2训练集和预测集的确定:对预处理后的数据整理分析后,确定svm的训练集dt和预测集dp。

step3参数设置。afsa算法中设置的参数有:种群规模ngen、最大进化次数niter、感知距离dvis、移动的步长sleg、最大试探次数ntry以及拥挤度因子μ;svm中参数c和g的取值范围的设置,目标阈值限θ和前后两代准确率的差值限θ;均匀设计中的试验次数nud,以及搜索域的确定。

step4初始化鱼群:鱼群中的每条人工鱼代表svm待优化参数组合(c,g);根据step3中c和g的取值范围随机对鱼群进行初始化,使ngen条人工鱼对参数组合进行并行寻优。

step5计算初始鱼群中各人工鱼食物的浓度值:本发明以对预测集分类准确率最大化为优化原则,计算各人工鱼浓度值并比较大小,将鱼群中浓度值最大值作为初始鱼群的最优目标值,同时保存最优人工鱼的参数组合(c,g)。

step6鱼群行为的进行:对鱼群中各人工鱼分别进行觅食、追尾、聚群及随机游走等行为。

step7鱼群最优目标值的确定:计算鱼群每执行一次行为操作后的最优目标值:如果当前鱼群中存在最优值大于之前保存的最优值,则以该最优值代替原来的最优值,并记录相应的参数组合(c,g);否则最优值以及相应的参数组合(c,g)保持不变。

step8判断是否满足跳转条件:判断是否在满足鱼群前后两代分类准确率小于等于误差限的条件下,当前鱼群的最大迭代次数是否达到迭代上限或分类准确率是否大于等于所给的阈值。如满足上述条件,记录af算法的最大分类准确率和近优的参数组合(c,g);否则迭代增加一次并执行step6。

step9均匀设计法进行局部寻优:依据step3中参数的设置以及step8所得的近优解的σ邻域内均匀生成nud组新的参数组合(c,g),并计算各点的分类准确率,选取最大值作为afud算法寻优的最优目标值。

step10输出afud算法优化svm参数的最大分类准确率以及最优解(cbest,gbest)。

结果与分析

(3)光谱数据分析与预处理:

采用基于五阶多项式的vancouver拉曼算法拟合所有血清自体荧光背景,然后将该多项式减去以实现校正基线。再在对校正后的光谱数据进行积分面积归一化处理,得处理后的光谱数据。

通过对采集的甲状腺功能正常与异常人的血清拉曼光谱分析发现,两者在一些特征峰上存在着差异。

图1为甲状腺功能障碍患者和甲状腺功能正常人归一化平均光谱的比较。(a)甲状腺功能障碍患者;(b)正常人;(c)甲状腺功能障碍患者和正常人之间的差异谱。阴影部分表示均值的标准差,为了能看的更清晰,差异谱放大了5倍。

图1表示在400-1800cm-1波数范围内,甲状腺功能障碍患者和甲状腺功能正常人的归一化平均光谱的比较。阴影部分表示均值的标准差,最底部表示两者的差异光谱。从图1中清楚地看出,两组之间的光谱在形状和强度上非常相似。因此,需要一种强大而鲁棒的数据分析算法来提取有效信息并区分两组的血清光谱。从图1(c)中可以更清楚地看到这些拉曼光谱的差异性。例如,在496cm-1、630cm-1、787cm-1、1004cm-1、1075cm-1和1450cm-1处,甲状腺功能障碍患者的拉曼峰的平均强度要比正常人的谱峰更强,而位于1154cm-1和1513cm-1处的谱峰强度在正常人中更高。这些差异意味着有可能用血清拉曼光谱技术区分甲状腺功能异常患者与正常人。

表1中列出了血浆拉曼光谱的谱峰可能的归属情况。正常人和患者的血清光谱差异可反映细胞和分子的变化情况。例如,在630cm-1处的拉曼峰对应于甘油的环振动,其含量在甲状腺功能障碍患者中更高。甘油水平的升高可能与脂质代谢的减少有关,如甲状腺功能减退患者可能出现这种情况。1004cm-1处的谱峰对应于苯丙氨酸的c-c对称伸展,其含量在正常人中要比患者中低。苯丙氨酸是人体必需氨基酸之一,通过某种转化可转化为氨基酸,部分用于合成甲状腺素。甲状腺的主要功能是合成和分泌甲状腺激素,在甲状腺功能减退的患者中,可能出现血清中苯丙氨酸的增加,这可能是由于体内缺乏某种转化酶和甲状腺素合成不足的缘故。现有技术在研究恶性肺组织中也发现了苯丙氨酸的含量这一现象。在1154cm-1和1513cm-1处的拉曼谱带归属于类胡萝卜素的振动,并且其含量在甲状腺功能障碍患者中比正常人要低。这个峰被saleem等人认为具有疾病诊断的意义。这些变化表明,血清中某些生物分子与甲状腺功能障碍疾病的转化有一定的相关性。

表1血清拉曼光谱可能的谱峰归属

v:伸缩振动;δ:弯曲振动;vs:对称伸缩振动

(4)光谱数据降维:

pca用来对高维光谱数据进行降维和特征提取中提取。图2为前10个主成分(pcs)和它们的累计百分比。从图中可以看出,前4个pcs占所有主成分的91%(pc1:58%;pc2:24%;pc3:6%;pc4:3%)。故取前4个pcs作为svm的输入。

(5)svm分类模型结果

我们将光谱的74个样本从1-74随机排列。选取前40个作为训练集,其余32个作为预测集,验证afsa和afud优化的svm模型的诊断精度。作为比较,在相同的实验条件下,利用gs方法对svm参数进行了优化。

svm中惩罚参数c和核参数g的取值范围分别为(0,10]和(0,5];鱼群中参数设定:种群规模ngen=5、最大进化次数niter=50、感知距离dvis=0.5、移动的步长sleg=0.1、最大试探次数ntry=5以及拥挤度因子μ=0.5;均匀设计法中均匀实验次数为100次,参数c和g的邻域分别为1和0.2。跳出af算法的条件是前后两代分类准确率差额为0.1;阈值选取af算法对数据集10次分类准确率的均值,本发明为80。网格搜索法参数设置:惩罚参数c和核参数g的取值范围分别为(0,10]和(0,5],搜索的步长分别为0.1和0.01。

在相同的实验条件下,采用标准afsa算法对svm参数进行优化,图3为选取不同核函数的诊断准确率的情况。由此可见,rbf核具有最高的诊断准确率,从而验证了选择rbf核作为svm的核函数的合理性。

用3种不同的算法优化svm参数,表2为每种算法都寻优30次的平均结果图,图4为相应30次的寻优效率图。

表2三种算法优化svm参数的结果图(c表示svm的惩罚参数,g表示核参数,α表示30次平均诊断准确率,t表示30次平均寻优时间)

从表2和图4可以看出,afsa-svm、afud-svm和gs-svm诊断模型的平均诊断准确率分别为80.29%、82.74%和81.20%,平均寻优时间分别为1.74s、0.45s和14.40s。当三种算法优化svm参数的准确率相差不大时,本发明提出的afsa和afud可以比gs方法缩短诊断时间数倍甚至几十倍,从而大大提高了svm模型的诊断效率。afud-svm诊断模型的标准差为4.49%,低于afsa-svm和gs-svm模型的标准差。因此,我们提出的afud算法优化svm参数的诊断模型不仅可以大大提高诊断效率,而且可以提高模型的诊断精度和稳定性。

为了进一步验证诊断模型的性能,选择受试者工作特性(roc)曲线进行评估。roc曲线下的积分面积(auc)代表了该模型的诊断准确性,并且auc值越大,说明诊断准确性越高,诊断结果就越可靠。从图5中可以看出,三种诊断模型的auc值均在0.8以上,这表明这三种诊断模型在鉴别正常人和甲状腺功能异常患者方面具有较高的可靠性。

本发明对40例甲状腺功能正常人和34例甲状腺功能异常患者进行了血清拉曼光谱分析。实验结果表明,两组之间血清谱的轮廓和谱峰强度非常相似,而细微差别意味着可以通过强大的数据分析算法对甲状腺功能障碍患者进行诊断。

为了提高血清拉曼光谱技术与svm结合的诊断效率,本发明提出了两种高效的afsa-svm和afud-svm诊断模型,用于对甲状腺功能异常患者的诊断。与目前常用的gs-svm诊断模型相比,我们提出的两个诊断模型在保证诊断精度的同时大大提高了诊断效率。这也在一定程度上说明了血清拉曼光谱分析技术很有希望发展为一种无损检测与筛查甲状腺功能障碍患者的临床诊断工具。

随着甲状腺功能检测需求的不断增加,研制出一种快速、低成本的便携式甲状腺功能检测设备具有广阔的市场前景和社会意义。本发明通过运用血清拉曼光谱结合支持向量(svm),建立了甲状腺功能障碍模型,基于该模型,可以实现对甲状腺功能疾病的快速、低成本的检测。

进一步的,采用了人工鱼群耦合均匀设计算法(afud)对svm参数进行优化,优化了高甲状腺功能障碍模型,基于该模型,实现了快速、低成本检测;平均诊断准确率达到82.74%,平均诊断时间为0.45秒。结果表明,血清拉曼光谱技术结合afud-svm诊断模型对甲状腺功能的检测具有很大的潜力,有望开发出一种便携式、快速、低成本的甲状腺功能检测装置,以满足个人和社区的需求。

以上所述,仅是本发明实施例的较佳实施例而已,并非对本发明实施例作任何形式上的限制,依据本发明实施例的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明实施例技术方案的范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1