基于Matlab的偏最小二乘法对癌症病人光谱学检测数据的预测的制作方法

文档序号:6423055阅读:762来源:国知局
专利名称:基于Matlab的偏最小二乘法对癌症病人光谱学检测数据的预测的制作方法
技术领域
本发明是一种统计学上的预测方法,具体的是通过Matlab对癌症病人紫外检测数据进行预测的方法,其方法属于生物统计学领域。背景知识目前,在癌症早期诊断中应用最成熟的方法是影像学方法,包括X光片,CT,MR,血管照影及介入性放射学等,这种影像学方法需要肿瘤组织大小必须具备一定的尺寸才能有效的被检测到,这是一类组织级别水平上的检测。另外,作为辅助性检查的方法就是肿瘤标志物检测,虽然属于分子级别水平,但是由于肿瘤标志物的非单一性对应,使得这种方法的特异性不高。因此,需要一种能在分子级别水平上实现癌症早期诊断的更为有效的方法,本发明提供的血清谱学检查就是能在分子级别水平上实现癌症早期诊断的新方法。但是, 由于人血清中分子成分的复杂性,以及需要从多份样品中提取信息,使得需要一个很好的算法模型来进行数据分析和处理,以达到对癌症病人进行预测的目的。对于这种存在多重相关性的系统,各个选取指标中存在无法预知的关系,直接导致系统中极大的噪声和不确定性。通过对普通多元回归算法和偏最小二乘法的比较,我们发现利用偏最小二乘法可从所有指标中选取同因变量关系最密切的指标,通过降维,从而降低噪声,克服多重相关性的不良作用。这些特点使得偏最小二乘法在应对多重相关性和样本点过少的问题上优于其它普通回归算法。为此,我们采用偏最小二乘法来对癌症病人的血清光谱进行分析和处理,达到在分子级别水平上实现癌症早期诊断的目的。

发明内容
本发明是基于Matlab的偏最小二乘回归法对癌症病人进行光谱学检测的预测。它的流程如图I所示。本发明首先需要采集正常人和癌症病人静脉血样,并对血样进行离心处理,然后对离心处理后的血清用不同pH的缓冲溶液进行稀释;采用光谱学仪器对不同pH的血清样品进行光谱检测,以获得它们的光谱检测数据。本发明把批量检测的光谱数据输入Matlab并将其转换为ASCII码文件通过最小二乘回归法对获得的光谱数据进行预处理和进一步优化,最后建立预测模型和对数据进行预测。本发明对获得的光谱数据进行预处理的过程如下I、建立一种基于循环方式的一次性选择数据并批量输入工具;2、建立一种自动识别文档中紫外检测数据内容,去除多余文字,并建立ASCII文档的工具;3、建立二阶导数谱模型并自动选取图谱上的特殊值。本发明对预处理的结果进一步优化的过程如下I、对数据进行标准方差和T检验,输出检验报告用于判断数据的稳定性;
其标准方差公式如式(I)标准方差={[E (Xn-X)2]/n}(I)其中Xn为每个样本的特殊值,X为所有样本的平均值。令每个样本特殊值为[X1, X2, X3... Xn],平均值为X,代入式⑴进行运算,就能够获得标准方差。根据标准方差来判断样本中个数据的差异大小,如果差异数值越大波动越大,就越不稳定;2、T分布假设检验是基于U (总体平均数)和0 (总体标准差)来展开,它们决定了正态分布的位置和形态。在正态分布总体中以固定n抽取若干个样本时(一般光谱检测试验200),所以,样本均数的分布仍然服从正态分布,即N(y,O)。由于在实际工作中,往往O是未知的,常用样本标准差作为O的估计值来进行检验。也就是说,T分布可 检验数据之间差异是否显著,小概率事件发生的概率高低,因此T分布值可以直观地知晓数据的稳定性。本发明建立偏最小二乘回归分析法预测模型并对数据进行预测的过程如下偏最小二乘回归分析法建立的模型为双线模型,其中为包含外部块(X独立模块和Y独立模块),以及两者之间的内部块(X和Y的联系模块),在本发明中的采用模型对X的潜变量进行了修改,使其与Y的协方差达到最大,即把特征值近于零的数据删除。程序实现过程如下[10]确立回归模型为Y = XB ;其中B = W(PtW)^1Qt(W为权重,P为X的载荷矩阵,Q为Y的载荷矩阵);[20] Y = UQt+F = uaqTa ; (U为Y的得分矩阵,Ua为Y的得分向量,qa为荷载向量,F为残差);[30]X = TPt+E = tapTa ; (T为X的得分矩阵,ta为X的得分向量,pa为荷载向量,E为残差);[40]提取Y,X的潜向量,当维数I = 0时,X = XOTiginal_x(x为平均数);Y =
Yoriginal ^
(y为平均数);[50]通过主成分分析法对维数I = I到I = d进行循环估计[60]将Y的第一列作为初始的得分向量U,即u = yi ;[70]计算 X 的权重wT = uTX/utu ;[80]对权重标准化wT = wT/ (WtW) 1/2 ;[90]估计X矩阵的得分向量t = Xwt ;[100]计算 X 的载荷向量qT = tT/tTt ;[110]计算 Y 矩阵的得分向量u = Yq/qTq,若 | | Unew-UaJ < ( Unew |_ 阀值)则趋于收敛,停止循环,阀值由计算机的精度决定;[120]计算内部关联向量b = uTt/tTt ;[130]计算Y矩阵的载荷向量pT = tTX/tTt ;[140]计算X和Y矩阵的残差E = X_tpT,F = Y_uqT ;计算标准方差Rev,若其大于预期精度,则得到最佳维数,获得最终的B。


图I :本发明基于Matlab的偏最小二乘回归法对癌症病人光谱学检测数据进行预测的流程图。
具体实施例方式为实现上述发明,将通过以下技术与以实现用Matlab处理紫外光谱检测数据,优化数据并将数据用于最小二乘法预测的过程如下因为不同紫外检测仪器输出数据没有一个统一的标准,所以必须去掉当中的文字并将其转换为ASCII码文件,转换当中遇到的问题主要是非数据标志‘NaN’和千位数以上的逗号,如‘1,000’,‘2,000’,其中‘NaN’将导致最小二乘法运算报错,逗号将导致千位上数字和之后的数字分开输入,如‘2,300’将被输入为‘2’和‘300’两个数,在输入数据中将予以修正,其中‘NaN’将用‘0’代替,逗号将被去掉,输出自制后缀名为.output的ASCII 码文件。对光谱学检测的数据优化是把数据转化为二阶导数谱,每个样本的依据检测是pH值的不同分为不同组,根据光谱学检测数据的特征波长如450nm, 280nm, 260nm, 217nm,197nm,波长分别为生物大分子中血红素,蛋白,核酸,蛋白质P折叠等物质的特征波长,因此所有数据统一选取410/450,280/260,217/197上数据的比值作为下一步优化的数据。对上一步数据再划分为多组,正常人的血清紫外检测数据为一组,各种癌症不同种类的为不同组,由于正常人的血清紫外检测数据将做为训练集,所以必须保证其各个样本的稳定,本发明通过两种方法来检测,首先通过标准方差检测,即将数据批量代入标准方差公式S2 = 1/n [ (X1-In)2+ (x2-m)2+. . . + (xn-m)2](其中S为标准方差,Xn为样本数据,m为平均数)中进行检测。并利用T分布检测样本间差异的显著性。依据差异性的好坏,选择最好的特殊值,代入偏最小二乘法算法中进行训练,X矩阵为紫外检测数据的编号,Y矩阵为选择的特殊值,依据PH值得不同,同一个编号有三组值。运行软件后得到三组值,分别为拟合标准差,交叉验证标准差和预测标准差,根据上述三个值可以分析训练集的拟合质量,以及测试集同训练集之间的差异,可用于预测不同癌症的血清特征与正常人血清特征的差异。
权利要求
1.一种基于Matlab的偏最小二乘法对癌症病人光谱学检测数据的预测,其特征在于它需要采集正常人和癌症病人静脉血样,进行血样处理和光谱检测,并且对得到的检测数据在Matlab平台上利用偏最小二乘回归方法来进行优化处理和预测。
2.根据权利要求I所述的要求,对采集的血样进行离心处理。
3.根据权利要求2所述的要求,对离心处理后的血清用pH4.00、pH6. 86、pH9. 18的缓冲溶液进行稀释。
4.根据权利要求3所述的要求,用紫外可见光谱仪收集血清的光谱数据。
5.根据权利要求4所述的要求,对得到的光谱进行数据输入过程的工具开发,数据输入工具开发过程,包括识别和提出TXT文件中的非数字信息,修正“NaN”和逗号分隔数字等错误信息。
6.根据权利要求5所述的要求,对输入的数据进行优化处理,优化处理过程包括输出二次导数谱和进行标准方差计算和T分布计算。
7.根据权利要求I所述的要求,数据的偏最小二乘法回归方法的预测包括建立特殊值的选取程序。其特征在于,使用该预测方法,将输出血清紫外检测数据的ASCII文件,其后缀名为 output。
8.根据权利要求7所述的要求,其特征在于,使用该预测方法,将输出数据优化的结果文件,包括二次导数谱的图像文件和包含判断数据T分布检验差异显著以否,置信区间,小概率事件发生概率,标准方差在内的文本文件。
9.根据权利要求8所述的要求,其特征在于,选取的特殊数值分别在波长为240nm,260nm, 280nm, 410nm, 450nm 之间的比值。
10.根据权利要求9所述的预测方法,其特征在于,pH4.00、pH6. 86、pH9. 18的血清稀释液在波长为240nm,260nm, 280nm, 410nm, 450nm之间的比值下所输出三个文本文件都包含血清数据的编号,和比值信息,输出文件名为pH4. 0. txt, pH6. 86. txt和pH9. 18. txt。
全文摘要
本发明公开了一种在Matlab下使用偏二乘回归方法对癌症病人血清的光谱学检测数据进行预测的方法,包括开发光谱学检测数据的批量输入工具程序,开发自动转化为ASCII文件工具程序,建立数据优化模型的过程,建立偏最小二乘法回归模型的过程以及实际检验和预测的过程。其中建立数据优化模型包括计算标准方差的过程和T分布检验的过程。建立偏最小二乘法回归模型包括选取特殊值,和对特殊值的预测和检验。
文档编号G06F19/00GK102760197SQ20111010473
公开日2012年10月31日 申请日期2011年4月26日 优先权日2011年4月26日
发明者曾红娟, 王鑫, 陈启宏 申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1