1.一种预测疾病生存期的逐步多元回归模型,其特征在于,所述逐步多元回归模型的回归方程式为:
y=Xβ+ε
式中,生存期向量为y=(y1,y2,…,yn)',向量参数为β=(β0,β1,β2,…,βp),随机误差为ε=(ε1,ε2,…,εp),矩阵X为:
式中,xi表示第i个病人的miRNA表达水平,蛋白质表达水平或临床分期数据。
2.根据权利要求1所述的逐步多元回归模型,其特征在于,所述逐步多元回归模型的回归方程式为:
yi=xiβ+εi
式中,xi表示第i个病人的分子表达水平数据或临床数据,yi——表示第i个病人的生存期数据;εi——表示第i个病人的生存期预测误差。
3.根据权利要求2所述的逐步多元回归模型,其特征在于,所述回归方程式中的所述xi为:
4.根据权利要求1-3任意一项所述的逐步多元回归模型,其特征在于,所述回归方程式中的所述β的最小二乘估计解为
b=(b0,b1,......,bp)=(XTX)-1XTY
式中,b表示β的最小二乘估计,XT为X的转置。
5.根据权利要求1-3任意一项所述的的逐步多元回归模型,其特征在于,所述回归方程式中的总平方和SST、与残差平方和SSE与回归平方和SSR为:
SSE=yTy-bTXTy
其中,总平方和SST与残差平方和SSE、回归平方和SSR具有如下关系:
SST=SSE+SSR。
式中,yT表示y的转置,表示y的均值。
6.根据权利要求5所述的逐步多元回归模型,其特征在于,所述回归方程式中的回归均方(MSR)和残差均方(MSE)为
其中,所述SSE的自由度为n-p,所述SSR的自由度为p-1。
7.根据权利要求6所述的的逐步多元回归模型,其特征在于,在所述逐步多元回归模型中通过构造F统计量,来判断是否引入一个新的变量或删除原有的一个变量,在每引入一个新的变量都需要进行是否需要删除一个变量,即检验新引入的变量是否与原有变量具有相关性;当拟合系数大于0.8时,认为拟合效果较好;
其中,所述F为
式中m表示新方程中参数的个数。
8.根据权利要求7所述的的逐步多元回归模型,其特征在于,所述逐步多元回归模型中需要设置添加显著性水平和删除显著性水平,添加显著性水平应该不小于删除显著性水平。
9.根据权利要求1-7任意一项所述的逐步多元回归模型,其特征在于,所述疾病为慢性疾病;优选地,所述疾病为癌症;更优选地,所述癌症能够表现出在蛋白质表达水平、miRNA表达水平等分子生物学水平的数据或具有癌症分期相关数据;最优选地,所述癌症为乳腺癌。
10.根据权利要求1-7任意一项所述的逐步多元回归模型在预测癌症、及与癌症类似重大疾病患者生存期方面的应用。