一种关键特征的筛选方法与流程

文档序号:12468812阅读:555来源:国知局

本发明涉及临床医学技术领域,特别涉及一种关键特征的筛选方法。



背景技术:

原发性肝癌(PLC)是我国一种常见的疾病,全世界超过1/3人感染过乙型肝炎病毒,超过8%的人为慢性携带者。我国肝癌病人多发于东南沿海地区,包括广东、广西、福建、浙江、海南、江西以及内陆的西藏等地。原发性肝癌患者在接受各种形式的免疫抑制治疗时,可以引起HBV复制和HBV感染严重,导致肝损害,HBV再激活不仅会延缓或阻止对原发病的进一步治疗,甚至会引起严重的并发症如肝衰竭,而影响患者的预后。为了预防肝癌患者进行精确放疗后乙肝病毒再激活的发生,国内外很多人都致力于找出乙肝病毒再激活的危险因素。旨在减少发病率,延长患者的生命,改善人们的生活水平。

黄伟等人在69例原发性肝癌患者接受精确放疗后致使乙型肝炎病毒再激活研究中发现基线血清HBV DNA水平和放疗剂量是HBV病毒再激活的独立危险因素。张晶晶等人提出,肝功能Child-Pugh分级、HBV DNA水平、肿瘤分期是原发性肝癌患者接受三维适形放疗(3D-CRT)后致乙型肝炎病毒(HBV)再激活的危险因素。

吴冠朋、王帅用t检验和logistic提取关键特征发现外放边界、肿瘤分期TNM和HBV DNA水平是HBV再激活的危险因素,然后建立BP神经网络乙肝病毒再激活的分类模型识别率达到78.89%,建立了支持向量机(SVM)分类模型识别率也达到78.89%。随后又建立了RBF神经网络模型,识别率提高到80%。通过遗传算法发现HBV DNA水平,肿瘤分期TNM,Child-Pugh,外放边界,V45和全肝最大剂量是乙肝病毒再激活的危险因素,通过建立SVM分类模型,预测精度达到83.34%。

但上述方法中,关键特征的提取,直接决定预测的精度,如何将关键特征有效提取出来,是个难题。



技术实现要素:

为了解决以上现有技术中关键特征提取中存在的困难,本申请提供了一种关键特征的筛选方法。

本发明是通过以下步骤得到的:

一种关键特征的筛选方法,将未选特征通过顺序选择找到关键特征组成特征子集。所述顺序选择找到关键特征过程为:采用顺序前向选择进行特征的选取,顺序前向选择采用自下而上的启发式搜索准则,每次从未被选择的特征中选择一个特征,使它与已选入的特征组成 特征子集,成为可以精确分类预测的最优特征子集。或者采用顺序后向选择进行特征的选取,顺序后向选择是一种简单的自上而下的启发式搜索方法,从所有特征中每次剔除一个无关的特征,保留最优特征,最后组成关键特征子集。

所述的筛选方法,优选

(一)顺序前向选择实现步骤如下:

①将特征集合初始化为空集

②计算未选特征与已选特征子集之间的马氏距离,将马氏距离最大的特征gi记为Gk,设已选入k个特征,0≤k≤30,把未选入的30-k个特征逐个与已选入的特征Gk组合后计算J值,若J(Gk+g1)≥J(Gk+g2)≥…≥J(Gk+gn-k)则将g1加入候选特征子集;

③将新的特征gi加入集合G=G∪{gi},计算新的未选特征与已选特征子集之间的马氏距离;

④返回第二步直到没有符合添加条件的特征或达到规定的搜索条件结束;

(二)顺序后向选择实现步骤如下:

①将所有的特征作为初始集合G={g1,g2,…,gi},其中i=30;

②从未被剔除的特征集合中选择一个Mahalanobis距离最大的特征gi,假设已剔除r个特征,0≤r<30,剩下的特征组记为其中p=30-r,将中的各个特征gp(p=1,2,…,30-r)逐个剔除,并计算若:则这次循环中g1的马氏距离最大,剔除;

③将选择的特征gi从集合G中剔除,即G=G-{gi},计算剩下特征子集G的Mahalanobis距离;

④返回第二步直到没有符合剔除条件的特征或达到规定的搜索条件结束。

所述的筛选方法,优选将特征子集送入贝叶斯分类器。

根据选好的特征子集建立贝叶斯分类器。首先将数据集分成训练集和测试集,然后将数据整理成贝叶斯分类器规定的格式,本文选取默认的一般线性判别函数,再将训练数据送入分类器进行训练,训练结束后用测试数据集进行分类测试,实验结果采用k折交叉验证,将总样本S分成k份不同的子集,每份样本个数为S/k,若k=3,则每份样本个数为30,假如把第一份作为测试集,则第二、第三份为训练集,以此类推三份中的每份都会作为测试集被调用一次。最后的预测结果为:

其中xi代表3折交叉验证中第1、2、3次的结果,为3折交叉验证的最终结果。

文中采用3折、5折、10折交叉验证循环50次得到预测精度、特异性和灵敏性。

有益效果:

本发明一种基于顺序特征选择的模型构建方法,抛开传统的医学方法,采用机器学习方法利用顺序选择找出数据集进行分类预测的关键特征,组成特征子集,精确度比智能算法中的遗传算法方法提高2个百分点,实用性强,易于推广。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

特征选择:特征选择又称特征压缩,是从原始数据中选出一些最有效和最具代表性的特征子集,消除冗余特征,降低空间维度,简化数据。在本申请中原始数据为性别、KPS评分、肿瘤分期TNM、HBV DNA水平、肿瘤分期TNM、V35、V45、全肝最大剂量、外放边界、放疗剂量等30个特征。

顺序前向选择:采用自下而上的启发式搜索准则,计算每一个特征的准则值,选择具有最好值的特征,组合所有包含已选特征的二维向量,计算每一个特征向量的准则值,并选择最好的向量,以此类推,选出条件中给出的固定个数的特征,组成特征子集,成为可以精确分类预测的最优特征子集。顺序前向选择实现步骤如下:

①将所需的特征集合初始化为空集

②计算未选特征与已选特征子集之间的马氏距离,将马氏距离最大的特征gi(设已选入k(本文中0≤k≤30)个特征,记为Gk,把未选入的30-k个特征逐个与已选入的特征Gk组合后计算J值,若J(Gk+g1)≥J(Gk+g2)≥…≥J(Gk+gn-k)则加入g1)加入候选特征子集;

③将新的特征gi加入集合G=G∪{gi},计算新的未选特征与已选特征子集之间的马氏距离;

④返回第二步直到没有符合添加条件的特征或达到规定的搜索条件结束。

顺序后向选择:是一种简单的自上而下的启发式搜索方法,采用一个类可分准则C,计算所有特征向量的C值,每次剔除一个无关的特征,保留最优特征,最后组成关键特征子集。顺序后向选择实现步骤如下:

①将所有的特征作为初始集合G={g1,g2,…,gi}(这里i=30);

②从未被剔除的特征集合中选择一个Mahalanobis距离最大的特征gi(假设已剔除r(0≤r<30)个特征,剩下的特征组记为其中p=30-r,将中的各个特征gp(p=1,2,…,30-r)逐个剔除,并计算若:则这次循环中g1的马氏距离最大)剔除;

③将选择的特征gi从集合G中剔除,即G=G-{gi},计算剩下特征子集G的Mahalanobis距离;

④返回第二步直到没有符合剔除条件的特征或达到规定的搜索条件结束。

本文两种算法都采用Mahalanobis距离作为特征评估函数,公式如下:

贝叶斯分类预测模型:贝叶斯模型1988年由Pearl提出的,基于概率推理的数学模型,是目前不确定知识表达和推理领域最有效的理论模型之一。广泛应用于图像处理,自然语言处理等方面。

假设对于有k个类别的多分类问题,类别表示为wi,i=1,2,…,k,就本文而言,共有2个类别即k=2,w1表示乙肝病毒再激活,w2表示乙肝病毒不激活。其中一个待分类的目标由一组特征值x(i)来表示,i=1,2,…n,本文每个样本都有30个特征,n取值为30,即构成的一个30维特征向量x=(x(1),x(2)…,x(30)),并且每一个待分类的目标只属于两类中的一类,则贝叶斯公式可以表示为:

其中,P(w1)为乙肝病毒再激活的先验概率,P(w2)不激活的先验概率。类条件概率密度函数P(x|w1)是指在乙肝病毒再激活的特征空间中,出现特征x的概率密度,类条件概率密度函数P(x|w2)是指在乙肝病毒不激活的特征空间中,出现特征x的概率密度。P(w1|x)是x属于乙肝病毒再激活的后验概率,P(w2|x)是x属于乙肝病毒不激活的后验概率,这个概率可以作为分类对象的依据。

所述建立贝叶斯分类器过称为:

根据选好的特征子集建立贝叶斯分类预测模型,本文我们采用最小错误率的贝叶斯决策对乙肝病毒再激活进行分类预测,在特征x下,想要正确归类,需要通过比较判别函数来确定。本文选取默认的一般线性判别函数,如公式:

d(x)=w1x1+w2x2+…wnxn

上述公式中n的取值依然是30,本文是2分类问题,故有2个判别函数,相应的把x带入2个判别函数中比较,看哪个判别函数大,就把x归为哪一类。大多数情况下,类条件概率密度采用多维变量的正态密度函数来模拟,多维正态密度函数为:

其中n代表30个特征,i=2代表文中的两分类问题,代表乙肝病毒再激活类的均值向量,代表不激活类的均值向量,S1代表乙肝病毒再激活类的协方差矩阵,S2代表不激活类的协方差矩阵。

此时正态分布的贝叶斯分类器判别函数为:

将需要分类的向量x输入就可求得x在每个类别下的后验概率,概率最大的即为x所属的类别。

本文通过特征选择找出关键特征,然后通过贝叶斯分类器进行分类预测,不同于医学方法,实验结果较王帅吴冠朋采用的遗传算法等计算机方法结果有所提高,实用性较强,易于推广。

本文以顺序后向选择为例,实验数据集大小为90*30,90个样本,30个特征,采用3折交叉验证,首先将原始数据分为训练集Ptrain(60*30)和测试集Ptest(30*30),首先根据顺序后向选择算法,计算Ptrain中30个特征的Mahalanobis距离,将Mahalanobis距离最大的特征剔除,在未被剔除的特征中再次计算Mahalanobis距离,剔除Mahalanobis距离最大的特征,重复上面的过程,直到剩余5个特征,组成60*5的新的特征子集P1,测试集剩下与训练集同样的特征组成30*5的特征子集P2,将训练集P1送入贝叶斯分类模型中进行训练建模,然后再把测试集P2送入建好的分类模型进行预测,得到预测精度。顺序后向选择出选出的5个特征有:①肿瘤分期TNM、HBV DNA水平、外放边界、V35、V45、全肝最大剂量,预测精度为81.99%。②性别、KPS评分、肿瘤分期TNM、HBV DNA水平、外放边界,预测精度为84.63%。③KPS评分、HBV DNA水平、外放边界、肿瘤分期TNM、全肝最大剂量,预测精度为85.75%。通过比较可以发现第③个特征组合的预测精度最高,因此我们将③中的KPS评分、HBV DNA水平、外放边界、肿瘤分期TNM、全肝最大剂量作为乙肝病毒再激活的危险因素。

将原始特征直接通过建立贝叶斯分类器进行分类预测,预测精度最高为71.42%。

将原始特征通过遗传算法选取的HBV DNA水平、肿瘤分期TNM、Child-Pugh、外放边界、全肝最大剂量5个特征作为最优特征子集时的预测精度为83.34%。

上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于特征提取的乙肝病毒再激活的分类预测方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受实施例的限制,其它任何未背离本发明的精神实质与原理下所做的改变、修饰、组合、替代、简化均应为等效替换方式,都包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1