一种医疗数据的特征选择方法及相关装置与流程

文档序号:15938452发布日期:2018-11-14 02:46阅读:301来源:国知局
本申请涉及数据处理领域,特别涉及一种医疗数据的特征选择方法、特征选择系统、特征选择装置以及计算机可读存储介质。
背景技术
随着计算机数据处理技术的发展,在医学数据分析领域,经常使用计算机的强大算力对大量的医学数据进行处理分析。通过对数据的分析,可以得到关于疾病数据分类情况,从中找出与疾病性状相关联的特征数据,即判断特征数据与疾病的相关性,从而促进疾病特征诊断的发展,辅助医生进行诊断。一般的,在一种现有技术中使用relief(算法名称)算法对数据进行基础的处理分析,该算法计算给定样本的同类近邻和异类近邻之间的间隔,能够更好地解决有效样本信息量少、冗余过大以及数据之间彼此存在较强的相关性等问题。在另一种现有技术中通过lh-relief算法(localhyperplanerelief,局部超平面relief)进行特征选择,通过该算法可以将分类的数据拓展到多分类的情况,而且在局部结构重构样本的近邻得到更加精确的近邻表示,提高了算法的分类精度。但是,随着算法和应用领域的不断拓展,需要处理的医学数据的维数越来越高,现有的特征选择算法无法很好的对高维的特诊数据进行选择,使算法处理后的数据仍然大量存在无关的特征数据,降低特征集与分类结果的相关性,使分类结果的准确率、精度以及召回率都有不同程度的下降。并且,随着数据的维数增多,特征选择的冗余度也大大增加,降低了分类结果的精度。因此,如何提高特征选择方法在处理高维数据时的精度是本领域技术人员所关注的重点问题。技术实现要素:本申请的目的是提供一种医疗数据的特征选择方法、特征选择系统、特征选择装置以及计算机可读存储介质,通过在特征选择的权重向量计算过程进行稀疏处理,使不相关特征的权重向量趋近于0,减少多过无关特征被选入最优特征集,相当于减少的无关噪声,提高了处理高维数据时的精度。为解决上述技术问题,本申请提供一种医疗数据的特征选择方法,包括:对获取的医疗数据进行标准化处理,得到标准化医疗数据;对所述标准化医疗数据进行权重向量稀疏计算处理,得到所述标准化医疗数据中特征对应的权重向量;根据所有所述权重向量对所有所述特征进行选择,得到最优特征集。可选的,对获取的医疗数据进行标准化处理,得到标准化医疗数据,包括:对获取的所述医疗数据进行离差标准化处理,得到标准化医疗数据。可选的,对所述标准化医疗数据进行权重向量稀疏计算处理,得到所述标准化医疗数据中特征对应的权重向量,包括:构造优化目标函数,向所述优化目标函数添加所述l1范数的惩罚项得到稀疏优化目标函数;根据所述稀疏优化目标函数对所述标准化医疗数据重复进行计算,直到当前得到的特征对应的权重向量与上一次计算得到的特征对应的权重向量的差值小于阈值,得到每个所述特征对应的权重向量。可选的,根据所有所述权重向量对所有所述特征进行选择,得到最优特征集,包括:根据所有所述权重向量对所有所述特征进行排序,得到特征排序集;计算每个特征之间的相对熵,并根据所述相对熵和所述权重向量选择所述特征排序集中的特征到所述最优特征集,得到所述最优特征集。本申请还提供一种医疗数据的特征选择系统,包括:标准化处理模块,用于对获取的医疗数据进行标准化处理,得到标准化医疗数据;权重向量计算模块,用于对所述标准化医疗数据进行权重向量稀疏计算处理,得到所述标准化医疗数据中特征对应的权重向量;最优特征获取模块,用于根据所有所述权重向量对所有所述特征进行选择,得到最优特征集。可选的,所述标准化处理模块具体用于对获取的所述医疗数据进行离差标准化处理,得到标准化医疗数据。可选的,所述权重向量计算模块包括:优化函数获取单元,用于构造优化目标函数,向所述优化目标函数添加所述l1范数的惩罚项得到稀疏优化目标函数;权重向量计算单元,用于根据所述稀疏优化目标函数对所述标准化医疗数据重复进行计算,直到当前得到的特征对应的权重向量与上一次计算得到的特征对应的权重向量的差值小于阈值,得到每个所述特征对应的权重向量。可选的,所述最优特征获取模块包括:特征排序单元,用于根据所有所述权重向量对所有所述特征进行排序,得到特征排序集;特征选取单元,用于计算每个特征之间的相对熵,并根据所述相对熵和所述权重向量选择所述特征排序集中的特征到所述最优特征集,得到所述最优特征集。本申请还提供一种医疗数据的特征选择装置,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现如上所述的特征选择方法的步骤。本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的特征选择方法的步骤。本申请所提供的一种医疗数据的特征选择方法,包括:对获取的医疗数据进行标准化处理,得到标准化医疗数据;对所述标准化医疗数据进行权重向量稀疏计算处理,得到所述标准化医疗数据中特征对应的权重向量;根据所有所述权重向量对所有所述特征进行选择,得到最优特征集。通过在特征选择的权重向量计算过程对权重向量进行稀疏处理,使不相关特征的权重向量趋近于0,减少被选入最优特征集的无关特征,相当于减少的无关噪声,避免了无用特征对正确分类预测的影响,提高了处理高维数据时的精度。并且通过选择后的特征以较少数量的特征就完成了高精时度的分类处理,提高了分类处理的效率,使计算机性能得到了充分利用,也即提高了计算机的运行性能。本申请还提供一种医疗数据的特征选择系统、特征选择装置以及计算机可读存储介质,具有上述有益效果,在此不做赘述。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例所提供的一种医疗数据的特征选择方法的流程图;图2为本申请实施例所提供的另一种医疗数据的特征选择方法的流程图;图3为本申请实施例所提供的一种医疗数据的特征选择系统的结构示意图。具体实施方式本申请的核心是提供一种医疗数据的特征选择方法、特征选择系统、特征选择装置以及计算机可读存储介质,通过在特征选择的权重向量计算过程加入l1范数进行计算处理,也就是对权重向量进行稀疏处理,使不相关特征的权重向量趋近于0,减少多过无关特征被选入最优特征集,相当于减少的无关噪声,提高了处理高维数据时的精度。为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。请参考图1,图1为本申请实施例所提供的一种医疗数据的特征选择方法的流程图。本实施例提供一种医疗数据的特征选择方法,该方法可以提高对高维数据的分类精度,该方法可以包括:s101,对获取的医疗数据进行标准化处理,得到标准化医疗数据;本步骤旨在对获取的医疗数据进行预处理,也就是标准化处理,得到标准化医疗数据。所得到的医疗数据,一般由于各项特征指标的性质不同,通常具有不同的量纲和数量级。当各项特征间的水平相差很大时,如果直接用原始的医疗数据进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始的医疗数据进行标准化处理。具体的,标准化处理可以是离差标准化处理,也可以是正规化方法处理,还可以是归一化标准化处理,又可以根据实际情况选择上述标准化处理的任一种作为本实施例中所使用的标准化处理方法,在此不做具体限定。其中,医疗数据是一种多种特征数据与疾病表现相对应的一种数据,通常一个样本中含有多个医疗特征的量化数据。s102,对标准化医疗数据进行权重向量稀疏计算处理,得到标准化医疗数据中特征对应的权重向量;在步骤s101的基础上,本步骤旨在通过稀疏的手段计算标准化医疗数据中每个特征对应的权重向量,本实施例中可以使用的稀疏的手段是l1范数,l1范数可以实现稀疏,l1范数可以更好的优化求解特性。因此,本实施例中就是通过稀疏计算处理,得到每个特征对应的权重向量。通过稀疏处理后就可以将多数特征的特征向量进行稀疏化处理,使相关的特征的权重向量较高,使不相关的权重向量趋近于0,减少多维数据的对于特征选择的影响,得到对于分类过程最有用的特征。s103,根据所有权重向量对所有特征进行选择,得到最优特征集。在步骤s102的基础上,步骤旨在根据所有特征的权重向量对所有特征进行特征选择处理,就可以得到最优特征集。具体的,本步骤中对于已计算权重向量的特征进行相应的选择处理,因此如何选择的依据就是计算得到的权重向量。进一步,就可以根据权重向量进行排序选择前预设数量个的特征作为最优特征,还可以判断权重向量是否大于某个值之后就判定为最优特征,也可以分别是以上两种选择方法的变体,具体的,只要是根据权重向量进行选择的方法都可以作为本实施例中的最优特征选择方法,在此不做限定。特别的,本步骤中还可以利用冗余度对特征进行选择,实现在特征冗余的角度去除无用的特征,避免无用特征对分类预测的影响,提高分类精度。综上,本实施例可以通过在特征选择的权重向量计算过程进行稀疏处理,使不相关特征的权重向量趋近于0,减少多过无关特征被选入最优特征集,相当于减少的无关噪声,提高了处理高维数据时的精度。请参考图2,图2为本申请实施例所提供的另一种医疗数据的特征选择方法的流程图。本实施例提供一种医疗数据的特征选择方法,该方法可以包括:s201,对获取的医疗数据进行离差标准化处理,得到标准化医疗数据;本步骤旨在对医疗数据进行标准化处理,具体为离差标准化处理。具体的,可以通过以下公式实现:输入医疗数据为其中xi∈ri,yi∈{1,2,…,c}是xi的标签,表明xi的类别,n是训练样本的总个数,i是样本的维数。医疗诊断问题为多类分类问题,每个类别代表一种疾病。对医疗数据进行离差标准化处理,转换函数如下:其中xij是第i个样本的第j个属性值,为取所有训练样本数据中属性j的最大值,为取所有训练样本数据中属性j的最小值。s202,构造优化目标函数,向优化目标函数添加l1范数的惩罚项得到稀疏优化目标函数;s203,根据稀疏优化目标函数对标准化医疗数据重复进行计算,直到当前得到的特征对应的权重向量与上一次计算得到的特征对应的权重向量的差值小于阈值,得到每个特征对应的权重向量;在步骤s201的基础上,步骤s202到步骤s203主要是通过在优化目标函数中加入l1范数的惩罚项再进行权重向量的计算处理,得到每个特征对应的权重向量。其中,加入的l1范数惩罚项可以将与最后分类结果无关的特征对应的权重向量置为0,也就是去除这些没有信息的特征,避免了无用信息对正确分类预测的影响,提高了处理高维数据时的精度。具体的,步骤s202至步骤s203可以通过以下公式进行处理:步骤1,在t=0时,初始化wt=[w1,w2,…,wi]t=[1/i,1/i,…,1/i]t∈ri,wj为属性j对应的权重。设迭代次数为t以及容许误差为θ;步骤2,当||wt+1-wt||≤θ时返回权重向量,并令w=wt+1,否则令t=t+1;步骤3,最小化下面的优化目标来求得权重向量wt+1:其中和分别是样本xi在异类样本以及同类样本中的近邻样本矩阵,k是先验设置的近邻个数,λ>0是控制惩罚强度的正则化参数,控制最优解的稀疏程度。αi和βi分别是异类样本以及同类样本关于xi的系数向量,可以分别通过求解下面的优化问题获得:步骤4,返回步骤2。s204,根据所有权重向量对所有特征进行排序,得到特征排序集;在步骤s203的基础上,本步骤旨在根据计算得到的权重向量对特征进行排序,得到特征排序集;具体的,获得特征排序集是根据上一步骤计算出来的特征权重向量w对特征重要性进行排序得到的。s205,计算每个特征之间的相对熵,并根据相对熵和权重向量选择特征排序集中的特征到最优特征集,得到最优特征集。在步骤s204的基础上,本步骤旨在通过特征之间的相对熵和权重向量作为特征的评价数据,对特征进行选择得到最优特征集。本步骤中主要通过特征之间的相对熵确定之间的冗余度,再通过该冗余度进行特征选择,得到最优特征集。至此就可以选择出高相关且低冗余的特征,避免了因特征冗余对分类结果的干扰,提高了分类精度。具体的,可以通过以下方式进行:步骤1:初始化最优特征集初始状态时设置将特征排序集f中最好的特征加入最优特征集s中,即s{1}=f{1}。步骤2:对计算rs,i:其中i(i,i')表示特征i和特征i'之间的相对熵。步骤3:计算每个特征的评价分数:步骤4:选择评价分数最高的特征i*加入到最优特征集中,即s=s∪{i*},f=f-{i*}。当时,转步骤2。执行以上步骤后特征排序集中的所有特征都被选择到最优特征集中,也可以设置预设数量的特征被选择到最优特征集中。根据本实施例得到的包含所有特征的最优特征集就可以对与分类类别高度相关的特征有一个直观的表现,当然在实际使用中需要挑选一定数量的特征进行分类判断,具体的数量在此不做限定,应根据实际情况再做选择。本申请实施例提供了一种医疗数据的特征选择方法,可以通过在特征选择的权重向量计算过程加入l1范数进行计算处理,也就是对权重向量进行稀疏处理,使不相关特征的权重向量趋近于0,减少多过无关特征被选入最优特征集,相当于减少的无关噪声,提高了处理高维数据时的精度。下面对本申请实施例提供的一种医疗数据的特征选择系统进行介绍,下文描述的一种医疗数据的特征选择系统与上文描述的一种医疗数据的特征选择方法可相互对应参照。请参考图3,图3为本申请实施例所提供的一种医疗数据的特征选择系统的结构示意图。本申请提供一种医疗数据的特征选择系统,可以包括:标准化处理模块100,用于对获取的医疗数据进行标准化处理,得到标准化医疗数据;权重向量计算模块200,用于对标准化医疗数据进行权重向量稀疏计算处理,得到标准化医疗数据中特征对应的权重向量;最优特征获取模块300,用于根据所有权重向量对所有特征进行选择,得到最优特征集。可选的,该标准化处理模块具体用于对获取的医疗数据进行离差标准化处理,得到标准化医疗数据。可选的,该权重向量计算模块包括:优化函数获取单元,用于构造优化目标函数,向优化目标函数添加l1范数的惩罚项得到稀疏优化目标函数;权重向量计算单元,用于根据稀疏优化目标函数对标准化医疗数据重复进行计算,直到当前得到的特征对应的权重向量与上一次计算得到的特征对应的权重向量的差值小于阈值,得到每个特征对应的权重向量。可选的,最优特征获取模块包括:特征排序单元,用于根据所有权重向量对所有特征进行排序,得到特征排序集;特征选取单元,用于计算每个特征之间的相对熵,并根据相对熵和权重向量选择特征排序集中的特征到最优特征集,得到最优特征集。本申请实施例还提供一种医疗数据的特征选择装置,包括:存储器,用于存储计算机程序;处理器,用于执行计算机程序时实现如上述实施例的特征选择方法的步骤。本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上述实施例的特征选择方法的步骤。基于以上实施例所描述的方案,可以有如下分类处理过程,该分类处理通过将特征选择中的特征进行稀疏处理,减少了剔除了大量的无用特征,使判断时使用的特征数量减少,并且特征的相关性也提高,提高了分类过程的效率和精度。本发明在cns数据集中进行了测试,该数据集共有34个患者样本,包含25个幸存者(治疗后存活)以及9个失败患者案例,每个样本包含7129个特征。cns数据集分为两个子集:23个训练样本,用来选择基因和调整分类器的权重,11个测试样本,用来评价系统所得结果的性能。每个样本均有都有7129个特征,相应的归一化的基因表达值从微阵列图像中提取。步骤如下:特征选择训练:1、输入医疗诊断数据的训练样本集其中xi∈ri,yi∈{1,2,…,c}是xi的标签,表明xi的类别,n是训练样本的总个数,i是样本的维数。医疗诊断问题为多类分类问题,每个类别代表一种疾病。在本实施例中,n=38,i=7129,c=2。2、对训练样本集进行离差标准化处理,转换函数如下:其中xij是第i个样本的第j个属性值,为取所有训练样本数据中属性j的最大值,为取所有训练样本数据中属性j的最小值。3、计算属性对应的权重向量:步骤1,在t=0时,初始化wt=[w1,w2,…,wi]t=[1/i,1/i,…,1/i]t∈ri,wj为属性j对应的权重。设迭代次数为t以及容许误差为θ。在本实施例中迭代次数t=9,容许误差θ=0.01。步骤2,当||wt+1-wt||≤θ时返回权重向量令w=wt+1,否则令t=t+1;步骤3,最小化下面的优化目标来求得权重向量wt+1其中和分别是样本xi在异类样本以及同类样本中的近邻样本矩阵,k是先验设置的近邻个数通过留一法来确定,λ是控制惩罚强度的正则化参数通过线搜索来确定。αi和βi分别是异类样本以及同类样本关于xi的系数向量,可以分别通过求解下面的优化问题获得:步骤4,返回步骤2。4、获得特征排序集根据上一步骤计算出来的特征权重向量w对属性重要性进行排序。5、获得最优特征集步骤1,初始状态时设置将特征排序集中最好的特征加入特征子集s中,即s{1}=f{1}。步骤2,对计算rs,i。其中i(i,i')表示特征i和特征i'之间的相对熵。步骤3,计算每个特征的评价分数步骤4,选择评价分数最高的特征i*,s=s∪{i*},f=f-{i*}。当时,转步骤2。6、根据最优特征集s重新获得特征选择后的训练样本集分类过程:1、输入待诊断数据样本x,其中x∈r7129;2、对待诊断数据样本进行离差标准化处理:3、根据特征选择模块中得到的最优特征集s,对x进行特征选择。令x进行特征选择后的待诊断数据为x′;4、对x′在中寻找其最近邻,以最近邻的类别来预测样本x的类别。通过本实施例特征选择方法,提取34个7129维的训练样本中的特征的组合s,1≤length(s)≤7129,对34个7129维的测试样本进行分类。通过1范数的稀疏性可以很好的提取出高维的医疗数据中的与分类结果相关的特征,剔除不相关的特征。本实施例提出的方法与relief、lh-relief算法在相同的数据集上做比较,如表1(分类性能对比表),给出各个特征选择方法用最近邻分类器获得的最好分类性能对比。表1分类性能对比表方法识别率(%)精确率(%)召回率(%)f-measure(%)本实施例96.9798.1594.4495.65relief70.0052.7357.5054.72lh-relief75.4569.4064.3863.58说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或
技术领域
内所公知的任意其它形式的存储介质中。以上对本申请所提供的一种医疗数据的特征选择方法、特征选择系统、特征选择装置以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1