一种癌症患者寿命预测中高价值样本的选择方法及装置制造方法

文档序号:6637921阅读:327来源:国知局
一种癌症患者寿命预测中高价值样本的选择方法及装置制造方法
【专利摘要】本发明公开了一种癌症患者寿命预测中高价值样本的选择方法及装置,首先使用已有的完整训练样本训练预测函数,得到经过训练的预测函数;然后将已知癌症患者作为样本点,计算这些样本点在预测函数下的局部复杂度,并根据局部复杂度从大到小排序;最后根据需要从排序中取出前若干个局部复杂度大的样本组成所需要的样本集。本发明能够在选取患者数量一定的情况下尽可能高地提高现有模型预测的准确性。
【专利说明】一种癌症患者寿命预测中高价值样本的选择方法及装置

【技术领域】
[0001]本发明涉及一种癌症患者寿命预测中高价值样本的选择方法及装置,用于改进现有模型的预测精度,属于医学信息预测【技术领域】。

【背景技术】
[0002]癌症患者寿命预测是指对于确诊患有癌症的病人的剩余寿命进行预测的技术。我国是癌症大国。癌症已经成为我国城市和农村人口死亡的首位原因。癌症寿命预测对于提尚患者的生存质量等具有很大的意义。
[0003]癌症的种类有很多,常见的癌症有十几种。影响每种癌症患者的预期寿命的因素都有很多种。癌症患者的寿命预测是医学界的一个难题。对现有预测模型进行改进以提高预测精度需要大量样本。因为对癌症患者做长期观察需要花费大量的时间和金钱,通常的做法是选取患者中的一部分做长期跟踪观察。
[0004]从数学上来看,癌症患者的寿命预测是个回归的问题,其自变量就是影响预期寿命的各种因素,应变量是预期寿命。因为预期寿命是连续变量,所以回归函数应该是连续函数。现有的文献已经对很多种癌症的预期寿命函数进行了建模。精确确定模型的各项参数需要大量的完整训练样本。但是由于完整的训练样本除了需要完整记录样本患者影响预期寿命的各种因素,还需要记录患者从患癌到死亡的确切时间,这导致了完整训练样本数量比较稀少。完整样本数的稀少直接导致了模型参数的误差较大,进而对患者寿命的预测精度不高。对于现有的患者虽然可以记录影响预期寿命的各种因素,但长期追踪直到患者死亡往往要花数年乃至更长的时间。这要花费大量的金钱。本发明所提出了一种对现有患者筛选,获得高价值样本的方法及装置,使得对较少的样本进行长期追踪获得的完整样本也能获得较好的预测精度。


【发明内容】

[0005]发明目的:针对现有技术中存在的问题,本发明提供一种癌症患者寿命预测中高价值样本的选择方法及装置,使得患者剩余寿命的预测的精度能有效提高。
[0006]技术方案:一种癌症患者寿命预测中高价值样本的选择方法,包括以下步骤:
[0007]I)使用已有的完整训练样本训练预测函数,得到经过训练的预测函数;
[0008]2)将已知癌症患者作为样本点,计算这些样本点在预测函数下的局部复杂度,并根据局部复杂度从大到小排序。
[0009]3)根据需要从排序中取出前若干个局部复杂度大的样本组成所需要的样本集。
[0010]本发明的另一目的在于提供一种基于局部复杂度的癌症患者样本选择装置,所述装置包括:
[0011]训练模块,其利用已有的训练样本训练预测函数,得到经过训练的预测函数;
[0012]计算模块,其利用经过训练的预测函数计算各个已知癌症患者样本点的局部复杂度,并根据局部复杂度从大到小排序。
[0013]样本选择模块:其根据预设的数值从排序中取前若干个局部复杂度大的样本作为新的样本集。
[0014]本发明采用上述技术方案,具有以下有益效果:本发明在选择样本时采用了一种新颖的样本选择算法,相对于使用全部样本进行长期追踪,采用本发明的方法选择部分样本既可以大幅降低经济上的费用,又可以尽可能提高预测精度。

【专利附图】

【附图说明】
[0015]图1为预测函数结构图;
[0016]图2为本发明【具体实施方式】的方法流程图。

【具体实施方式】
[0017]下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0018]设某种癌症的预测模型为F,X为影响该种癌症患者预期寿命的η种因素所组成的η维输入向量,y为预测剩余寿命的数值,有如下的关系:
[0019]y = F(X) (I)
[0020]在训练之前需要对输入向量的每个元素规范化,这里将每个元素规范化到[-1,I]。
[0021]在使用少量完整样本进行训练之后,F中的各项参数也就确定下来,定义
[0022]L ⑴=E (F (X+ Δ ) -F (X))2 (2)
[0023]为函数F在样本点X周围的局部复杂度。Λ是一个每个元素在[_h,h]上服从均匀分布的随机η维向量,其中h是一个小的正数,经验取值为0.01?0.05。E为求取期望的算符。
[0024]由局部复杂度的定义可以看出,局部复杂度可以度量预测函数F在某一样本点周围的复杂程度。我们认为,周围比较复杂的样本点可以对训练预测函数F带来更多信息,因此更有价值。
[0025]如图2所示为本发明基于局部复杂度的癌症患者寿命预测中的高价值样本的选择方法的流程图。
[0026]在步骤SlOl中,使用完整样本训练预测函数,得到一个经过训练的预测函数F。
[0027]在步骤S103中,利用得到的预测函数F计算现有样本集中样本的局部复杂度,并按照由大到小的顺序排序。
[0028]在步骤S105中,按照事先设定的值取前若干个局部复杂度大的样本组成新的样本集。
[0029]现描述根据本发明的基于局部复杂度的样本选择装置。
[0030]所述装置包括:
[0031]训练模块,其利用已有的完整样本训练预测函数,得到一个经过训练的预测函数F。
[0032]计算模块,其利用得到的预测函数F计算现有样本集中样本的局部复杂度,并按照由大到小的顺序排序。
[0033]样本选择模块,其根据事先设定的值取前若干个局部复杂度大的样本组成新的样本集。
[0034]上述装置的工作过程是:
[0035]A、首先,训练模块利用用户输入的完整样本训练预测函数,得到一个经过训练的预测函数F。
[0036]B、其次,计算模块利用得到的预测函数F计算现有样本集中样本的局部复杂度,并按照由大到小的顺序排序。
[0037]C、最后,样本选择模块根据事先设定的值取前若干个局部复杂度大的样本组成新的样本集。
【权利要求】
1.一种癌症患者寿命预测中高价值样本的选择方法,其特征在于,包括以下步骤: 1)使用已有的完整训练样本训练预测函数,得到经过训练的预测函数; 2)将已知癌症患者作为样本点,计算这些样本点在预测函数下的局部复杂度,并根据局部复杂度从大到小排序; 3)根据需要从排序中取出前若干个局部复杂度大的样本组成所需要的样本集。
2.一种基于局部复杂度的癌症患者样本选择装置,其特征在于,所述装置包括: 训练模块,其利用已有的训练样本训练预测函数,得到经过训练的预测函数; 计算模块,其利用经过训练的预测函数计算各个已知癌症患者样本点的局部复杂度,并根据局部复杂度从大到小排序; 样本选择模块:其根据预设的数值从排序中取前若干个局部复杂度大的样本作为新的样本集。
【文档编号】G06F19/00GK104504249SQ201410749481
【公开日】2015年4月8日 申请日期:2014年12月9日 优先权日:2014年12月9日
【发明者】储荣 申请人:河海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1