一种获取外周血基因模型训练数据的方法及装置与流程

文档序号：13876980阅读：206来源：国知局

本发明实施例涉及外周血基因技术领域，具体涉及一种获取外周血基因模型训练数据的方法及装置。

背景技术：

近年来，生物标志物联检在肿瘤的早期诊断中的应用研究得到很大重视。当机体发生病变甚至是癌变时，干扰了正常的机体代谢，会影响外周血中各细胞组分比例的变化，还会改变红细胞、白细胞和血小板等细胞的基因表达水平。通过分析可以查找出哪些基因的表达与机体病变相关，这些基因就成为了研究肿瘤的潜在标志物。

目前，较普遍的研究方式是通过比较几例或者几十例病人/正常对照的血液转录组，通过差异表达分析鉴定出一组在肿瘤病人和正常人外周血中差异表达的基因作为候选标志物，但通常差异表达的基因有很多，而受限于检测成本用于临床的标志物数量又不能太多，因此从差异表达的基因中人为选出候选标志物很可能不能代表真正群体中的情况，现有技术通过构建外周血基因模型，能够较为合理地选择候选标志物，但是由于采用的是外周血基因的绝对表达水平，而绝对的基因表达水平受标准化技术、不同批次、不同数据平台的影响很大，在应用方面的受到限制，而且现有技术的外周血基因模型需要很多外周血基因作为模型的训练数据，缺少对训练数据有效的降维方法，无法进行临床应用。

因此，如何避免外周血基因表达绝对值在应用方面的限制，并对训练数据进行有效的降维，从而合理地获取到作为外周血基因模型的训练数据，成为亟须解决的问题。

技术实现要素：

针对现有技术存在的问题，本发明实施例提供一种获取外周血基因模型训练数据的方法及装置。

第一方面，本发明实施例提供一种获取外周血基因模型训练数据的方法，所述方法包括：

获取采样样本的外周血基因表达量；

根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值；

根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。

第二方面，本发明实施例提供一种获取外周血基因模型训练数据的装置，所述装置包括：

获取单元，用于获取采样样本的外周血基因表达量；

转换单元，用于根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值；

提取单元，用于根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。

第三方面，本发明实施例提供另一种获取外周血基因模型训练数据的装置，包括：处理器、存储器和总线，其中，

所述处理器和所述存储器通过所述总线完成相互间的通信；

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如下方法：

获取采样样本的外周血基因表达量；

根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值；

根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，包括：

所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如下方法：

获取采样样本的外周血基因表达量；

根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值；

根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。

本发明实施例提供的获取外周血基因模型训练数据的方法及装置，通过将外周血基因表达量的目标相对值作为外周血基因模型的训练数据，不仅能够避免外周血基因表达绝对值在应用方面的限制，还能够对训练数据进行有效的降维，从而合理地获取到作为外周血基因模型的训练数据。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例获取外周血基因模型训练数据的方法流程示意图；

图2为本发明实施例基于数据集gse16443的模型分类效果图；

图3为本发明实施例基于数据集gse11545的模型分类效果图；

图4为本发明实施例获取外周血基因模型训练数据的装置结构示意图；

图5为本发明实施例提供的装置实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例获取外周血基因模型训练数据的方法流程示意图，如图1所示，本发明实施例提供的一种获取外周血基因模型训练数据的方法，包括以下步骤：

s1：获取采样样本的外周血基因表达量。

具体的，装置获取采样样本的外周血基因表达量。基因表达(geneexpression)是指细胞在生命过程中，把储存在dna顺序中遗传信息经过转录和翻译，转变成具有生物活性的蛋白质分子。外周血基因表达量是基因表达的量化数值。

s2：根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值。

具体的，装置根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值。可以根据如下公式将每两个外周血基因表达量分别对应的数值转换为一个相对值：

其中，gi为一个外周血基因表达量对应的数值、gj为另一个外周血基因表达量对应的数值、gij为gi和gj对应的相对值。举例说明如下：

采样样本1的外周血基因表达量有10个，分别为a、b、c、d、e、f、g、h、i、j。将这些外周血基因表达量两两组合可以得到45对相对值(去重复)，这些相对值由数值0或1组成，需要说明的是：可以通过构建矩阵来表示多个采样样本的外周血基因表达量，该矩阵的列表示不同的采样样本，该矩阵的行表示两个外周血基因表达量对应的一个相对值，以一个样本为例：a与b-j依次两两组合，对应的相对值依次为：

[011000111]^t

其中ab对应上述向量的第一个“0”、ac对应上述向量的第二个“1”等等，不再赘述。在上述向量的最后一个数值后，还可以将b与c-j依次两两组合，并获取对应的相对值，依次类推，可以组成45行。

s3：根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。

具体的，装置根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。将上述的相对值输入sklearn模块，sklearn模块的输出结果可以是每个相对值对应的分数值，将分数值按照数值大小顺序依次排列，选择前n个分数值对应的相对值作为上述相对值中的第一候选相对值，举例说明如下：将分数值按照数值大小顺序依次排列，选择前10(n＝10)个分数值对应的相对值作为上述相对值中的第一候选相对值。还可以是：获取所有分数值的个数；根据所有分数值的个数和预设比值(可根据实际情况自主设置)，获取第一候选相对值的个数m；在所有分数值中选择数值较大的m个分数值对应的相对值作为上述相对值中的第一候选相对值，举例说明如下：获取所有分数值的个数(参照上述举例为45个)；预设比值可选为20％，45×20％＝9，即第一候选相对值的个数m＝9；在这45个分数值中选择数值较大的9个分数值对应的相对值作为上述相对值中的第一候选相对值。

再采用弹性网络对第一候选相对值进行降维，并将降维后的第一候选相对值作为相对值中的第二候选相对值；该弹性网络可以为elasticnetcv，弹性网络是一种使用l1和l2先验作为正则化矩阵的线性回归模型。通常为了防止过拟合现象的发生，可以使用正则化的手段引入惩罚项，通过最小化代价函数的手段迫使模型中某些项的系数降低从而简化模型。l2正则化会使整体系数降低，尽管能提供更好的预测性能，但会使系数趋近于0而无法进行特征选择；l1正则化则会产生稀疏解，使得大部分系数变为0，但其本身也有着明显的缺陷。弹性网络综合了二者的优点，克服了l1正则化的缺点，能够更加准确地选取特征并有着优越的预测性能。模块elasticnetcv，通过用交叉验证的方法调整参数alpha与l1_ratio的值，然后收集训练集中所有系数非0的特征并整合成了一个新的数据集。此步骤可以将百万以上的特征数量降低至几百或几千。

再采用逻辑斯蒂回归模型对第二候选相对值进行二次降维，并将二次降维后的第二候选相对值作为相对值中的目标相对值。逻辑斯蒂回归模型是一种稳定选取(stabilityselection)，很适用于分类任务尤其是高维时导致的特征选择或模型选择不稳定的情况。它的基本思路不再是将正则化的算法应用于整个数据集以确定变量的选择，而是重复随机选取子样本数次，同时计算出每个特征被选择的次数并以此作为每个特征的得分，得分越高就越会被视为稳定的变量而被保留。此方法的优点是，在稳定性选择方面，其结果对于正则化的选择不那么敏感。此过程需要调整randomizedlogisticregression中参数c的设置以及selection_threshold的值，保留最终能使分类器稳定预测的最佳特征。

将目标相对值作为外周血基因模型的训练数据，一个模型通常具有两类参数，第一类是模型从训练样本中学得的参数，这一类参数根据数据的不同而变化，无需人工调节；第二类则是无法直接从训练中获得的参数，称为超参数(hyper-parameters)，它的作用是定义模型结构以及训练策略，对模型预测的准确度有着很大的影响。常见的超参数包括：支持向量机里的核函数，梯度下降的学习率，正则项系数等。本发明实施例中可以采用sklearn中的网格搜索(gridsearchcv)来进行超参数的调节。网格搜索的原理是采用交叉验证的方法，彻底考虑所设定范围内的所有的参数组合，根据预测的得分选取最佳的参数组合。所谓的交叉验证，即随机地将数据集分成k份，其中k-1份用于训练，剩余的1份用来测试模型；之后将之前的k-1份中的1份拿出来做测试而将之前做测试的1份加入作为训练集，就这样依次循环k次，直到每一份都被单独测试过。在数据集不足的情况下，交叉验证是防止模型过拟合的好方法。

因为本本发明实施例运用到多个数据集，而很难说某种机器学习算法适合任何一种数据集，因此，可以针对每一个数据集都采用五种不同的模型去进行分类，五种模型分别是：随机梯度下降分类器(sgdclassifier)，随机森林(randomforeast)，支持向量机(supportvectormachine)，逻辑回归(logisticregression)，高斯朴素贝叶斯(gaussiannb)。

还可以采用十折交叉验证的方式对五种模型的超参数进行调节，对于模型分类效果的好坏，主要由模型在测试集上的表现决定。为了更全面地评价模型的性能，使用了不同的评价方法。分别是：(1)受试者工作特征曲线(receiveroperatingcharacteristiccurve)即roc曲线，它是根据一系列设定阈值，以真阳性率tpr(灵敏度)为纵坐标，假阳性率fpr(1-特异度)为横坐标绘制的曲线。其反映的是在不同阈值下，tpr以及fpr的变化，曲线越靠近左上角，表明模型的分类性能越好(2)auc值：roc曲线下的面积(auc)，auc值越高，分类效果越出色。(3)准确度(accuracy)：描述了分类器对整体数据的判断能力，accuracy＝(tp+tn)/tp+np+tn+fn(4)f1值:f1值综合考虑了精确度(precision)与召回率(recall)，2/f1＝1/precison+1/recall，f1值综合考量模型对正样本的识别以及负样本的区分能力，是模型稳健性的好指标。图2为本发明实施例基于数据集gse16443的模型分类效果图，如图2所示，该数据集的参数area＝0.87，生成的曲线全部在图2所示的虚线的左上方，可以看出对于数据集gse16443，该模型具有较好的分类效果。图3为本发明实施例基于数据集gse11545的模型分类效果图，如图3所示，该数据集的参数area＝0.90，生成的曲线全部在图3所示的虚线的左上方，可以看出对于数据集gse11545，该模型具有较好的分类效果。

与现有技术相比，本发明实施例提出的技术方案中建立了基因间表达量高低的转换方法，避免了不同平台和批次的影响；建立了三步降维法，降低了后续推向临床的检测成本；在利用相同数据的情况下，本发明实施例的技术方案达到甚至超过了已有方法的准确率和auc。而且本发明实施例在整合多平台/批次数据建立模型后可以对不同平台/批次产生的数据有很好的预测效果，大大提高了现有数据的利用效率，满足了机器学习大样本量的需求。现有技术的模型预测准确率达到79.5％，敏感度为80.6％；本发明实施例的模型预测准确率达到80.7％，敏感度为0.87％，由于数据维度的降低，具有了显著的临床应用价值。

本发明实施例提供的获取外周血基因模型训练数据的方法，通过将外周血基因表达量的目标相对值作为外周血基因模型的训练数据，不仅能够避免外周血基因表达绝对值在应用方面的限制，还能够对训练数据进行有效的降维，从而合理地获取到作为外周血基因模型的训练数据。

在上述实施例的基础上，所述根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值，包括：

根据如下公式将每两个外周血基因表达量分别对应的数值转换为一个相对值：

其中，gi为一个外周血基因表达量对应的数值、gj为另一个外周血基因表达量对应的数值、gij为gi和gj对应的相对值。

具体的，装置根据如下公式将每两个外周血基因表达量分别对应的数值转换为一个相对值：

其中，gi为一个外周血基因表达量对应的数值、gj为另一个外周血基因表达量对应的数值、gij为gi和gj对应的相对值。可参照上述实施例，不再赘述。

本发明实施例提供的获取外周血基因模型训练数据的方法，通过公式将每两个外周血基因表达量分别对应的数值转换为一个相对值，能够合理地获取外周血基因表达量的相对值。

在上述实施例的基础上，所述根据预设规则，提取所述相对值中的目标相对值，包括：

将所述相对值输入sklearn模块，并根据sklearn模块的输出结果确定所述相对值中的第一候选相对值。

具体的，装置将所述相对值输入sklearn模块，并根据sklearn模块的输出结果确定所述相对值中的第一候选相对值。可参照上述实施例，不再赘述。

采用弹性网络对所述第一候选相对值进行降维，并将降维后的第一候选相对值作为所述相对值中的第二候选相对值。

具体的，装置采用弹性网络对所述第一候选相对值进行降维，并将降维后的第一候选相对值作为所述相对值中的第二候选相对值。可参照上述实施例，不再赘述。

采用逻辑斯蒂回归模型对所述第二候选相对值进行二次降维，并将二次降维后的第二候选相对值作为所述相对值中的目标相对值。

具体的，装置采用逻辑斯蒂回归模型对所述第二候选相对值进行二次降维，并将二次降维后的第二候选相对值作为所述相对值中的目标相对值。可参照上述实施例，不再赘述。

本发明实施例提供的获取外周血基因模型训练数据的方法，通过依次有序地采用sklearn模块、弹性网络和逻辑斯蒂回归模型对外周血基因表达量的相对值进行处理，能够合理地获取目标相对值。

在上述实施例的基础上，所述输出结果包括每个相对值对应的分数值，相应地；所述并根据sklearn模块的输出结果确定所述相对值中的第一候选相对值，包括：

将所有分数值按照数值大小顺序依次排列。

具体的，装置将所有分数值按照数值大小顺序依次排列。可参照上述实施例，不再赘述。

选择前n个分数值对应的相对值作为所述相对值中的第一候选相对值。

具体的，装置选择前n个分数值对应的相对值作为所述相对值中的第一候选相对值。可参照上述实施例，不再赘述。

本发明实施例提供的获取外周血基因模型训练数据的方法，能够进一步合理地获取到外周血基因相对值中的第一候选相对值。

获取所有分数值的个数。

具体的，装置获取所有分数值的个数。可参照上述实施例，不再赘述。

根据所有分数值的个数和预设比值，获取第一候选相对值的个数m。

具体的，装置根据所有分数值的个数和预设比值，获取第一候选相对值的个数m。可参照上述实施例，不再赘述。

在所有分数值中选择数值较大的m个分数值对应的相对值作为所述相对值中的第一候选相对值。

具体的，装置在所有分数值中选择数值较大的m个分数值对应的相对值作为所述相对值中的第一候选相对值。可参照上述实施例，不再赘述。

本发明实施例提供的获取外周血基因模型训练数据的方法，能够进一步合理地获取到外周血基因相对值中的第一候选相对值。

在上述实施例的基础上，所述弹性网络为elasticnet。

具体的，装置中的所述弹性网络为elasticnet。可参照上述实施例，不再赘述。

本发明实施例提供的获取外周血基因模型训练数据的方法，通过将弹性网络选定为elasticnet，进一步能够合理地获取到外周血基因相对值中的第二候选相对值。

在上述实施例的基础上，所述外周血基因模型包括：随机梯度下降分类器、随机森林、支持向量机、逻辑回归和高斯朴素贝叶斯。

具体的，装置中的所述外周血基因模型包括：随机梯度下降分类器、随机森林、支持向量机、逻辑回归和高斯朴素贝叶斯。可参照上述实施例，不再赘述。

本发明实施例提供的获取外周血基因模型训练数据的方法，通过将外周血基因模型选定为上述模型，可以综合比较上述模型的输出结果，有助于进一步选择合理的外周血基因模型。

图4为本发明实施例获取外周血基因模型训练数据的装置结构示意图，如图4所示，本发明实施例提供了一种获取外周血基因模型训练数据的装置，包括获取单元1、转换单元2和提取单元3，其中：

获取单元1用于获取采样样本的外周血基因表达量；转换单元2用于根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值；提取单元3用于根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。

具体的，获取单元1用于获取采样样本的外周血基因表达量；转换单元2用于根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值；提取单元3用于根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。

本发明实施例提供的获取外周血基因模型训练数据的装置，通过将外周血基因表达量的目标相对值作为外周血基因模型的训练数据，不仅能够避免外周血基因表达绝对值在应用方面的限制，还能够对训练数据进行有效的降维，从而合理地获取到作为外周血基因模型的训练数据。

本发明实施例提供的获取外周血基因模型训练数据的装置具体可以用于执行上述各方法实施例的处理流程，其功能在此不再赘述，可以参照上述方法实施例的详细描述。

图5为本发明实施例提供的装置实体结构示意图，如图5所示，所述装置包括：处理器(processor)501、存储器(memory)502和总线503；

其中，所述处理器501、存储器502通过总线503完成相互间的通信；

所述处理器501用于调用所述存储器502中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取采样样本的外周血基因表达量；根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值；根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取采样样本的外周血基因表达量；根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值；根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取采样样本的外周血基因表达量；根据预设算法，将每两个外周血基因表达量分别对应的数值转换为一个相对值；根据预设规则，提取所述相对值中的目标相对值，并将所述目标相对值作为外周血基因模型的训练数据。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如rom/ram、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上各实施例仅用以说明本发明的实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明的实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：方向东;杨亚东;张韬
技术所有人：中国科学院北京基因组研究所
我是此专利的发明人

上一篇：一种快速油漆研磨机的制作方法
上一篇：一种厨房垃圾处理器的切割刀组结构的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。