品种鉴定的方法、其预测模型的构建方法和装置与流程

文档序号:23659160发布日期:2021-01-15 13:56阅读:162来源:国知局
品种鉴定的方法、其预测模型的构建方法和装置与流程

本发明涉及品种鉴定领域,具体而言,涉及一种品种鉴定的方法、其预测模型的构建方法和装置。



背景技术:

品种是指人类在一定的生态条件和经济条件下,根据人类的需要所选育的某一物种的一定群体,它具备相对稳定的遗传特性,在生物学、形态学及经济性状上具有相对一致性,与同一物种的其他群体在特征上有所区别即特异性。生物品种鉴定有着广泛和重要的应用价值。品种鉴定促进了对遗传信息的有效管理;为育种策略的制定与实施奠定良好基础;为生物品牌产品的认证提供了有效信息;更为解决食品安全问题开辟了新途径。

早前品种鉴定工作主要依赖于表型鉴定,但是随着杂交育种的推广,经过几代杂交后的群体的个体表型与亲本高度相似,因此,单纯利用表型性状进行品种鉴定不够准确、全面和科学。随后,品种鉴定工作由传统的表型鉴定发展为dna分子标记技术,dna分子标记的应用能够为品种鉴定提供准确、快速的渠道。早期的dna分子标记技术使用微卫星、aflp等标记进行品种鉴定。利用微卫星进行品种鉴定的大致过程包括:a)提取待测样本dna;b)荧光基团修饰微卫星引物;c)降落式pcr扩增;d)读取每个样本的基因型信息,用遗传软件计算个体之的遗传距离,根据遗传距离绘制聚类图,以此进行品种鉴定。

然而,上述方法存在以下缺点:a)通用性不强,需要特定引物。由于在不同物种中微卫星侧翼序列有所不同,针对不同物种,往往需要进行费时费力的特异性引物设计。b)结果误差高。可能出现同源异型(微卫星重复序列相同,但pcr产物长度不同)或者是异源同型(微卫星重复序列不同,但pcr产物长度相同),单纯使用pcr产物片段进行研究可能得出错误结果。此外,pcr扩增受到许多因素影响,使一些等位基因无法被扩增出来,比如发生在引物3'端配对碱基的突变会严重影响pcr效率,进而影响品种鉴定结果的正确性。c)灵敏度低。由于存在较高的误差性,在两个品种间差异性较小时,检测方法的误差会掩盖两个品种间的差异。

一些学者利用不同的统计方法结合遗传信息对snp位点进行筛选。pfaff等人利用δ方法,以两个物种间的等位基因频率绝对差为判别标准进行分类,weir等人利用wright’sfst方法,依赖于预先定义的两个物种间的等位基因频率的差异最大化进行判别。但是δ和wright’sfst只可以用于两个种群的判别,并且没有清晰的统计特性定义。为解决两个品种以上的判别,rosenberg等人提出了一种相关性衡量的方法,使用互信息(in)描述相关性,以此来表示不同品种的fst之间的关系。然而,这些方法不仅运算量和难度较大,而且难以获得有用的snp位点。



技术实现要素:

本发明的主要目的在于提供一种品种鉴定的方法、其预测模型的构建方法和装置,以实现简单、高通量、自动化地对品种进行鉴定。

为了实现上述目的,根据本发明的一个方面,提供了一种品种鉴定预测模型的构建方法,该构建方法包括:获取snp数据集;对snp数据集进行预处理,得到snp数据矩阵;采用梯度提升法对snp数据矩阵进行过滤,得到snp缩减集;以snp缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;对初步模型进行评估,得到品种鉴定的预测模型。

进一步地,对snp数据集进行预处理,得到snp数据矩阵包括:去除snp数据集中存在缺失和/或最小等位基因频率低于5%的snp位点,得到有效snp位点;将m个待鉴定样本的总计n个有效snp位点的基因型进行数字编码转化,得到snp数据矩阵,记为数据矩阵xm×n;其中,野生纯合基因型aa记为0,杂合基因型ab记为1,突变纯合基因型bb记为2,m和n分别为自然数,优选地,m和n分别为大于等于2的自然数。

进一步地,采用梯度提升法对snp数据矩阵进行过滤,得到snp缩减集包括:a.从snp数据矩阵中无放回的提取j个样本的数据,形成第一数据矩阵km×j;b.以样本所属群体名作为目标值,利用梯度提升法对第一数据矩阵km×j中的每个snp位点进行贡献度打分;c.对第一数据矩阵km×j中的snp位点按贡献度的打分高低进行排序,同时按贡献度的大小累加贡献度,保留累加后贡献度大于p的相关snp位点,并生成数据矩阵km×i;d.判断是否遍历完所有snp位点,如果遍历完所有snp位点,那么将最后一次累加贡献度大于p的相关snp位点,作为snp缩减集;如果没有遍历完所有snp位点,那么将数据矩阵km×i作为数据矩阵km×j的一部分,同时从数据矩阵xm×n中再次无放回提取km×(j-i)数据形成第二数据矩阵km×j,重复b)和c)步骤直至遍历所有snp位点,得到snp缩减集。

进一步地,在进行模型训练及调节模型参数的步骤中,采用网格搜索的方法进行调节。

进一步地,对初步模型进行评估,得到品种鉴定的预测模型包括:将snp缩减集分成训练集和测试集;通过对训练集进行五折交叉验证,并在测试集上输出auc值的方式对初步模型进行评估;若评估结果符合预设标准,则将初步模型作为预测模型;若评估结果不符合预设标准,则返回初步模型,重复执行模型训练及模型参数调节步骤,直至评估结果符合预设标准。

进一步地,构建方法在得到品种鉴定的预测模型的同时,还包括:对预测模型导出并存储到集群路径下,同时对预测模型返回的每个snp位点的重要度进行排序,并将每个snp位点的重要度导出并存储到集群路径下。

根据本申请的第二个方面,提供了一种品种鉴定的方法,该方法包括:将待鉴定样本的snp数据集依次进行预处理及梯度提升法过滤处理,得到待鉴定样本的snp缩减集;将待鉴定样本的snp缩减集导入上述任一种构建方法所构建的预测模型进行预测,从而获得待鉴定样本所属群体。

进一步地,预处理按照前述构建方法中的预处理步骤进行;过滤处理按照前述构建方法中的过滤处理步骤进行。

根据本申请的第三个方面,提供了一种品种鉴定预测模型的构建装置,该构建装置包括:snp获取模块,用于获取snp数据集;预处理模块,用于对snp数据集进行预处理,得到snp数据矩阵;snp过滤模块,用于采用梯度提升法对snp数据矩阵进行过滤,得到snp缩减集;模型训练模块,用于以snp缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;评估确定模块,用于对初步模型进行评估,得到品种鉴定的预测模型。

进一步地,预处理模块包括:位点筛选模块,用于去除snp数据集中存在缺失和/或最小等位基因频率低于5%的snp位点,得到有效snp位点;编码转化模块,用于将m个待鉴定样本的总计n个有效snp位点的基因型进行数字编码转化,得到snp数据矩阵,记为数据矩阵xm×n;其中,野生纯合基因型aa记为0,杂合基因型ab记为1,突变纯合基因型bb记为2,m和n分别为自然数,优选地,m和n分别为大于等于2的自然数。

进一步地,过滤模块包括:第一提取模块,用于从snp数据矩阵中无放回的提取j个样本的数据,形成第一数据矩阵km×j;贡献度打分模块,用于以样本所属群体名作为目标值,利用梯度提升法对第一数据矩阵km×j中的每个snp位点进行贡献度打分;排序累加选取模块,用于对第一数据矩阵km×j中的snp位点按贡献度的打分高低进行排序,同时按贡献度的大小累加贡献度,保留累加后贡献度大于p的相关snp位点,并生成数据矩阵km×i;判断与遍历模块,用于判断是否遍历完所有snp位点,如果遍历完所有snp位点,那么将最后一次累加贡献度大于p的相关snp位点,作为snp缩减集;如果没有遍历完所有snp位点,那么将数据矩阵km×i作为数据矩阵km×j的一部分,同时从数据矩阵xm×n中再次无放回提取km×(j-i)数据形成第二数据矩阵km×j,重复b)和c)步骤直至遍历所有snp位点,得到snp缩减集。

进一步地,模型训练模块中,采用网格搜索的方法进行模型参数调节。

进一步地,评估确定模块包括:评估模块,用于通过将snp缩减集分成训练集和测试集,对训练集进行五折交叉验证,并在测试集上输出auc值的方式对初步模型进行评估;第一确定模块,用于当评估结果符合预设标准时,将初步模型作为预测模型;第二确定模块,用于当评估结果不符合预设标准时,返回初步模型,重复执行模型训练及模型参数调节,直至评估结果符合预设标准。

进一步地,构建装置还包括:导出存储模块,用于对预测模型导出并存储到集群路径下,同时对预测模型返回的每个snp位点的重要度进行排序,并将每个snp位点的重要度导出并存储到集群路径下。

根据本申请的第四个方面,提供了一种品种鉴定的装置,该装置包括:上述任一种品种鉴定预测模型的构建装置。

根据本申请的第五个方面,提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种品种鉴定预测模型的构建方法。

根据本申请的第六个方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任一种品种鉴定预测模型的构建方法。

应用本发明的技术方案,通过对snp数据集进行预处理后的snp矩阵,采用采用梯度提升法进行过滤处理,从而根据snp贡献度筛选得到贡献度大且数量大大减少的snp缩减集,以该snp缩减集进行模型训练及参数调节,从而获得初步模型,最后进一步根据训练集和测试集等对该初步模型的预测准确性进行评估和验证,从而获得符合预期标准的预测模型。该方法对用于建模的snp数据集进行了降维处理,因而能够降低运算复杂度和运算量,提高运算速度,利用该方法及其建立的预测模型能够实现快速、高通量、自动化得品种鉴定。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:

图1示出了根据本发明的实施例1的品种鉴定预测模型的构建方法流程示意图;

图2示出了根据本发明的实施例2的品种鉴定预测模型的构建方法的详细流程示意图;

图3示出了根据本发明的实施例4的不同树的数目(n_estimators)下预测的准确性结果;

图4示出了根据本发明的实施例4的不同组交叉验证准确性的结果;

图5示出了根据本发明的实施例4的snp位点贡献度(重要度)的结果展示图;

图6示出了根据本发明的实施例6的品种鉴定预测模型的构建装置结构示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本发明。

需要说明的是,本申请中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如背景技术所提到的,现有技术中的品种鉴定方法难以实现快速高通量自动化地对众多个品种进行鉴定,为改善这一状况,在本申请一种优选的实施例中,提供了一种品种鉴定的预测模型的构建方法,以及利用该方法对品种进行鉴定的方法。

实施例1

本实施例提供了一种品种鉴定的预测模型的构建方法,图1示出了该预测模型的构建方法的流程示意图。该构建方法包括:

步骤s101,获取snp数据集;

步骤s102,对snp数据集进行预处理,得到snp数据矩阵;

步骤s103,采用梯度提升法对所述snp数据矩阵进行过滤,得到snp缩减集;

步骤s104,以snp缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;

步骤s105,对初步模型进行评估,得到品种鉴定的预测模型。

通过对snp数据集进行预处理后的snp矩阵,采用采用梯度提升法进行过滤处理,从而根据snp贡献度筛选得到贡献度大且数量大大减少的snp缩减集,以该snp缩减集进行模型训练及参数调节,从而获得初步模型,最后进一步根据训练集和测试集等对该初步模型的预测准确性进行评估和验证,从而获得符合预期标准的预测模型。该方法对用于建模的snp数据集进行了降维处理,因而能够降低运算复杂度和运算量,提高运算速度,利用该方法及其建立的预测模型能够实现快速、高通量、自动化得品种鉴定。

需要说明的是,上述获取snp数据集的步骤中,snp数据的具体来源可以是通过全基因组重测序数据与参考基因组进行比对获得的snp分子标记(具体步骤参见图1,首先进行基因组dna提取,然后进行dna测序,对测序数据进行质控后,与参考基因组比对,得到检测样本的snp数据),也可以是通过snp芯片获取的snp分子标记。这些snp数据的样本所属群体是已知的。

snp(singlenucleotidepolymorphism)是指由单核苷酸变异引起的dna序列多态性,包括单碱基转换、颠换、插入和缺失等形式。相比于其他dna分子标记,snp标记以其高通量、高集成、微型化和自动化等优点被广泛应用于各类生物学相关的分析。

snp具有以下特点:(1)snp数目多,密度高,分布广泛。在人类基因组中,平均每1kb即存在1个snp位点;(2)富有代表性。部分位于基因编码区的snp有可能改变基因功能或影响基因表达,从而影响个体性状,为性状遗传研究提供一定的理论基础;(3)具有遗传稳定性。snp的基因突变概率小,尤其编码区的snp高度稳定,遗传分析的重复性高;(4)snp的分型易于实现自动化。

由于在测序过程中,某些snp位点的数据可能存在不完整,比如缺失。或者有些位点的最小等位基因频率很低,比如低于0.05,表明该位点的突变频率很低,这种位点在样本量小的情况下,很难检测到等位基因情况,因而如果含有这些位点,容易会导致统计效能降低,造成假阴性的结果。此外,不同snp位点的基因型相同或不同,但基于建模考虑,不能用各位点的具体基因型来体现,而需要转化成数字来表征不同的基因型。不同snp位点的基因型可能有所不同,但每个snp的基因型都只可能是aa、ab或bb三种类型的一种,所以将基因型为野生纯合的类型的记为0,杂合类型的记为1,突变纯合的类型的记为2,这样通过数字编码转换即可实现各基因型对品种预测的模型化。

因此,在一种优选的实施例中,上述在对snp数据集进行预处理,得到snp数据矩阵包括:去除snp数据集中存在缺失和/或最小等位基因频率低于5%的snp位点,得到有效snp位点;将m个样本的总计n个有效snp位点的基因型进行数字编码转化,得到snp数据矩阵,记为数据矩阵xm×n;其中,基因型aa记为0,基因型ab记为1,纯合基因型bb记为2,m和n分别为自然数,优选地,m和n分别为大于等于2的自然数。

上述采用梯度提升法对所述snp数据矩阵进行过滤,得到snp缩减集的步骤包括:

a.从snp数据矩阵中无放回的提取j个样本的数据,形成第一数据矩阵km×j;

b.以样本所属群体名作为目标值,利用梯度提升法对第一数据矩阵km×j中的每个snp位点进行贡献度打分;

c.对第一数据矩阵km×j中的snp位点按贡献度的打分高低进行排序,同时按贡献度的大小累加贡献度,保留累加后贡献度大于p的相关snp位点,并生成数据矩阵km×i;

d.判断是否遍历完所有snp位点,如果遍历完所有snp位点,那么将最后一次累加贡献度大于p的相关snp位点,作为snp缩减集;如果没有遍历完所有snp位点,那么将数据矩阵km×i作为数据矩阵km×j的一部分,同时从数据矩阵xm×n中再次无放回提取km×(j-i)数据形成第二数据矩阵km×j,重复b)和c)步骤直至遍历所有snp位点,得到snp缩减集。

无放回的提取部分snp位点进行梯度提升法过滤,与其他过滤方法相比,所用运算和存储资源非常少,能够实现在个人计算机平台上进行计算(传统的过滤方法是基于一些针对snp位点提出来的过滤方法,包括缺失值过滤、等位基因频率过滤或者连锁不平衡值过滤等,这些过滤方法虽然能过滤一些位点,但是这些过滤方法是没有目的性过滤且过滤后剩余的snp位点仍然很多,这个数量级的snp位点放在随机森林模型中训练还是需要特别大的计算量,放在个人计算机平台进行训练更是不可能)。

该方法的创新点除了提出用梯度提升法来有目的的保留少量位点外,还能通过无放回的一次只取部分位点进行过滤来降低大量计算资源需求。

上述在进行模型训练及模型参数调节的步骤中,优选采用网格搜索的方法进行调节。

对于上述模型训练及模型参数调节后得到的初步模型进行评估,即检验该模型预测的准确性。具体的评估方法可以采用现有的模型评价方法。对模型的评价,主要分为2个角度,一个是模型的区分度或预测精度,评价的指标包括auc等(auc:二分类问题中最常用的指标。auc值越大,分类越好,正确率越高)。另一个是拟合优度或校准度。一般来说,应先考虑区分度的能力,区分度评价的是模型预测结果准确性,即分类正确的能力。

在一种优选的实施例中,上述对初步模型进行评估,得到品种鉴定的预测模型包括:将snp缩减集分成训练集和测试集,通过对训练集进行五折交叉验证,并在测试集上输出auc值的方式对初步模型进行评估;若评估结果符合预设标准,则将初步模型作为预测模型;若评估结果不符合预设标准,则返回初步模型,重复执行模型训练及模型参数调节步骤,直至评估结果符合预设标准。

上述预设标准根据分类样本的物种的不同而有所不同,比如,预设标准可以是满足预测准确性达到90%以上,更优选为95%以上,比如可以是96%、97%、98%、99%甚至达到100%。

上述训练集和测试集的选择通常按照8:2的比例进行拆分,当然,也可以根据需要在5:5~9:1的范围内调整,比如为8:2、7:3、6:4或5:5等。

本申请的构建方法在得到品种鉴定的预测模型的同时,还包括:对预测模型导出并存储到集群路径下,同时对预测模型返回的每个特征(即snp位点)的重要度(此处重要度是指机器学习里随机森林模型给出的大小)进行排序,并将每个特征(即snp位点)的重要度导出并存储到集群路径下。由于预测模型在构建时用到了不同snp位点在相应染色体的得分排序,因而能够根据不同目的的需要,获得各品种相关的不同重要度的snp位点,从而为后续品种鉴定提供参考价值。

实施例2

本实施例提供了一种更具体的品种鉴定预测模型的构建方法,如图2所示,详细步骤如下:

a.snp获取,一般通过全基因组重测序跟参考基因组进行比对获得snp分子标记,或者通过snp芯片获取snp分子标记。

b.snp数据集预处理,删除有缺失、最小等位基因频率低于5%的snp位点,然后根据snp的基因型将数据转化成数字类型,其中基因型aa编码为0,基因型ab编码为1,基因型bb编码为2。预处理且编码后的snp位点数据构成矩阵xm×n,m表示待鉴定样本个数,n表示总的snp位点个数。

c.梯度提升法对snp数据进行过滤,1).从步骤b中的矩阵xm×n无放回的提取部分数据数据矩阵km×j,其中m表示待鉴定样本个数,j表示提取的snp位点个数,2).以样本所属群体名作为目标值,利用梯度提升法对矩阵km×j中的每个snp进行贡献度(重要度)打分;3).对矩阵km×j中的snp位点按贡献度(重要度)排序,同时按贡献度大小累加贡献度,保留累加贡献度大于p的位点,并生成矩阵mm×i,累加贡献度p一般设为0.99,即保留累加贡献度为99%的相关snp位点;4).判断是否遍历完所有snp,如果遍历完所有snp,那么将最后一次累加贡献度大于p的相关snp位点,记为snp缩减集用作缩减候选随机森林模型的训练;如果没有遍历完所有snp位点,那么将矩阵mm×i作为矩阵km×j的一部分,同时从矩阵xm×n中再无放回提取km×(j-i)数据形成新的矩阵km×j,重复b)、c)步骤直至遍历所有snp位点,得到snp缩减集用作缩减候选随机森林模型的训练。

上述表示样本个数的m、j和i均为自然数,且i<j<m,n表示snp位点的个数,也是自然数。

d.模型训练及调参,选用机器学习算法中的随机森林模型,以步骤c中的缩减集作为特征x、以样本所属群体名作为目标值y,并通过网格搜索的调参方法调节模型参数,获得初步模型;

e.模型评估与输出,通过对训练集做五折交叉验证,并在测试集上输出auc值的方式对初步模型进行评估。若结果符合预设标准则将该初步模型作为预测模型、导出并存储在集群路径下,同时对模型返回的每个特征贡献度(重要性值,即重要性程度)进行排序,将每个特征的贡献度(重要性)导出并存储到集群路径下。若结果不符合预设标准则返回d步骤,对初步模型进行再次训练及调参。

实施例3

本实施例是针对4个不同马鹿品种的总样本数目为100个的数据集,每个数据集包括的原始snp数据集为11343245个,经过预处理及梯度提升法过滤处理后,得到1080个snp位点的缩减集,利用100个样本的缩减集进行模型训练和参数调节,得到初步模型。

然后采用训练集:测试集大小比例为8:2对初步模型进行评估,评估结果显示:初步模型准确率为85%,不符合预设标准90%以上的准确率。因此,返回模型训练及参数调节步骤,直到评估结果显示模型预测准确率达到98%以上。将此时的初步模型记为预测模型。

实施例4

该实施例提供了一种马鹿的品种鉴定方法,具体方法同实施例2。其中,图3显示了不同n_estimators下预测的准确性结果。图4为不同组交叉验证准确性的结果,图5为snp位点重要度(即重要性值)的结果展示(前30位)。

图3显示,随着树的数目n的增加,模型的准确率也在增加,准确率不再升高时的树的数目作为后续分析参数固定下来;

图4显示,多次重复交叉验证显示,准确率都维持在较高的值,说明模型训练和参数设定没有问题,可以将训练好的模型保存下来,留作后续分析用。

图5显示,不同的snp位点对模型的重要性是不一样,重要度越高,对模型的贡献就越大。

实施例5

本实施例提供了一种品种鉴定的方法,该方法包括:将待鉴定样本的snp数据集依次进行预处理及梯度提升法过滤处理,得到待鉴定样本的snp缩减集;将待鉴定样本的snp缩减集导入实施例1所构建的预测模型进行预测,从而获得待鉴定样本所属群体。

上述待鉴定样本的snp数据集的预处理方法与实施例1中作为训练集的snp数据集的预处理操作和梯度提升法过滤处理操作相同。

从以上实施例的描述,可以看出,本申请的品种鉴定方法具有以下优势:

a).能够实现高通量、自动化的品种鉴定流程,该方法在获得训练好模型后,能够实现大批量样本自动化品种鉴定;

b).发现重要snp位点,相比其他方法,该方法在模型训练过程中能够计算每个snp位点的贡献度,贡献度高的位点可以用作后续遗传育种相关的参考依据;

c).实现自我学习,不断提高准确率,机器学习会随着测试样本的增多,模型训练的准确度会越来越高;

d).无放回的提取部分snp位点进行梯度提升法过滤,所用运算和存储资源非常少,能够实现在个人计算机平台上进行计算。

实施例6

本实施例提供了一种品种鉴定预测模型的构建装置,如图6所示,该构建装置包括:snp获取模块10、预处理模块20、snp过滤模块30、模型训练模块40及评估确定模块50,其中,snp获取模块10,用于获取snp数据集;

预处理模块20,用于对snp数据集进行预处理,得到snp数据矩阵;

snp过滤模块30,用于采用梯度提升法对所述snp数据矩阵进行过滤,得到snp缩减集;

模型训练模块40,用于以snp缩减集为特征值,以样本所属群体名作为目标值,进行模型训练及模型参数调节,获得初步模型;

评估确定模块50,用于对初步模型进行评估,得到品种鉴定的预测模型。

优选地,预处理模块包括:位点筛选模块,用于去除snp数据集中存在缺失和/或最小等位基因频率低于5%的snp位点,得到有效snp位点;编码转化模块,用于将m个待鉴定样本的总计n个有效snp位点的基因型进行数字编码转化,得到snp数据矩阵xm×n;其中,野生纯合基因型aa记为0,杂合基因型ab记为1,突变纯合基因型bb记为2,m和n分别为自然数,优选地,m和n分别为大于等于2的自然数。

优选地,过滤模块包括:第一提取模块,用于从snp数据矩阵中无放回的提取j个样本的数据,形成第一数据矩阵km×j;贡献度打分模块,用于以样本所属群体名作为目标值,利用梯度提升法对第一数据矩阵km×j中的每个snp位点进行贡献度打分;排序累加选取模块,用于对第一数据矩阵km×j中的snp位点按贡献度的打分高低进行排序,同时按贡献度的大小累加贡献度,保留累加后贡献度大于p的相关snp位点,并生成数据矩阵km×i;判断与遍历模块,用于判断是否遍历完所有snp位点,如果遍历完所有snp位点,那么将最后一次累加贡献度大于p的相关snp位点,作为snp缩减集;如果没有遍历完所有snp位点,那么将数据矩阵km×i作为数据矩阵km×j的一部分,同时从数据矩阵xm×n中再次无放回提取km×(j-i)数据形成第二数据矩阵km×j,重复b)和c)步骤直至遍历所有snp位点,得到snp缩减集。

优选地,模型训练模块中,采用网格搜索的方法进行模型参数调节。

优选地,评估确定模块包括:评估模块,用于通过将snp缩减集分成训练集和测试集,对训练集进行五折交叉验证,并在测试集上输出auc值的方式对初步模型进行评估;第一确定模块,用于当评估结果符合预设标准时,将初步模型作为预测模型;第二确定模块,用于当评估结果不符合预设标准时,返回初步模型,重复执行模型训练及模型参数调节,直至评估结果符合预设标准。

优选地,构建装置还包括:导出存储模块,用于对预测模型导出并存储到集群路径下,同时对预测模型返回的每个特征(即snp位点)的重要度进行排序,并将每个特征(即snp位点)的重要度导出并存储到集群路径下,为后续品种鉴定提供参考价值。

实施例7

本实施例提供了一种品种鉴定的装置,该装置包括:上述品种鉴定预测模型构建装置。

本实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种品种鉴定预测模型的构建方法。

本实施例还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行上述任一种品种鉴定预测模型的构建方法。

存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。

上述本申请实施例的顺序不代表实施例的优劣。

在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。

其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1