基于遗传算法的植物品种真实性鉴定位点筛选方法

文档序号:6521493阅读:482来源:国知局
基于遗传算法的植物品种真实性鉴定位点筛选方法
【专利摘要】本发明属计算机方法和生物技术的交叉领域,涉及一种基于遗传算法的植物品种真实性鉴定位点筛选方法,具体步骤为1)编码待选位点;2)设定参数并形成初始种群;3)将本世代群体解码为位点集合筛选方案;4)计算适应度;5)选择;6)交叉;7)变异;8)世代更替;9)输出结果。本发明可简写为GA-AVI。该方法充分利用遗传算法在优化问题求解方面的优势,根据植物品种真实性鉴定的特点,定义植物品种识别率的统计方法,设计遗传算法适应度函数和约束条件,构建适用于植物品种真实性鉴定位点组合筛选的遗传算法模型。本发明提出一种在海量的位点组合中快速、简单、有效的筛选出位点组合的方法,为分子标记位点组合的优化提供依据。
【专利说明】基于遗传算法的植物品种真实性鉴定位点筛选方法
【技术领域】[0001]本发明属于计算机方法和生物技术的交叉领域,具体涉及一种基于遗传算法的植物品种真实性鉴定位点筛选方法。
【背景技术】
[0002]随着DNA分子标记技术的发展,单核苷酸的多态性(以下简称SNP)作为第三代分子标记已经在逐步探索应用于植物品种的真实性鉴定工作。根据实际业务的需求,对成千上万的SNP位点进行质量和数量的优化,不仅可以降低该技术的应用成本,而且可以提高其数据分析效率。
[0003]常规的分子标记位点筛选方法是分析样品的遗传背景信息,以遗传多样性为评价指标挑选最优的分子标记位点集合。具体方法如下:首先,根据已有的样品分子标记数据,分析群体结构和群体遗传变异;其次,统计每个分子标记位点的连锁不平衡程度、遗传分化系数和最小等位基因频率,选择遗传多样性代表能力强的分子标记位点集合;接着,按照分子标记位点在染色体上均匀分布的原则调整筛选集合;最后,计算已选分子标记位点集合累积个体识别率,验证已选分子标记位点集合的有效性。
[0004]在人类分子标记的筛选中,个体识别率(Probability of DiscriminationPower,以下简称DP)作为判断单个分子标记识别无关个体效能的指标而被广泛应用,其含义是指在群体中随机抽取两个体,二者的分子标记位点表型不相同的概率。其计算公式为:
[0005]DP = i^Pi=^n, ,、
( 1 )
ft
[0006]其中,η为某一分子标记位点的表型数目,Pi为该群体第i个表型的频率。Σρ;
|S|
为群体中随机抽取两个无关个体在某一分子标记位点上两者表型纯粹由于机会而一致的概率。
[0007]当对判断多个分子标记识别无关个体的综合能力进行评估时,则采用累积个体识别率(Total Probability of Discrimination Power,以下简称 TDP)作为评价指标,其计算公式为:
k
[0008]TDP =卜 O (1 — DP, )(2)
j~i
[0009]其中DP]是第j个分子标记位点的个体识别率。必须强调的是,所有分子标记位点是独立遗传,符合乘积定律的要求。
[0010]累积个体识别率(TDP)是从分子标记位点的组合概率角度出发,进行统计推断定义,不仅要求选用的分子标记位点之间独立不相关(或遗传不连锁),而且要求能统计全部的样品,才能计算出较为准确的基因频率。在将此概念引入到植物品种真实性鉴定的应用领域中,存在以下几个问题:
[0011]其一,客观、准确的分析每个分子标记位点的遗传背景信息和之间的遗传关系有一定难度,原因在于遗传背景分析本身方法的复杂性,包括分析时要满足多个前提假设,针对不同的物种需要不同的专业背景知识进行区分性使用等。
[0012]其二,统计出客观的基因频率才能计算出准确的个体识别率,但该统计过程难度较大,原因在于需要获得所有群体样品或者代表性群体样品的分子标记信息。
[0013]其三,针对不同遗传关系的分子标记位点(连锁和不连锁),必须采用不同的统计方式进行个体识别能力评价,如果同时统计这两类分子标记位点,需要提出一种综合评价方法合并以上两类分子标记位点的评价结果,但该方法目前缺乏充分的理论依据。
[0014]其四,3个及其以上分子标记位点组合的累积个体识别率(TDP),可以迅速收敛到大于0.99 (大于10个分子标记位点的累计个体识别率的差异在e-ΙΟ以下),难以区分大于3个分子标记位点组合的个体识别能力的差异,不能作为遗传算法的适应度函数的参考指标。
[0015]其五,常规的分子标记组合筛选方法只是把各项评价指标的最优结果的交集,不能获得最优的组合,而且其实际的识别效果不理想(逐个累加效应)。
[0016]遗传算法是美国Michigan大学Holland教授提出的一种基于自然选择和遗传变异等生物进化机制的全局性概率搜索算法,其本质特征在于群体搜索策略和简单的遗传算子。遗传算法具有以下特点:(1)遗传算法从多个初始点开始搜索,有效提高获得问题全局最优解的可能性。(2)遗传算法基于目标函数的评价信息,使其成为具有很好的普适性和规模化的优化方法。(3)遗传算法具有很强的鲁棒性,多次求解得到的结果有相似性,且在很多的应用实例中得到验证。
[0017]遗传算法已在很多典型的组合优化类问题得到广泛应用,如旅行商问题、0-1背包问题、装箱问题、作业调度问题、图着色问题、聚类问题等,众多研究结果表明遗传算法求解效果都优于传统启发式算法。分子标记位点组合的质量和数量的优化问题的数学本质是运筹学的组合优化类问题,其目标函数的数学模型接近于背包问题。因此,本发明结合用于植物品种真实性鉴定分子标记技术的特点,提出一种基于遗传算法的植物品种真实性鉴定位点筛选方法,充分利用遗传算法在优化问题求解方面的优势,将其引入位点组合筛选问题的求解;根据植物品种真实性鉴定的特点,定义植物品种识别率的统计方法,设计了遗传算法适应度函数和约束条件,构建了适用于植物品种真实性鉴定位点组合筛选的遗传算法模型。

【发明内容】

[0018]本发明的目的是解决现有技术中存在的问题,提供一种基于遗传算法的植物品种真实性鉴定位点筛选方法,从而提供了一种在海量的位点组合中快速、简单的筛选出有效位点组合的方法。
[0019]本发明的原理如下:
[0020]1.可行解的遗传表达转换
[0021]本发明结合分子标记位点种类丰富和数量繁多的特点,在基于位点组合的染色体表达方式的基础上,提出一种自动排序且不重复的编码方式。该方式将分子标记组合编码为一个位点序号序列从而形成一条染色体。一条染色体由若干个基因构成,每个基因用不重复的、大于等于零的整数表示,每个整数代表一个分子标记位点在全部位点集合的固定序号,并且整数之间按大小排序。若从E个位点集合中任意选取L个位点构成的位点组合可以按如下方式编码:
【权利要求】
1.一种基于遗传算法的植物品种真实性鉴定位点筛选方法,其特征在于,具体步骤如下:1)以自动排序且不重复的方式编码待筛选分子标记位点;2)按照拟选分子标记位点的个数设定染色体基因位点长度,设置每一代群体的大小、拟演化的世代数、杂交率和变异率,并产生初始种群;3)将本世代群体中的全部染色体实数编码形式的数据转化为分子标记位点集合筛选方案; 4)以适应度函数计算适应度;5)根据适应度函数计算结果选择新一代群体;6)计算染色体交叉对新世代染色体带来的影响;7)计算染色体变异对新世代染色体带来的影响;8)进行世代更替,即循环步骤3)-7)直到世代数满足步骤2)的设定;9)输出结果,从已产生的所有世代群体中挑选适应度最高的个体作为最优的用于真实性鉴定的分子标记位点组合方案。
2.权利要求1所述基于遗传算法的植物品种真实性鉴定位点筛选方法,其特征在于,步骤1)具体为:输入用于真实性鉴定的分子标记位点组合的位点个数作为染色体基因位长度L,L的取值范围为小于等于全部参与筛选的分子标记位点标记数目E的正整数?’从E个位点集合中任意选取L个位点构成的位点组合按如下方式编码:
3.权利要求2所述基于遗传算法的植物品种真实性鉴定位点筛选方法,其特征在于,步骤2)具体为:设置种群大小为M、拟演化的世代数为T、杂交率为P。、变异率为PM ;随机挑选Μ组由L个分子标记位点构成的位点集合,每组位点集合内要求挑选的位点都是唯一的,并将其编码为Μ个基因位长度为L的染色体,形成初始群体。
4.权利要求1所述基于遗传算法的植物品种真实性鉴定位点筛选方法,其特征在于,步骤4)具体为:采用绝对型品种识别率作为适应度函数,评价本世代群体的每个染色体的适应度,其计算公式为:
5.权利要求3所述基于遗传算法的植物品种真实性鉴定位点筛选方法,其特征在于,步骤5)具体为:依据适应度计算每个染色体的选择概率和累积概率,选择概率的计算公式为:
6.权利要求3所述基于遗传算法的植物品种真实性鉴定位点筛选方法,其特征在于,步骤6)具体为:随机产生Μ/2个在区间[0,1]里均匀分布的实数f作为上一步骤已选择的染色体进行交叉的判定条件:当<<Ρ?:时,则对第i对染色体采用部分匹配交叉法,进行染色体片段重组得到其子代个体;当<>PC时,则将第i对染色体保留不变,直接作为其子代个体;重复上述判定和操作,最终产生Μ个子代个体。
7.权利要求3所述基于遗传算法的植物品种真实性鉴定位点筛选方法,其特征在于,纖步骤7)具体为:随机产生LXM个在区间[0,1]里均匀分布的实数作为上一步骤已交叉的染色体的每个基因进行变异的判定条件:当$ <PM时,则对第i个染色体的第j个基因m、η执行单点均匀变异法;当》>ΡΜ时,则将第i对染色体的第j个基因保留不变;重复上述判定和操作,最终产生下一代群体。
8.权利要求1-7任一项所述基于遗传算法的植物品种真实性鉴定位点筛选方法在植物品种真实性鉴定位点筛选中的应用。
【文档编号】G06F19/10GK103699812SQ201310629676
【公开日】2014年4月2日 申请日期:2013年11月29日 优先权日:2013年11月29日
【发明者】王凤格, 赵久然, 杨扬 申请人:北京市农林科学院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1