本发明涉及计算机,尤其涉及一种兼容多荧光信号平台的农作物品种基因型分型方法及装置。
背景技术:
1、基于荧光信号平台的基因分型技术,常用的荧光信号平台包括实时荧光定量聚合酶链式反应(polymerase chain reaction,pcr)、竞争性等位基因特异性pcr(kompetitiveallele specific pcr,kasp)和基因芯片。对于实时荧光定量pcr检测系统,通过荧光染料检测每次pcr循环后产物总量的技术,分析软件会记录每次pcr扩增反应后产物的变化,通过ct值和标准曲线的关系对起始模版进行定量分析并进行基因分型。而kasp与基因芯片平台都采用终点法,即在反应完成后通过检测荧光信号强度进行基因分型判定,在实验室pcr反应的实验流程已相当成熟且统一。然而,通过荧光信号强度进行基因分型判定的方法,在不同物种和不同荧光平台上却各有差异,特别是对于高密度基因芯片,不能仅靠一套通用软件就能非常准确的对每一个探针进行分型。
2、相关技术中,在基于马氏距离分类器的鲁棒线性模型(robust linear modelwith mahalanobis distance classifier,rlmm)算法的基础上加入了贝叶斯(bayesian)程序形成的brlmm算法是目前大多数根据荧光信号强度进行基因分型判定的主流分析程序。
3、然而,虽然brlmm算法在正确率和执行速度上相较于rlmm算法都有很大的提升,但brlmm算法从设计之初就没有考虑不同物种上的遗传特性,由于其他物种的遗传背景与人类存在巨大差异,在使用该算法对其他物种的数据进行基因分型时通常会出现一些错误的基因分型,导致基因型数据分型的准确率低。
技术实现思路
1、本发明提供一种兼容多荧光信号平台的农作物品种基因型分型方法及装置,用以解决现有技术中基因型数据分型的准确率低的问题。
2、本发明提供一种兼容多荧光信号平台的农作物品种基因型分型方法,包括:
3、获取目标荧光信号平台的至少一个目标农作物品种在基因组的多个位点的目标荧光信号数据;
4、对各所述位点的多个目标荧光信号数据进行转换,得到各所述位点对应的多个转换后的目标荧光信号数据;
5、采用聚类算法对各所述位点对应的多个转换后的目标荧光信号数据进行聚类,得到各所述位点分别对应的第一标记特征;所述第一标记特征包括至少一个目标聚类簇的聚类中心和各所述目标聚类簇包括的多个转换后的目标荧光信号数据的分布情况;
6、将各所述第一标记特征分别与对应位点的第二标记特征进行匹配,确定各所述目标农作物品种在各所述位点的基因型分型结果;所述第二标记特征是基于至少一个荧光信号平台对应的至少一个样本农作物品种在所述基因组的多个位点的样本荧光信号数据和所述聚类算法聚类得到的;所述第二标记特征包括至少一个最优聚类簇的聚类中心和各所述最优聚类簇包括的多个转换后的样本荧光信号数据的分布情况。
7、根据本发明提供的一种兼容多荧光信号平台的农作物品种基因型分型方法,所述第二标记特征是基于以下步骤得到的:
8、获取各所述荧光信号平台对应的至少一个样本农作物品种在所述基因组的多个位点的样本荧光信号数据;
9、针对每一个荧光信号平台,对各所述位点的多个样本荧光信号数据进行转换,得到各所述位点对应的多个转换后的样本荧光信号数据;
10、采用高斯混合模型聚类算法对各所述位点对应的多个转换后的样本荧光信号数据进行多次高斯拟合计算,得到每次高斯拟合计算时各所述位点分别对应的至少一个初始聚类簇;
11、基于各所述位点分别对应的各所述初始聚类簇,确定各所述位点分别对应的所述第二标记特征。
12、根据本发明提供的一种兼容多荧光信号平台的农作物品种基因型分型方法,所述基于各所述位点分别对应的各所述初始聚类簇,确定各所述位点分别对应的所述第二标记特征,包括:
13、对各所述位点分别对应的各所述初始聚类簇进行评估,确定至少一个第一聚类簇;
14、基于各所述第一聚类簇,确定各所述位点分别对应的所述第二标记特征。
15、根据本发明提供的一种兼容多荧光信号平台的农作物品种基因型分型方法,所述基于各所述第一聚类簇,确定各所述位点分别对应的所述第二标记特征,包括:
16、对各所述第一聚类簇分别进行离群值检测,得到各所述第一聚类簇对应的离群点;
17、将所述离群点分别从各所述第一聚类簇中去除,得到最优聚类簇;
18、基于各所述最优聚类簇,确定各所述位点分别对应的所述第二标记特征。
19、根据本发明提供的一种兼容多荧光信号平台的农作物品种基因型分型方法,所述基于各所述最优聚类簇,确定各所述位点分别对应的所述第二标记特征,包括:
20、将各所述最优聚类簇的聚类中心分别与除自身之外的最优聚类簇的聚类中心进行距离计算,得到至少一个距离值;
21、基于各所述距离值,确定至少一个目标最优聚类簇;
22、基于各所述目标最优聚类簇,确定各所述位点分别对应的所述第二标记特征。
23、根据本发明提供的一种兼容多荧光信号平台的农作物品种基因型分型方法,所述将各所述第一标记特征分别与对应位点的第二标记特征进行匹配,确定各所述目标农作物品种在各所述位点的基因型分型结果,包括:
24、在各所述第一标记特征与对应位点的所述第二标记特征匹配成功的情况下,基于所述第二标记特征,确定所述目标农作物品种在各所述位点的基因型分型结果;
25、在各所述第一标记特征与对应位点的所述第二标记特征匹配失败的情况下,基于各所述位点分别对应的目标聚类簇的数量、各所述目标聚类簇的聚类中心的目标值和预设条件,确定各所述目标农作物品种在各所述位点的基因型分型结果。
26、根据本发明提供的一种兼容多荧光信号平台的农作物品种基因型分型方法,所述基于各所述位点分别对应的目标聚类簇的数量、各所述目标聚类簇的聚类中心的目标值和预设条件,确定各所述目标农作物品种在各所述位点的基因型分型结果,包括:
27、基于各所述位点分别对应的目标聚类簇的数量,将各所述目标聚类簇的聚类中心的目标值和所述预设条件进行判断;
28、基于判断的结果,确定各所述目标农作物品种在各所述位点的基因型分型结果。
29、本发明还提供一种兼容多荧光信号平台的农作物品种基因型分型装置,包括:
30、获取模块,用于获取目标荧光信号平台的至少一个目标农作物品种在基因组的多个位点的目标荧光信号数据;
31、转换模块,用于对各所述位点的多个目标荧光信号数据进行转换,得到各所述位点对应的多个转换后的目标荧光信号数据;
32、聚类模块,用于采用聚类算法对各所述位点对应的多个转换后的目标荧光信号数据进行聚类,得到各所述位点分别对应的第一标记特征;所述第一标记特征包括至少一个目标聚类簇的聚类中心和各所述目标聚类簇包括的多个转换后的目标荧光信号数据的分布情况;
33、分型模块,用于将各所述第一标记特征分别与对应位点的第二标记特征进行匹配,确定各所述目标农作物品种在各所述位点的基因型分型结果;所述第二标记特征是基于至少一个荧光信号平台对应的至少一个样本农作物品种在所述基因组的多个位点的样本荧光信号数据和所述聚类算法聚类得到的;所述第二标记特征包括至少一个最优聚类簇的聚类中心和各所述最优聚类簇包括的多个转换后的样本荧光信号数据的分布情况。
34、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述兼容多荧光信号平台的农作物品种基因型分型方法。
35、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述兼容多荧光信号平台的农作物品种基因型分型方法。
36、本发明提供的兼容多荧光信号平台的农作物品种基因型分型方法及装置,通过获取目标荧光信号平台的至少一个目标农作物品种在基因组的多个位点的目标荧光信号数据;对各位点的多个目标荧光信号数据进行转换,得到各位点对应的多个转换后的目标荧光信号数据;采用聚类算法对各位点对应的多个转换后的目标荧光信号数据进行聚类,得到各位点分别对应的第一标记特征;第一标记特征包括至少一个目标聚类簇的聚类中心和各目标聚类簇包括的多个转换后的目标荧光信号数据的分布情况;将各第一标记特征分别与对应位点的第二标记特征进行匹配,确定各目标农作物品种在各位点的基因型分型结果;第二标记特征是基于至少一个荧光信号平台对应的至少一个样本农作物品种在基因组的多个位点的样本荧光信号数据和所述聚类算法聚类得到的;第二标记特征包括至少一个最优聚类簇的聚类中心和各最优聚类簇包括的多个转换后的样本荧光信号数据的分布情况。上述技术方案,通过各位点分别对应的第一标记特征与对应位点的第二标记特征进行匹配,能够准确实现各目标农作物品种在各位点的基因型分型结果的确定,提升了目标农作物品种在各位点的基因型分型结果的准确性。