一种基于全基因组选择的鱼类抗病良种培育方法与流程

文档序号:12167772阅读:1127来源:国知局
本发明属于水产遗传育种
技术领域
:,具体涉及一种基于全基因组选择的鱼类抗病良种培育方法。
背景技术
::鱼类养殖业是我国水产养殖业的支柱产业,2014年鱼类养殖产量2721.94万吨,占整个水产养殖产量的57.3%。养殖鱼类是我国食物蛋白的重要来源。然而,随着鱼类养殖业的迅速发展,缺乏优良品种、养殖种类种质退化现象突出;养殖规模的扩大、集约化程度的提高以及养殖环境的恶化而导致的水产养殖病害发生频繁,养殖产品药残突出等问题严重制约着鱼类养殖业的可持续发展。仅就鱼类而言,由于高密度养殖形成的免疫压抑,导致养殖鱼类的抗病力下降;由于对鱼类的免疫抗病机理及抗病力的分子遗传基础缺乏了解,难以从分子水平提出防治鱼类病害发生及发展的技术途径;由于缺乏抗病功能基因和抗病分子标记,难以进行抗病优良品种培育,养殖生产只能依靠抗病力差的野生或人工繁殖多代的苗种进行,因而流行性病害在鱼类养殖中频繁发生。据不完全统计,我国每年因病害给鱼类养殖业造成的直接经济损失达100亿元之巨。病害已成为制约我国鱼类养殖业可持续发展的瓶颈。目前危害养殖鱼类的主要病害是细菌性和病毒性疾病以及寄生虫类疾病。其中危害较大的3种细菌性疾病分别是爱德华氏菌病、链球菌病和弧菌病。抗菌素类药物或者疫苗等防病措施虽然有一定效果,但无法从根本上解决水产养殖中的病害问题。且抗菌素类药物具有容易在鱼体内积累,降低养殖鱼类商品质量,对消费者的健康具有潜在危害,容易使病原菌产生抗药性以及严重污染养殖环境等问题,因而在水产养殖业中的应用越来越受到限制。同时抗菌素的使用也不能满足人们日益增长的对无药物残留的绿色水产品的需求。因此,鱼类抗病良种选育是我国水产领域急需攻克的重大课题之一。迄今为止,鱼类良种选育主要是基于表型性状的选育,包括群体选育、家系选育、杂交选育和BLUP选育等,都是根据体长、体重等容易测量的表型值计算出来的育种值进行选择。分子标记出现以后,则是通过定位与重要经济性状相关联的分子标记从而对经济性状进行基因型选择,但传统的分子标记辅助选育所用的分子标记数量非常有限,对单基因性状或质量性状的选择效果不错,但对于多基因决定的数量性状的选择效果则不太好。由于抗病性状是由多个基因控制的数量性状,难以测量,选择准确性相当低,所以对抗病良种的选育一直进展缓慢,限制了鱼类抗病新品种的培育。迫切需要一种新的育种技术或手段来攻克这一难题。因此,本发明建立了一种基于全基因组选择的鱼类抗病良种培育方法,旨在为鱼类抗病良种培育提供一种新的分子育种技术。技术实现要素:本发明的目的是建立一种基于全基因组选择的鱼类抗病良种培育方法,弥补传统育种技术的不足,为鱼类抗病高产优质良种培育提供分子育种方法,解决鱼类养殖业中缺乏全基因组选择方法的问题,为鱼类养殖业提供抗病优良品种选育的技术手段,实现鱼类育种技术的更新换代,推动鱼类种业快速发展。本发明的基于全基因组选择的鱼类抗病良种培育方法,主要包括如下步骤:1)鱼类抗病参考群体的建立及表型性状测定当建立的鱼类家系鱼苗生长达到全长8-15厘米时,采用病原微生物对鱼类家系鱼苗进行病原菌人工感染,在病原菌感染发病后不同时间收集各家系死亡的鱼苗,记录鱼苗死亡时间及全长、体重、体宽等表型数据,同时采集感染后存活的个体并记录全长、体重、体宽数据,将采集的存活个体与死亡个体的数据作为评价鱼体抗病力的表型参数,并按照死亡率和死亡时间,在各家系中选取实验个体,得到一组可反应整个实验群体抗病性状的代表性个体的组合作为参考群体;采用动物模型计算参考群体个体的估计育种值(EBV)和群体育种均值,并转化为相对育种值(RBV),作为基因组选择计算中参考群体的表型;所述转化为相对育种值,是使用R语言环境下的R-packageasreml计算获得的;2)参考群体的全基因组重测序及基因型采集与分析处理提取采集的参考群体鱼苗的基因组DNA样品建库测序,建库类型为DNA-350bp,测序策略为HiSeqPE150,对测序结果首先根据测序质量,过滤掉含有接头序列和低质量碱基较多的测序所得reads,比对参考基因组,参考基因组为半滑舌鳎和牙鲆的全基因组测序结果(GenBankID:PRJNA73987;PRJNA73673),检测参考基因组中对应的SNP位点并calling,整理生成.vcf文件;使用plink对.vcf文件进行读取、合并个体数据,随后按照染色体进行分割和质量控制、使用beagle进行数据填充,再将所有用到的染色体上的SNP位点数据合并,转换生成以个体为单位的.csv格式基因型文件,用于基因组选择的计算;3)参考群体的全基因组选择计算和SNP位点效应分析以参考群体的相对育种值(RBV)为表型,以参考群体测序所得SNP位点数据为基因型,进行基因组选择计算,使用的计算方法为BayesCπ,所使用的计算工具为R-packageBGLR,计算后获得每个SNP位点与抗病表型的相关性数值,整理输出.txt文件,作为各个SNP位点的遗传效应值,用于全基因组选择中的基因组育种值(GEBV)的估计;4)候选群体的建立与全基因组重测序采集候选群体鱼的鳍条,提取鳍条基因组DNA,进行基因组文库构建和全基因组重测序,处理分析SNP位点数据,在缺失表型值的情况下,进行基因组选择计算;在参考群体基因组选择计算完成后,通过计算出的SNP位点的效应值,结合候选群体个体各SNP位点基因型,得到候选群体基因组估计育种值;所述的候选群体是指没有进行病原菌感染、没有抗病性状表型的鱼类家系个体,从不同家系中选择一部分不知抗病表型性状的鱼类家系个体或者在基因组选择实际应用与鱼类良种培育时,选取用于繁育的亲鱼作为候选群体;5)参考群体和候选群体的个体基因组估计育种值(GEBV)分析根据获得的参考群体的每个SNP位点的遗传效应和不同个体各个SNP位点的基因型,计算得出参考群体的个体基因组估计育种值(GEBV);在计算结束后生成并输出.txt记录参考群体个体的GEBV;根据参考群体个体的GEBV,初步筛选出参考群体中抗病力较强的个体,以及这些个体所在的家系;根据参考群体个体的SNP位点效应和候选群体的SNP基因型,进一步计算获得候选群体个体的基因组估计育种值;根据候选群体的GEBV计算结果,计算GEBV值与实际感染存活率的相关系数,进而验证基因组选择计算结果的准确性。6)鱼类抗病苗种的培育根据全基因组选择计算得出的候选群体基因组估计育种值的大小,在表型缺失的情况下,对候选群体的抗病力进行评估和排序;选择GEBV高的候选群体个体作为亲鱼,进行抗病苗种的繁育;繁育所得的子代苗种的抗病力显著提高;本发明的方法获得的子代苗种在后续进行的感染实验中,存活率显著高于对照组,结果表明基因组选择候选群体的后代苗种的感染存活率比对照组高出20%-30%;通过这种方法可以快速、高效培育出鱼类抗病优良品种,提高鱼类的抗病能力和养殖成活率,在鱼类养殖业中具有广泛的应用价值和推广前景。附图说明图1:牙鲆全基因组重测序样品SNP位点在各染色体上的分布。横坐标chr1-chr24表示24条染色体,纵坐标表示染色体上SNP位点的数目,最小值为chr16的5223,最大值为chr1的20971。图2:半滑舌鳎全基因组重测序样品SNP位点在各染色体上的分布。横坐标chr1-chr20表示20条常染色体,纵坐标表示染色体上SNP位点的数目,最小值为chr16的51595,最大值为chr1的200654。图3:牙鲆基因组选择样品计算出的397215个SNP位点的效应值。横坐标表示各SNP位点按照在基因组上位置排列,纵坐标表示SNP位点效应值,大小在1.18E-16至3.73E-4之间。图4:半滑舌鳎基因组选择样品计算出的17529015个SNP位点的效应值。横坐标表示各SNP位点按照在基因组上位置排列,纵坐标表示SNP位点效应值,大小在3.37E-19至3.83E-5之间。图5:牙鲆参考群体GEBV,以牙鲆参考群体相对育种值(RBV)为表型,计算出的参考群体GEBV,大小在64.2-130.1之间。横坐标表示牙鲆参考群体个体,纵坐标为GEBV。图6:牙鲆候选群体中母本的子代存活率与GEBV的比较,将子代存活率与GEBV分别排序,比较二者相关性,相关系数为0.81。横坐标为候选群体个体,纵坐标为排序名次。图7:牙鲆候选群体中父本的子代存活率与GEBV的比较,将子代存活率与GEBV分别排序,比较二者相关性,相关系数为0.89。横坐标为候选群体个体,纵坐标为排序名次。图8:半滑舌鳎参考群体GEBV,以半滑舌鳎参考群体相对育种值(RBV)为表型,计算出的参考群体GEBV,大小在18.3-156.9之间。横坐标表示半滑舌鳎参考群体个体,纵坐标为GEBV。图9:牙鲆苗种迟缓爱德华氏菌感染后存活率比较。通过基因组选择方法培育出牙鲆抗病苗种(命名为鲆优2号),用迟缓爱德华氏菌感染鲆优2号和对照组,计算感染后存活率,鲆优2号存活率为74%,对照组存活率为44%。图10:牙鲆苗种养殖存活率比较。通过基因组选择方法培育出牙鲆抗病苗种(命名为鲆优2号),其养殖存活率为64%;而对照组养殖存活率为39%。图11:牙鲆苗种养殖日增重比较。通过基因组选择方法培育出牙鲆抗病苗种(命名为鲆优2号),进行了鲆优2号和对照组的生长对比实验,计算养殖日增重,鲆优2号组0.82g/天,对照组为0.66g/天。图12:2015年半滑舌鳎家系哈维氏弧菌感染存活率,黑色柱形代表基因组选择候选群体个体为父本的家系,白色柱形代表未经基因组选择的普通舌鳎为父本的家系,可见基因组选择家系苗种的存活率大多较高。图13:2015年半滑舌鳎群体哈维氏弧菌感染存活率,将半滑舌鳎家系按照父本为基因组选择候选群体个体或普通个体分为两个群体,计算存活率,基因组选择出的苗种的存活率为67.6%,普通群体存活率为43%。具体实施方式下面以牙鲆和半滑舌鳎为例,结合附图对基于全基因组选择的鱼类抗病良种培育方法进行详细叙述:一、鱼类抗病参考群体的建立及表型性状测定当建立的鱼类家系鱼苗生长达到全长8-15厘米时,采用病原微生物对鱼类家系鱼苗进行病原菌人工感染,在病原菌感染发病后不同时间收集各家系死亡的鱼苗,记录鱼苗死亡时间及全长、体重、体宽等表型数据,同时采集感染后存活的个体并记录全长、体重、体宽数据,将采集的存活个体与死亡个体数据作为评价鱼体抗病力的表型参数,并按照死亡率和死亡时间,在各家系中选取实验个体,得到一组可反应整个实验群体抗病性状的代表性个体的组合作为参考群体;采用动物模型计算参考群体个体的估计育种值(EBV)和群体育种均值,并转化为相对育种值(RBV),作为基因组选择计算中参考群体的表型;具体计算使用的是R语言环境下的R-packageasreml。下面以牙鲆和半滑舌鳎为例进行详细叙述。(一)、牙鲆抗迟缓爱德华氏菌病参考群体的建立及表型性状测定1.牙鲆迟缓爱德华氏菌感染实验自2003年起就开始了牙鲆选择育种,首先通过自然选择和人工感染途径以及不同地理群体的收集和选育,得到具有不同性状的牙鲆鱼苗,培育至性成熟后,得到牙鲆选育亲鱼第一代,包括:抗病群体(RS)、日本群体(JS)、韩国群体(KS)、黄海群体(YS)。以这些选育亲鱼作为亲本,建立牙鲆家系。2007年以RS、JS、YS等为基础群体,建立了F1代63个牙鲆家系,通过对其中59个家系进行鳗弧菌感染实验,筛选出4个抗病家系,鳗弧菌感染后存活率达到50%以上。依据2007年63个家系后裔的鉴定结果,2008年选择不同群体的优良亲本,根据双列杂交法建立30个家系,通过对63个F1家系中的30个家系进行鳗弧菌感染实验,筛选出5个抗鳗弧菌家系。利用RS、JS、YS以及2007年选留的优良家系为亲本,2009年共建成家系43个,选取其中33个家系进行鳗弧菌感染实验,其中F1家系26个,回交家系1个,雌核发育一代家系2个,F2家系4个,筛选出抗鳗弧菌家系6个。2010年,以2007年抗鳗弧菌感染的牙鲆(RS)与日本引进后选育的牙鲆群体(JS)进行交配得到的养殖成活率高、生长较快的杂交群体的雌鱼作为母本,与韩国引进选育牙鲆群体(KS)作为父本进行杂交,得到的三杂交后代即为牙鲆“鲆优1号”。2012年,以RS、JS、YS以及2007、2009年选留的优良家系为亲本,建成家系65个,选取43个家系进行鳗弧菌感染实验,其中31个F1家系,5个F2家系,6个F3家系和1个雌核发育二代家系,筛选出抗鳗弧菌家系8个。2013年,以2007年建立的生长快、成活率高的优良家系,韩国群体(KS)及其自交后代,2009年在抗鳗弧菌感染、抗LCDV、养殖成活率和日增重率表现优良的家系为亲本,建立牙鲆家系56个,其中32个家系用于迟缓爱德华氏菌人工感染实验,筛选到抗迟缓爱德华氏菌家系6个。细菌感染实验按照已报道的方法进行。2014年,以韩国群体,2007、2009、2010年优良家系为亲本,建立牙鲆家系47个,对其中的39个家系进行了感染实验,得到抗迟缓爱德华氏菌家系7个。2015年4月开始,以本实验室历年来通过生长和抗病性能分析筛选出的优良牙鲆作为亲本,建立牙鲆家系56个。选取46个家系进行迟缓爱德华氏菌感染实验,包括10个F3家系、36个F4家系,其中全同胞家系9个,半同胞家系31个,其他组合家系6个。筛选到5个抗迟缓爱德华氏菌牙鲆家系。2013年-2015年,连续3年在牙鲆全长达到8-15cm,符合实验规格时,进行牙鲆迟缓爱德华氏菌感染实验,收集了感染个体在感染后的存活时间、全长、体宽、体重等表型数据,同时采集了死亡鱼苗和存活鱼苗的鳍条样品(表1),用于基因组DNA的提取,基因组选择实验参考群体即选自这些感染样品。表1各年份迟缓爱德华氏菌感染牙鲆2.牙鲆抗迟缓爱德华氏菌参考群体表型性状的分析使用分析软件ASReml-R,对参考群体表型进行分析,选用软件中的动物模型计算2013、2014、2015年感染实验的遗传力和每个个体的估计育种值(EBV)。为使3年的数据一致,便于统一分析,将每年感染实验个体计算得出的估计育种值转换为相对育种值(RBV),合并三年感染数据表型进行下一步的计算。2.1构建系谱根据实验室自2007年以来记录的牙鲆家系信息和亲本子代对应关系,构建牙鲆家系总系谱,涵盖用作亲本的韩国牙鲆群体(KS)、日本牙鲆群体(JS)、抗病牙鲆群体(RS)、2007年、2009年、2010年、2012年、2013年、2014年、2015年所有牙鲆亲鱼和建立的家系。2.2选用模型使用的计算模型为ASReml软件的动物模型,该模型可以同时实现固定效应育种值和随机效应育种值的最佳线性无偏预测。在估计每个个体育种值时,能够充分利用后代及亲本间一切可知的亲缘关系资料,构建亲缘关系矩阵以及逆矩阵,提高育种值估计的准确性。y=u+b+a+e;其中y为表型死亡时间,u为平均值,b为固定效应,a为随机效应,e为残差项。A是动物个体间的家系遗传相关,是动物个体间加性方差协方差阵。遗传混合模型的方程组为:其中,遗传力的计算公式为:2.3感染实验个体育种值的计算使用的计算软件为,R-3.22,在R环境下安装R-packageasreml和AAfun,计算所用的脚本为:library(asreml)library(AAfun)Mm<-asreml.read.table("data.csv",header=T,sep=",")Mm.ped<-asreml.read.table("pedigree.csv",header=T,sep=",")Mm.ainv<-asreml.Ainverse(Mm.ped)$ginvope<-asreml(fixed=time~1+Batch,random=~ped(Animal),rcov=~units,data=Mm,ginverse=list(Animal=Mm.ainv),maxiter=40)summary(ope)$varcomppin(ope,h2a~V1/(V1+V2))coef(ope)$fixedrandom.effect<-coef(ope)$randomwrite.csv(random.effect,file="EBV.csv")通过上述脚本,分别计算2013-2015年,3组感染实验的遗传力和个体估计育种值,选择计算的性状为感染实验的个体死亡时间(小时),存活个体按照感染结束时间记为396小时。将感染批次设为固定效应,结合2.1构建的牙鲆家系总系谱进行计算,保存个体育种值文件,根据育种均值将个体育种值转化为相对育种值,转换式:2.4全基因组选择的参考群体的选取从感染实验的样品中,挑选出96个家系(2013年32个,2014年10个,2015年48个),每个家系按照死亡率选取等比例死亡和存活个体10-15个,组成基因组选择的参考群体,将选取个体的相对育种值作为基因组选择的表型(表2)。表1用于基因组重测序的牙鲆个体(二)、半滑舌鳎抗哈维氏弧菌参考群体的建立和表型的测定1.半滑舌鳎哈维氏弧菌感染2014年,建立半滑舌鳎家系共103个,当半滑舌鳎家系鱼苗生长至8-15cm时,采用腹腔接种方法对各家系鱼苗进行哈维氏弧菌感染。感染实验按照以前建立的方法进行。每个家系随机选取80-150尾鱼苗进行正式感染实验,感染用鱼苗养殖在2-3立方米的玻璃钢水槽中。感染后,每天对各家系鱼苗的状态及死亡数量进行观察记录,在病原菌感染发病后收集死亡的实验个体,记录死亡时间及全长、体重,体宽等数据,同时采集感染后存活的个体并记录其全长、体重,体宽等数据,将这些数据作为鱼体抗病力的表型参数。半滑舌鳎抗哈维氏弧菌基因组选择研究的参考群体即来源于收集了表型和鳍条的感染个体(表3)。表3:2014年哈维氏弧菌感染半滑舌鳎2.半滑舌鳎哈维氏弧菌感染参考群体表型性状分析使用分析软件ASReml-R,对参考群体表型进行分析,选用软件中的动物模型计算感染实验的遗传力和每个个体的估计育种值,并将感染实验个体计算得出的估计育种值转换为相对育种值,进行下一步的计算。2.1选用模型使用的计算模型为ASReml软件的动物模型,该模型可以同时实现固定效应育种值和随机效应育种值的最佳线性无偏预测。在估计每个个体育种值时,能够充分利用后代及亲本间一切可知的亲缘关系资料,构建亲缘关系矩阵以及逆矩阵,提高育种值估计的准确性。y=u+b+a+e;其中y为表型死亡时间,u为平均值,b为固定效应,a为随机效应,e为残差项。A是动物个体间的家系遗传相关,是动物个体间加性方差协方差阵。遗传混合模型的方程组为:其中,遗传力的计算公式为:2.2感染实验个体育种值的计算使用的计算软件为,R-3.22,在R中安装R-packageasreml和AAfun,计算所用的脚本为:library(asreml)library(AAfun)Mm<-asreml.read.table("data.csv",header=T,sep=",")Mm.ped<-asreml.read.table("pedigree.csv",header=T,sep=",")Mm.ainv<-asreml.Ainverse(Mm.ped)$ginvope<-asreml(fixed=time~1+Batch,random=~ped(Animal),rcov=~units,data=Mm,ginverse=list(Animal=Mm.ainv),maxiter=40)summary(ope)$varcomppin(ope,h2a~V1/(V1+V2))coef(ope)$fixedrandom.effect<-coef(ope)$randomwrite.csv(random.effect,file="EBV.csv")通过上述脚本,计算2014年半滑舌鳎哈维氏弧菌感染实验群体的遗传力和个体估计育种值,选择计算的性状为感染实验的个体死亡时间,存活个体按照感染结束时间记为360小时。将感染批次设为固定效应,保存个体育种值文件,根据育种均值将个体育种值转化为相对育种值,转换式:2.3半滑舌鳎全基因组选择参考群体的选取从感染实验的样品中,挑选出107个家系,每个家系按照死亡率选取等比例死亡和存活个体10个,组成基因组选择的参考群体,将选取个体的相对育种值作为基因组选择的表型(表4)。表4用于基因组重测序的牙鲆个体二、参考群体的全基因组重测序及基因型采集与分析处理利用采集的参考群体鱼苗的鳍条提取基因组DNA,检测完整度,提取质量合格的样品用于建库测序,建库类型为DNA-350bp,测序策略为HiSeqPE150,对测序结果首先根据测序质量,过滤掉含有接头序列和低质量碱基较多的测序得到的reads,比对参考基因组,参考基因组来源于发明人完成的半滑舌鳎和牙鲆的全基因组测序结果(GenBankID:PRJNA73987;PRJNA73673),检测参考基因组中对应的SNP位点并calling,整理生成.vcf文件;使用Plink对.vcf文件进行读取、合并个体数据,随后按照染色体进行分割和质量控制、使用beagle进行数据填充,再将所有用到的染色体上的SNP位点数据合并,转换生成以个体为单位的基因组选择计算所使用的.csv格式基因型文件。下面以牙鲆和半滑舌鳎为例进行详细说明。(一)、牙鲆全基因组重测序及基因型采集与处理分析1.牙鲆全基因组重测序及SNPCalling将选定的参考群体和候选群体鳍条送测序公司进行基因组DNA的提取和测序。基因组提取检测合格的样品共931个(表5),将这些样品建库测序,进行SNPcalling。表5牙鲆基因组选择参考群体与候选群体统计所有样品的建库类型均为用于重测序的DNA-350bp,建库完成后,进行全基因重测序,测序策略是HiSeqPE150,数据量为2G。根据测序批次,对测序结果进行分组SNPcalling,每组的个体上限设为100个,SNPcalling使用的参考基因组来源于本实验室的牙鲆全基因组测序(GenBankID:PRJNA73673)。SNPcalling的方法为:1.过滤原始数据并进行质控1.1过滤掉含有接头序列的reads。1.2当单端测序read中N的含量超过该条read长度比例的10%时,去除此对pairedreads。1.3当单端测序read中含有的低质量(<=5)碱基数超过该条read长度比例的50%时,去除此对pairedreads。2.参考基因组比对2.1使用软件BWA2.2比对参数:mem-t4-k32-M2.3过滤命令:samtoolsview-bSsamtoolsrmdup3.SNP位点的检测3.1使用软件:samtools3.2过滤参数:2.牙鲆基因组选择测序数据基因型的整理测序获得SNPcalling的结果生成的vcf文件,上传到服务器中,通过Linux系统,进行SNP位点的提取与处理,得到基因组选择计算的基因型文件。处理方法为:读取:通过PLINK提取vcf文件中的SNP序列,获得.ped,.map文件:./plink--vcfParalichthysOlivaceus.vcf.gz--recode12--allow-extra-chr--outplink_1将.ped与.map文件合并nohup./plink--allow-extra-chr--fileplink_1--mergeplink_1.pedplink_1.map--merge-equal-pos--recode12--outmerge_1将数据按照染色体分割,并进行质量控制,质量控制阈值是基因分型率0.1;最小等位基因频率0.05;哈温平衡率0.000001。由于牙鲆有24对染色体,plink默认处理的是人的基因组,因此在分割过程中,需要将数据定义为染色体不少于24对的常见动物(如狗--dog),代码如下:nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr1--dog--outresult_qc_chr-1&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr2--dog--outresult_qc_chr-2&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr3--dog--outresult_qc_chr-3&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr4--dog--outresult_qc_chr-4&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr5--dog--outresult_qc_chr-5&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr6--dog--outresult_qc_chr-6&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr7--dog--outresult_qc_chr-7&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr8--dog--outresult_qc_chr-8&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr9--dog--outresult_qc_chr-9&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr10--dog--outresult_qc_chr-10&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr11--dog--outresult_qc_chr-11&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr12--dog--outresult_qc_chr-12&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr13--dog--outresult_qc_chr-13&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr14--dog--outresult_qc_chr-14&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr15--dog--outresult_qc_chr-15&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr16--dog--outresult_qc_chr-16&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr17--dog--outresult_qc_chr-17&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr18--dog--outresult_qc_chr-18&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr19--dog--outresult_qc_chr-19&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr20--dog--outresult_qc_chr-20&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr21--dog--outresult_qc_chr-21&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr22--dog--outresult_qc_chr-22&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr23--dog--outresult_qc_chr-23&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr24--dog--outresult_qc_chr-24&数据填充使用软件beagle进行数据填充,首先将上步所得的数据转换为beagle识别的文件格式:nohup./fcgene--pedresult_qc_chr-1.ped--mapresult_qc_chr-1.map--oformatbeagle--outplink_beagle_chr-1&nohup./fcgene--pedresult_qc_chr-2.ped--mapresult_qc_chr-2.map--oformatbeagle--outplink_beagle_chr-2&nohup./fcgene--pedresult_qc_chr-3.ped--mapresult_qc_chr-3.map--oformatbeagle--outplink_beagle_chr-3&nohup./fcgene--pedresult_qc_chr-4.ped--mapresult_qc_chr-4.map--oformatbeagle--outplink_beagle_chr-4&nohup./fcgene--pedresult_qc_chr-5.ped--mapresult_qc_chr-5.map--oformatbeagle--outplink_beagle_chr-5&nohup./fcgene--pedresult_qc_chr-6.ped--mapresult_qc_chr-6.map--oformatbeagle--outplink_beagle_chr-6&nohup./fcgene--pedresult_qc_chr-7.ped--mapresult_qc_chr-7.map--oformatbeagle--outplink_beagle_chr-7&nohup./fcgene--pedresult_qc_chr-8.ped--mapresult_qc_chr-8.map--oformatbeagle--outplink_beagle_chr-8&nohup./fcgene--pedresult_qc_chr-9.ped--mapresult_qc_chr-9.map--oformatbeagle--outplink_beagle_chr-9&nohup./fcgene--pedresult_qc_chr-10.ped--mapresult_qc_chr-10.map--oformatbeagle--outplink_beagle_chr-10&nohup./fcgene--pedresult_qc_chr-11.ped--mapresult_qc_chr-11.map--oformatbeagle--outplink_beagle_chr-11&nohup./fcgene--pedresult_qc_chr-12.ped--mapresult_qc_chr-12.map--oformatbeagle--outplink_beagle_chr-12&nohup./fcgene--pedresult_qc_chr-13.ped--mapresult_qc_chr-13.map--oformatbeagle--outplink_beagle_chr-13&nohup./fcgene--pedresult_qc_chr-14.ped--mapresult_qc_chr-14.map--oformatbeagle--outplink_beagle_chr-14&nohup./fcgene--pedresult_qc_chr-15.ped--mapresult_qc_chr-15.map--oformatbeagle--outplink_beagle_chr-15&nohup./fcgene--pedresult_qc_chr-16.ped--mapresult_qc_chr-16.map--oformatbeagle--outplink_beagle_chr-16&nohup./fcgene--pedresult_qc_chr-17.ped--mapresult_qc_chr-17.map--oformatbeagle--outplink_beagle_chr-17&nohup./fcgene--pedresult_qc_chr-18.ped--mapresult_qc_chr-18.map--oformatbeagle--outplink_beagle_chr-18&nohup./fcgene--pedresult_qc_chr-19.ped--mapresult_qc_chr-19.map--oformatbeagle--outplink_beagle_chr-19&nohup./fcgene--pedresult_qc_chr-20.ped--mapresult_qc_chr-20.map--oformatbeagle--outplink_beagle_chr-20&nohup./fcgene--pedresult_qc_chr-21.ped--mapresult_qc_chr-21.map--oformatbeagle--outplink_beagle_chr-21&nohup./fcgene--pedresult_qc_chr-22.ped--mapresult_qc_chr-22.map--oformatbeagle--outplink_beagle_chr-22&nohup./fcgene--pedresult_qc_chr-23.ped--mapresult_qc_chr-23.map--oformatbeagle--outplink_beagle_chr-23&nohup./fcgene--pedresult_qc_chr-24.ped--mapresult_qc_chr-24.map--oformatbeagle--outplink_beagle_chr-24&使用beagle软件进行数据填充,将缺失值计为0:nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-1.bglmissing=0out=imputed_beagle_chr-1&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-2.bglmissing=0out=imputed_beagle_chr-2&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-3.bglmissing=0out=imputed_beagle_chr-3&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-4.bglmissing=0out=imputed_beagle_chr-4&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-5.bglmissing=0out=imputed_beagle_chr-5&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-6.bglmissing=0out=imputed_beagle_chr-6&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-7.bglmissing=0out=imputed_beagle_chr-7&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-8.bglmissing=0out=imputed_beagle_chr-8&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-9.bglmissing=0out=imputed_beagle_chr-9&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-10.bglmissing=0out=imputed_beagle_chr-10&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-11.bglmissing=0out=imputed_beagle_chr-11&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-12.bglmissing=0out=imputed_beagle_chr-12&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-13.bglmissing=0out=imputed_beagle_chr-13&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-14.bglmissing=0out=imputed_beagle_chr-14&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-15.bglmissing=0out=imputed_beagle_chr-15&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-16.bglmissing=0out=imputed_beagle_chr-16&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-17.bglmissing=0out=imputed_beagle_chr-17&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-18.bglmissing=0out=imputed_beagle_chr-18&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-19.bglmissing=0out=imputed_beagle_chr-19&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-20.bglmissing=0out=imputed_beagle_chr-20&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-21.bglmissing=0out=imputed_beagle_chr-21&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-22.bglmissing=0out=imputed_beagle_chr-22&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-23.bglmissing=0out=imputed_beagle_chr-23&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-24.bglmissing=0out=imputed_beagle_chr-24&将填充好的数据解压:gunzip-dimputed_beagle_chr-1.plink_beagle_chr-1.bgl.phased.gzgunzip-dimputed_beagle_chr-2.plink_beagle_chr-2.bgl.phased.gzgunzip-dimputed_beagle_chr-3.plink_beagle_chr-3.bgl.phased.gzgunzip-dimputed_beagle_chr-4.plink_beagle_chr-4.bgl.phased.gzgunzip-dimputed_beagle_chr-5.plink_beagle_chr-5.bgl.phased.gzgunzip-dimputed_beagle_chr-6.plink_beagle_chr-6.bgl.phased.gzgunzip-dimputed_beagle_chr-7.plink_beagle_chr-7.bgl.phased.gzgunzip-dimputed_beagle_chr-8.plink_beagle_chr-8.bgl.phased.gzgunzip-dimputed_beagle_chr-9.plink_beagle_chr-9.bgl.phased.gzgunzip-dimputed_beagle_chr-10.plink_beagle_chr-10.bgl.phased.gzgunzip-dimputed_beagle_chr-11.plink_beagle_chr-11.bgl.phased.gzgunzip-dimputed_beagle_chr-12.plink_beagle_chr-12.bgl.phased.gzgunzip-dimputed_beagle_chr-13.plink_beagle_chr-13.bgl.phased.gzgunzip-dimputed_beagle_chr-14.plink_beagle_chr-14.bgl.phased.gzgunzip-dimputed_beagle_chr-15.plink_beagle_chr-15.bgl.phased.gzgunzip-dimputed_beagle_chr-16.plink_beagle_chr-16.bgl.phased.gzgunzip-dimputed_beagle_chr-17.plink_beagle_chr-17.bgl.phased.gzgunzip-dimputed_beagle_chr-18.plink_beagle_chr-18.bgl.phased.gzgunzip-dimputed_beagle_chr-19.plink_beagle_chr-19.bgl.phased.gzgunzip-dimputed_beagle_chr-20.plink_beagle_chr-20.bgl.phased.gzgunzip-dimputed_beagle_chr-21.plink_beagle_chr-21.bgl.phased.gzgunzip-dimputed_beagle_chr-22.plink_beagle_chr-22.bgl.phased.gzgunzip-dimputed_beagle_chr-23.plink_beagle_chr-23.bgl.phased.gzgunzip-dimputed_beagle_chr-24.plink_beagle_chr-24.bgl.phased.gz对解压文件重命名:mvimputed_beagle_chr-1.plink_beagle_chr-1.bgl.phasedimputed_beagle_chr-1.bglmvimputed_beagle_chr-2.plink_beagle_chr-2.bgl.phasedimputed_beagle_chr-2.bglmvimputed_beagle_chr-3.plink_beagle_chr-3.bgl.phasedimputed_beagle_chr-3.bglmvimputed_beagle_chr-4.plink_beagle_chr-4.bgl.phasedimputed_beagle_chr-4.bglmvimputed_beagle_chr-5.plink_beagle_chr-5.bgl.phasedimputed_beagle_chr-5.bglmvimputed_beagle_chr-6.plink_beagle_chr-6.bgl.phasedimputed_beagle_chr-6.bglmvimputed_beagle_chr-7.plink_beagle_chr-7.bgl.phasedimputed_beagle_chr-7.bglmvimputed_beagle_chr-8.plink_beagle_chr-8.bgl.phasedimputed_beagle_chr-8.bglmvimputed_beagle_chr-9.plink_beagle_chr-9.bgl.phasedimputed_beagle_chr-9.bglmvimputed_beagle_chr-10.plink_beagle_chr-10.bgl.phasedimputed_beagle_chr-10.bglmvimputed_beagle_chr-11.plink_beagle_chr-11.bgl.phasedimputed_beagle_chr-11.bglmvimputed_beagle_chr-12.plink_beagle_chr-12.bgl.phasedimputed_beagle_chr-12.bglmvimputed_beagle_chr-13.plink_beagle_chr-13.bgl.phasedimputed_beagle_chr-13.bglmvimputed_beagle_chr-14.plink_beagle_chr-14.bgl.phasedimputed_beagle_chr-14.bglmvimputed_beagle_chr-15.plink_beagle_chr-15.bgl.phasedimputed_beagle_chr-15.bglmvimputed_beagle_chr-16.plink_beagle_chr-16.bgl.phasedimputed_beagle_chr-16.bglmvimputed_beagle_chr-17.plink_beagle_chr-17.bgl.phasedimputed_beagle_chr-17.bglmvimputed_beagle_chr-18.plink_beagle_chr-18.bgl.phasedimputed_beagle_chr-18.bglmvimputed_beagle_chr-19.plink_beagle_chr-19.bgl.phasedimputed_beagle_chr-19.bglmvimputed_beagle_chr-20.plink_beagle_chr-20.bgl.phasedimputed_beagle_chr-20.bglmvimputed_beagle_chr-21.plink_beagle_chr-21.bgl.phasedimputed_beagle_chr-21.bglmvimputed_beagle_chr-22.plink_beagle_chr-22.bgl.phasedimputed_beagle_chr-22.bglmvimputed_beagle_chr-23.plink_beagle_chr-23.bgl.phasedimputed_beagle_chr-23.bglmvimputed_beagle_chr-24.plink_beagle_chr-24.bgl.phasedimputed_beagle_chr-24.bgl使用R,对24对染色体上的所有数据进行合并,代码为:将合并文件的各位点基因型转换为012:./fcgene--bglimputed_rbind_all.bgl--oformatplink--outbeagle_convert_plink./plink--filebeagle_convert_plink--geno0.1--maf0.05--hwe0.000001--recodeA--allow-extra-chr--outfinal_result删除文件的前六列,并转换为csv格式,生成基因组选择计算的基因型文件awk'{for(i=7;i<=NF;i++)printf$i""FS;print""}'final_result.raw>genotype.txtnohupcatgenotype.txt|sed's/[[:space:]]/,/g'>genotype.csv3.牙鲆SNP位点的统计整理得到的基因型文件genotype.csv,共包含SNP位点397215,分布在24个染色体上,每个染色体上SNP位点数由5223-20971不等(图1)。(二)、半滑舌鳎参考群体全基因组重测序及基因型处理分析1.半滑舌鳎全基因组重测序及SNPCalling将选定的参考群体和候选群体鳍条送测序公司进行基因组DNA的提取和测序。基因组提取检测合格的样品共863个(表6),将这些样品建库测序,进行SNPcalling。表6:牙鲆基因组选择参考群体与候选群体统计所有样品的建库类型均为用于重测序的DNA-350bp,建库完成后,进行全基因重测序,测序策略是HiSeqPE150,数据量为1G。根据测序批次,对测序结果进行分组SNPcalling,每组的个体上限设为100个SNPcalling使用的参考基因组来源于本实验室的半滑舌鳎全基因组测序(GenBankID:PRJNA73987)。SNPcalling的方法为:1.过滤原始数据并进行质控1.1过滤掉含有接头序列的reads。1.2当单端测序read中N的含量超过该条read长度比例的10%时,去除此对pairedreads。1.3当单端测序read中含有的低质量(<=5)碱基数超过该条read长度比例的50%时,去除此对pairedreads。2.参考基因组比对2.1使用软件BWA2.2比对参数:mem-t4-k32-M2.3过滤命令:samtoolsview-bSsamtoolsrmdup3.SNP位点的检测3.1使用软件:samtools3.2过滤参数:2.半滑舌鳎基因组选择测序数据基因型的处理从测序公司获得SNPcalling的结果生成的vcf文件,上传到服务器中,通过Linux系统,进行SNP位点的提取与处理,得到基因组选择计算的基因型文件。处理方法为:读取:通过PLINK提取vcf文件中的SNP序列,获得.ped,.map文件:./plink--vcfsole.vcf.gz--recode12--allow-extra-chr--outplink_1将.ped与.map文件合并:nohup./plink--allow-extra-chr--fileplink_1--mergeplink_1.pedplink_1.map--merge-equal-pos--recode12--outmerge_1将数据按照染色体分割,并进行质量控制,质量控制阈值是基因分型率0.1;最小等位基因频率0.05;哈温平衡率0.000001。半滑舌鳎基因组中含有20对常染色体和一对性染色体(ZZ/ZW型)由于在基因组选择计算中,不能出现没有等位基因的位点,因此在前期处理中,需要将Z、W两条性染色体上的SNP位点剔除,只保留常染色体上的位点,代码如下:nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr1--outresult_qc_chr-1&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr2--outresult_qc_chr-2&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr3--outresult_qc_chr-3&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr4--outresult_qc_chr-4&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr5--outresult_qc_chr-5&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr6--outresult_qc_chr-6&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr7--outresult_qc_chr-7&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr8--outresult_qc_chr-8&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr9--outresult_qc_chr-9&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr10--outresult_qc_chr-10&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr11--outresult_qc_chr-11&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr12--outresult_qc_chr-12&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr13--outresult_qc_chr-13&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr14--outresult_qc_chr-14&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr15--outresult_qc_chr-15&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr16--outresult_qc_chr-16&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr17--outresult_qc_chr-17&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr18--outresult_qc_chr-18&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr19--outresult_qc_chr-19&nohup./plink--filemerge_1--geno0.1--maf0.05--hwe0.000001--recode12--allow-extra-chr--chr20--outresult_qc_chr-20&数据填充使用软件beagle进行数据填充,首先将上步所得的数据转换为beagle识别的文件格式:nohup./fcgene--pedresult_qc_chr-1.ped--mapresult_qc_chr-1.map--oformatbeagle--outplink_beagle_chr-1&nohup./fcgene--pedresult_qc_chr-2.ped--mapresult_qc_chr-2.map--oformatbeagle--outplink_beagle_chr-2&nohup./fcgene--pedresult_qc_chr-3.ped--mapresult_qc_chr-3.map--oformatbeagle--outplink_beagle_chr-3&nohup./fcgene--pedresult_qc_chr-4.ped--mapresult_qc_chr-4.map--oformatbeagle--outplink_beagle_chr-4&nohup./fcgene--pedresult_qc_chr-5.ped--mapresult_qc_chr-5.map--oformatbeagle--outplink_beagle_chr-5&nohup./fcgene--pedresult_qc_chr-6.ped--mapresult_qc_chr-6.map--oformatbeagle--outplink_beagle_chr-6&nohup./fcgene--pedresult_qc_chr-7.ped--mapresult_qc_chr-7.map--oformatbeagle--outplink_beagle_chr-7&nohup./fcgene--pedresult_qc_chr-8.ped--mapresult_qc_chr-8.map--oformatbeagle--outplink_beagle_chr-8&nohup./fcgene--pedresult_qc_chr-9.ped--mapresult_qc_chr-9.map--oformatbeagle--outplink_beagle_chr-9&nohup./fcgene--pedresult_qc_chr-10.ped--mapresult_qc_chr-10.map--oformatbeagle--outplink_beagle_chr-10&nohup./fcgene--pedresult_qc_chr-11.ped--mapresult_qc_chr-11.map--oformatbeagle--outplink_beagle_chr-11&nohup./fcgene--pedresult_qc_chr-12.ped--mapresult_qc_chr-12.map--oformatbeagle--outplink_beagle_chr-12&nohup./fcgene--pedresult_qc_chr-13.ped--mapresult_qc_chr-13.map--oformatbeagle--outplink_beagle_chr-13&nohup./fcgene--pedresult_qc_chr-14.ped--mapresult_qc_chr-14.map--oformatbeagle--outplink_beagle_chr-14&nohup./fcgene--pedresult_qc_chr-15.ped--mapresult_qc_chr-15.map--oformatbeagle--outplink_beagle_chr-15&nohup./fcgene--pedresult_qc_chr-16.ped--mapresult_qc_chr-16.map--oformatbeagle--outplink_beagle_chr-16&nohup./fcgene--pedresult_qc_chr-17.ped--mapresult_qc_chr-17.map--oformatbeagle--outplink_beagle_chr-17&nohup./fcgene--pedresult_qc_chr-18.ped--mapresult_qc_chr-18.map--oformatbeagle--outplink_beagle_chr-18&nohup./fcgene--pedresult_qc_chr-19.ped--mapresult_qc_chr-19.map--oformatbeagle--outplink_beagle_chr-19&nohup./fcgene--pedresult_qc_chr-20.ped--mapresult_qc_chr-20.map--oformatbeagle--outplink_beagle_chr-20&使用beagle软件进行数据填充,将缺失值计为0:nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-1.bglmissing=0out=imputed_beagle_chr-1&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-2.bglmissing=0out=imputed_beagle_chr-2&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-3.bglmissing=0out=imputed_beagle_chr-3&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-4.bglmissing=0out=imputed_beagle_chr-4&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-5.bglmissing=0out=imputed_beagle_chr-5&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-6.bglmissing=0out=imputed_beagle_chr-6&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-7.bglmissing=0out=imputed_beagle_chr-7&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-8.bglmissing=0out=imputed_beagle_chr-8&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-9.bglmissing=0out=imputed_beagle_chr-9&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-10.bglmissing=0out=imputed_beagle_chr-10&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-11.bglmissing=0out=imputed_beagle_chr-11&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-12.bglmissing=0out=imputed_beagle_chr-12&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-13.bglmissing=0out=imputed_beagle_chr-13&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-14.bglmissing=0out=imputed_beagle_chr-14&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-15.bglmissing=0out=imputed_beagle_chr-15&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-16.bglmissing=0out=imputed_beagle_chr-16&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-17.bglmissing=0out=imputed_beagle_chr-17&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-18.bglmissing=0out=imputed_beagle_chr-18&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-19.bglmissing=0out=imputed_beagle_chr-19&nohupjava-Xmx1000m-jarbeagle.jarunphased=plink_beagle_chr-20.bglmissing=0out=imputed_beagle_chr-20&将填充好的数据解压:gunzip-dimputed_beagle_chr-1.plink_beagle_chr-1.bgl.phased.gzgunzip-dimputed_beagle_chr-2.plink_beagle_chr-2.bgl.phased.gzgunzip-dimputed_beagle_chr-3.plink_beagle_chr-3.bgl.phased.gzgunzip-dimputed_beagle_chr-4.plink_beagle_chr-4.bgl.phased.gzgunzip-dimputed_beagle_chr-5.plink_beagle_chr-5.bgl.phased.gzgunzip-dimputed_beagle_chr-6.plink_beagle_chr-6.bgl.phased.gzgunzip-dimputed_beagle_chr-7.plink_beagle_chr-7.bgl.phased.gzgunzip-dimputed_beagle_chr-8.plink_beagle_chr-8.bgl.phased.gzgunzip-dimputed_beagle_chr-9.plink_beagle_chr-9.bgl.phased.gzgunzip-dimputed_beagle_chr-10.plink_beagle_chr-10.bgl.phased.gzgunzip-dimputed_beagle_chr-11.plink_beagle_chr-11.bgl.phased.gzgunzip-dimputed_beagle_chr-12.plink_beagle_chr-12.bgl.phased.gzgunzip-dimputed_beagle_chr-13.plink_beagle_chr-13.bgl.phased.gzgunzip-dimputed_beagle_chr-14.plink_beagle_chr-14.bgl.phased.gzgunzip-dimputed_beagle_chr-15.plink_beagle_chr-15.bgl.phased.gzgunzip-dimputed_beagle_chr-16.plink_beagle_chr-16.bgl.phased.gzgunzip-dimputed_beagle_chr-17.plink_beagle_chr-17.bgl.phased.gzgunzip-dimputed_beagle_chr-18.plink_beagle_chr-18.bgl.phased.gzgunzip-dimputed_beagle_chr-19.plink_beagle_chr-19.bgl.phased.gzgunzip-dimputed_beagle_chr-20.plink_beagle_chr-20.bgl.phased.gz对解压文件重命名:mvimputed_beagle_chr-1.plink_beagle_chr-1.bgl.phasedimputed_beagle_chr-1.bglmvimputed_beagle_chr-2.plink_beagle_chr-2.bgl.phasedimputed_beagle_chr-2.bglmvimputed_beagle_chr-3.plink_beagle_chr-3.bgl.phasedimputed_beagle_chr-3.bglmvimputed_beagle_chr-4.plink_beagle_chr-4.bgl.phasedimputed_beagle_chr-4.bglmvimputed_beagle_chr-5.plink_beagle_chr-5.bgl.phasedimputed_beagle_chr-5.bglmvimputed_beagle_chr-6.plink_beagle_chr-6.bgl.phasedimputed_beagle_chr-6.bglmvimputed_beagle_chr-7.plink_beagle_chr-7.bgl.phasedimputed_beagle_chr-7.bglmvimputed_beagle_chr-8.plink_beagle_chr-8.bgl.phasedimputed_beagle_chr-8.bglmvimputed_beagle_chr-9.plink_beagle_chr-9.bgl.phasedimputed_beagle_chr-9.bglmvimputed_beagle_chr-10.plink_beagle_chr-10.bgl.phasedimputed_beagle_chr-10.bglmvimputed_beagle_chr-11.plink_beagle_chr-11.bgl.phasedimputed_beagle_chr-11.bglmvimputed_beagle_chr-12.plink_beagle_chr-12.bgl.phasedimputed_beagle_chr-12.bglmvimputed_beagle_chr-13.plink_beagle_chr-13.bgl.phasedimputed_beagle_chr-13.bglmvimputed_beagle_chr-14.plink_beagle_chr-14.bgl.phasedimputed_beagle_chr-14.bglmvimputed_beagle_chr-15.plink_beagle_chr-15.bgl.phasedimputed_beagle_chr-15.bglmvimputed_beagle_chr-16.plink_beagle_chr-16.bgl.phasedimputed_beagle_chr-16.bglmvimputed_beagle_chr-17.plink_beagle_chr-17.bgl.phasedimputed_beagle_chr-17.bglmvimputed_beagle_chr-18.plink_beagle_chr-18.bgl.phasedimputed_beagle_chr-18.bglmvimputed_beagle_chr-19.plink_beagle_chr-19.bgl.phasedimputed_beagle_chr-19.bglmvimputed_beagle_chr-20.plink_beagle_chr-20.bgl.phasedimputed_beagle_chr-20.bgl使用R,对24对染色体上的所有数据进行合并,代码为:data1=read.table("imputed_beagle_chr-1.bgl",header=F)data2=read.table("imputed_beagle_chr-2.bgl",header=F)data3=read.table("imputed_beagle_chr-3.bgl",header=F)data4=read.table("imputed_beagle_chr-4.bgl",header=F)data5=read.table("imputed_beagle_chr-5.bgl",header=F)data6=read.table("imputed_beagle_chr-6.bgl",header=F)data7=read.table("imputed_beagle_chr-7.bgl",header=F)data8=read.table("imputed_beagle_chr-8.bgl",header=F)data9=read.table("imputed_beagle_chr-9.bgl",header=F)data10=read.table("imputed_beagle_chr-10.bgl",header=F)data11=read.table("imputed_beagle_chr-11.bgl",header=F)data12=read.table("imputed_beagle_chr-12.bgl",header=F)data13=read.table("imputed_beagle_chr-13.bgl",header=F)data14=read.table("imputed_beagle_chr-14.bgl",header=F)data15=read.table("imputed_beagle_chr-15.bgl",header=F)data16=read.table("imputed_beagle_chr-16.bgl",header=F)data17=read.table("imputed_beagle_chr-17.bgl",header=F)data18=read.table("imputed_beagle_chr-18.bgl",header=F)data19=read.table("imputed_beagle_chr-19.bgl",header=F)data20=read.table("imputed_beagle_chr-20.bgl",header=F)data2_12=data2[-c(1,2),]data3_12=data3[-c(1,2),]data4_12=data4[-c(1,2),]data5_12=data5[-c(1,2),]data6_12=data6[-c(1,2),]data7_12=data7[-c(1,2),]data8_12=data8[-c(1,2),]data9_12=data9[-c(1,2),]data10_12=data10[-c(1,2),]data11_12=data11[-c(1,2),]data12_12=data12[-c(1,2),]data13_12=data13[-c(1,2),]data14_12=data14[-c(1,2),]data15_12=data15[-c(1,2),]data16_12=data16[-c(1,2),]data17_12=data17[-c(1,2),]data18_12=data18[-c(1,2),]data19_12=data19[-c(1,2),]data20_12=data20[-c(1,2),]data_rbind=rbind(data1,data2_12,data3_12,data4_12,data5_12,data6_12,data7_12,data8_12,data9_12,data10_12,data11_12,data12_12,data13_12,data14_12,data15_12,data16_12,data17_12,data18_12,data19_12,data20_12);write.table(data_rbind,quote=F,row.names=F,col.name=F,file="imputed_rbind_all.bgl")q()将合并文件的各位点基因型转换为012:./fcgene--bglimputed_rbind_all.bgl--oformatplink--outbeagle_convert_plink./plink--filebeagle_convert_plink--geno0.1--maf0.05--hwe0.000001--recodeA--allow-extra-chr--outfinal_result删除文件的前六列,并转换为csv格式,生成基因组选择计算的基因型文件awk'{for(i=7;i<=NF;i++)printf$i""FS;print""}'final_result.raw>genotype.txtnohupcatgenotype.txt|sed's/[[:space:]]/,/g'>genotype.csv3.半滑舌鳎SNP位点的统计整理得到的基因型文件genotype.csv,共包含SNP位点1752901,分布在20个常染色体上,每个染色体上SNP位点数由51595-200654不等(图2)。三、参考群体的全基因组选择计算和SNP位点效应分析以参考群体的相对育种值(RBV)为表型,以参考群体测序所得SNP位点数据为基因型,进行基因组选择计算,使用的计算方法为BayesCπ,所使用的计算工具为R-packageBGLR,计算后获得每个SNP位点与抗病表型的相关性数值,整理输出.txt文件,作为各个SNP位点的遗传效应值,用于全基因组选择中的基因组育种值(GEBV)的估计。下面以牙鲆和半滑舌鳎为例进行详细说明。(一)、牙鲆全基因组选择的计算和SNP位点效应分析1.牙鲆全基因组选择计算公式牙鲆基因组选择计算选用Bayes算法,这种算法着重与计算各SNP位点的效应值,然后将所有SNP位点效应值相加,得到GEBV。SNP标记效应值的先验方差分布如下:BayesCπ的分析模型等式为:模型中,y为表型值,u为群体平均值,qi是标记效应服从正态分布qi~N(0,),m是标记的总数,X是与qi对应的关联矩阵,e是残差。2.牙鲆基因组选择计算方法使用R语言包BGLR所提供的BayesCπ算法,结合整理好的基因型数据genotype.csv与表型数据phonetype.csv,对全基因组重测序的参考群体和候选群体共988个牙鲆个体进行基因组选择计算,代码为:sink("outofanalysis.txt")library(bigmemory)library(biganalytics)library(BGLR)pheno_y=as.matrix(read.table("/phonetype.txt",header=T))y=pheno_y[,1]x=as.matrix(read.big.matrix("/genotype.csv",type="integer",header=T))nIter=22000;burnIn=2000;thin=100ETA<-list(MRK=list(X=x,model="BayesC"))fmBC<-BGLR(y=y,ETA=ETA,nIter=nIter,burnIn=burnIn,saveAt='BC_')save(fmBC,file="/fmBC.rda")RV=c(fmBC$varE,fmBC$SD.varE);RVDIC=c(fmBC$fit);DICPBC=fmBC$yhat;PBCSD=fmBC$SD.yhatwrite.table(PBC,quote=F,row.names=T,file="/PBC.txt")ghatBC<-x%*%fmBC$ETA$MRK$bwrite.table(ghatBC,quote=F,row.names=T,file="/ghatBC.txt")bhatBC<-fmBC$ETA$MRK$bSD.bhatBC<-fmBC$ETA$MRK$SD.bwrite.table(bhatBC,quote=F,row.names=T,file="/SNPBC.txt")write.table(SD.bhatBC,quote=F,row.names=T,file="/SNPBC.SD.txt")ryhat=c(cor(y,fmBC$yhat))ryhatRghat=c(cor(y,ghatBC))RghatghatBC<-x%*%fmBC$ETA$MRK$blm.reg=lm(fmBC$y~ghatBC)summary(lm.reg)sink()q()3.牙鲆SNP位点效应分析在988个重测序牙鲆个体进行基因组选择计算过程中,共得到397215个SNP位点的效应值,最大效应值是3.73E-4,最小效应值为1.18E-16(图3)。(二)、半滑舌鳎全基因组选择的计算和SNP位点效应分析1.半滑舌鳎基因组选择计算公式半滑舌鳎基因组选择计算同样选用Bayes算法,SNP标记效应值的先验方差分布如下:BayesCπ的分析模型等式为:模型中,y为表型值,u为群体平均值,qi是标记效应服从正态分布qi~N(0,),m是标记的总数,X是与qi对应的关联矩阵,e是残差。2.半滑舌鳎基因组选择计算方法同样使用R语言包BGLR所提供的BayesCπ算法,结合整理好的基因型数据genotype.csv与表型数据phonetype.csv,对全基因组重测序的参考群体和候选群体共886个半滑舌鳎个体进行基因组选择计算,代码为:sink("outofanalysis.txt")library(bigmemory)library(biganalytics)library(BGLR)pheno_y=as.matrix(read.table("/phonetype.txt",header=T))y=pheno_y[,1]x=as.matrix(read.big.matrix("/genotype.csv",type="integer",header=T))nIter=22000;burnIn=2000;thin=100ETA<-list(MRK=list(X=x,model="BayesC"))fmBC<-BGLR(y=y,ETA=ETA,nIter=nIter,burnIn=burnIn,saveAt='BC_')save(fmBC,file="/fmBC.rda")RV=c(fmBC$varE,fmBC$SD.varE);RVDIC=c(fmBC$fit);DICPBC=fmBC$yhat;PBCSD=fmBC$SD.yhatwrite.table(PBC,quote=F,row.names=T,file="/PBC.txt")ghatBC<-x%*%fmBC$ETA$MRK$bwrite.table(ghatBC,quote=F,row.names=T,file="/ghatBC.txt")bhatBC<-fmBC$ETA$MRK$bSD.bhatBC<-fmBC$ETA$MRK$SD.bwrite.table(bhatBC,quote=F,row.names=T,file="/SNPBC.txt")write.table(SD.bhatBC,quote=F,row.names=T,file="/SNPBC.SD.txt")ryhat=c(cor(y,fmBC$yhat))ryhatRghat=c(cor(y,ghatBC))RghatghatBC<-x%*%fmBC$ETA$MRK$blm.reg=lm(fmBC$y~ghatBC)summary(lm.reg)sink()q()3.半滑舌鳎SNP位点效应分析使用BGLR对886个重测序半滑舌鳎个体进行基因组选择计算,共得到1752901个SNP位点的效应值,最大效应值是3.83E-5,最小效应值为3.37E-19(图4)。四、候选群体的建立与全基因组重测序候选群体是指没有进行病原菌感染、没有抗病性状表型的鱼类家系个体,从不同家系中选择一部分不知抗病表型性状的鱼类家系个体或者在基因组选择实际应用与鱼类良种培育时,选取用于繁育的亲鱼作为候选群体,采集候选群体鱼的鳍条,提取鳍条基因组DNA,进行基因组文库构建和全基因组重测序,处理分析SNP位点数据,在缺失表型值的情况下,进行基因组选择计算;在参考群体基因组选择计算完成后,通过计算出的SNP位点的效应值,结合候选群体个体各SNP位点基因型,得到候选群体基因组估计育种值。下面以牙鲆和半滑舌鳎为例进行详细说明。(一)牙鲆抗迟缓爱德华氏菌病基因组选择候选群体的建立牙鲆抗迟缓爱德华氏菌基因组选择的候选群体选自2015年建立的牙鲆家系的父母本。包含其中38个家系的57个父母本个体组成候选群体,进行基因组选择计算,得到每个个体的基因组估计育种值(GEBV),应用于牙鲆抗病良种培育中。(二)半滑舌鳎抗哈维氏弧菌病基因组选择候选群体的建立半滑舌鳎抗哈维氏弧菌基因组选择候选群体选自2015年建立的半滑舌鳎家系的父母本。包含其中15个家系的23个父母本个体组成候选群体,进行基因组选择计算,得到每个个体的基因组估计育种值,应用于半滑舌鳎抗病良种培育中。五、参考群体和候选群体的个体基因组估计育种值(GEBV)分析根据获得的参考群体的每个SNP位点的遗传效应和不同个体各个SNP位点的基因型,计算得出参考群体的个体基因组估计育种值(GEBV);在计算结束后生成并输出.txt记录参考群体个体的GEBV。根据参考群体个体的GEBV,初步筛选出参考群体中抗病力较强的个体,以及这些个体所在的家系。根据参考群体个体的SNP位点效应和候选群体的SNP基因型,进一步计算获得候选群体个体的基因组估计育种值;根据候选群体的GEBV计算结果,计算GEBV值与实际感染存活率的相关系数,进而验证基因组选择计算结果的准确性。下面以牙鲆和半滑舌鳎为例进行详细说明。(一)、牙鲆基因组选择个体基因组估计育种值(GEBV)分析1.参考群体基因组估计育种值计算得到988个个体的基因组估计育种值(GEBV),其中参考群体个体共931个,将参考群体个体的GEBV与ASReml计算出的相对育种值(RBV)进行相关性分析,相关系数为:0.97(图5)。2.候选群体基因组估计育种值根据参考群体计算所得SNP位点效应值和候选群体个SNP位点的基因型,同时计算出了57个候选群体样品的基因组估计育种值(表7),根据子代的迟缓爱德华氏菌感染实验存活率进行排序,并将其GEBV进行排序,分析存活率和GEBV的相关性,相关系数为0.82。将57个候选群体按照性别分为父本、母本两组,分别对比其子代感染存活率和GEBV排序相关系数,母本组为0.81,父本组为0.89(图6,图7)。经感染实验选育出的存活率高于80%的牙鲆家系F1551、F1503、F1501、F1550,其父母本GEBV均高于平均值,且在计算出GEBV的前20%。表72015年牙鲆家系的亲本的基因组估计育种值(二)、半滑舌鳎基因组选择个体基因组估计育种值(GEBV)分析1.参考群体基因组估计育种值计算得到886个个体的基因组估计育种值(GEBV),其中参考群体个体共963个,将参考群体个体的GEBV与ASReml计算出的相对育种值(RBV)进行相关性分析,相关系数为:0.99(图8)。2.候选群体基因组估计育种值根据参考群体计算所得SNP位点效应值和候选群体各SNP位点的基因型,同时计算出了23个候选群体样品的基因组估计育种值(表8)。表82015年半滑舌鳎家系的亲本的基因组估计育种值六.鱼类抗病苗种的培育根据全基因组选择计算得出的候选群体基因组估计育种值的大小,在表型缺失的情况下,对候选群体的抗病力进行评估和排序;选择GEBV高的候选群体个体作为亲鱼,进行抗病苗种的繁育。繁育所得的子代苗种的抗病力显著提高,在后续进行的感染实验中,存活率高于对照组,经统计,基因组选择候选群体后代的感染存活率和养殖存活率比对照组高出20%-30%。可以在养殖生产中进行推广应用。下面以牙鲆和半滑舌鳎为例进行详细说明。(一)、牙鲆抗病苗种的培育2015年所建立的牙鲆家系,是多代选育的结果,经过自2007年开始的家系选育,选取日本牙鲆群体、韩国牙鲆群体和中国牙鲆抗蔓弧菌群体中的优良个体作为亲本,逐代以结合生长快、养殖存活率高、对鳗弧菌病抗病力强和对迟缓爱德华氏菌抗病力强等特性为目标,最终选育得到的牙鲆家系。在2015年牙鲆家系建立之后,进行了对比养殖,2015年11月,每个家系选取鱼苗200尾左右,做好荧光标记在同一水池混养。养殖7个月后,进行生长性状的测量和存活个体的统计,计算各家系日增重和养殖存活率。并且选取各家系牙鲆进行迟缓爱德华氏菌感染实验,采集样品用于基因组选择计算。以迟缓爱德华氏菌感染牙鲆家系鱼苗为参考群体,进行SNP位点效应分析,所得结果用于候选群体GEBV的计算,候选群体中包含上述感染的各家系亲本,根据GEBV计算结果,来自F1251、F1256、F1334等家系的候选群体个体的GEBV很高或较高,其繁殖所得牙鲆子代(命名为牙鲆鲆优2号),在迟缓爱德华氏菌感染后的存活率为74%,比对照组感染后的存活率(44%)高30%(图9)。同时鲆优2号的养殖存活率(64%)比对照组(39%)高25%(图10)。生长对比实验表明鲆优2号的生长(日增重)也比对照组快(高)(图11)。由此可见,本发明基于全基因组选择方法培育出的牙鲆鲆优2号良种具有抗病力强、养殖存活率高且生长较快的优势。“鲆优2号”的亲本,均为牙鲆抗迟缓爱德华氏菌基因组选择计算中的候选群体个体,计算所得GEBV和家系的实际感染存活率很高或较高。由此可见,“鲆优2号”是基因组选择技术应用于鱼类抗病良种培育的一个成功事例。(二)、半滑舌鳎抗病苗种的培育2014年,在完成了所有半滑舌鳎抗哈维氏弧菌基因组选择实验的参考群体的测序和GEBV的计算工作之后。根据参考群体基因组选择计算的结果,选择GEBV最高的个体所属的10个家系的雄鱼,作为2015年半滑舌鳎家系的候选亲鱼,进行单独养殖和营养强化。2015年9-11月,在建立半滑舌鳎家系时,选取上述雄鱼,建立半滑舌鳎家系15个,将这些家系的父本和配套的母本剪取鳍条,进行基因组DNA提取,建库测序,即为本实验中的候选群体。2016年8月,对2015年建立的30个家系进行哈维氏弧菌感染实验,其中有13个家系的父本为基因组选择候选群体。从感染结果可以看出,以基因组选择出的候选群体作为父本的家系,感染存活率大多较高(图12)。将参与感染的30个家系分为基因组选择父本和普通父本两个群体,其感染存活率分别为67.6%和43%,基因组选择苗种比普通苗种的存活率提高24.6%(图13)。感染实验的结果,证明经过基因组选择计算所筛选出候选群体作为亲本,可以有效提高半滑舌鳎养殖群体对哈维氏弧菌感染的抗病力和存活率,为半滑舌鳎抗病良种培育提供了新的、行之有效的分子育种技术手段。当前第1页1 2 3 当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1