一种高效的基于Y染色体特异序列鉴定山羊性别的方法

文档序号:30311585发布日期:2022-06-05 13:37阅读:293来源:国知局
一种高效的基于Y染色体特异序列鉴定山羊性别的方法
一种高效的基于y染色体特异序列鉴定山羊性别的方法
技术领域
1.本发明属于动物性别鉴定技术领域,具体涉及一种基于y染色体特异序列鉴定山羊性别的方法。


背景技术:

2.山羊,是人类最早驯化的一种家畜,由于其具有繁殖率高、适应性强、易管理等特点,因而广泛饲养于我国的农牧地区。由于雌性和雄性山羊的适宜配种时期和饲养方式均存在一定的差异,不同性别的山羊通常独立饲养,以期获取品质较高的山羊。因此,性别区分在山羊的饲养过程中是不可或缺的。
3.在遗传学兴起之前,鉴定动物性别仅能通过雌雄外形来判定。在哺乳动物中,性别决定包括性染色体造成的初级性别决定和激素作用下的次级性别决定。哺乳动物的雌性性染色体组成为xx,雄性为xy,其中y染色体只能通过雄性传递到子代的雄性个体中去。在早些时期,性别鉴定主要利用胚胎细胞染色体核型分析法,通过细胞在分裂中期的染色体形态判断是否存在y染色体,从而确定胚胎性别。此方法准确性高,但实验操作难度大,耗时长,难以应用于生产实际中。另一种生物化学的方法是在胚胎的特定时期检测由x染色体调控的特异性酶活性,对着床前的胚胎进行性别鉴定。但这种方法有较多的限制:实验试剂可能存在毒性而降低胚胎存活力;不同物种早期胚胎特异性酶活性增强的准确时间尚不确定,且不同样品之间存在个体差异,容易产生误判;同时,此方法只能进行胚胎的性别鉴定,无法对出生后的个体进行鉴定。在生产中也使用免疫学方法来鉴定胚胎性别,利用h-y抗原血清来检测胚胎中雄性特异性h-y抗体的存在。这类方法相较之前的方法更为简便可行,但仍存在很多的问题:存在损害胚胎的风险;胚胎的生长时期存在个体差异,容易造成估计的不准确等。
4.随着分子生物学的发展,dna水平的性别鉴定被广泛应用于生产实际中。目前应用的主要手段为聚合酶链式反应,即pcr技术。pcr技术主要是通过扩增y染色体上的sry基因并利用凝胶电泳检测sry基因是否存在来鉴定性别。此外,在某些物种中,如在人类的y染色体上还找到了特异性的微卫星标记,用于辅助性验证。近年来二代测序的快速发展,推动了人们对遗传信息的探索并完成了大量动物的基因组测序工作,这极大的促进了全基因组重测序工作的进行。高通量测序技术还可以获取到包含与性别决定相关的序列信息,为性别鉴定提供了可能。因此,需要一种新的思路,利用重测序数据对大规模群体进行准确有效的性别鉴定。目前山羊的y染色体尚未被完整测序,根据人类和其他动物的y染色体测序结果估计(benjamin m skinne et al,2016),y染色体除了5%的拟常染色体区域,其余95%为非重组区域,即nry(non-recombining region of the y chromosome),不发生配对交换现象。nry区包括异染色质序列和常染色质序列,其中常染色质序列包括x移位区(x-transposed)、x退化区(x-degenerate)和扩增区(ampliconic)。山羊nry区域存在大量的雄性特异序列,这些序列长短不一,与雌性山羊基因组仅仅具有极低或者完全没有同源性;因此,理论上通过雌雄序列比较可以筛选精准的y染色体雄性特异序列集合,再通过生物学手
段鉴定全基因组测序的山羊个体的性别。


技术实现要素:

5.本发明的目的在于有效准确的鉴定已知重测序数据的山羊个体的性别,通过已知性别的个体数据筛选y染色体特异序列,并利用筛选到的序列与未知样品的重测序数据进行比对,直接通过比对率差异区分公母,以鉴定个体的性别。
6.为了实现上述目的,本发明采用以下技术方案:
7.用于鉴别山羊性别的y染色体特异序列,所述特异序列的核苷酸序列如seq id no.1~24所示。
8.上述y染色体特异序列在山羊性别鉴定中的应用,包括以下步骤:将未知性别的山羊的全基因组重测序数据与上述y染色体特异序列进行比对,根据比对率鉴定性别。
9.具体地,若比对率≥0.04%,则鉴定为雄性个体,若比对率为0.00%,则鉴定为雌性个体。
10.与现有技术相比,本发明具有以下优点及有益效果:
11.1、本发明采用序列相似性比对的方法,不需要通过具体的生物分子实验操作,不需要特定的鉴定时期,减少了实验成本。
12.2、本发明不需要生物样本组织,可以解决缺失原始样本组织而无法进行分子水平实验验证的问题。
13.3、本发明能够一体化运行,只需要提供相应物种的全基因组重测序数据和待测个体的全基因组测序,便可利用软件自动运行,可操作性强,耗时短并且结果准确性高。
14.4、本发明可解决没有sry基因的物种的性别鉴定,应用更加广泛。
具体实施方式
15.实施例1山羊y染色体特异序列的获得
16.一、山羊全基因组序列数据的获取
17.本实施例中所使用的山羊样本是从ncbi上下载的20头山羊的全基因组双端重测序数据(bioproject number:prjeb3135),其中雌性山羊13头,雄性山羊7头。具体信息如表1所示。
18.表1 下载的山羊全基因组重测序数据信息
[0019][0020]
二、样品质量控制
[0021]
在illumina测序过程中需要添加接头序列,而这些序列可能作为原始测序数据的一部分被用于后续的序列比对,因此需要提前将这些接头序列去除以避免影响分析结果。利用trimmomatic对下载的数据进行质量控制,去除接头并过滤质量低的reads,然后使用fastqc进行质量检测,使测序数据符合分析标准。
[0022]
三、序列比对
[0023]
从下载的样品中随机抽取性别分别为一公一母的两个样品,作为已知性别的标准样品。使用bwa分别将两个质量控制后的测序文件与已下载的该物种y染色体参考序列进行序列比对,生成sam格式的结果文件。
[0024]
四、比对结果处理
[0025]
原始比对结果存在文件占储存空间过大、比对片段次序混乱等问题,也可能存在低质量结果导致的假阳性比对错误,因此需要进行质量过滤和排序。使用samtools和picard进行排序和去除假阳性重复,并保存为二进制的bam文件。
[0026]
五、获得y染色体特异序列
[0027]
利用samtools的“depth”工具对两个处理后的结果文件分别进行深度计算,生成一公一母两个深度统计文件,利用linux“awk”和“paste”命令整合两个深度文件,作为y染色体特异序列识别脚本的输入文件。然后,利用自主构建的python脚本,设定50bp滑窗,筛选满足雄性深度大于a倍(可选参数,默认10)、雌性深度小于b倍(可选参数,默认1)的基因
位点的窗口,并将其拼接成长段序列(可指定长度,默认大于1,000bp),最后输出y染色特异序列,共24条长段序列,其核苷酸序列如seq id no.1-24所示。
[0028]
实施例2y染色体特异序列在山羊性别鉴定中的应用
[0029]
利用bowtie2将待测个体的全基因组测序数据与筛选到的y染色体特异序列进行比对,统计样品比对率。
[0030]
表2 公山羊比对率结果统计表(单位:%)
[0031][0032]
表3 母山羊比对率结果统计表(单位:%)
[0033][0034]
鉴定结果的统计分析
[0035]
比对率的检验,分类资料某一类别的个体数服从二项分布,因此对不同性别样品比对率进行分类资料的假设检验,在比对率差异显著的情况下进行率的区间估计以确定鉴定性别的阈值。
[0036]
(1)分类资料的假设检验
[0037]
利用统计得到的数据,对不同性别比对率的差异进行检验:
[0038]
设p1是雌性山羊总比对率,p2是雄性山羊总比对率,根据实际情况,此处应做左侧检验,检验假设h0:p1=p2,不同性别比对率相等;ha:p1《p2,雄性比对率高于雌性。
[0039]
率的检验中分类资料某一类别的个体数服从二项分布,但由于样本很大,p接近正态分布,计算检验统计量:
[0040][0041][0042]
取显著性水平α=0.005时,z=-28.8624《-u

=-2.5758,由此可以否定原假设,接受备择假设,即雄性比对率显著高于雌性比对率。
[0043]
(2)确定雌性比对率
[0044]
分析可知,对于y染色体的特异性序列,母山羊理论上属于完全无法比对上,比对率应为0,与实验数据观察值一致,因此规定将比对率为0.00%的检测个体鉴定为雌性。
[0045]
(3)雄性比对率的阈值估计
[0046]
采用属于二项分布资料的率的区间估计方法。山羊的比对率统计符合二项分布,使用样本比对率p作为总体概率p的点估计,因为样本很大,此时的统计量p接近正态分布。
[0047]
样本比对率p=460
÷
1200000=3.8333
×
10-4
[0048]
取α=0.01,u
α
=2.5758,总体概率p的左侧临界值为p-u
α
×sp
,则总体比对率的置信度为99%时,总体概率的左侧临界值为3.7301
×
10-4
,即0.0370%。
[0049]
基于上述计算结果,本实验中取0.04%作为确认为雄性个体的阈值,即当比对率为0.00%时鉴定为雌性个体,当比对率大于等于0.04%时鉴定为雄性个体,当比对率介于两者之间时,作为难以判断性别的特殊个体。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1