本发明属于预测肿瘤疾病和年龄的试剂盒领域,特别涉及一种获取年龄、预测肿瘤疾病发生的实时荧光pcr试剂盒。
背景技术:
众所周知,dna甲基化是表观遗传中一种重要的化学修饰,是指dna甲基转移酶催化胞嘧啶环第5位碳原子形成5-甲基胞嘧啶(5mc)。人类单倍体基因组中约有5×107个cpg,它广泛分布在转座元件、其他重复的dna和大多数功能基因的编码区,几乎所有的甲基化胞嘧啶都发生在cpg二核苷酸。dna甲基化在维持基因组遗传物质稳定性和调控基因表达中起重要作用,与肿瘤,遗传病,自身免疫性疾病和衰老的发生密切相关。
dna甲基化与年龄之间存在一定的相关性。一些研究表明,人类dna甲基化的总体水平随着年龄的增长而降低,并且在细胞分化过程中dna维持甲基化的能力降低。dna甲基化涉及多种生物学过程,如胚胎发生、组织分化、基因组印记和x染色体失活。同时,dna甲基化状态可以通过暴露于各种环境刺激而改变,而dna甲基化状态的改变与人类肿瘤疾病的发生发展有着密切的关系。
根据之前的研究,使用real-time绝对定量pcr的方法建立检测htert基因的甲基化的数学模型,能很好地预测年龄,年龄误差达到4.29岁。在查阅大量的文献后,我们已经了解到htert是端粒酶逆转录酶,是人类端粒酶活性的中心,也是最重要、最常见的肿瘤特异性生化标志物之一,它也是一种参与恶性肿瘤发生发展的重要蛋白酶,其启动子区域的甲基化状态影响其表达。htert基因启动子含有大量cpg岛,具有富含gc的序列,表明htert表达可能受甲基化调节。在肿瘤细胞和组织中,大多数htert启动子是高甲基化的,但甲基化模式是复杂的。正常细胞或组织htert启动子主要是无甲基或仅低甲基化。近年来,htert启动子被用于调节溶瘤病毒、凋亡基因、抑癌基因和自杀基因等抗肿瘤基因的研究中,在实验中均具有明显的抗肿瘤作用。目前对htert基因甲基化的研究主要集中在肿瘤的发生机制、诊断和治疗方面。
201910294695.1公开了一种获得中国人群个体年龄的方法,只是提供一种获得中国人群女性个体年龄的方法和系统,未涉及男性个体年龄推断。本发明对htert基因启动子区域的cpg位点进行研究,发现三个位点与肿瘤相关,五个位点与年龄相关。本发明填补了一种更专一的通过检测中国人群个体htert基因启动子区域的特定cpg位点的甲基化水平来获得预测中国人群肿瘤疾病和年龄的方法。
技术实现要素:
本发明所要解决的技术问题是提供一种获取年龄、预测肿瘤疾病发生的实时荧光pcr试剂盒,克服现有技术只能获得中国人群女性个体年龄的方法的缺陷,本发明分析htert基因启动子区域不同的cpg位点的甲基化程度,确定哪些cpg位点与年龄相关,哪些cpg位点与肿瘤相关。因此,本发明将提供一种更专一的通过检测中国人群个体htert基因启动子区域的特定cpg位点的甲基化水平来获得预测中国人群肿瘤疾病和年龄的方法。
本发明通过msp(甲基化特异性聚合酶链反应)和real-time绝对定量pcr方法探讨了htert基因启动子区域cpg位点甲基化程度与人的年龄和肿瘤疾病发生的关系,拟合了有关肿瘤疾病和年龄的预测模型,对肿瘤细胞和血液样本进行了预测。
本发明的一种获取年龄、预测肿瘤疾病发生的实时荧光pcr试剂盒,包括:引物如seqidno.1-48所示。
本发明的一种获取年龄、预测肿瘤疾病发生的实时荧光pcr试剂盒的应用,具体为:
(1)提取个体样本的dna,进行dna甲基化的亚硫酸氢盐修饰;
(2)获得dna的htert基因启动子区域cpg位点甲基化程度,建立cpg位点甲基化程度与人的年龄、肿瘤疾病预测的回归模型,即可获得年龄和/或预测肿瘤疾病的发生;其中cpg位点为与肿瘤相关的cpg2、cpg5和cpg8三个位点,和/或与年龄相关的cpg1、cpg3、cpg4、cpg6和cpg7五个位点。
所述步骤(2)中获得dna的htert基因启动子区域cpg位点甲基化程度具体为:通过甲基化特异性聚合酶链反应和/或real-time绝对定量pcr获得。
所述甲基化特异性聚合酶链反应,扩增引物如seqidno.1-32所示;real-time绝对定量pcr过程均采用八对htert基因启动子区域扩增引物如seqidno.33-48所示。
表1:甲基化特异性聚合酶链反应引物seqidno.1-32:
表2:real-time绝对定量pcr的引物序列(seqidno.33-48):
所述步骤(2)中建立cpg位点甲基化程度与人的年龄、肿瘤疾病预测的回归模型具体为:
y1=187.043-120.054×a-60.363×b+132.123×c;
其中a、b、c分别代表cpg2、cpg5和cpg8的甲基化率;y1代表的是甲基化率;
y2=181.578-132.299×d-45.963×e-49.239×f+90.884×g+49.320×h;
其中e、f、d、g、h分别代表cpg1、cpg3、cpg4、cpg6和cpg7的甲基化率,y2代表的是年龄。
所述当y1≤50则为正常细胞;y1>50,则为肿瘤细胞。
检测htert基因启动子区域cpg位点甲基化程度,通过分析发现cpg2、cpg5和cpg8与肿瘤疾病的发生密切相关(p<0.05)。剩下的5个cpg位点在单独预测年龄的时候,误差较大;组合起来建立模型,得到的结果与之前相似,平均年龄误差为4.35岁。
有益效果
(1)本发明涉及到的real-time绝对定量pcr,比焦磷酸测序,二代测序等,更加的方便和经济,能更好的适用于大量样本的检测;
(2)htert基因在其他的研究中只是和癌症相关,没有将其和年龄关联起来,而且在其他的发明中用于年龄的预测往往是多个基因,增加了预测的复杂性,本发明仅利用htert基因能更好的对个体肿瘤疾病的预测和年龄的推断;
(3)由实施例数据可以看出,本发明的方法针对htert基因启动子区域的8个cpg位点进行了划分,发现cpg2、cpg5和cpg8与肿瘤密切相关(p<0.05),剩下的5个cpg位点仍能很好的预测年龄;
(4)现有技术中如:201910294695.1公开了一种获得中国人群个体年龄的方法,只是对htert基因的启动子区域进行了研究,没有涉及cpg位点;而且它只是建立的数学模型预测年龄。而本发明是对htert基因启动子区域的cpg位点进行了研究,涉及到对肿瘤疾病的发生和预测年龄两方面。分别建立的两种多重线性回归模型,在预测这两方面的工作时更加的准确。
附图说明
图1为通过msp分析正常细胞和肿瘤细胞htert基因启动子区域甲基化程度;
图2为通过msp(甲基化特异性聚合酶链反应)分析正常细胞和肿瘤细胞htert基因8个cpg位点的甲基化程度;
图3为每个cpg位点甲基化与htert基因启动子区域整体甲基化的比值;
图4为正常细胞与肿瘤细胞中每个cpg位点甲基化的比值;
图5为单个cpg位点建立模型的验证;
图6为多重线性回归方程建立模型的验证。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
实施例1
1.样本的收集和dna的提取
收集qsg-7701人类正常肝细胞、293t人胚肾细胞、sh-sy5y人的神经母细胞瘤细胞、hct116人结肠肿瘤细胞、smmc-7721和hepg2人类肝肿瘤细胞。使用dneasy血液和组织试剂盒(qiagen)根据制造商的方案提取基因组dna,终体积为100μl。最后,通过1%琼脂糖凝胶电泳分离完整性。
2.亚硫酸氢盐修饰
使用ezdnamethylation-goldkit(no.d5005)试剂盒,转化体积为20μl的基因组dna(200ng),其中未甲基化的胞嘧啶转化为尿嘧啶,甲基化的胞嘧啶未改变。在3小时内完全转化富含gc的dna。两个热变性反应步骤简化了未甲基化的胞嘧啶向尿嘧啶的转化。总反应体积为10μl。dna可以立即进行分析,也可以在-20℃或更低温度下保存,以备日后使用。对于长期储存,储存在等于或低于-70℃。
3.甲基化特异性聚合酶链反应(msp)
硫化后dna序列中的甲基化胞嘧啶保持不变,而未甲基化的胞嘧啶转化为尿嘧啶,并且在pcr反应期间尿嘧啶可被脱氧胸苷取代。
methprimer设计的8个cpg位点的特异性引物(每个位点两对,m表示甲基化;u表示未甲基化),见表1。及其序列如表1所示,用于检测dna序列中的甲基化状态,具有所需dna含量极少,不需要特定限制性位点和高灵敏度的优点。msp技术反应条件:98℃变性10秒,60℃退火30秒,72℃延伸1分钟,共40个循环。将扩增产物在含有溴化乙锭的2%琼脂糖凝胶上电泳(见图1),并在uv检测器下观察。m-引物扩增产物的存在表明存在dna甲基化。u-引物中扩增产物的存在是不存在dna甲基化。如果扩增产物同时存在,则考虑部分dna甲基化。
4.real-timepcr
通过甲基化标准对htert基因甲基化进行绝对定量,用双蒸水作为溶剂将人甲基化标准品混合物梯度稀释,浓度为100,80,60,40,20ng/μl,并在4℃下保存。以不同浓度的标准品作为反应底物实施real-timepcr。将反应的ct值作为横坐标,将标准dna的量作为纵坐标来制作标准曲线,应用real-time绝对定量pcr的8个cpg位点的引物(见表2),检测htert基因启动子区域8个cpg位点的甲基化程度。
5.数据分析
来自正常细胞的dna样本和来自肿瘤细胞的dna样本用于筛选htert基因启动子区域8个cpg位点,将mann-whitney检验应用于该分析(p<0.05被认为具有统计学显著性差异),两者之间的甲基化值显著不同。
根据软件分析得到htert基因启动子区域8个cpg位点,分别计算qsg-7701、293t、smmc-7721和hepg2细胞中htert基因每个cpg位点在整个启动子区域所占的百分比,比较正常细胞与肿瘤细胞之间的区别。根据初步确定的结果,将剩下的几个cpg位点应用到血液样本中,验证是否与之前的结果相一致。
在这个阶段建立两个多重线性回归模型(疾病样本和正常样本),回归模型预测的准确性使用调整后的r2进行评估。
在本申请具体实施方式中,采用real-time绝对定量pcr的方法建立的多重线性回归模型进行肿瘤疾病的预测和年龄的推断,其中预测肿瘤疾病的数学模型r2=0.8798,p<0.0001;年龄推断的数学模型r2=0.9350,p<0.0001。在上述回归模型中,r2为相关系数或多元决定系数,表示拟合度,越大表示方程拟合度越好,其也代表模型的准确性,p为显著性,用于判断构建的方程是否有意义,小于0.05就可以说构建的方程有统计学意义。
肿瘤疾病的预测和年龄的推断的多重线性回归模型分别是:
y1=187.043-120.054×a-60.363×b+132.123×c
y2=181.578-132.299×d-45.963×e-49.239×f+90.884×g+49.320×h
回归模型中的a、b、c分别代表cpg2、cpg5和cpg8的甲基化率;e、f、d、g、h分别代表cpg1、cpg3、cpg4、cpg6和cpg7的甲基化率。y1代表的是甲基化率(正常细胞y1≤50;肿瘤细胞y1>50),y2代表的是年龄。
根据本申请的具体实施方式,利用甲基化特异性聚合酶链反应和来探索htert基因启动子区域cpg位点甲基化程度与人的年龄和肿瘤疾病发生的关系。基于甲基化分析,发现cpg2、cpg5和cpg8与肿瘤疾病发生密切相关(p<0.05),并分别建立了对肿瘤疾病预测和年龄推断的多重线性回归模型。剩下的5个cpg位点在单独预测年龄的时候,误差较大;组合起来建立模型,得到的结果与之前相似,平均年龄误差为4.35岁。这种可靠的方法可用于法医学年龄的预测和临床医学疾病的辅助诊断。
附图1:每个细胞同时对应两条条带:甲基化条带和未甲基化条带;pos代表的是阳性对照,neg代表的是阴性对照。根据methprimer软件设计的htert基因整个启动子区域的引物进行了甲基化特异性pcr,结果见图。从实验结果可以看出在正常细胞之中(qsg和293t),甲基化条带是比较弱的;但是在肿瘤细胞中(smmc-7721、shsy5y、hepg2和hct116),甲基化条带是明显增强的,这说明htert基因的启动子区域的甲基化程度在正常细胞和肿瘤细胞中是不同的,以此我们开展接下来的研究。
附图2:根据软件分析得到htert基因启动子区域8个cpg位点,并设计相应的8对引物,通过甲基化特异性pcr来分析他们之间的差异,结果如图。可以看出,各个cpg位点的甲基化程度在正常细胞和肿瘤细胞中是不同的,甚至在两种肿瘤细胞(smm-7721和hepg2)中也呈现出不一样的状态,例如cpg1和cpg2在两种肿瘤细胞中甲基化程度是不同的。所以,使用甲基化特异性pcr的方法很难对每个cpg位点的甲基化状态进行一个很准确的定量。
附图3:可以看出8个cpg位点在正常细胞(qsg和293t)中,甲基化都呈现一个比较低的趋势,在肿瘤细胞(smmc和hepg2)中,有明显增高的趋势。
附图4:接下来,我们将正常细胞与肿瘤细胞的8个cpg位点的甲基化程度进行了比较,cpg2、cpg5和cpg8差异比较明显,cpg8最为显著。
附图5:我们先单独对5个cpg位点(cpg1、cpg3、cpg4、cpg6和cpg7)进行验证,看单独cpg位点预测的年龄误差是否还和之前的研究结果相一致,每个年龄段选取三个样本,cpg1预测的平均年龄误差为4.99岁;cpg3预测的平均年龄误差为5.95岁;cpg4预测的平均年龄误差为5.46岁;cpg6预测的平均年龄误差较大为5.15岁;cpg7预测的平均年龄误差为5.55岁(p<0.05)。之前我们用htert基因作为标志物预测的年龄误差在4.29岁,虽然单独cpg位点在预测年龄的时候偏差比较大,但是有文献报道过当这些cpg位点组合起来的时候,能大大减低预测年龄的误差。
附图6:我们根据建立的与年龄相关的多重线性回归方程,预测这5个cpg位点组合起来后预测年龄与实际年龄的平均误差。每个年龄段选取8个样本。结果如图所示,根据统计得出r2=0.9525,可以解释样本的95%的年龄差异;p(two-tailed)<0.0001具有很高的统计学意义;最终得到的预测年龄与实际年龄的误差为4.35岁,与之前预测的年龄误差相差无几。
表3就是通过mann-whitney测试正常细胞与肿瘤细胞之间候8个cpg位点的p值,结果发现只有cpg2、cpg5和cpg8的p值小于0.05。
表3:mann-whitney测试正常细胞与肿瘤细胞之间候8个cpg位点的甲基化值
表4:不同群体的回归模型
sequencelisting
<110>东华大学
<120>一种获取年龄、预测肿瘤疾病发生的实时荧光pcr试剂盒
<130>1
<160>48
<170>patentinversion3.3
<210>1
<211>25
<212>dna
<213>人工序列
<400>1
gaagcgtaggttttaggaggttatc25
<210>2
<211>25
<212>dna
<213>人工序列
<400>2
atacgataaaaaacgaatcaattcg25
<210>3
<211>25
<212>dna
<213>人工序列
<400>3
agtgtaggttttaggaggttattgt25
<210>4
<211>25
<212>dna
<213>人工序列
<400>4
acaataaaaaacaaatcaattcaaa25
<210>5
<211>20
<212>dna
<213>人工序列
<400>5
gtttgggagggttttttagg20
<210>6
<211>22
<212>dna
<213>人工序列
<400>6
cccacccctttacctaattcta22
<210>7
<211>24
<212>dna
<213>人工序列
<400>7
ataattttgaattagggaggttag24
<210>8
<211>20
<212>dna
<213>人工序列
<400>8
aaaaaacccacacctacttc20
<210>9
<211>21
<212>dna
<213>人工序列
<400>9
aggggagtagggtaagtgagg21
<210>10
<211>24
<212>dna
<213>人工序列
<400>10
aacaaaaccatttccccctaatat24
<210>11
<211>20
<212>dna
<213>人工序列
<400>11
gttgagtttaggagttttat20
<210>12
<211>20
<212>dna
<213>人工序列
<400>12
ctttaaaaaatttaaccacc20
<210>13
<211>25
<212>dna
<213>人工序列
<400>13
ttgagaatttgtaaagagaaatgac25
<210>14
<211>20
<212>dna
<213>人工序列
<400>14
taaaaacgaacccgaaaacg20
<210>15
<211>26
<212>dna
<213>人工序列
<400>15
ttgagaatttgtaaagagaaatgatg26
<210>16
<211>24
<212>dna
<213>人工序列
<400>16
actaaaaacaaacccaaaaacaca24
<210>17
<211>28
<212>dna
<213>人工序列
<400>17
ggaggtttagtaagttttttggattgtg28
<210>18
<211>28
<212>dna
<213>人工序列
<400>18
aaaacctactcctcccttaaaaattaca28
<210>19
<211>25
<212>dna
<213>人工序列
<400>19
tattagaagaatggattttttgtgg25
<210>20
<211>25
<212>dna
<213>人工序列
<400>20
tatacctttcattccatccaaccta25
<210>21
<211>25
<212>dna
<213>人工序列
<400>21
ttgagaatttgtaaaaaacaaatac25
<210>22
<211>23
<212>dna
<213>人工序列
<400>22
catttctctttacaatataaaaa23
<210>23
<211>21
<212>dna
<213>人工序列
<400>23
atataaaaatttatttttttt21
<210>24
<211>26
<212>dna
<213>人工序列
<400>24
ttgagaatttgtaaatgagaatttgt26
<210>25
<211>25
<212>dna
<213>人工序列
<400>25
atataaaaaccctaaaaacaaatac25
<210>26
<211>26
<212>dna
<213>人工序列
<400>26
ttgagaatttgtctaaaaacaaatac26
<210>27
<211>23
<212>dna
<213>人工序列
<400>27
aaatacctccctacaacacttcc23
<210>28
<211>26
<212>dna
<213>人工序列
<400>28
aatataaaaacccttacaacacttcc26
<210>29
<211>25
<212>dna
<213>人工序列
<400>29
ttgagaatttgtaaaagagaaatga25
<210>30
<211>26
<212>dna
<213>人工序列
<400>30
tttggttttattttaaaaacaaatac26
<210>31
<211>28
<212>dna
<213>人工序列
<400>31
catttctctttacacctccctacaacac28
<210>32
<211>24
<212>dna
<213>人工序列
<400>32
agaatttgtaaagagaatttgtaa24
<210>33
<211>25
<212>dna
<213>人工序列
<400>33
tttggttttattttttatttttttt25
<210>34
<211>25
<212>dna
<213>人工序列
<400>34
catttctctttacaaattctcaaac25
<210>35
<211>27
<212>dna
<213>人工序列
<400>35
ggatgtgattagatgttggttttattt27
<210>36
<211>25
<212>dna
<213>人工序列
<400>36
catttctctttacaaattctcaaac25
<210>37
<211>25
<212>dna
<213>人工序列
<400>37
tttggttttattttttatttttttt25
<210>38
<211>23
<212>dna
<213>人工序列
<400>38
aaatacctccctacaacacttcc23
<210>39
<211>25
<212>dna
<213>人工序列
<400>39
tttgagaatttgtaaagagaaatga25
<210>40
<211>26
<212>dna
<213>人工序列
<400>40
aatataaaaaccctaaaaacaaatac26
<210>41
<211>24
<212>dna
<213>人工序列
<400>41
ttgagaatttgtaaagagaaatga24
<210>42
<211>26
<212>dna
<213>人工序列
<400>42
aatataaaaaccctaaaaacaaatac26
<210>43
<211>25
<212>dna
<213>人工序列
<400>43
tttgagaatttgtaaagagaaatga25
<210>44
<211>25
<212>dna
<213>人工序列
<400>44
atataaaaaccctaaaaacaaatac25
<210>45
<211>24
<212>dna
<213>人工序列
<400>45
ttgagaatttgtaaagagaaatga24
<210>46
<211>25
<212>dna
<213>人工序列
<400>46
atataaaaaccctaaaaacaaatac25
<210>47
<211>26
<212>dna
<213>人工序列
<400>47
gtttgagaatttgtaaagagaaatga26
<210>48
<211>25
<212>dna
<213>人工序列
<400>48
atataaaaaccctaaaaacaaatac25