估计皮肤内在年龄的表观遗传学方法与流程

文档序号:23628470发布日期:2021-01-12 10:42阅读:163来源:国知局

本发明涉及检测和分析基因组dna中胞嘧啶甲基化模式的方法。更具体地,本发明涉及检测和分析基因组dna中特定位点的胞嘧啶甲基化模式以确定皮肤内在年龄和健康。



背景技术:

众所周知,老化是主要由个体年龄驱动的多因素过程。皮肤老化是由内在和外在因素两者驱动的特别的多因素现象。就内在因素而言,个体的实足年龄是最为熟知的,但其他内在因素如个体的代谢、饮食、应激和潜在健康也对皮肤年龄有影响。除了这些内在因素之外,皮肤暴露于外部挑战如uv辐射、污染、干燥条件和极端温度。这些外在因素因此也影响个体皮肤年龄。

因此,显然存在两种不同形式的皮肤年龄:外在年龄,其由外在因素(即,源于角质层外表面的外部,然后其穿透角质层进入皮肤)引起的老化累积主导,尤其是由日光暴露主导(光老化);以及内在年龄,其为由于内源产生的因素所致的皮肤老化程度;换言之,不是由于外在因素所致的老化。为了理解起见,考虑个体的两种不同类型的皮肤是有帮助的。一种来自通常由衣服保护的部位(如臀部区域或上臂内侧区域)。另一种来自日光暴露部位(如面部或手背)。保护部位会极少暴露于外在老化因素,因此任何老化会归因于内在因素。暴露部位会完全暴露于外在老化因素,因此该区域老化的年龄会归因于内在因素导致的固有内在年龄和外在因素导致的老化两者的组合。

本发明涉及开发估计个体皮肤内在年龄的表观遗传学方法。

dna甲基化是基因表达的表观遗传学决定因素。cpg甲基化模式是可遗传的、组织特异性的,并且与基因表达相关。甲基化(特别是如果位于基因启动子中)的结果通常是基因沉默。dna甲基化还与其他细胞过程相关,所述细胞过程包括胚胎发育、染色质结构、基因组印记、雌性中的体细胞x染色体失活、外源dna的转录和转座的抑制以及dna复制时序(timingofdnareplication)。当基因被高度甲基化时,其不太可能被表达。因此,鉴别基因组中含有5-mec的位点对于了解基因表达的细胞类型特异性程序以及了解在正常发育、老化和疾病如癌症期间基因表达谱如何改变是重要的。dna甲基化模式的作图(mapping)对于了解多样生物学过程如印记基因的调节、x染色体失活和人类癌症中肿瘤抑制基因沉默是重要的。

horvaths.等人的“dnamethylationageofhumantissuesandcelltypes”(genomebiology14(2103)r115)报道了使用实足年龄的转化版本,其使用惩罚回归模型(弹性网)在cpgs上回归。弹性网回归模型选择被称为表观遗传学时钟cpgs的353个cpgs,因为它们的加权平均值(由回归系数形成)据称相当于表观遗传学时钟。该研究在本专利中称为“horvath研究”。

然而,我们现在已经发现,对于日光暴露皮肤部位,基于这些353个基因座的预测年龄比它们的实际(“实足”)年龄大约年轻9岁,表明它们没有检测日光诱导的皮肤损伤。另外,发现防晒皮肤样品的年龄比实足年龄年轻4岁,这是对防晒皮肤年龄的低估,预期防晒皮肤年龄与从其采集样品的受试者的实足年龄大致相同。因此,这些353个基因座不能识别光损伤和光保护皮肤类型之间的差异,低估了防晒皮肤的年龄,并且预测光损伤皮肤比光保护皮肤更年轻。因此,可以理解,该模型不能评估不同形式的老化-外在老化和内在老化。

因此,本发明旨在解决这种现有技术老化模型的不良性能,并提供用于评估皮肤内在年龄的改进方法。



技术实现要素:

我们已惊奇地发现,不同的、特定的甲基化位点集为内在皮肤年龄的预测提供提高的准确度。特别地,该位点能够预测保护皮肤的年龄,并且还能够给出令人惊奇地不受外在因素影响的暴露皮肤内在年龄。

因此,在第一方面,本发明提供用于获得可用于确定个体的皮肤内在年龄的信息的方法,所述方法包括以下步骤:

(a)从来源于所述个体的皮肤细胞获得基因组dna;以及

(b)观察所述基因组dna中选自下组的>30个cpg基因座的胞嘧啶甲基化:

从而获得可用于确定所述个体的所述皮肤内在年龄的信息。

基因组dna获自来源于个体的皮肤细胞。皮肤样品优选包含表皮,所述表皮是单独的或与真皮组合。

优选使用来自该组的>40个位点,更优选使用该组的>45、>50、>55、>60、>65、>70、>75、>80、>85个位点,最优选所有89个位点。

优选所观察的基因座是:

更优选所观察的基因座是:

在另一实施方案中,评估基因组dna中胞嘧啶甲基化,其中所述基因组dna在以上列出的cpg基因座名称的20kbp内,优选在15kbp内,更优选在10kbp内,还更优选在5kbp内,甚至更优选在1kbp内,最优选在0.5kbp内。

在第二方面,本发明提供用于获得可用于确定个体的皮肤内在年龄的信息的试剂盒,所述试剂盒包含:

-特异于生物样品中的>30个基因组dna序列的引物或探针,其中所述基因组dna序列在所述基因组dna中包含选自下组的cpg基因座,所述组仅由以下cpg基因座名称组成:

用于以下方法的试剂:

基因组dna聚合方法;

基因组dna杂交方法;

基因组dna直接测序方法;

基因组dna亚硫酸氢盐转化方法;或

基因组dna焦磷酸测序方法。

优选地,引物或探针特异于生物样品中的>40个基因组dna序列,更优选>45、>50、>55、>60、>65、>70、>75、>80、>85个,最优选引物或探针特异于该组中的所有89个位点。

优选地,引物或探针特异于皮肤样品中的基因组dna序列,最优选地,皮肤样品包含表皮,所述表皮是单独的或与真皮组合。

优选地,引物或探针特异于以下cpg基因座名称:

更优选地,引物或探针特异于以下cpg基因座名称:

在另一实施方案中,评估基因组dna中的胞嘧啶甲基化,其中所述基因组dna在以上列出的cpg基因座名称的20kbp内,优选在15kbp内,更优选在10kbp内,还更优选在5kbp内,甚至更优选在1kbp内,最优选在0.5kbp内。

优选地,试剂盒包含甲基化微阵列。

优选地,试剂盒包含dna测序方法。

具体实施方式

如所讨论的,皮肤中的老化过程是也在身体上变化的高度多因素现象。例如,保护皮肤比暴露皮肤受到少得多的损伤,并且因此显然来自同一个体的不同皮肤区域会具有不同程度的损伤,因此具有不同的“年龄”。

在本发明中,我们考虑两种形式的皮肤年龄:内在年龄;和外在年龄。

就内在年龄而言,个体的实足年龄是主导性的,但其他内在因素如个体的代谢、饮食、应激和潜在健康也有影响。因此,在本发明的上下文中,内在年龄意指由内源因素导致的皮肤年龄。

就外在年龄而言,固有年龄仍会是基本组成部分,但此外,外源因素如uv辐射、污染、干燥条件和极端温度也会有影响。因此,在本发明的上下文中,外在年龄意指主要由外源因素导致的皮肤年龄。

为了清楚起见:外在年龄由外在因素(即,源于角质层外表面的外部,然后其穿透角质层进入皮肤)引起的老化累积主导,尤其是由日光暴露主导(光老化);而内在年龄是由于内源产生的因素引起的皮肤老化程度;换言之,不是由于外在因素所致的老化。

本发明涉及开发估计个体皮肤内在年龄的表观遗传学方法。

数据集

本申请使用三个表观遗传学数据集。

-鉴别:第一数据集用于鉴别与皮肤中保护部位和暴露部位相关的甲基化位点。

-训练:第二数据集用于训练数学模型,其中评估从鉴别数据集鉴别的甲基化位点,确定最能够预测皮肤年龄的甲基化位点,并且构建预测模型。

-测试:最后,第三测试数据集用于评估这些甲基化位点在确定皮肤样品年龄中的准确度,以及这些甲基化位点的使用是否比在horvath研究中鉴别的那些更准确。

第一数据集(鉴别)是涉及24名中国女性和24名高加索女性参与者的单中心、横断面活检研究,其中已经登记了24名年轻女性和24名老年女性。从每个受试者的两个不同区域收集皮肤样品:来自皮肤暴露区域的样品;和来自皮肤保护区域的样品。指定为暴露的部位位于下臂外侧。保护部位位于上臂内侧,通常位于肘和腋窝区域之间的一半处。

第二训练数据集(训练)是公众可获得的数据集(bormannf.等人:reduceddnamethylationpatterningandtranscriptionalconnectivitydefinehumanskinaging.agingcell(2016)1-9.arrayexpressid:emtab-4385)。数据集包括总共108个表皮样品,48个样品已经从穿刺活检分离,所述穿刺活检是从24名年轻人(18-27岁)和24名老年人(61-78岁)的前臂外侧获得的。从60名20-79岁的志愿者的前臂外侧获得泡罩顶(suctionblisterroof)形式的60个样品。所有志愿者均为女性、高加索人,且无病。

最终测试数据集(测试)是公众可获得的数据集(vandivera.r.等人:ageandsunexposure-relatedwidespreadgenomicblocksofhypomethylationinnonmalignantskin.genomebiology(2015)16:80)geneexpressionomnibusaccessionnumber:gse51954)。数据集包括来自20名高加索受试者的表皮样品(n=38)。在局部麻醉下,从前臂外侧或侧向内眦赘皮(lateralepicanthus)(暴露区域)和上臂内侧(保护区域)收集成对的直径4mm的钻孔活检(punchbiopsy)样品。

训练数据集和测试数据集的选择

由以下标准指导数据集的选择。首先,训练和测试数据需要来自表皮皮肤(皮肤活检或者仅表皮)。所选的训练数据(bormann等人)来自皮肤活检和前臂外侧的泡罩,并且表皮样品可用于测试(vandiver等人)数据集。其次,训练数据需要在连续年龄上,而测试数据需要在年轻和年老的年龄组中都具有暴露样品和保护样品。第三,训练数据集中的平均年龄(47岁,标准偏差=21)需要并且与测试数据集的平均年龄(51岁,标准偏差=25岁)相当。

甲基化数据质量检查

所有三个数据集均使用杂交至infinium450k人甲基化微珠芯片的亚硫酸氢盐转化dna。

鉴别数据集中所有dna样品的甲基化数据均通过基于三个阵列质量度量(maplot,boxplot,heatmap)的质量检查。β-值计算为b=r/r+g,并且m-值计算为m=log2(r/g),其中r表示甲基化信号,而g表示未甲基化信号。将60的偏移量加至分母。m-值用于创建表达矩阵。使用分位数归一化对原始数据进行归一化。将β-值用于随后的建模和筛选统计结果。

对‘minfi’r软件包中的raw.idat文件进行训练数据集的质量控制和预处理。使用阵列归一化内的子集分位数(subset-quantilewithinarraynormalization,swan)对原始数据进行归一化。

对于测试数据集,执行swan所需的raw.idat文件不可用。因此,将提供的经illumina预处理的β值用于后续分析。还使用‘minfi’r软件包进行应用于数据的质量控制和预处理。

对数据的技术影响

对鉴别数据集使用主成分分析(pca)进行探索性分析。发现阵列间重复(between-arrayreplicate)不聚集在一起,可能是由于与阵列编号相关的分批效应(batcheffect)。测试数据集的聚集分析揭示了类似的阵列分批效应。在培训数据集上未看到技术分批效应。

分批效应校正数据

使用combat方法(johnsonw.e.等人:adjustingbatcheffectsinmicroarrayexpressiondatausingempiricalbayesmethods.biostatistics8(1)(2007)118-127),按照质量控制、归一化和阵列内重复的平均,对在鉴别数据集和测试数据集中观察到的阵列分批效应进行调整。在分批校正之后得到的数据集显示在阵列上没有聚集。其余生物效应仍然存在,并倾向于成为数据中的主要效应。

cpg基因座鉴别

如本文所用,cpg基因座是指在illuminacpg基因座数据库中找到的独特标识符(如technicalnote:epigenetics,cpglociidentificationilluminainc.2010,https://www.illumina.com/documents/products/technotes/technote_cpg_loci_identification.pdf中所述)。这些cpg位点标识符因此提供一致性和确定性的cpg基因座数据库以确保甲基化数据报告的一致性。

horvath表观遗传学时钟在预测防晒皮肤年龄方面的性能

来自horvath研究(其使用以上讨论的353个cpg位点)的年龄预测值针对测试数据集的暴露(se)样品和保护(sp)样品运行。使用线性回归评估horvath模型的性能,从线性回归获得r2(“pho”或“ρ”)。还计算中值误差(预测年龄相对于实际年龄)。结果在表1中提供。

*se和sp样品未配对。暴露受试者的年龄为34岁,保护受试者的年龄为30岁。

表1–使用来自horvath研究的预测值预测的暴露皮肤样品和保护皮肤样品年龄

可以看到,对于19个受试者中的15个受试者,horvath模型计算的暴露样品比保护样品更年轻,这是不正确的,因为预期经受暴露如uv辐射的样品比免于uv损害的样品更老。

对预测年龄的平均年龄加速显示日光暴露皮肤样品比实足年龄年轻9岁,这与暴露(尤其是日光暴露)引起皮肤过早老化的已知生理学相反。此外,对于仅与内在老化相关的模型,预期这会为保护样品和暴露样品给出大致相似的年龄。

另外,发现保护皮肤样品的年龄比实足年龄年轻4岁,这是对保护皮肤年龄的低估,预期保护皮肤年龄与从其采集样品的人的实足年龄大致相同。

因此可以得出结论,来自horvath研究的353个cpg位点不能识别暴露皮肤类型和保护皮肤类型之间的差异,也不能识别暴露皮肤中的内在老化效应,不正确地预测晒伤皮肤比防晒皮肤更年轻,并且低估了保护样品的年龄。

还发现通过horvath研究鉴别的353个cpg位点就保护样品的准确度评分而言性能较差。

保护样品的准确度评分为:

ρ=0.93(误差=16.6岁)。

因此可以理解,需要用于确定皮肤内在年龄的改进的表观遗传学方法。

与保护部位相关的甲基化位点的鉴别(来自鉴别数据集)

为了产生外在年龄列表和内在年龄列表,使用不同线性模型对归一化的分批校正数据进行总共5个比较(表2)。应用在多个测试校正列表(调整p值-adjp,benjaminihochberg)<0.05的统计截断设置以及δ-β>=0.05。

对于暴露部位年轻相对于年老的比较(比较1:n=10,649),检测大量差异甲基化cpg位点。对于年龄组相对于部位相互作用的比较(比较5:n=233),鉴别相对较少的差异甲基化cpg位点。

表2–统计结果。5个比较中的每一个的差异甲基化位点的数目,其中调整的截断值p为0.05

内在部位列表

为了鉴别仅捕获内在老化的cpg位点,筛选比较2(年轻相对于年老保护部位)结果以去除在年轻或年老中因部位改变的探针(比较3和4),以去除保护皮肤中可能另外受外在因素影响的任何老化变化。

得到的列表是1,575个cpg位点。对这些1,575个位点的pca分析允许鉴别在将保护部位归类为跨越两个种族的年轻组和年老组中贡献最大差异的位点。使用pca载荷来选择这些可变探针,施加到第一组分上的0.030载荷的截断值导致捕获年老组之间的最大变异性的322个探针。

保护部位的内在年龄预测值

从鉴别数据集鉴别以捕获内在年龄变化的322个cpg位点用于构建内在年龄模型,其中将与horvath研究中使用的相同的弹性网用于10组n/10大小的训练数据集(对9个数据集进行训练和对1个数据集进行测试)。将这些重复10次,并且获得每次迭代的平均“准确度”以给出用于计算年龄的模型和针对每个探针的系数。

通过运行模型的几次迭代得到预测值列表。第一次迭代鉴别最佳预测值集。对于每个后续迭代,从训练集中排除来自先前迭代的所鉴别的预测值,以鉴别下一最佳预测值集。重复迭代,直到发现以ρ和误差裕度测量的预测准确度不如上述horvath模型的预测准确度。

对于内在位点,进行了3次迭代。如表3所示,第一次鉴别了36个位点,第二次鉴别了53个位点,第三次鉴别了25个位点。

使用所得模型(其中从322个cpg位点的最终内在年龄列表中去除来自这3次迭代中的每一次迭代的位点)来估计来自测试数据集的保护样品的年龄。结果示于表4中。此外,计算得到的模型的防晒样品和日光暴露样品的平均年龄。结果示于表5中。表4和表5(斜体)中还显示了使用来自horvath研究的353个位点预测防晒年龄的模型的准确度,以供参考。

表3–内在年龄评分的预测值集

表4–模型的准确度

根据表4中所示的准确度量度,与使用353个horvath位点的模型(r2=0.93,误差=16.6岁)相比,包括在迭代1和迭代2中鉴别的位点的内在年龄的模型以更高或相等的准确度(r2=0.96,误差=5.7岁和r2=0.94,误差=12.6岁)和更好的误差执行。其余208个位点(其包括来自迭代3的25个位点)的测量准确度低于353个horvath位点。因此,与horvath模型相比,迭代1和迭代2的89个位点在预测内在年龄方面更佳。

表5–模型的平均年龄

预期来自日光暴露部位的样品的内在年龄会类似于来自防晒部位的样品的内在年龄。从表5可以看到,与horvath模型相比,本研究的模型在日光暴露部位和防晒部位的平均年龄之间具有较小的差异。这表明本文描述的模型在预测内在年龄方面优于horvath模型。

因此可以看到,使用选自表3中所示的迭代1和迭代2的cpg位点在确定皮肤内在年龄时提供更好的准确度。因此,本发明提供这些89个位点中>30个用于预测皮肤内在年龄。本发明还提供迭代2的53个位点作为优选组。本发明还提供迭代1的36个位点作为最优选组。

本发明的可选方案是,上述cpg位点也可以被替换,并且替代地使用最接近的基因。

表6提供了在迭代1和迭代2中鉴别的105个位点的注释(如price等人,epigenetics&chromatin2013,6:4,“additionalannotationenhancespotentialforbiologically-relevantanalysisoftheilluminainfiniumhumanmethylation450beadchiparray”中所述,使用humangenomeversionhg19),包括最接近的基因名称。

表6–在迭代1和迭代2中鉴别的cpg位点的注释

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1