增强子在全基因组相互作用研究方法

文档序号:6519805阅读:1107来源:国知局
增强子在全基因组相互作用研究方法
【专利摘要】本发明涉及一种增强子在全基因组相互作用研究方法,属于基因【技术领域】。该方法步骤为:(1)数据转换:采用UCSC网站liftover软件把增强子数据转换成hg18,对1760个增强子长度和分布进行统计分析。(2)数据过虑:过虑掉两个染色质片段距离小于100kb的数据,得到hESC细胞系、IMR90细胞系以及它们的重复实验基因表达数据,求平均值。(3)数据注释:将过虑好的数据比对到增强子数据中,统计不同细胞能捕获到的增强子数。(4)结果分析:比较增强子在全基因组范围相互位点数据。本发明能很好地得到细胞核内染色质三维构象的信息,能知道基因的表达调控信息,鉴定一些未知调控序列,这些技术在鉴定全基因组上的长距离作用起着十分重要的作用。
【专利说明】增强子在全基因组相互作用研究方法【技术领域】
[0001]本发明涉及一种增强子在全基因组相互作用研究方法,属于基因【技术领域】。
【背景技术】
[0002]随着人类基因组计划的结束,分子生物学家研究开始转向功能基因组,并已经开始着手寻找基因组功能片段。很多功能元件例如增强子(enhancers)、位点控制区域(LCRs),在染色质座位上远离其靶基因,这为我们发现和鉴定带来了困难。最近有研究表明,染色质可以通过相互作用对转录进行反式调控。研究细胞核内三维空间中功能元件的相互作用可以帮助我们了解基因组的功能调控机制。 [0003]增强子是一类短的DNA序列,其通过转录因子的介导能增强基因的表达水平。增强子一类典型的远距离调控元件,它可以位于基因的远端,甚至位于不同的染色体。增强子一般是通过比较基因组技术和增强子捕获技术(enhancer trap techniques)鉴定。
[0004]研究染色质相互作用的主流技术都是基于染色体捕获技术(chromatinconformation capture, 3C)而建立的,从2002年最初的染色体捕获技术到现在的Hi_c,历经10余年的研究,科学家已经累积了很多染色质相互作用的数据。由于H1-c能无偏差全基因组范围捕获染色质与染色质相互作用,且通量巨大。本发明选取人的两个细胞系H1-c数据,来分析增强子在全基因组范围相互作用。

【发明内容】

[0005]本发明的目的在于提供一种增强子在全基因组相互作用研究方法,以便更加全面地研究增强子在基因中的作用,更好地了解基因组的功能调控机制。
[0006]为了实现上述目的,本发明的技术方案如下。
[0007]一种增强子在全基因组相互作用研究方法,具体包括以下步骤:
[0008](I)数据转换:
[0009]由于增强子数据库的基因组位置是hgl9而H1-c的数据是hgl8,采用UCSC网站Iiftover软件把增强子数据转换成hgl8。对1760个增强子长度和分布进行统计分析得到统计分布图,从中发现,增强子的长度大多小于2kbp,在各染色体上的分布不均匀。
[0010](2)数据过虑:
[0011]过虑掉两个染色质片段距离小于IOOkb的数据,得到hESC细胞系、MR90细胞系以及它们的重复实验基因表达数据,求两个数据的平均值作为基因表达的量。根据基因或者转录本的表达量,把基因分为:低表达(表达值<50)、中表达(50 <表达值<=500)、高表达(表达值> 500),针对每类基因数量进行统计。
[0012](3)数据注释:
[0013]将过虑好的数据比对到增强子数据中,统计不同细胞实验能捕获到的增强子数,发现,测序读序(read)数越多能捕获到的增强子也越多,但是当测序读序数达到一定数量时,增加大量的测序读序似乎对于捕获增强子的作用不显著。[0014](4)结果分析:
[0015]比较4组增强子在全基因组范围相互位点数据,在较大片段范围内(IMbp),四个实验组数据重合度比较高,在更精细的范围内(Ikb),4个实验组数据有着较大的区别,但是同一细胞系的重复试验差别小于不同细胞系。这表明用H1-c捕获细胞系的染色质相互作用时,捕获到的是细胞系的一个平均的相互作用,一个细胞系存在着大量的细胞,很难保证每个细胞处于同样状态,由于基因表达的时空差异,染色质的在核内的三维空间也是一种动态的过程。目前的技术限制很难做到单细胞的染色质构象捕获。
[0016]将与增强子作用的位点进行注释,得到相应数据,与增强子作用次数最多的是基因(Genes,大约占0.39 *%),其次是重复序列序列(大约占0.20 *% ),再次是基因上游20K的位置(Up20k,约占17% ),再次是基因组其他序列(NO,约占13% ),再次是基因下游的20K(Down20k,约占 9% ),最少的增强子(Enhancer,约占 0.2% )。
[0017]每个增强子平均能捕获到几十个作用片段,说明增强子在起作用时候,增强子和其他序列形成了一个以基因为中心比较复杂的三维结构。在增强子相互作用的片段中,基因与增强子相互租用频率最高,这表明不管基因表达状况如何,和基因在三维空间上的距离都是靠近的。重复序列是一个高频率的相互作用类型,这表明有的重复序参与基因表达,有的增强子可能在维持染色质的三维结构上起着重要的作用。在4个实验中,重复序列LI和增强子相互作用频率是最高的,LI是一个富含AT的重复序列,包含了 RNA聚合酶III的内部启动子。另外在基因上游20K区域也是个高频区,大多数的基因的启动子都位于这个区域,很多增强子都是直接与启动子相互作用,从而调节基因的表达。另外增强子与增强子也存在着相互作用,这可能提示基因需要多个增强子作用,以增强某个时刻的高表达。
[0018]该发明的有益效果在于:本发明运用染色体构象捕获技术及其衍生技术,能很好地得到细胞核内染色质三维构象的信息。通过分析核内染色质与染色质的相互作用,能知道基因的表达调控信息,鉴定一些未知调控序列。这些技术在鉴定全基因组上的长距离作用起着十分重要的作用。
【专利附图】

【附图说明】
[0019]图1是本发明实施例中增强子长度统计图。
[0020]图2是本发明实施例中增强子分布统计图。
[0021]图3是本发明实施例中不同表达条件下的基因数量统计图。
[0022]图4是本发明实施例中4组数据增强子在全基因组范围相互位点图(A表示hESC ;B 表不 hESC replicate 组;C 表不 replicate ;D 表不 imr90replicate)。
[0023]图5是本发明实施例中增强子作用的位点百分比对比图。
[0024]图6是本发明实施例中增强子相互作用的片段图。
【具体实施方式】
[0025]下面结合附图对本发明的【具体实施方式】进行描述,以便更好的理解本发明。
[0026]实施例
[0027]本实施例中的H1-c数据来自Jesse R.Dixon等在2012年《Nature》发表的((Topological domains in mammalian genomes identified by analysis of chromatininteractions》,从 NCBI 的 GEO 数据库中下载 GSM862724 (MR90 细胞系),GSM892307 (MR90重复实验数据),GSM862723 (hESC细胞系),GSM892306 (hESC重复实验数据)具体见http://www.ncb1.nlm.nih.gov/geo/query/acc.cgi ? acc = GSE35156。增强子数据库:数据下载于http://enhancer, lbl.gov/ ;hESC细胞系、IMR90细胞系基因表达数据下载于:http://www.ncb1.nlm.nih.gov/geo/query/acc.cgi ? acc = GSE26855。
[0028]具体步骤及结果如下:
[0029](I)数据转换: [0030]由于增强子数据库的基因组位置是hgl9而H1-C的数据是hgl8,本发明实施例中,用UCSC网站Iiftover软件把强子数据转换成hgl8。对1760个增强子长度和分布进行统计分析,长度统计图见图1,分布统计图见图2。增强子的长度大多小于2kbp,在各染色体上的分布也不均匀。
[0031](2)数据过虑:
[0032]根据Jesse R.Dixon等分析,认为当两个染色质片段距离小于lOOkb,其自连率将大大增加。本实施例过虑掉两个染色质片段距离小于IOOkb的数据,得到表1的结果。
[0033]表1:不同细胞系基因表达数据
【权利要求】
1.一种增强子在全基因组相互作用研究方法,其特征在于:具体包括以下步骤: (1)数据转换:采用UCSC网站Iiftover软件把增强子数据转换成hgl8;对1760个增强子长度和分布进行统计分析得到统计分布图,从中发现,增强子的长度大多小于2kbp,在各染色体上的分布不均匀; (2)数据过虑:过虑掉两个染色质片段距离小于IOOkb的数据,得到hESC细胞系、IMR90细胞系以及它们的重复实验基因表达数据,求两个数据的平均值作为基因表达的量;根据基因或者转录本的表达量,把基因分为:低表达(表达值< 50)、中表达(50 <表达值<=500)、高表达(表达值> 500),针对每类基因数量进行统计; (3)数据注释:将过虑好的数据比对到增强子数据中,统计不同细胞实验能捕获到的增强子数,发现测序读序(read)数越多能捕获到的增强子也越多,但是当测序读序数达到一定数量时,增加大量的测序读序似乎对于捕获增强子的作用不显著; (4)结果分析:比较4组增强子在全基因组范围相互位点数据,在较大片段范围内(Mbp),四个实验组数据重合度比较高,在更精细的范围内(Ikb),4个实验组数据有着较大的区别,但是同一细胞系的重复试验差别小于不同细胞系;将与增强子作用的位点进行注释,得到相应数据,与增强子作用次数最多的是基因(Genes,大约占0.39 % ),其次是重复序列序列(大约占0.20% ),再次是基因上游20K的位置(Up20k,约占17% ),再次是基因组其他序列(NO,约占13% ),再次是基因下游的20K(Down20k,约占9),最少的增强子(Enhancer,约占0.2% );在4个实验中,重复序列LI和增强子相互作用频率是最高的,LI是一个富含AT的重复序列,包含了 RNA聚合酶III的内部启动子;另外在基因上游20K区域也是个高频区,大多数的基因的启动子都位于这个区域,很多增强子都是直接与启动子相互作用,从而调节基因的表达。
【文档编号】G06F19/18GK103646192SQ201310584990
【公开日】2014年3月19日 申请日期:2013年11月14日 优先权日:2013年11月14日
【发明者】马永超, 卑占宇, 徐松涛, 罗晓冰, 常陆林, 范文娟, 吴华 申请人:漯河医学高等专科学校
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1