一种快速筛查疾病候选标志物或靶标的方法

文档序号:9560614阅读:1527来源:国知局
一种快速筛查疾病候选标志物或靶标的方法
【技术领域】
[0001] 本发明涉及一种快速筛查疾病候选标志物或靶标的方法,特别涉及一种整合转录 组、代谢组和KEGG数据快速筛查疾病候选标志物或靶标的方法。
【背景技术】
[0002] 近年来,随着组学高通量技术的快速发展,积累了越来越多的转录组、代谢组大数 据,不同水平的大数据单独分析不能完全揭示机制,快速锁定有应用价值的目标,因此如何 整合不同组学大数据快速筛查和锁定有应用价值的候选标志物或靶标,是未来生物医学需 要着重解决的问题。

【发明内容】

[0003] 为了克服现有技术的缺点与不足,本发明的目的在于提供一种整合转录组、代谢 组和KEGG数据快速筛查疾病候选标志物或靶标的方法。本发明的方法可以应用于各种疾 病候选标志物或靶标的快速筛查。
[0004] 本发明的另一目的在于提供上述方法的应用。
[0005] 本发明的目的通过下述技术方案实现:
[0006] 一种整合转录组、代谢组和KEGG数据快速筛查疾病候选标志物或靶标的方法,包 括如下步骤:
[0007] (1)整理代谢物数据:在 HMDB(Human Metabolome Database,HMDB) (http://www. hmdb.ca/downloads)中下载特定疾病的所有代谢物数据(All Metabolites),并解压到一 个文件A中;或用已有的代谢物信息按照HMDB相应格式整理好,放在一个文件A中;
[0008] (2)下载和分析转录组数据:在NCBI GE0数据库(http://www. ncbi. nlm. nih. gov/)对特定疾病的转录组数据进行检索,根据检索结果的描述(description)来判断: ①、疾病名称,②、实验物种,③、实验的组织(肌肉、脂肪、肝脏、胰脏等),④、附加信息备注 (是否接受过药物治疗、性别等),收集GE0数据;将GE0数据通过提取表达值,然后归一化 之后,再进行t-test的分析和贝叶斯平滑处理;最后可以提取出差异表达基因,文件包含 探针ID,P值,基因名以及基因的调控信息(fold值)(R语言实现);在NCBI上找到symbol 值进行添加(对差异表达基因进行注释)(脚本实现);将差异表达基因进行DAVID聚类分 析,得到各基因所在KEGG通路的文件B ;
[0009] (3)将步骤(1)中的文件A和步骤(2)中的文件B在软件Association analysis 中整理成标准的格式,然后此软件会自动化的读取数据并快捷准确的输出KEGG的通路图。 软件Association analysis的前半部分是对NCBI GEO dataset数据的再处理和对HMDB 数据的处理,目的是将二者整理成标准的格式;后半部分是对二者的整合,以及读取数据并 输出KEGG的通路图。
[0010] 本发明的方法可以快速将转录组、代谢组和KEGG的数据整合,有效地找到KEGG中 有差异基因和代谢物的位置,这样可以快速锁定不同组学水平数据吻合的关键机制和有效 的候选标志物和靶标。
[0011] 所述的整合转录组、代谢组和KEGG数据快速筛查疾病候选标志物或靶标的方法 在疾病标志物或靶标分离鉴定中的应用。
[0012] 本发明相对于现有技术,具有如下的优点及效果:
[0013] 相对于单组学水平的数据,不同组学水平数据整合相互佐证疾病机制后得到的标 志物或靶标应该更加可信,更有应用前景。本发明方法就是整合了代谢组和转录组的数据 来快速鉴定更有价值的疾病标志物或靶标。
【附图说明】
[0014] 图1是有差异代谢物和差异基因的KEGG图;其中,图中长方形代表基因或酶,圆圈 代表代谢物;浅灰色代表基因或代谢物下调,深灰色代表基因或代谢物上调,无色是KEGG 中固有颜色。浅灰色:
;深灰色
[0015] 图2是有差异代谢物和差异基因的KEGG图;其中,图中长方形代表基因或酶,圆圈 代表代谢物;浅灰色代表基因或代谢物下调,深灰色代表基因或代谢物上调,无色是KEGG 中固有颜色。浅灰色:
;深灰色

【具体实施方式】
[0016] 下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限 于此。
[0017] 实施例1
[0018] 1、2型糖尿病
[0019] 在HMDB代谢物数据库(http://www. hmdb. ca/downloads)下载2型糖尿病代谢物 数据,并解压到一个文件A中,或用已有的代谢物信息按照HMDB相应格式整理好,放在一个 文件A中。
[0020] 转录组数据下载和分析:在 NCBI GE0 数据库(http://www. ncbi. nlm. nih. gov/) 下载2型糖尿病转录数据集,将GEO数据通过提取表达值,然后归一化之后,再进行t-test 的分析和贝叶斯平滑处理。最后可以提取出差异表达基因,文件包含探针ID,P值,基因名 以及基因的调控信息(fold值)(R语言实现)。在NCBI上找到symbol值进行添加(对差 异表达基因进行注释)(脚本实现)。将差异表达基因进行DAVID聚类分析,得到各基因所 在KEGG通路的文件B。
[0021] 2、通过软件对转录组、代谢组和KEGG数据整合分析
[0022] 将步骤1中的文件A和文件B在软件Association_analysis中整理成标准的格 式,然后此软件会自动化的读取数据并快捷准确的输出KEGG的通路图。具体操作如下:下 载软件Association analysis,安装Chrome浏览器,打开软件后,请先右键一属性一选 项一勾选快速编辑模式;在属性中的布局一栏调节屏幕缓冲区大小,设置高度为9000。软 件Association analysis的程序源代码如下,程序前半部分是对NCBI GEO dataset数据 的再处理和对HMDB数据的处理,目的是将二者整理成标准的格式;后半部分是对二者的整 合,以及自动化的读取数据并快捷准确的输出KEGG的通路图。
[0023] 所述的软件Association analysis的程序源代码如下:
















[0041] 最后整合了转录组和代谢组差异物的KEGG图有许多,以图1和图2来阐述如何 快速寻找有价值的KEGG区域。如图1所示,酶1. 1. 1. 30的基因出现下调,其调控的代 谢物(R)-3-羟基丁酸乙酯((R)-3_Hydroxybutanoate)引起积累,因此可以解释途中的 (R)-3-羟基丁酸乙酯出现上调的情况。
[0042] 如图2所示,a -D-Glucose-lP代谢物出现上调,其附近与之相关的酶2. 7. 7. 9, 2. 7. 7. 12的基因出现下调,而酶5. 4. 2. 2基因出现上调,这正好解释了 a -D-Glucose-lP代 谢物出现上调的原因。因此在选择候选标志物或靶标时,可以优先选择这些转录组和代谢 组数据吻合的候选标志物或祀标。
[0043] 上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的 限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化, 均应为等效的置换方式,都包含在本发明的保护范围之内。
【主权项】
1. 一种整合转录组、代谢组和KEGG数据快速筛查疾病候选标志物或靶标的方法,其特 征在于包括如下步骤: (1) 整理代谢物数据:在HMDB中下载特定疾病的所有代谢物数据,并解压到一个文件A 中;或用已有的代谢物信息按照HMDB相应格式整理好,放在一个文件A中; (2) 下载和分析转录组数据:在NCBIGEO数据库对特定疾病的转录组数据进行检索, 收集GEO数据;将GEO数据通过提取表达值,然后归一化之后,再进行t-test的分析和贝叶 斯平滑处理;最后提取出差异表达基因;将差异表达基因进行DAVID聚类分析,得到各基因 所在KEGG通路的文件B; (3) 将步骤(1)中的文件A和步骤(2)中的文件B在软件Associationanalysis中整 理成标准的格式,然后读取数据并输出KEGG的通路图。2. 权利要求1所述的整合转录组、代谢组和KEGG数据快速筛查疾病候选标志物或靶标 的方法在疾病标志物或靶标分离鉴定中的应用。
【专利摘要】本发明公开一种整合转录组、代谢组和KEGG数据快速筛查疾病候选标志物或靶标的方法。本发明的方法可以快速将转录组、代谢组和KEGG的数据整合,有效地找到KEGG中有差异基因和代谢物的位置,这样可以快速锁定不同组学水平数据吻合的关键机制和有效的候选标志物和靶标。相对于单组学水平的数据,不同组学水平数据整合相互佐证疾病机制后得到的标志物或靶标应该更加可信,更有应用前景。本发明方法就是整合了代谢组和转录组的数据来快速鉴定更有价值的疾病标志物或靶标。
【IPC分类】C12Q1/68
【公开号】CN105316416
【申请号】CN201510828705
【发明人】杜红丽, 陈毓新, 姜晓腾
【申请人】华南理工大学
【公开日】2016年2月10日
【申请日】2015年11月24日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1