一种组织特异性基因及调控因子数据存储方法

文档序号:6601679阅读:321来源:国知局
专利名称:一种组织特异性基因及调控因子数据存储方法
技术领域
本发明涉及生物信息学领域,特别是涉及该领域的组织特异性基因的特异性表达 与调控因子之间关系的数据库技术。
背景技术
随着人类基因组计划的完成和计算生物学的发展,积累了大量的基因表达及其调 控关系的数据,为研究基因表达及其调控关系的组织特异性提供了丰富的信息资源。利用现代的计算技术挖掘基因表达及调控网络组织特异性的内在机制,成为当前 生物信息学最具有挑战性的任务之一。然而,现阶段由于组织特异性基因及其调控因子数 据分散、生物信息数据库多而杂,组织与基因以及基因与调控因子之间的多对多的复杂关 系、标注和表达标准不统一等现状,使得组织特异性基因表达调控机制的研究者不得不花 大量的时间首先研究各个数据库的内容、再搜集并验证组织特异性基因相关数据,大大降 低了研究的质量和效率。

发明内容
基于上述现有技术,本发明提出了一种组织特异性基因及调控因子数据存储方 法,该存储方法提出了一种新的组织特异性基因及其调控因子数据库的基础架构;集成了 组织特异性基因调控区域模式特征及调控机制信息;提供了组织特异性基因分析工具集, 方便数据挖掘和快速查询。本发明提出了一种组织特异性基因及调控因子数据存储方法,通过建立包括组织 库、基因库、基因别名库、组织特异性基因库及组织特异性基的组织库组织特异性基因及调 控因子数据库来进行数据存储,该方法包括以下步骤利用文献挖掘的形式在医学文献数据库抽取出组织特异性基因;将查到的组织信息添加到组织库中;利用基因的名字在DNA数据库、核酸以及蛋白质序列、基因序列、蛋白序列功能性 数据库中检索基因的信息,并把此信息添加到基因库对应的条目中;利用从转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据 库、真核生物启动子数据库及复合元件数据库中查找基因的调控信息生成基因调控因子 XML文件;其中,组织库包括数据库中所有组织信息,内容包括自增型变量的唯一组织代码、 组织的名字、组织的类别和组织的描述;基因库包括数据库中所有组织特异性的基因信息, 内容包括自增型变量的唯一基因代码、基因的名字、基因对应的调控因子HIil文件和基因 的核酸序列;基因别名库中存储关于基因库中每个基因的全部或部分别名;组织特异性基 因库把组织库中的组织和对此组织有特异性表达的基因相关联,内容包括组织基因的自 增型变量的唯一关联关系代码、对应组织库中的自增型变量的唯一组织代码、对应基因库 中的自增型变量的唯一基因代码、关联关系的描述、验证此关联关系在pmd中文章的代码pmd_idhe和对应此基因在此组织中的表达量;组织特异性基因库中的每个条目都分别对 应一个基因调控因子XML文件,该文件的访问路径被存储在基因库中,该文件用于描述基 因在组织中的所有调控因子信息,包括转录起始点的类型及在此基因核酸序列中的位置、 转录因子绑定位点在此核酸序列中的位置、转录因子的功能描述、特异性的调控此组织特 异性基因表达的所有加强子(enhancer)在此核酸系列中的位置、长度及功能描述,特异性 的调控此组织特异性基因表达的所有沉默子(sliencer)在此核酸系列中的位置、长度及 功能描述,基因转录控制区域模式特征,转录因子对基因转录的调控机制。织特异性基因调控区域模式特征及调控机制。本系统通过文献挖掘和对存储在系 统中大量组织特异性基因调控因子数据的分析研究两种途径得到组织特异性基因序列模 式特征及转录因子的调控机制信息,为组织特异性基因调控特异性表达的研究提供参考。所述组织特异性基因及调控因子数据库还包括织特异性基因分析工具集,该工具 集具体包括 查询服务,用户根据组织名、基因名进行查询,系统根据组织、组织特异性基因及 其调控因子的本体描述返回组织特异性基因序列及调控因子信息的查询结果;辨识服务,基于约束的层次贝叶斯混合模型聚类算法,融合目标基因的 已知启动子区域模式特征和组织特异性的调控因子信息等先验知识,提供给用户 Hk(Housekeepinggenes) ^ TS(Tissue Specific genes);组织特异性的序列模式(motif)的发现服务,利用统计模型,在对系统中大量HK 基因和TS基因Promoter区域序列模式和组织特异性转录因子绑定模式分析的基础之上, 通过贝叶斯因子分析,建立融合先验知识的模式显著性评价的数学模型。与现有技术相比,本发明能够使利用现代计算技术挖掘基因表达及调控网络织组 特异性内在机制的研究者,方便获取组织特异性基因序列及相应调控因子的数据,充分利 用组织特异性基因分析工具,提高研究的质量和效率。


图1为组织特异性基因及其调控因子数据库基础架构E-R图。
具体实施例方式组织库tissue包括数据库中所有的组织信息,内容有tissue_id、tissue_name、 category、description。其中,tissue_id是自增型的变量,在组织库中唯一确定一个组织; tissue_name对应组织的名字;category对应组织的类别(与EMBL中的分类标准一致); description对应此组织的描述。基因库gene包括数据库中所有组织特异性的基因信息,内容有genejd、gene_ name、tr_factor_url> sequence_link。其中,gene_id是自增型的,在基因库中唯一的确 定一个基因;genejame对应基因的名字(一个基因可能有多个名字,此处的gene_name 对应的是EMBL中的基因名字);tr_faCtor_url指向此基因对应的调控因子xml文件; sequence」ink对应此基因的核酸序列。基因别名库gene_ref_name中存储关于gene库中每个基因的全部或部分别名。 组织特异性基因库(tiSSUe_gene)把组织库中的组织和对此组织有特异性表达的基因相关联,内容包括 id、tissue_id、gene_id、description、pmd_id, gene_express_value。其 中每个id确定一个组织基因的关联关系,此id是自增型的;tissUe_id对应组织库中的 tissue_id ;gene_id 对应 gene 库中的基因 gene_id ;description 描述此关联关系;pmd_id 是验证此关联关系在pmd中文章的id号;gene_express_value对应此基因在此组织中的
表达量。

每一条目与唯一的XML文件对应,并且此文件的访问路径被存储在基因库的tr_ factor_url列中。对于组织、组织特异性基因及基因的调控信息,系统开发者利用文献挖 掘的形式在Pubmed (美国国立医学图书馆的医学文献数据库)文献数据库查找组织特异性 基因,并把查到得组织信息添加到tissue表中;利用基因的名字在EMBL(欧洲分子生物学 实验室 EMBL (TheEuropean Molecular Biology Laboratory),于 1974 年由欧洲 14 个国家 加上亚洲的以色列共同发起建立DNA数据库KGenebank(美国国立卫生研究院维护的基因 序列数据库,汇集并注释了所有公开的核酸以及蛋白质序列)、NCBI (美国国立卫生院建设 的关于生物医学网站,提供文献、基因序列、蛋白序列等的功能性数据库)中检索基因的信 息,并把此信息添加到gene表对应的条目中;最后,利用从(Transfac关于转录因子、它们 在基因组上的结合位点和与DNA结合的profiles的数据库)、EPD(真核生物启动子数据 库(Eukaryotic Promoter Database,EPD),可在其中检索真核生物的启动子序列信息)及 compel (复合元件数据库)数据库中查找基因的调控信息生成基因调控因子XML文件;组织特异性基因库中的每个条目都分别对应一个基因调控因子XML文件,此文件 描述此基因在这种组织中的所有调控因子信息,包括转录起始点(每个转录起始点对应一 个启动子,查询者可以根据研究的需要提取自转录起始点上下游任意长度的核酸片段作为 启动子区)的类型(single、multiple、region)及在此基因核酸序列中的位置,转录因子 (TFBS)绑定位点(每个转录起始点对应多个转录因子绑定位点)在此核酸序列中的位置, 转录因子(每个转录因子绑定位点特异性的对应一个转录因子),转录因子的功能描述,特 异性的调控此组织特异性基因表达的所有加强子(enhancer)在此核酸系列中的位置、长 度及功能描述,特异性的调控此组织特异性基因表达的所有沉默子(sliencer)在此核酸 系列中的位置、长度及功能描述,基因转录控制区域模式特征,转录因子对基因转录的调控 机制。织特异性基因调控区域模式特征及调控机制。本系统通过文献挖掘和对存储在系 统中大量组织特异性基因调控因子数据的分析研究两种途径得到组织特异性基因序列模 式特征及转录因子的调控机制信息,为组织特异性基因调控特异性表达的研究提供参考。组织特异性基因分析工具集。组织特异性基因分析工具集提供的服务如下查询服务;Hk(Housekeeping genes) % TS(Tissue Specific genes)辨识的服务;组织特异性的序列模式(motif)发现的服务。下面结合附图实例对本发明做进一步说明。首先利用数据库系统(Mysql),建立包括组织库(tissue)、基因库(gene)、组织特 异性基因库(tiSSue_gene),基因别名库(gene_ref_name)在内的本发明的组织特异性基 因及其调控因子数据库的基础架构示意图,如图1所示。基因库中的每一条目与唯一的XML文件对应,并且此文件的访问路径被存储在基因库的tr_factor_Url列中。对于组织、组织特异性基因及基因的调控信息,系统开发者利 用文献挖掘的形式在Pubmed文献数据库查找组织特异性基因,并把查到得组织信息添加 到tissue表中;利用基因的名字在EMBL、Genebank, NCBI中检索基因的信息,并把此信息 添加到gene表对应的条目中;最后,利用从Transfac、EPD及compel数据库中查找基因的 调控信息生成基因调控因子XML文件< ? xml version = “ 1.0〃 encoding = “ GB2312" standalone = “ yes" ? ><gene> <sequence></sequence>< ! __transcription type = " singal、multiple、regoin〃 __><ts_type value =" >< ! __if s_type value = ' singal' ,there is only one ts_position ; if ts_type = ' multiple' there are manyts_position—><ts position =" >< 丨 __if there are more than one transcription factors binding sites, there will be a coupleof tags—><tfbs position =" ><tf>" </tf><function_description>" </function_description></tfbs></ts>< ! —if ts_position = ' region'—><ts_start_position>" </ts_start_position><ts_length>" </ts_length></ts_type><trans_control_motif>" </trans_control_motif>< ! --if there are more than one transcription control motifs, there will be a couple of tags—><enhancer>< ! —if there are more than one enhancer,there will be a couple of tags—><position>" </position><sequence>" </sequence)<description>" </description)</enhancer><sliencer>< ! —if there are more than one sliencer,there will be a coupleof tags—>〈position〉" 〈/position〉<sequence>" </sequence)<description>" </description)</sliencer> </gene>其次本系统通过文献挖掘和对存储在系统中大量组织特异性基因调控因子数据 的分析研究两种途径得到组织特异性基因序列模式特征及转录因子的调控机制信息,并把 此信息用组织特异性基因调控因子XML文件描述。为组织特异性基因调控特异性表达的研 究提供参考。再次系统提供组织特异性基因分析工具集,提供的服务有查询服务; Hk(Houseke印inggenes)与TS (Tissue Specific genes)的辨识服务;组织特异性的序列 模式(motif)的发现服务。发明者利用现存web开发技术jsp实现检索功能,系统接受用户的输入关键字后, 根据关键字的类型(基因名、组织名、PMD_ID)采取不同的底层操作。当关键字类型为“基 因名”时,系统首先查找gene别名库表,查找与此基因同名的条目,取出genejd列,并依据 此列信息查找gene库表,在查到的结果中取出除“tr_factor_url ”列返回给用户,如果用 户选择“查看基因的详细信息”时,系统根据“tr_faCtor_Url”所指示的路径读取基因调控 信息XML文件的内容,如果用户选择查看与此基因相关的组织信息时,系统通过genejd参 数查询tissue库,并把查询结果显示给用户,并可根据用户制定的显示模式显示给用户。 当关键字类型为“组织名”时,系统首先查找组织库,查找与此组织同名的条目,取出此条目 的所有信息,同时系统提取查到条目的“tissuejd”列,并依据“tissuejd”查找tissue— gene库,找到所有的与此组织相关的基因后,在利用"genejd"检索gene库,查找与此基 因同名的条目,取出此条目除“tr_factor_Url”列返回给用户,如果用户选择“查看基因的 详细信息”时,系统根据“tr_factor_Url,,所指示的路径读取基因调控信息XML文件的内 容,并可根据用户制定的显示模式显示给用户。当关键字类型为“PMD_ID”时,系统接收参 数后,检索genejissue库表,依据此表中的“PMD_ID”号检索与此列相同的条目。系统利 用检索得到条目中的gene_id信息查找gene表,返回给用户所有与此基因相关的序列信息 和调控信息;系统利用检索到得条目中的tissuejd信息查找tissue表,返回给用户此组 织的相关信息。系统基于约束的层次贝叶斯混合模型聚类算法,融合目标基因的已知启动子区域 模式特征和组织特异性的调控因子信息等先验知识,提供给用户Hk (Houseke印ing genes) 与 TS (Tissue Specific genes)的辨识服务;利用统计模型,在对系统中大量HK基因和TS基因Promoter区域序列模式和组织 特异性转录因子绑定模式分析的基础之上,通过贝叶斯因子分析,建立融合先验知识的模 式显著性评价的数学模型,提供发现组织特异性的序列模式(motif)的服务。
权利要求
一种组织特异性基因及调控因子数据存储方法,通过建立包括组织库、基因库、基因别名库、组织特异性基因库及组织特异性基的组织库的组织特异性基因及调控因子数据库来实现数据存储,该方法包括以下步骤利用文献挖掘的形式在医学文献数据库抽取出组织特异性基因;将查到的组织信息添加到组织库中;利用基因的名字在DNA数据库、核酸以及蛋白质序列、基因序列、蛋白序列功能性数据库中检索基因的信息,并把此信息添加到基因库对应的条目中;利用从转录因子、它们在基因组上的结合位点和与DNA结合的profiles的数据库、真核生物启动子数据库及复合元件数据库中查找基因的调控信息生成基因调控因子XML文件;其中,组织库包括数据库中所有组织信息,内容包括自增型变量的唯一组织代码、组织的名字、组织的类别和组织的描述;基因库包括数据库中所有组织特异性的基因信息,内容包括自增型变量的唯一基因代码、基因的名字、基因对应的调控因子xml文件和基因的核酸序列;基因别名库中存储关于基因库中每个基因的全部或部分别名;组织特异性基因库把组织库中的组织和对此组织有特异性表达的基因相关联,内容包括组织基因的自增型变量的唯一关联关系代码、对应组织库中的自增型变量的唯一组织代码、对应基因库中的自增型变量的唯一基因代码、关联关系的描述、验证此关联关系在pmd中文章的代码pmd_idhe和对应此基因在此组织中的表达量;组织特异性基因库中的每个条目都分别对应一个基因调控因子XML文件,该文件的访间路径被存储在基因库中,该文件用于描述基因在组织中的所有调控因子信息,包括转录起始点的类型及在此基因核酸序列中的位置、转录因子绑定位点在此核酸序列中的位置、转录因子的功能描述、特异性的调控此组织特异性基因表达的所有加强子(enhancer)在此核酸系列中的位置、长度及功能描述,特异性的调控此组织特异性基因表达的所有沉默子(sliencer)在此核酸系列中的位置、长度及功能描述,基因转录控制区域模式特征,转录因子对基因转录的调控机制。
2.如权利要求1所述的组织特异性基因及调控因子数据存储方法,其特征在于,所述 组织特异性基因及调控因子数据库还包括织特异性基因分析工具集,该工具集具体包括查询服务,用户根据组织名、基因名进行查询,系统根据组织、组织特异性基因及其调 控因子的本体描述返回组织特异性基因序列及调控因子信息的查询结果;辨识服务,基于约束的层次贝叶斯混合模型聚类算法,融合目标基因的已知启动子区 域模式特征和组织特异性的调控因子信息等先验知识,提供给用户Houseke印inggenes与 Tissue Specific genes 辨识的服务;组织特异性的序列模式motif的发现服务,利用统计模型,在对系统中大量HK基因和 TS基因Promoter区域序列模式和组织特异性转录因子绑定模式分析的基础之上,通过贝 叶斯因子分析,建立融合先验知识的模式显著性评价的数学模型
全文摘要
本发明公开了一种组织特异性基因及调控因子数据存储方法,通过建立包括组织库、基因库、基因别名库、组织特异性基因库及组织特异性基的组织库的组织特异性基因及调控因子数据库来实现数据存储,该方法包括以下步骤利用文献挖掘的形式在Pubmed文献数据库抽取出组织特异性基因;将查到的组织信息添加到组织库中;利用基因的名字在EMBL、Genebank、NCBI中检索基因的信息,并把此信息添加到基因库对应的条目中;利用从Transfac、EPD及compel数据库中查找基因的调控信息生成基因调控因子XML文件;与现有技术相比,本发明能够使利用现代计算技术挖掘基因表达及调控网络织组特异性内在机制的研究者,方便获取组织特异性基因序列及相应调控因子的数据,充分利用组织特异性基因分析工具,提高研究的质量和效率。
文档编号G06F19/00GK101847181SQ201010160978
公开日2010年9月29日 申请日期2010年4月30日 优先权日2010年4月30日
发明者刘新觅, 宫秀军, 赵菲菲 申请人:天津大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1