调控因子结合位点的基因组分布型绘制的制作方法

文档序号:6483874阅读:481来源:国知局

专利名称::调控因子结合位点的基因组分布型绘制的制作方法
背景技术
:发明领域本发明大体上涉及提供所有已知基因的调控因子结合位点的分布型绘制(profiling)的方法、系统和数据结构,更加特别地涉及用于确定和表征调控因子结合位点的方法、数据结构和系统,以开发针对确定的结合位点的系统分析,用于进一步开发治疗性策略。相关技术的描述改变基因表达水平已经成为解决人类疾病的一种重要和有效的方法。每种基因的表达水平受转录机制的控制,其中一些称作为转录因子(TFs)的特定蛋白质结合到基因的调控区上。依次起始转录过程。因此,相应的TFs及其在基因调控区上的结合位点在控制基因的转录水平中起重要作用。因此,在现代生物医学研究和开发的努力中,转录因子及其相关转录机制已经成为“热”点。对于每种基因来说,转录起始位点(TSS)是其mRNA开始通过RNA聚合酶II的作用从DNA转录的位置。在该过程中,基因调控区被某些调控因子联合和结合。这些已经结合的因子与其它转录蛋白一起形成转录复合物,该复合物可起始转录过程。更加特别地,该基因调控区典型地包括转录因子结合位点,所述转录因子结合位点是短的共有基因组序列。最重要的调控区之一是通常紧挨在TSS之前或者TSS侧翼的核心启动子。因此,对于定义每个基因的转录调控区域来说,确定TSS最重要的。目前,许多特定的研究和开发都将其努力集中在特定的TF和相应的结合位点上,生成了许多可靠的数据,但是这些数据仍然不能满足与基因组相关的生物医学需求的发展。为了满足迅速发展的与转录因子相关的药物开发业和挑战的要求,确定所有推定的调控因子和表征它们在基因组中的相应结合位点是十分重要的。特别地,随着人类基因组计划完成和大量疾病相关基因表达数据(例如以微阵列为基础的数据)的出现,迫切需要基因组范围内调控因子结合位点的分布型的绘制。本发明从各种公众可获得的数据库(例如NCBIrefseq,NIHMGC联盟,日本的DBTSS数据库等等)检索(retrieve)了所有全长基因,然后在最新的人类基因组工作草图(HumanGenomeWorkingDraft)(例如2003年7月的Assembly版本或者NCBIBuild34)上,绘制这些基因的TSS的图谱。然后通过绘制这一基因的位置的图谱通过比较生成的所有可能的TSS定义每种基因的最上游TSS。根据最5′端(most5’)的TSS的位置,定义转录调控区(TRR),例如核心启动子区域的位置,并从最新的人类基因组中检索它们的相应基因组序列,用于进一步分析。将所有已知基因的已进行分布型绘制的TRR存储在数据库中,用于进一步的与药物靶点相关的统计分析,和用于进一步开发治疗策略。发明概述因此,本发明的一个目的是提供用于调控因子结合位点的基因组分布型绘制(genomic-profiling)的改进方法,以及与该方法相关的数据结构和系统。在本发明的另一个目的中,提供了用于调控因子结合位点分布型绘制的方法,以及与该方法相关的数据结构和系统,此方法相对于进行分布型绘制的结合位点使用基因组范围内的概率作图。本发明的还有另一个目的是提供用于生物医学研究的改进方法,以及与该方法相关的数据结构和系统。本发明的还有一个目的是提供用于临床前开发的改进方法,以及与该方法相关的数据结构和系统。本发明的还有另一个目的是提供用于药物筛选应用的改进方法,以及与该方法相关的数据结构和系统。本发明的另一个目的是提供用于靶点发现和靶点确认的改进方法,以及与该方法相关的数据结构和系统。本发明的还有另一个目的是提供用于调控区的分布型绘制的改进方法,以及与该方法相关的数据结构和系统。本发明的另一个目的是提供在不同基因的调控分布型绘制之间建立基因组成组织范围内的联系的改进方法,以及与该方法相关的数据结构和系统。本发明的还有另一个目的是提供用于了解各种已知转录分布型绘制的基因组或组织或细胞背景的改进方法,用于了解各种已知转录分布型绘制的基因组或组织或细胞背景的改进方法,以及与该方法相关的数据结构和系统。本发明的这些和其它的目的在用于调控因子结合位点分布型绘制的方法中实现。完整基因位于用于基因调控区作图的基因组中。定义和检索基因调控区的基因组序列。筛选每个被检索的基因调控区的DNA序列信息,用来确定推定的调控因子结合位点。绘制推定的调控因子结合位点的分布型。在本发明的另一个实施方案中,用于确定的结合位点分布型绘制的方法提供一个数据库,该数据库包括所有已知基因的经过分布型绘制的确定的结合位点。概率统计分析被应用于经分布型绘制的结合位点。在本发明的另一个实施方案中,提供被有形地存储在计算机可读介质中的数据结构。该数据结构包括经分布型绘制而加以确认的结合位点的数据库。通过筛选基因调控区的DNA序列信息建立分布型绘制的确定的结合位点。该数据库可以用基因标识符(identifier)来检索。在本发明的另一个实施方案中,用于显示经分布型绘制的调控因子结合位点的计算机执行系统包括数据库,该数据库包括经分布型绘制而加以鉴定的结合位点。通过筛选基因调控区的DNA序列信息,建立分布型绘制的确定的结合位点。该数据库可以用基因标识符来检索。并提供用户界面,其包括一个或多个可选择的用户输入端。输入装置可由用户操作。并包括显示器,其显示至少一个对分布型绘制的确定的结合位点响应的输出值。附图简述附图1是流程图,说明用于调控因子结合位点分布型绘制的本发明的实施方案之一。附图2是流程图,描述如何定义基因(例如基因X)的转录调控区。附图3是流程图,说明计算TF结合位点的频率。附图4说明核心启动子区可包括TSS上游的200-300个碱基以及下游的约50-100个碱基。附图5是本发明的数据库结构的一个实施方案的描述。附图6是说明附图5的数据库的流程图。附图7列举从refseq数据库检索的基因DLD的完整序列(SEQIDNO59)。附图8列举从MGC数据库检索的基因DLD的完整序列(SEQIDNO60)。附图9列举从DBTSS数据库检索的基因DLD的完整序列(SEQIDNO61)。附图10列举基因DLD的存储的序列(SEQIDNO62)。附图11是可与附图7的数据库一起使用的查询形式的屏幕显示(screenshot)。附图12是来自附图5的数据库的数据库查询结果的实施方案的屏幕显示。附图13举例说明本发明的系统的一个实施方案优选实施方案的描述在各种实施方案中,本发明提供用于在基因组范围内调控因子结合位点分布型绘制的方法,有形地存储在计算机可读介质上的数据结构,以及相关系统。调控因子结合位点的例子包括,但是不限于,作为转录因子NF-κB的结合位点的序列AGGGGACTTTCCCA(SEQIDNO1);作为转录因子E2F-1的结合位点的序列TTTGGCGG(SEQIDNO2)等。参考附图1和2的流程图,在本发明的一个实施方案中,基因调控区的基因组序列被检索,并被绘制到人类基因组中。根据被作图的基因,确定每个基因的最5′位置的TSS,并确定该基因的相应调控区。对各个被检索的基因调控区的DNA序列信息进行筛选,以确定推定的调控因子结合位点。然后绘制推定的调控因子结合位点的分布型。从数据库中检索的信息被用于各种不同目的和应用,包括但是不限于,生物医学研究、临床前开发、药物筛选应用、靶点发现和靶点确认、调控区的分布型绘制、建立不同基因的调控分布型绘制之间的基因组或组织范围的联系、了解各种已知转录分布型绘制的基因组或者组织背景,了解各种已知转录分布型绘制的基因组或者组织背景等。参考附图3,将概率作图(probabilitymapping)应用于所确定的结合位点。概率作图描述了在所有基因的调控区或者在某些组织或细胞中表达的基因中,确定是否存在特定的转录调控因子结合位点,例如所有的推定E2F-1位点。概率作图说明有多少基因可能由特定的调控因子来转录调控。其还指示一种特定的调控因子具有多大的生物学系统范围内的、基因组范围内的、细胞范围内的或组织范围内的影响。对于以治疗方法开发为基础的生物医学研究来说,该信息是非常有用的。在本发明的另一个实施方案中,为了对基因调控区进行作图,对全长基因进行作图。应当理解,为了本说明书的目的,全长延伸至基因的长度。这会引起相同基因的不同版本的转录起始位点的基因组位置发生轻微的位移。在一个实施方案中,所有可获得的全长基因被用于比较中,以获得最5′端的TSS。根据最5′端的TSS,定义基因的调控区,检索基因调控区的基因组序列。对每个检索的基因调控区进行DNA序列信息的筛选,以确定推定的调控因子结合位点。将推定的调控因子结合位点作图到人类基因组上。检索全长基因,以提供检索的基因的序列信息。采用公众可获得的UCSC基因组浏览器(browser)数据库、自主开发的脚本(self-developedscripts)等所提供的工具,可将检索的基因作图到最新的人类基因组上。在一个实施方案中,转录起始位点被作图。在一个实施方案中,如附图2中所说明,在比较基因的所有可获得的TSS后,通过确定每个基因的最5′TSS,对TSS作图。通过最5′TSS,可以从最新的人类基因组中,检索每个检索到的基因的调控区的基因组序列。5′调控区是TSS的上游序列和TSS的下游序列。如附图4中所说明,在各种实施方案中,基因调控区包括但是不限于,核心启动子区,上游增强子区,下游调控区等。核心启动子区可包括TSS上游的200-300个碱基和TSS下游的约50-100个碱基。相对于TSS的相应序列可被切割(cut)和存储。相对于TSS的相应序列可以使用自主开发的脚本从基因组序列中切割和存储,基于特定的释放(release),以前的、最新的和将来的释放,包括但是不限于UCSC基因组浏览器、NCBI基因组数据库、Ensemb1数据库、其它基因组序列数据库等。在一个实施方案中,用MATCH程序筛选DNA序列信息,MATCH程序得到TRANSFAC数据库的许可。DNA序列信息选筛可包括选择TF矩阵(matrix)、矩阵相似性分值(scoreofmatrixsimilarity)、核心相似性分值(scoreofcoresimilarity)等。截取点(Cut-off)被用于降低筛选过程中的假阳性和假阴性匹配。可以确定各个结合位点的基因组或组织特异的频率。频率可以是特异的TF结合位点在(i)所有的基因组范围,(ii)所有的基因特异性细胞范围,(iii)所有的基因特异性组织范围,(iv)所有特异定义的基因中至少一种的调控区中的存在情况。频率可以是特异的TF结合位点在组织特异基因的调控区中的存在情况。此外,该频率也可被认为是保守分值(conservationscore)或表达水平分值。作为举例说明,而不是限制,根据它们相应的保守分值或它们相应的基因表达水平,所确定的结合位点可以被有差别地考虑。例如,具有较高保守分值的结合位点或者具有较高表达水平的相应基因所起的作用比具有较低分值的那些位点或基因更显著。可以建立各个结合位点的保守分值。选择保守分值来覆盖鉴定出TF结合位点的区域以及指示两个物种之间的保守水平的任何其它测量值,所述物种包括但是不限于小鼠和人。确定各个结合位点的位置。该位置可以以人类基因组工作草图为基础。该位置是人类基因组工作草图中被转变(convert)的位置。随着添加更多的序列片段,各个染色体的总长度也增加。这会使染色体上各个碱基的位置读取发生位移。但是,该位置可容易地被转变,并且相对于该基因位置的调控区位置保持不变。可以确定起点和终点的基因组位置。可以确定各个结合位点到TSS的距离。该距离是相对于结合位点与TSS之间的若干(anumberof)碱基。作为举例说明,而不是限制,在一个实施方案中,该距离是所定义的结合位点到TSS的23个碱基的碱基之间的最后一个碱基的距离。在该实施例中,在这两个特定碱基之间有23个碱基。在本发明的一个实施方案中,基于最5′TSS的位置,采用自主开发的计算机脚本和程序,从最新的人类基因组工作草图中检索所有可获得的基因的5′调控序列。这些检索得到的序列包括但是不限于每个基因的TSS的5′上游的250个碱基和TSS3′下游的50个碱基。使用充分表征的转录因子结合共有序列模式(或位置加权的(positionweighted)矩阵),可以分析所有的调控区序列,该模式由被许可的TRANSFAC数据库(TRANSFAC专业6.3版本,Wingender等人,NucleicAcidsRes.29,281)建立。选择以高分值与结合矩阵匹配的位点。这些位点包括它们在基因组中的位置(相对于特定的基因组集合版本)和它们的长度以及它们与侧翼位点的协同信息。通过将它们的保守分值与小鼠比较,进一步分析从上面获得的所有结合位点。从公众可获得的NCBI和UCSC基因组数据库检索到小鼠基因组和相对保守的信息,并用自主制作的版本和程序,与人转录因子结合位点进行保守比较。将从上面生成的转录因子结合位点序列信息存储到数据库中,包括它们的基因组位置(起始(start)、终止(end))、长度、到各个基因的TSS的距离,和侧翼区(包括但是不限于5′和3′的10个碱基)。还添加相关的参考连接(link),例如基因名称、功能、注释等。根据该数据库,用计算机生成所有可能的转录诱饵(transcriptiondecoy)。采用高通量方法,例如寡核苷酸阵列、毛细管电泳等,进一步实验筛选该诱饵,以优化结合效率。所有的优化诱饵信息将被存储到数据库中。数据库中的部分信息可被用于未来版本的数据库中。基因调控区的分布型(profile)包括但是不限于,(i)各个调控因子结合位点的概率作图,(ii)各个已知调控因子的目标基因鉴定;(iii)从各种差别表达的基因中确定的基因的调控因子结合分布型的统计学分析,等等。在一个实施方案中,确定各个结合位点的长度。还可以确定关于与结合位点邻近的区域的序列信息。同样作为说明而不是限制,一个例子是agcgtcagaAGGGGACTTTCCCaagagaggccgaga(SEQIDNO3),小写的碱基字母位于以大写表示的核心结合位点的两侧。还可确定其它结合位点的共存信息。转录机制通常需要由多个不同转录相关蛋白形成复合物,包括多个不同的DNA结合因子。在本发明中,针对基因调控区绘制结合位点的分布型,通常在单个区域中确定一个以上的结合位点。作为例子,单个区域的结合位点的数量可为15-20个。可以确定结合位点簇及其位置。现在参考附图5和6,本发明的另一个实施方案为有形存储在计算机可读介质中的数据结构,包括具有通过分布型绘制而加以确定了的结合位点信息的数据库。该数据库包括带有标识符、结合位点等的核心表格。结合位点信息包括但是不限于,序列、长度、位置、方向、频率等。一个辅助表格(supportingtable)包括所有基因的TSS位置。序列表格提供基因的调控区的序列。额外的辅助表格包括但是不限于TF的频率、各个TF的TF目标基因等。所有的表格通过一种或多种标识符连接。在一个实施方案中,用多个而不是一个perlCGI脚本进入(reach)和检索数据库,然后显示相应的信息。还提供网络浏览器界面。可以通过各种不同手段来检索数据库,包括但是不限于基因标识符、基因符号或者自主开发的标识符等。可以从NCBI数据库中选择基因标识符,标识符可以是UnigeneClusterID,LoucsLinkID,国际上认可的基因符号等。一个实施方案中,数据库包括TF的基因组频率信息,可以至少用TF名称或TF频率来分类(sort)。TF频率可包括基因组频率和组织特异性频率。在一个特定的实施方案中,数据库含有所有已知基因(总计约15,450种)的调控因子结合位点的分布型。作为说明,而不是限制,用一种基因(符号DLD,二氢硫辛酰胺脱氢酶)来简要说明如何建立数据库。1.检索全长基因例如基因DLD,以提供序列信息。如附图2中所说明,可从NCBI数据库(refseq)、MGC数据库(MGC)、日本DBTSS数据库(DBTSS)等中获得三种不同版本的全长mRNA序列。从refseq数据库检索得到的基因DLD的完整序列被列举在附图7中(SEQIDNO59),从MGC检索得到的完整序列被列举在附图8中(SEQIDNO60),从DBTSS检索得到的完整序列被列举在附图9中(SEQIDNO61)。2.将检索得到的基因作图到新近更新的人类基因组中。用自主开发的脚本,将上面的检索得到的序列读取(fetch)到UCSC基因组浏鉴器数据库中,以绘制它们的基因组位置图谱。采用由至少一种公众可获得的UCSC基因组济览器数据库提供的工具,将检索得到的不同版本的基因DLD作图到最近更新的人类基因组中。3.对TSS的位置作图。用自主开发的脚本从上面提及的UCSC基因组数据库中检索被作图的位置。作图的总计结果被列举在表1中。例如,来自NCBIrefseq数据库的全长基因DLD序列被作图到人类基因组工作草图(由UCSC基因组浏览器于2002年6月发布),定位于7号染色体的有义链或正链上,从染色体位置106015510开始,在染色体位置106044308处终止。表14.在比较基因的所有可获得的TSS后通过制定每个基因的最5′TSS,对TSS作图。再次参考附图2,通过采用自主制作的脚本以方便此次作图。对于基因DLD,由于其位于7号染色体的“+”链上,起始位置106015488被认为是基因DLD的TSS的最5′位置。5.从最新的人类基因组中检索各个具有最5′TSS的检索获得的基因的调控区的基因组序列。5′调控区是TSS上游和TSS下游的序列。更加特别地,对于基因DLD而言,调控区或者核心启动子区是包括TSS上游的200-300个碱基和TSS下游的约50-100个碱基的序列。因此,用自主开发的脚本从至少一个UCSC基因组浏览器或NCBI基因组数据库中剪切和存储相对于基因DLD的TSS的相应序列。基因DLD的被存储序列被列举在附图10中(SEQIDNO62)。6.用匹配程序,对基因DLD的调控区的存储序列进行筛选。MATCH程序是包含在被许可的TRANSFAC数据库中的序列分析工具。采用矩阵相似性分值和核心相似性分值的正确设定进行分析,以减少在筛选过程中的假阳性和假阴性的匹配。基因DLD的调控区的筛选结果被显示在表2中,其中列出了被确定的结合位点的位置。表27.确定各个结合位点的基因组或组织特异性频率。频率是特异的TF结合位点在所有的基因或者组织特异性基因的调控区中的存在情况。在分析所有基因的调控区后,容易确定TF结合位点存在的频率或概率。基因DLD的一些这样的频率信息被列举在表3中。表38.建立各个结合位点的保守分值。从UCSC基因组浏览器数据库中检索用于人类和小鼠之间的全基因组比较的保守分值。选择保守分值来覆盖确定出TF结合位点的区域。在基因DLD的调控区中确定TF结合位点的保守分值被列举在表4中。表49.确定结合位点簇和它们的位置。采用自主制作的脚本,聚类(cluster)相邻或重叠的结合位点,并在表5中列举了基因DLD的相应位置和TF。表510.将结合分布型收集在数据库中。将上面列举的所有结合分布型收集在数据库中。基因DLD的入口的示例性列表显示在表6中。表611.数据库可用基因标识符检索。附图11举例说明可与数据库一起使用的查询形式的屏幕显示(screenshot)。附图12举例说明数据库查询结果的屏幕显示。如附图13中所说明,本发明的另一个实施方案是用于显示已绘制分布型的调控因子结合位点的计算机执行系统。该系统包括数据库、包括一个或多个可选择的用户输入端的用户界面、可由用户操作的输入装置和用于显示至少一种响应于分布型绘制的确定的结合位点的输出值的显示器。输出值的例子包括但是不限于,基因名称、标识符、所确定的TF结合位点、TF名称、基因组位置、长度、距离、保守分值、结合分值、频率信息和结合位点序列。输入端的例子包括基因标识符,例如基因符号,unigeneClusterID或者locuslinkID等。该系统还包括存储器、微处理器、数据文件、脚本(script)、可获得的辅助软件,包括但是不限于MSwindows,redhatlinux,ApacheHTTPsever,Perl编译程序等。前面对本发明的优选实施方案的描述,用于说明和描述的目的。目的不在于穷举或者将本发明限定在所公开的精确形式中。显然,许多改进和变化对于本领域普通技术人员来说是显然的。本发明的保护范围由下面的权利要求书和它们的等价物来定义。序列表<110>科根泰克股份有限公司(CORGENTECH,INC.)ZHANG,JieWEI,Hsiu-YingMCEVOY,LeslieMargaret<120>调控因子结合位点的基因组分布型绘制<130>39753-0003PCT<140>Unassigned<141>Herewith<150>US10/402,689<151>2003-03-28<160>65<170>FastSEQforWindowsVersion4.0<210>1<211>14<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(1)...(14)<400>1aggggactttccca14<210>2<211>8<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(1)...(8)<400>2tttggcgg8<210>3<211>36<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(10)...(22)<400>3agcgtcagaaggggactttcccaagagaggccgaga36<210>4<211>21<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(9)...(13)<400>4tgaacttgtcacgctttactg21<210>5<211>21<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(12)...(16)<400>5aacttgtcacgctttactgtc21<210>6<211>21<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>6acttgtcacgctttactgtcg21<210>7<211>21<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>7acttgtcacgctttactgtcg21<210>8<211>9<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(2)...(6)<400>8tcgataatg9<210>9<211>18<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(11)...(15)<400>9cgataatgtgcattaagc18<210>10<211>18<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(4)...(8)<400>10cgataatgtgcattaagc18<210>11<211>12<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(4)...(8)<400>11gcattaagcaaa12<210>12<211>14<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>12ctagttttatttgt14<210>13<211>18<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>13agttttatttgtttattt18<210>14<211>15<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>14agttttatttgttta15<210>15<211>13<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>15gttttatttgttt13<210>16<211>12<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(3)...(7)<400>16ttttatttgttt12<210>17<211>13<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(4)...(8)<400>17ttttatttgttta13<210>18<211>18<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>18ttatttgtttatttcatc18<210>19<211>15<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>19ttatttgtttatttc15<210>20<211>14<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(7)...(11)<400>20tatttgtttatttc14<210>21<211>16<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(7)...(11)<400>21tatttgtttatttcat16<210>22<211>11<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(5)...(9)<400>22tatttgtttat11<210>23<211>11<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(1)...(5)<400>23tatttgtttat11<210>24<211>14<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>24atttgtttatttca14<210>25<211>13<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(4)...(8)<400>25atttgtttatttc13<210>26<211>13<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(4)...(8)<400>26atttgtttatttc13<210>27<211>12<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(5)...(9)<400>27atttgtttattt12<210>28<211>12<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(3)...(7)<400>28atttgtttattt12<210>29<211>11<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(1)...(5)<400>29tgtttatttca11<210>30<211>18<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(12)...(16)<400>30gtttatttcatcttctaa18<210>31<211>12<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(5)...(9)<400>31ttctaagtataa12<210>32<211>24<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>32ttctaagtataagaatacattgta24<210>33<211>13<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(5)...(9)<400>33agcattcccacca13<210>34<211>13<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(5)...(9)<400>34agcattcccacca13<210>35<211>8<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(2)...(6)<400>35gcgacaaa8<210>36<211>21<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(12)...(16)<400>36agccctgcgctccttacgaca21<210>37<211>10<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(5)...(9)<400>37gcctcgtgcg10<210>38<211>12<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(6)...(10)<400>38gcgggccaatcg12<210>39<211>21<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(12)...(16)<400>39cgctgctcccgggtgatgacg21<210>40<211>21<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(11)...(15)<400>40tgctcccgggtgatgacgtag21<210>41<211>19<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(5)...(9)<400>41gggtgatgacgtaggctgc19<210>42<211>12<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(5)...(9)<400>42gtgatgacgtag12<210>43<211>12<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(3)...(7)<400>43gatgacgtaggc12<210>44<211>12<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(3)...(7)<400>44gatgacgtaggc12<210>45<211>9<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(5)...(9)<400>45tgacgtagg9<210>46<211>8<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(1)...(5)<400>46tgacgtag8<210>47<211>8<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(2)...(6)<400>47agggaggg8<210>48<211>8<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(2)...(6)<400>48cttggcgg8<210>49<211>8<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(3)...(7)<400>49cttggcgg8<210>50<211>8<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(3)...(7)<400>50cttggcgg8<210>51<211>43<212>DNA<213>人(Homosapiens)<400>51tgaacttgtcacgctttactgtcgataatgtgcattaagcaaa43<210>52<211>48<212>DNA<213>人(Homosapiens)<400>52ctagttttatttgtttatttcatcttctaagtataagaatacattgta48<210>53<211>13<212>DNA<213>人(Homosapiens)<400>53agcattcccacca13<210>54<211>28<212>DNA<213>人(Homosapiens)<400>54gcgacaaagccctgcgctccttacgaca28<210>55<211>10<212>DNA<213>人(Homosapiens)<400>55gcctcgtgcg10<210>56<211>40<212>DNA<213>人(Homosapiens)<400>56gcgggcaatcgcgctgctcccgggtgatgacgtaggctgc40<210>57<211>8<212>DNA<213>人(Homosapiens)<400>57agggaggg8<210>58<211>8<212>DNA<213>人(Homosapiens)<400>58cttggcgg8<210>59<211>2320<212>DNA<213>人(Homosapiens)<400>59gcgcagggaggggagaccttggcggacggcggagccccagcggaggtgaaagtattggcg60gaaaggaaaatacagcggaaaaatgcagagctggagtcgtgtgtactgctccttggccaa120gagaggccatttcaatcgaatatctcatggcctacagggactttctgcagtgcctctgag180aacttacgcagatcagccgattgatgctgatgtaacagttataggttctggtcctggagg240atatgttgctgctattaaagctgcccagttaggcttcaagacagtctgcattgagaaaaa300tgaaacacttggtggaacatgcttgaatgttggttgtattccttctaaggctttattgaa360caactctcattattaccatatggcccatggaacagattttgcatctagaggaattgaaat420gtccgaagttcgcttgaatttagacaagatgatggagcagaagagtactgcagtaaaagc480tttaacaggtggaattgcccacttattcaaacagaataaggttgttcatgtcaatggata540tggaaagataactggcaaaaatcaagtcactgctacgaaagctgatggcggcactcaggt600tattgatacaaagaacattcttatagccacgggttcagaagttactccttttcctggaat660cacgatagatgaagatacaatagtgtcatctacaggtgctttatctttaaaaaaagttcc720agaaaagatggttgttattggtgcaggagtaataggtgtagaattgggttcagtttggca780aagacttggtgcagatgtgacagcagttgaatttttaggtcatgtaggtggagttggaat840tgatatggagatatctaaaaactttcaacgcatccttcaaaaacaggggtttaaatttaa900attgaatacaaaggttactggtgctaccaagaagtcagatggaaaaattgatgtttctat960tgaagctgcttctggtggtaaagctgaagttatcacttgtgatgtactcttggtttgcat1020tggccgacgaccctttactaagaatttgggactagaagagctgggaattgaactagatcc1080tagaggtagaattccagtcaataccagatttcaaactaaaattccaaatatctatgccat1140tggtgatgtagttgctggtccaatgctggctcacaaagcagaggatgaaggcattatctg1200tgttgaaggaatggctggtggtgctgtgcacattgactacaattgtgtgccatcagtgat1260ttacacacaccctgaagttgcttgggttggcaaatcagaagagcagttgaaagaagaggg1320tattgagtacaaagttgggaaattcccatttgctgctaacagcagagctaagacaaatgc1380tgacacagatggcatggtgaagatccttgggcagaaatcgacagacagagtactgggagc1440acatattcttggaccaggtgctggagaaatggtaaatgaagctgctcttgctttggaata1500tggagcatcctgtgaagatatagctagagtctgtcatgcacatccgaccttatcagaagc1560ttttagagaagcaaatcttgctgcgtcatttggcaaatcaatcaacttttgaattagaag1620attatatatttttttttctgaaatttcctgggagcttttgtagaagtcacattcctgaac1680aggatattctcacagctccaagaatttctaggactgaattatgaaacttttggaaggtat1740ttaataggtttggacaaaatggaatactcttatatctatattttacataaatttagtatt1800ttgtttcagtgcactaatatgtaagacaaaaaggactacttattgtagtcatcctggaat1860atctccgtcaactcatattttcatgctgttcatgaaagattcaatgcccctgaatttaaa1920tagctcttttctctgatacagaaaagttgaattttacatggctggagctagaatttgata1980tgtgaacagttgtgtttgaagcacagtgatcaagttatttttaatttggttttcacattg2040gaaacaagtcagtcattcagatatgattcaaatgtctataaaccaaactgatgtaagtaa2100atggtctctcacttgttttatttaacctctaaattctttcattttaggggtagcatttgt2160gttgaagaggttttaaagcttccattgttgtctgcaactctgaagggtaattatatagtt2220acccaaattaagagagtctatttacggaactcaaatacgtgggcattcaaatgtattaca2280gtggggaatgaagatactgaaataaacgtcttaaatattc2320<210>60<211>2108<212>DNA<213>人(Homosapiens)<400>60ggcacgagggaggcgcccagcggaggtgaaagtattggcggaaaggaaaatacagcggaa60aaatgcagagctggagtcgtgtgtactgctccttggccaagagaggccatttcaatcgaa120tatctcatggcctacagggactttctgcagtgcctctgagaacttacgcagatcagccga180ttgatgctgatgtaacagttataggttctggtcctggaggatatgttgctgctattaaag240ctgcccagttaggcttcaagacagtctgcattgagaaaaatgaaacacttggtggaacat300gcttgaatgttggttgtattccttctaaggctttattgaacaactctcattattaccata360tggcccatggaaaagattttgcatctagaggaattgaaatgtccgaagttcgcttgaatt420tagacaagatgatggagcagaagagtactgcagtaaaagctttaacaggtggaattgccc480acttattcaaacagaataaggttgttcatgtcaatggatatggaaagataactggcaaaa540atcaagtcactgctacgaaagctgatggcggcactcaggttattgatacaaagaacattc600ttatagccacgggttcagaagttactccttttcctggaatcacgatagatgaagatacaa660tagtgtcatctacaggtgctttatctttaaaaaaagttccagaaaagatggttgttattg720gtgcaggagtaataggtgtagaattgggttcagtttggcaaagacttggtgcagatgtga780cagcagttgaatttttaggtcatgtaggtggagttggaattgatatggagatatctaaaa840actttcaacgcatccttcaaaaacaggggtttaaatttaaattgaatacaaaggttactg900gtgctaccaagaagtcagatggaaaaattgatgtttctattgaagctgcttctggtggta960aagctgaagttatcacttgtgatgtactcttggtttgcattggccgacgaccctttacta1020agaatttgggactagaagagctgggaattgaactagatcccagaggtagaattccagtca1080ataccagatttcaaactaaaattccaaatatctatgccattggtgatgtagttgctggtc1140caatgctggctcacaaagcagaggatgaaggcattatctgtgttgaaggaatggctggtg1200gtgctgtgcacattgactacaattgtgtgccatcagtgatttacacacaccctgaagttg1260cttgggttggcaaatcagaagagcagttgaaagaagagggtattgagtacaaagttggga1320aattcccatttgctgctaacagcagagctaagacaaatgctgacacagatggcatggtga1380agatccttgggcagaaatcgacagacagagtactgggagcacatattcttggaccaggtg1440ctggagaaatggtaaatgaagctgctcttgctttggaatatggagcatcctgtgaagata1500tagctagagtctgtcatgcacatccgaccttatcagaagcttttagagaagcaaatcttg1560ctgcgtcatttggcaaatcaatcaacttttgaattagaagattatatatatttttttctg1620aaatttcctgggagcttttgtagaagtcacattcctgaacaggatattctcacagctcca1680agaatttctaggactgaattatgaaacttttggaaggtatttaataggtttggacaaaat1740ggaatactcttatatctatattttacataaatttagtattttgtttcagtgcactaatgt1800gtaagacaaaaagctacttattgtagcatcctggaatatctccgtcaactcatattttca1860tgctgttcatgaaagattcaatgcccctgaatttaaatagcttttttctctgatacagaa1920aagttgaattttacatggctggagctagaatttgatatgtgaacagttgtgtttgaagca1980cagtgatcaagttatttttaatttggttttcacattggaaacaagtcagtcattcagata2040tgattcaaatgtctataaaccgaactgatgtaagtaaaaaaaaaaaaaaaaaaaaaaaaa2100aaaaaaaa2108<210>61<211>2341<212>DNA<213>人(Homosapiens)<400>61acgtaggctgcgcctgtgcatgcgcagggaggggagaccttggcggacggcggagcccca60gcggaggtgaaagtattggcggaaaggaaaatacagcggaaaaatgcagagctggagtcg120tgtgtactgctccttggccaagagaggccatttcaatcgaatatctcatggcctacaggg180actttctgcagtgcctctgagaacttacgcagatcagccgattgatgctgatgtaacagt240tataggttctggtcctggaggatatgttgctgctattaaagctgcccagttaggcttcaa300gacagtctgcattgagaaaaatgaaacacttggtggaacatgcttgaatgttggttgtat360tccttctaaggctttattgaacaactctcattattaccatatggcccatggaacagattt420tgcatctagaggaattgaaatgtccgaagttcgcttgaatttagacaagatgatggagca480gaagagtactgcagtaaaagctttaacaggtggaattgcccacttattcaaacagaataa540ggttgttcatgtcaatggatatggaaagataactggcaaaaatcaagtcactgctacgaa600agctgatggcggcactcaggttattgatacaaagaacattcttatagccacgggttcaga660agttactccttttcctggaatcacgatagatgaagatacaatagtgtcatctacaggtgc720tttatctttaaaaaaagttccagaaaagatggttgttattggtgcaggagtaataggtgt780agaattgggttcagtttggcaaagacttggtgcagatgtgacagcagttgaatttttagg840tcatgtaggtggagttggaattgatatggagatatctaaaaactttcaacgcatccttca900aaaacaggggtttaaatttaaattgaatacaaaggttactggtgctaccaagaagtcaga960tggaaaaattgatgtttctattgaagctgcttctggtggtaaagctgaagttatcacttg1020tgatgtactcttggtttgcattggccgacgaccctttactaagaatttgggactagaaga1080gctgggaattgaactagatcctagaggtagaattccagtcaataccagatttcaaactaa1140aattccaaatatctatgccattggtgatgtagttgctggtccaatgctggctcacaaagc1200agaggatgaaggcattatctgtgttgaaggaatggctggtggtgctgtgcacattgacta1260caattgtgtgccatcagtgatttacacacaccctgaagttgcttgggttggcaaatcaga1320agagcagttgaaagaagagggtattgagtacaaagttgggaaattcccatttgctgctaa1380cagcagagctaagacaaatgctgacacagatggcatggtgaagatccttgggcagaaatc1440gacagacagagtactgggagcacatattcttggaccaggtgctggagaaatggtaaatga1500agctgctcttgctttggaatatggagcatcctgtgaagatatagctagagtctgtcatgc1560acatccgaccttatcagaagcttttagagaagcaaatcttgctgcgtcatttggcaaatc1620aatcaacttttgaattagaagattatatatttttttttctgaaatttcctgggagctttt1680gtagaagtcacattcctgaacaggatattctcacagctccaagaatttctaggactgaat1740tatgaaacttttggaaggtatttaataggtttggacaaaatggaatactcttatatctat1800attttacataaatttagtattttgtttcagtgcactaatatgtaagacaaaaaggactac1860ttattgtagtcatcctggaatatctccgtcaactcatattttcatgctgttcatgaaaga1920ttcaatgcccctgaatttaaatagctcttttctctgatacagaaaagttgaattttacat1980ggctggagctagaatttgatatgtgaacagttgtgtttgaagcacagtgatcaagttatt2040tttaatttggttttcacattggaaacaagtcagtcattcagatatgattcaaatgtctat2100aaaccaaactgatgtaagtaaatggtctctcacttgttttatttaacctctaaattcttt2160cattttaggggtagcatttgtgttgaagaggttttaaagcttccattgttgtctgcaact2220ctgaagggtaattatatagttacccaaattaagagagtctatttacggaactcaaatacg2280tgggcattcaaatgtattacagtggggaatgaagatactgaaataaacgtcttaaatatt2340c2341<210>62<211>301<212>DNA<213>人(Homosapiens)<400>62gttgaacttgtcacgctttactgtcgataatgtgcattaagcaaacgctagttttatttg60tttatttcatcttctaagtataagaatacattgtagctcgacattttggcaccagcccct120aaagcattcccaccaccacccccgctgcgacaaagccctgcgctccttacgacagcgtac180gacgccgagcctgacaggaacgcctcgtgcggtagaaccgcgcgggccaatcgcgctgct240cccgggtgatgacgtaggctgcgcctgtgcatgcgcagggaggggagaccttggcggagc300g301<210>63<211>21<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(9)...(13)<400>63tgaacttatcacgctttactg21<210>64<211>18<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(4)...(8)<400>64caataatgtgcattaagc18<210>65<211>12<212>DNA<213>人(Homosapiens)<220><221>protein_bind<222>(5)...(8)<400>65agcattccacca1权利要求1.用于绘制调控因子结合位点分布型的方法定位完整的和最5′全长基因,用于对基因调控区作图;检索基因的调控区的基因组序列;筛选各个检索的基因调控区的DNA序列信息,以鉴定推定的调控因子结合位点;和绘制推定的调控因子结合位点分布型。2.权利要求1的方法,其中作图包括检索全长基因,以提供检索得到的基因的序列信息。3.权利要求2的方法,其中作图包括将检索得到的基因作图到最近更新的人类基因组上。4.权利要求3的方法,其中采用工具和自主开发的脚本,将检索得到的基因作图到最近更新的人类基因组上,所述工具由公众可获得的UCSC基因组浏览器数据库中的至少一种提供。5.权利要求3的方法,其中对转录起始位点(TSS)作图。6.权利要求5的方法,其中通过在比较所述基因的所有可获得的TSS后取得各个基因的最5′TSS,来对TSS作图。7.权利要求1的方法,其中从最新的人类基因组中检索每个检索得到的具有最5′TSS的基因的调控区的基因组序列。8.权利要求7的方法,其中5′调控区是位于TSS上游和TSS下游的序列。9.权利要求1的方法,其中检索得到的基因调控区的序列是核心启动子区域。10.权利要求9的方法,其中核心启动子区域包括TSS上游的200-300个碱基以及TSS下游约50-100个碱基的序列。11.权利要求5的方法,其中基因的基因组序列是上游增强子区域。12.权利要求3的方法,其中基因调控区的基因组序列是下游调控区。13.权利要求7的方法,进一步包括切割和存储相对于TSS的相应序列。14.权利要求13的方法,其中使用自主开发的脚本从UCSC基因组浏览器或NCBI基因组数据库中的至少一个中切割和存储相对于TSS的相应序列。15.权利要求1的方法,其中用MATCH程序或类似的位置加权的矩阵程序筛选DNA序列信息以进行基序检索。16.权利要求1的方法,其中DNA序列信息筛选包括选择TF矩阵、矩阵相似性分值和核心相似性分值。17.权利要求1的方法,其中用截取点来减少筛选过程中的假阳性和假阴性匹配。18.权利要求1的方法,进一步包括确定各个结合位点的至少一个基因组或组织特异性频率。19.权利要求1的方法,其中频率是特异的TF结合位点在所有基因的调控区中的存在情况。20.权利要求1的方法,其中频率是特异的TF结合位点在组织特异性基因的调控区中的存在情况。21.权利要求16的方法,进一步包括建立各个结合位点的保守分值。22.权利要求17的方法,其中选择保守分值来覆盖TF结合位点被鉴定的区域。23.权利要求17的方法,进一步包括确定各个结合位点的位置。24.权利要求23的方法,其中所述位置是基于人类基因组工作草图。25.权利要求24的方法,其中所述位置是人类基因组工作草图中的被转变的位置。26.权利要求23的方法,其中确定起始和终止的基因组位置。27.权利要求23的方法,进一步包括确定各个结合位点到TSS的距离。28.权利要求27的方法,其中该距离相对于结合位点和TSS之间的若干碱基。29.权利要求27的方法,进一步包括确定各个结合位点的长度。30.权利要求29的方法,进一步包括确定邻近于结合位点的区域的序列信息。31.权利要求30的方法,进一步包括确定其它结合位点的共存信息。32.权利要求31的方法,进一步包括确定结合位点和它们的位置的聚类。33.权利要求1的方法,进一步包括将结合分布型收集在数据库中。34.权利要求33的方法,其中数据库包括各个基因的调控区的TF结合分布型。35.权利要求33的方法,其中数据库可以用基因标识符检索。36.权利要求35的方法,其中基因标识符选自NCBI数据库。37.权利要求36的方法,其中NCBI数据库包括UnigeneClusterID、LoucsLinkID和国际上认可的基因符号中的至少一种。38.权利要求35的方法,其中数据库包括TF的基因组频率信息。39.权利要求38的数据库,其中数据库可以用TF名称和TF频率中的至少一个来分类。40.权利要求39的方法,其中TF频率包括基因组频率和组织特异性频率。41.权利要求33的方法,进一步包括从数据库中检索信息以用于生物医学研究。42.权利要求33的方法,进一步包括从数据库中检索信息以用于临床前开发。43.权利要求33的方法,进一步包括从数据库中检索信息以用于药物筛选应用。44.权利要求33的方法,进一步包括从数据库中检索信息以用于靶点发现和靶点确认。45.权利要求33的方法,进一步包括从数据库中检索信息以用于调控区的分布型绘制。46.权利要求33的方法,进一步包括从数据库中检索信息以用于建立不同基因的调控分布型之间的基因组或组织范围的联系。47.权利要求33的方法,进一步包括从数据库中检索信息,用于了解各种已知转录分布型的基因组或组织背景,了解各种已知转录分布型的基因组或组织背景。48.用于绘制被确认的结合位点分布型的方法,包括提供数据库,所述数据库包括已知基因的经分布型绘制的确认的结合位点;和将概率作图应用于被绘制分布型的结合位点。49.权利要求48的方法,其中数据库包括各个基因的调控区的TF结合分布型。50.权利要求48的方法,其中该数据库可以用基因标识符检索。51.权利要求50的方法,其中基因标识符从NCBI数据库中选择。52.权利要求51的方法,其中NCBI数据库包括UnigeneClusterID、LoucsLinkID和国际上认可的基因符号中的至少一种。53.权利要求51的方法,其中数据库包括脊椎动物转录调控因子的基因组频率信息。54.权利要求53的方法,其中数据库可以用TF名称和TF频率中的至少一个分类。55.权利要求54的方法,其中TF频率包括基因组频率和组织特异性频率。56.权利要求48的方法,进一步包括从数据库中检索信息,用于生物医学研究。57.权利要求48的方法,进一步包括从数据库中检索信息,用于临床前的开发。58.权利要求48的方法,进一步包括从数据库中检索信息,用于药物筛选应用。59.权利要求48的方法,进一步包括从数据库中检索信息,用于靶点发现和靶点确认。60.权利要求48的方法,进一步包括从数据库中检索信息,用于调控区的分布型绘制。61.权利要求48的方法,进一步包括从数据库中检索信息,用于建立不同基因的调控分布型之间的基因组或组织范围的联系。62.权利要求48的方法,进一步包括从数据库中检索信息,用于了解各种已知转录分布型的基因组或组织背景,了解各种已知转录分布型的基因组或组织背景。63.有形存储在计算机可读介质上的数据结构,包括包括被绘制分布型的确认结合位点的数据库,被绘制分布型的确认结合位点通过筛选基因调控区的DNA序列信息建立,其中该数据库可以用基因标识符来检索。64.权利要求63的方法,其中基因标识符选自NCBIGeneBank标识符。65.权利要求64的方法,其中NCBI数据库包括UnigeneClusterID,LoucsLinkID和国际上认可的基因符号中的至少一种。66.权利要求63的数据结构,其中该数据库包括各个基因的调控区的TF结合分布型。67.权利要求63的数据结构,其中该数据库包括脊椎动物转录调控因子的基因组频率信息。68.权利要求63的数据结构,其中该数据库可以用TF名称和TF频率中的至少一个分类。69.权利要求68的数据结构,其中TF频率包括基因组频率和组织特异性频率。70.权利要求63的数据结构,其中该数据库包括用于生物医学研究的信息。71.权利要求63的数据结构,其中该数据库包括用于临床前的开发的信息。72.权利要求63的数据结构,其中该数据库包括用于药物筛选应用的信息。73.权利要求63的数据结构,其中该数据库包括用于靶点发现和靶点确认的信息。74.权利要求63的数据结构,其中该数据库包括用于调控区的分布型绘制的信息。75.权利要求63的数据结构,其中该数据库包括用于建立不同基因的调控分布型之间的基因组或组织范围的连接的信息。76.权利要求63的数据结构,其中该数据库包括用于了解各种已知转录分布型的基因组或组织背景,了解各种已知转录分布型的基因组或组织背景的信息。77.用于绘制调控因子结合位点分布型的计算机执行系统,包括包括被绘制分布型的确认结合位点的数据库,被绘制分布型的确认结合位点通过筛选基因调控区的DNA序列信息来建立,其中数据库可以用基因标识符检索;包括一个或多个可选择的用户输入的用户界面;可由用户操作的输入装置;和用于显示至少一个响应于被绘制分布型的确认结合位点的输出值的显示器。78.权利要求77的系统,其中基因标识符选自NCBIGeneBank标识符。79.权利要求78的系统,其中NCBI数据库包括UnigeneClusterID,LoucsLinkID和国际上认可的基因符号中的至少一种。80.权利要求77的系统,其中该数据库包括各个基因的调控区的TF结合分布型。81.权利要求77的系统,其中该数据库包括脊椎动物转录调控因子的基因组频率信息。82.权利要求77的系统,其中该数据库可以用TF名称和TF频率中的至少一个分类。83.权利要求68的系统,其中TF频率包括基因组频率和组织特异性频率。84.权利要求77的系统,其中该数据库包括用于生物医学研究的信息。85.权利要求77的系统,其中该数据库包括用于临床前的开发的信息。86.权利要求77的系统,其中该数据库包括用于药物筛选应用的信息。87.权利要求77的系统,其中该数据库包括用于靶点发现和靶点确认的信息。88.权利要求77的系统,其中该数据库包括用于调控区的分布型绘制的信息。89.权利要求77的系统,其中该数据库包括用于建立不同基因的调控分布型之间的基因组或组织范围的联系的信息。90.权利要求77的系统,其中该数据库包括用于了解各种已知转录分布型的基因组或组织背景,了解各种已知转录图谱的基因组或组织背景的信息。91.权利要求77的系统,其中至少一个输出值包括至少如下之一基因名称,标识符,被确认的TF结合位点,TF名称,基因组位置,长度,距离,保守分值,结合分值,频率信息和结合位点序列。92.权利要求77的系统,还包括存储器;和微处理器。全文摘要提供一种用于绘制调控因子结合位点分布型的方法。在基因组中定位完整基因,用于绘制基因调控区域的图谱。确定基因的最上游转录起始位点(TSS)的基因组位置。根据所确定的TSS,定义和检索基因调控区域的基因组序列。对各个检索获得的基因调控区域的DNA序列信息进行筛选,以确定推定的调控因子结合位点。绘制推定的调控因子结合位点及其基因组发生频率的分布型。文档编号G06F19/00GK1784498SQ200480012627公开日2006年6月7日申请日期2004年3月24日优先权日2003年3月28日发明者张杰,魏淑英,莱斯利·M·麦克沃伊申请人:科根泰克股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1