一种人类基因启动子识别方法

文档序号:564716阅读:373来源:国知局

专利名称::一种人类基因启动子识别方法
技术领域
:本发明涉及一种人类基因识别方法,特别是一种人类基因启动子识别方法。
背景技术
:人类基因草图的绘制成功加速了人类对整个基因的分析。对于每个基因的转录活性,启动子是重要的调控区域。启动子区域的确定及其结构功能的诠释是理解基因表达方式、基因调控网络、细胞分化和发育的基础。启动子预测对于发现新的未知基因,对于基因治疗方法中改善表达载体或基因导入系统都具有至关重要的作用。启动子预测已引起广泛关注,其预测程序是建立在不同概念之上的,根本的原理是启动子区域的特性不同于其它基因DNA特性,这些概念包括基于信号与基于内容的。对生物启动子进行计算机预测和识别是一项具有挑战性的工作,启动子的多样性和对转录调控机制认识的局限性,给相关的研究工作带来很大的困难。同源比对算法已经用于核苷酸序列同源性比对,但用于启动子预测仍处于幼年时期,虽可通过比对算法来聚类同源启动子,但大多数情况下,同源基因启动子元件的序列保守性远远低于其编码序列,因此,相似性搜索不再对其功能识别提供有益的线索(Duretetal.,Curr.Opin.Struct.Biol.,1997,7:399)。此外,许多启动子受多条信号通路的调节,特异性响应不同刺激的功能需求使启动子的组织结构变得更加复杂多样。有时甚至受同一条信号通路调节的启动子也可能完全不具有序列同源性(Kirchhamer,etal.,Proc.Natl.Acad.Sci.U.S.A.,1996,93:9322)。另外,启动子中存在许多像转录因子结合位点一样的序列结构特征,而这些特征结构并不为启动子所独有,它们散布在整个基因组中,如何滤除这为数众多的噪音信号也成为大片段基因组中启动子的计算机预测所面临的难题(Sap,etal.,Nature,1989,340:242;Bohjanen,etal.,NucleicAcidsRes"1997,25:4481;Wang,etal.,Proc.Natl.Acad.Sci.U.S.A.,199895:492)。有一些程序根据实验获得的转录因子结合特性来描述启动子的序列特征,并依次作为启动子预测的依据,但实际的效果并不十分理想,遗漏和假阳性都较严重。
发明内容有鉴于此,为了解决上述启动子预测所存在问题,本发明提供了一种人类基因启动子识别方法,能够用于人类基因启动子区域的确定及其结构功能的论释,可用于发现新的未知基因。本发明的目的是这样实现的一种人类基因启动子识别方法,包括如下a)基于主成分分析方法,建立碱基广义性质得分表征体系;c)用自交叉协方差方法对每个人类基因启动子和非启动子的表征变量做归一化处理;d)用径向基核支持向量机建立人类基因启动子识别模型。进一步,在于步骤a)具体包括如下步骤al)选取5种碱基的1209种0D-3D性质参数;a2)对1209种性质参数做相关性分析,精选得到41个性质参数;a3)用主成分分析法处理得到的碱基性质参数,得到4个主成分;a4)计算各主成分得分,将得分矢量定义为碱基广义性质得分;进一步,步骤b)具体包括用碱基广义性质得分矢量所涉及的4个主成分对人类基因启动子和非启动子的序列沿5,—3'方向进行表征,其中的每个碱基用4个碱基广义性质得分矢量表征;进一步,步骤c)具体包括如下步骤用自交叉协方差处理得到的每个启动子和非启动子序列的表征变量,设置步长/为6,使每个序列的表征变量数目一致,并将经自交叉协方差处理得到的变量作为启动子识别^f莫型的自变量;进一步,步骤d)具体包括如下步骤首先定义两个指示变量,分别用"l"表示启动子样本,用"-r,表示非启动子样本,以此指示变量作为启动子识别模型的因变量,用径向基核支持向量机建立人类基因启动子识别模型。本发明的一种人类基因启动子识别方法,其中选取的碱基广义性质得分所含信息量大、物理化学意义明确、表征能力强、结果易解释、拓展性能好及操作筒便;用自交叉协方差方法对每个启动子和非启动子的表征变量做归一化处理,该方法能够较大程度地减少原始变量信息的损失,同时可充分考虑相邻碱基之间的交互效应及相互影响;而径向基核支持向量机通过核函数技术,可以很好地相关经自交叉协方差转换的序列表征变量及观测分类值之间的关系,可以有效的防止模型的过拟合,同时,所建模型具有良好的泛化性能。本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中图1是本发明的支持向量才A4莫型识别结果的受试者操作特征分析示意图。具体实施例方式以下将参照附图,对采用本发明的方法用于人类基因启动子识别为例进行详细的描述,包括以下步骤a)基于主成分分析方法,建立碱基广义性质得分表征体系;收集5种碱基(A,C,G,T与U)的1209种性质参数,包括构成特性,官能团数目,原子中心碎片和分子特性,分子电距矢量(MEDV),分子全息距离矢量(MHDV),拓朴,运转和路径数目,连接性指数,信息指数,自相关,边缘邻接指数,Burden特征值,拓朴电荷指数,特征值指数,Randic分子剖面,几何,基于不同原子间距的径向基函数描述子(RDF),基于电衍射法的分子结构表征(MoRSE)得到的描述子,加权整体不变分子的(WHIM)描述子及几何、拓朴与原子重量的集合(GETAWAY)描述子等;另外还包括其它相关性质最高占据轨道(HOMO)能、偶极矩及Wiener指数等性质参数。釆用主成分分析压缩描述子数量,为了避免变量之间严重的多重相关性对主成分的危害,首先对1209个原始变量做相关性分析,对于相关系数大于或等于0.90的各组变量,根据其在原始变量矩阵中的载荷大小,将其中的一个保留,其它的予以删除,最终剩余41个变量,其主要反应了碱基的如下信息平均分子量、重键数目、平均芳香极化度、平均电拓朴状态、电子总能量、热力学性质、Moriguchi辛-分配系数(logP)、尿素衍生物的数目、氢键接受体原子数目(N、O、F)、E-状态拓朴参数、Kier柔性指数、最高占据轨道(HOMO)能、分子全息距离矢量、偶极矩、扭转能及空间结构等。对41个变量经主成分分析变换后其前4个主成分累计解释原始数据矩阵(5x41)99.99。/。的方差,经过转换后的主成分得分见表1,因此,可用此4个主成分得分矩阵(5x4)代替原始变量矩阵(5x41)。表l5种碱基的41种性质参数的4个主成分得分<table>tableseeoriginaldocumentpage6</column></row><table>对4个主成分载荷分析发现,对第1主成分正贡献相对最大的是以原子质量为权重的第三成分对称方向的WHIM指数,WHIM描述子属于3D几何类描述子,是对原子坐标权重矩阵协方差矩阵的PCA得到,其次是基于结构信息内容的描迷子,这两类描述子都可视为立体(Steric)特性描述子。负贡献较大的是以原子极化度为权重的Moran自相关描述子及扭转能等变量。对第2主成分正贡献较大的是基于电子衍射方法表征分子3D结构而得到的非加权3D-MoRSE描述子分量和电子能等变量信息。负贡献较大的是氮原子(N)与氧原子(O)之间的拓朴距离总和等变量。在第3主成分中,具有较大正载荷的变量是2-通道Kier修正a形状指数和Kier柔性指数,两者都属于拓朴类描述子。具有较大负载荷的是平均原子极化度(针对碳原子)和平均分子量等信息,其都属于分子构成类描述子。与第4主成分载荷正相关较大的是由本研究组提出的分子全息距离矢量的第7分量。分子全息距离矢量是将原子划分为13种原子类型,进一步定义原子属性及相对键长而得到的基于分子2D拓朴结构的描述子,其中第7分量表示原子环境C-与〉N-,〉P-之间的全息距离("-",">","<,,分别表示连有1,2,2个非氬原子或化学键与之相连)。呈现较大负相关的是非加权的3D-MoRSE描述子分量及以原子极化度为权重的Moran自相关描述子等变量信息。为方便,称此4个主成分得分矢量为碱基广义性质得分,因为此4个得分矢量从多角度综合了碱基的1209种性质参数的大部分信息,因此,可考虑尝试将其用于核酸序列表征。b)应用碱基广义性质得分对人类基因启动子和非启动子的结构进行表征;选择565条人类基因启动子序列、3819条非启动子序列(890条外显子和2929条内含子),用碱基广义性质得分矢量所涉及的4个主成分对所选序列沿5,—3'方向进行表征,序列中的每个碱基用4个碱基广义性质得分矢量表征。每个序列根据其含有的》咸基数目(定义为"),以wx4个变量表征。c)用自交叉协方差方法对每个人类基因启动子和非启动子的表征变量做归一化处理;用自交叉协方差(ACC)处理得到每个启动子和非启动子序列的表征变量,该法考虑了序列不同位点碱基参数之间所有交互效应,因此,在数据变换过程中可最大程度地降低信息损失。设所研究的样本集中最短序列长度为/+1,对任意一个含有w个碱基的序列,ACC处理如下式中/为步长;z'和/+/为序列中碱基所处位置;a和6分别为第/和/+/个碱基相应描述子分量号,对于碱基广义性质得分矢量,其0,6=1,2,3,4。可看到,当计算所有可能步长时"=1,2,3,...,/,样本集中不同长度的序列经ACC处理后其描述子数目最终都为4、/个,此处选择步长/为6,这样每条序列可由4、6=96个变量表征,将经自交叉协方差处理得到的变量作为启动子识别模型的自变量。d)用径向基核支持向量机建立人类基因启动子识别模型;首先定义两个指示变量,分别用"l"表示启动子样本,用"-l"表示非启动子样本(外显子与内含子),以此指示变量作为启动子识别模型的因变量,用径向基核支持向量机建立人类基因启动子识别模型,其参数设置为C=200.0,《(x^.)-e^(-0.125IIx-x,.II2)。若分别定义^c为计算预测正确样本数目所占总样本数目百分比,Sp为预测正确的启动子样本数目的百分比,&为预测正确的非启动子样本数目的百分比,JWCC为马^f木斯相关系数等统计参数,则经留一法交互验证,支持向量机模型对训练集中565条启动子与3819条非启动子识别得Ac=83.8,Sn=67.1,Sp=86.3与AfCC=0.442,进一步采用留1/5法交互验证得』cc=81.7,<Sn=66.9,^=83.8与MCC=0.406,这表明基于广义碱基性质得分表征,自交叉协方差归一化处理,径向基核支持向量机建模过程所建模型可较好地识别人类基因启动子。留一法及留1/5法得到的支持向量数目占总样本的数目分别为62.1°/。与68.3%,即有37.9%与31.7%的样本可被安全地删除而不影响其对新样本的预测效果,进一步表明支持向量分类机具有良好的泛化性能。进一步以(1-Sp)为横坐标(7轴),灵敏度(&)为纵坐标(F轴),绘制受试者操作特征曲线,参见图1,可看出,所建模型的留一法与留1/5法对应的面积分别为0.835和0.819。为进一步验证所发明方法对于人类基因启动子的预测效果,从EPD数据库(http:〃www.epd.isb-sib.ch/)选择与所用训练集不同的100条启动子与100条内含子序列进行预测,用径向基核支持向量机模型对之预测的结果列于表2中,同时选择7个预测服务器对200条序列进行预测结果比较,经对比发现,本发明方法所得&及MCC最高,表明其对于人类基因启动子预测具有较明显的优势。表2人类基因启动子预测结果比较方法服务器地址4&SpMX70.556.085.00.428http://bimas.dcrt.nih.gov/molbio/proscaji/55.529.082.00.130http:〃research.i2r.a-star.edu.sg/promoter/promoterl—5/DPF.Im58.538.079.00.186http:〃www.cbs.dtu.dk/services/Promoter/NNPP(Reese,Comput.Chem.,2001,26(1):51)http:〃www.fruitfly.org/seq_tools/promoter.htmlPromoterS咖(Prestridge,J.Mol.Biol"1995,249:923)DragonPromoterFinderversion1.5(Bajic,etal"J.Mol.Graph.Model"2003,21:323)Promoter2.0PredictionServer(Knudsen,etalBioinformatics,1999,15(5):356)FirstEF(Davuluri,etal.,Nat.Genet"2001,29:412)McPromoter(Ohler,etal.,Bioinformatics,1999,15(5):362)PromoSer(Halees,etal.NucleicAcidsRes.:2003,31:3554)碱基广义性质得分表征-自交叉协方差归一化-径向基核支持向量机建模63.549.078.00.282http:〃rulai.cshl.org/tools/FirstEF/http:〃genes.mit.edu/McPromoter.h加lhttp://biowulf.bu.edu/zlab/PromoSer/^本发明方法61.540.083.00.25564.048.080.00.29663.048.078.00.27371.562.081.00.438以上所述仅为本发明的优选实施例,并不用于限制本发明,显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。权利要求1.一种人类基因启动子识别方法,其特征在于包括如下步骤a)基于主成分分析方法,构建碱基广义性质得分表征体系;b)应用碱基广义性质得分对人类基因启动子和非启动子的结构进行表征;c)用自交叉协方差方法对每个人类基因启动子和非启动子的表征变量做归一化处理;d)用径向基核支持向量机建立人类基因启动子识别模型。2.根据权利要求1的一种人类基因启动子识别方法,其特征在于步骤a)具体包括如下步骤al)选择5种碱基的1209种0D-3D性质参数;a2)对1209种性质参数做相关性分析,精选得到41个性质参数;a3)用主成分分析法处理得到的碱基性质参数,得到4个主成分;a4)计算各主成分得分,将得分矢量定义为-威基广义性质得分。3.根据权利要求2的一种人类基因启动子识别方法,其特征在于步骤b)具体包括用碱基广义性质得分矢量所涉及的4个主成分对人类基因启动子和非启动子的序列进行表征,序列中的每个碱基用4个碱基广义性质得分矢量表征。4.根据权利要求3的一种人类基因启动子识别方法,其特征在于步骤c)具体包括如下步骤用自交叉协方差处理得到的每个启动子和非启动子序列的表征变量,设置步长/为6,使每个序列的表征变量数目一致,并将经自交叉协方差处理得到的变量作为启动子识别^f莫型的自变量。5.根据权利要求1至4中任一项的一种人类基因启动子识别方法,其特征在于步骤d)具体包括如下步骤首先定义两个指示变量,分别用"l"表示启动子样本,用"-l,,表示非启动子样本,以此指示变量作为启动子识别模型的因变量,用径向基核支持向量机建立人类基因启动子识别模型。全文摘要本发明公开了一种人类基因启动子识别方法,能够用于人类基因启动子区域的确定及其结构功能的诠释,可用于发现新的未知基因,包括如下步骤a)基于主成分分析方法,建立碱基广义性质得分表征体系;b)应用碱基广义性质得分对人类基因启动子和非启动子的结构进行表征;c)用自交叉协方差方法对每个启动子和非启动子的表征变量做归一化处理;d)用径向基核支持向量机建立人类基因启动子识别模型。文档编号C12Q1/68GK101307359SQ20081006994公开日2008年11月19日申请日期2008年7月8日优先权日2008年7月8日发明者李志良,力杨,梁桂兆,虎梅,茂舒申请人:重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1