制备肽文库的方法及其用途的制作方法

文档序号:6476634阅读:247来源:国知局
专利名称:制备肽文库的方法及其用途的制作方法
技术领域
本发明涉及计算生物化学和生物活性肽的计算机辅助设计领域。使用 监督学习,本发明将生物序列分析、生物信息学数据挖掘、信息表现和分 类算法中所用的方法相结合。此外,本发明还涉及肽文库的设计,以及生 物活性肽在生物医学研究中的应用。
背景技术
当前药物发现的主要目标是鉴定具有实际临床效用的生物活性分子。 通过生长刺激作用、生长抑制作用或关键代谢途径的调控,许多(若非全 部)生物活性肽(例如肽类激素)在健康和疾病中都有深远的影响。
肽类激素以前体产生于不同细胞类型和器官中,如腺体、神经元、肠、 脑等。肽类激素最初以较大的前体或激素原合成,可以在转运通过内质网 和高尔基体叠层中获得许多翻译后修饰。它们经加工并转运至其最终目的 地作为活性物质(第一信使)起作用,通过结合细胞表面受体引发细胞应 答。
肽类激素在许多生理过程中是关键信使,所述生理过程包括生产调节; 生长;水和盐代谢;温度控制;心血管、胃肠和呼吸控制;行为;记忆和 激动状态。
肽类激素在与生物医学研究的许多领域相关的生理过程中起关键作 用,所述领域如糖尿病(胰岛素)、血压调控(血管紧张素)、贫血症(a 促红细胞生成素)、多发性硬化(p干扰素)、肥胖症(瘦蛋白)等。
因此,新的生物活性肽具有作为治疗性多肽、药物介入靶点、发现相 关靼点的配体(例如GPCR破解(deorphaning ))或监测疾病的生物标记使用的潜能。
肽文库已成功用于鉴定生物活性肽,包括抗孩吏生物肽、受体兴奋剂和
拮抗剂、细胞表面受体的配体、蛋白激酶抑制剂和底物、T细胞表位、与 MHC分子及受体结合部位的肽模拟表位结合的肽。肽文库可根据其来源 分为基于基因和基于合成的文库(Falciani等人,2005)。
在基于基因的文库中,为了引入多样性,在编码目的多肽序列的DNA 水平引入多肽内的组合位点(combinatorial position )。与基于基因的文库 相反,合成文库在化学合成水平实现其多样性。
许多肽文库以一种支架结构为基础,或通过随才几组合的方法生成不同 的多肽一级结构。
这两种方法的缺点均是20种天然存在的氮基酸的组合可构建具有最 大可变性和数量巨大的不同结构的多肽。举个例子说明可以获得多少种不 同结构,试想仅包含4个氨基酸的肽就有160,000种不同的一级结构可能 性。
需要提供一种准确的和高流量的方法,来大幅减少肽文库中结构的可 能数量,以便于对大量的数据进行处理,并区分有体内活性和无体内活性 的肽。
本发明的目的是解决现有技术的问题。本发明涉及应用生物信息学策 略,构建新的生物活性肽类激素文库的方法。用支持向量机(SVM)算法 鉴定生物活性肽。该方法利用存在于肽类激素前体中的保守蛋白质特征和 短基序,通过计算机才莫拟搜索人类蛋白质组,可发现潜在的生物活性肽类 激素。尽管这些特征为肽类激素所共有,并负责其成熟,但令人惊讶的是, 可在蛋白质序列水平单独进行数据库搜索(例如BLAST, FASTA)的肽 类激素前体之间的序列相似性很小。但是,将多肽类激素前体中共有的蛋 白质特征和翻译后修饰基序(例如前体的短蛋白质序列、信号肽、二硫键、
酰胺化位点、硫酸盐化作用位点、糖基化位点等)相结合,可高特异性地 发现新的多肽类激素。发明概述
本发明的一个主题涉及鉴定生物活性肽的方法,其在基于计算机的系
统中使用基于二元支持向量机(SVM)的算法,其中
a) 训练SVM算法学会区分生物活性和非生物活性肽,所述训练包含 步骤
ai)为一组带标签的已知生物活性肽和非生物活性肽生成49维度 向量(vector),每一维度(dimension)源于对分子描述符值的计算,其中标签 分别表明肽是生物活性的或非生物活性的;
a2)将步骤a,)生成的向量数据转入基于SVM的算法,所述算法 计算出最优超平面,其将分别对应于生物活性肽和非生物活性肽的向量分 开;
b) 从公开可用的人类蛋白质数据库提供蛋白质序列;
c) 用计算法预测步骤b)提供的蛋白质序列的二级结构和切割位点;根 据所述预测步骤,计算一组7个分子描述符(descriptor),导致肽片段生成;
d) 计算对应于步骤c)生成的肽片段理化性质的一组42个分子描述
符;
e) 将来自步骤c)的计算值转化为0至1之间的标度值(scaled value ), 为每一肽片段生成49维度向量的1至7维度,将来自步骤d)的计算值转 化为0到1之间的标度值,为每一肽片段生成所述向量的8至49维度;
f) 将步骤e)生成的向量提交至在步骤a)中经过训练的SVM算法,测 量每一向量到步骤a2)中计算出的超平面的距离;并
g) 才艮据步骤f)中测量的距离,将每一肽片段分类为生物活性肽或非生 物活性肽。
通常,步骤e)中生成的维度l至7如下维度l: N端ProP评分;维 度2: N端Hmcut评分;维度3: N端片段;维度4: C端ProP评分;维 度5: C端Hmcut评分;维度6: C端Hamid评分;维度7: C端片段; 步骤e)中生成的8至42维度如下维度8:每一多肽中酸性氨基酸(E、 N、 Q)的百分比;维度9:每一多肽中正电荷氨基酸(R、 H)的百分比;维度10:每一多肽中芳香族氨基酸(F、 Y、 W)的百分比;维度11:每 一多肽中脂肪族氨基酸(G、 V、 A、 I)的百分比;维度12:每一多肽中 脯氨酸的百分比;维度13:每一多肽中反应性氨基酸(S、 T)的百分比; 维度14:每一多肽中丙氨酸的百分比;维度15:每一多肽中半胱氨酸的百 分比;维度16:每一多肽中谷氨酸的百分比;维度17:每一多肽中苯丙氨 酸的百分比;维度18:每一多肽中甘氨酸的百分比;维度19:每一多肽中 组氨酸的百分比;维度20:每一多肽中异亮氨酸的百分比;维度21:每一 多肽中天冬酰胺的百分比;维度22:每一多肽中谷氨酰胺的百分比;维度 23:每一多肽中精氨酸的百分比;维度24:每一多肽中丝氨酸的百分比; 维度25:每一多肽中苏氨酸的百分比;维度26:每一多肽非经典氨基酸的 百分比;维度27:每一多肽中缬氨酸的百分比;维度28:每一多肽中色氨 酸的百分比;维度29:每一多肽中酪氨酸的百分比;维度30:半胱氨酸含 量;维度31:每一多肽中巻曲二级结构的百分比;维度32:每一多肽中螺 旋二级结构的百分比;维度33:每一多肽中随机二级结构的百分比;维度 34: N端切割位点附近结构的评分;维度35: C端切割位点附近结构的评 分;维度36:每一多肽中螺旋区段的数目;维度37:多肽的等电点;维度 38:多肽的平均分子量;维度39:多肽内每一氮基酸的范德瓦尔斯力之和; 维度40:多肽中每一氨基酸的疏水性值之和;维度41-48:根据每一多肽 的疏水性质、空间性质和电性质的主要组分评分向量计算的平均值;维度 49:多肽的长度。
在本发明方法的优选实施方案中,来自步骤b)的蛋白质序列仅为在人 类分泌组(secretome)中发现的天然存在的蛋白质序列。
在另一优选实施方案中,生物活性肽为来源于前体激素的生物活性肽 类激素。
本发明的另 一主题涉及4吏用本发明的方法^A类分泌组中选择的生物 活性肽。
在优选实施方案中,生物活性肽为生物活性肽类激素。在更优选实施 方案中,生物活性肽类激素来源于前体蛋白质。在另一优选实施方案中,生物活性肽具有选自以下氨基酸序列的序列:
SEQ ID NO: 1、2、3、 4、 5、 6、 7、8、9、 10、 11、12、13、
14、15、16、17、18、 19、 20、 21、22、23、 24、 25、26、27、
28、29、30、31、32、 33、 34、 35、36、37、 38.39、40、41、
42、43、44、45、46、 47、 48、 49、50、51、 52、 53、54、55、
56、57、58、59、60、 61、 62、 63、64、65、 66、 67、68、69、
70、71、72、73、74、 75、 76、 77、78、79、 80、 81、82、83、
84、85、86、87、88、 89、 90、 91、92、93、 94、 95、96、97、
98、99、100、101、102、 103、 104、105、106、 107、108、109、
110、111、112、 113、 114、 115、 116、117、118、 119、120、121、
122、 123、 124、 125、 126、 127、 128、 129、 130、 131、 132、 133、 134、 135、 136、 137、 138、 139、 140、 141、 142、 143、 144、 145、 146、 147、 148、 149、 150、 151、 152、 153、 154、 155、 156、 157、 158、 159、 160、 161、 162、 163、 164、 165、 166、 167、 168、 169、 170、 171、 172、 173、 174、 175、 176、 177、 178、 179、 180、 181、 182、 183、 184、 185。
本发明还涉及肽文库,其包含通过本发明的方法鉴定出的生物活性肽。 在优选实施方案中,肽文库包含生物活性肽,所述生物活性肽具有从 以上引用的SEQ ID NO 1-185氨基断列中选择的序列。
在进一步优选的实施方案中,肽文库包含生物活性肽类激素。 在另一进一步优选的实施方案中,肽文库包含来源于前体蛋白质的生 物活性肽类激素。
本发明的另一主题涉及配置用于通过基于二元支持向量机(SVM)的 方法鉴定生物活性肽的计算设备,其中
a)训练SVM算法学会区分生物活性和非生物活性肽,所述训练包含 步骤
ai)为一组带标签的已知生物活性肽和非生物活性肽生成49维度 向量,每一维度源于对分子描述符值的计算,其中标签分别表明肽是生物活性的或非生物活性的;
a2)将步骤aO生成的向量数据转入基于SVM的算法,所述算法 计算出最优超平面,其将分别对应于生物活性肽和非生物活性肽的向量分
开;
b) 从公开可用的人类蛋白质数据库提供蛋白质序列;
c) 用计算法预测步骤b)提供的蛋白质序列的二级结构和切割位点;根 据所述预测步骤,计算一组7个分子描述符,导致肽片段生成;
d) 计算对应于步骤c)生成的肽片段理化性质的一组42个分子描述
符;
e) 将来自步骤c)的计算值转化为O至l之间的标度值,为每一肽片段 生成49维度向量的1至7维度,将来自步骤d)的计算值转化为0到1之 间的标度值,为每一肽片段生成所述向量的8至49维度;
f) 将步骤e)生成的向量提交至在步骤a)中经过训练的SVM算法,测 量每一向量到步骤a2)中计算出的超平面的距离;并
g) 根据步骤f)中测量的距离,将每一肽片段分类为生物活性肽或非生 物活性肽。
本发明还涉及本发明的方法在鉴定治疗性多肽、药物介入靶点、发现 相关靶点的配体或监测疾病的生物标记鉴定中的用途。
本发明还涉及本发明的肽文库在筛选方法中的用途,所述筛选方法用 于研究细胞内信号通路、产生试剂深化对通路的了解、产生新的治疗形式 及鉴定药物活性化合物、药物介入靶点、发现相关靶点的配体或监测疾病 的生物标i己。
本发明还涉及包含生物活性肽作为生物活性剂的药物组组合物,所述 生物活性肽具有选自SEQ ID NO 1-185氨基酸序列的序列。
发明详述
本发明涉及新的生物活性多肽及鉴定这种生物活性多肽的计算机模拟 方法。在本发明中,若多肽与人体内的任一细胞组织有相互作用或对其有影
响,则i/w为该多肽是生物活性的。生物活性肽具有用作治疗性多肽、药物 介入耙点、发现相关靼点的配体(例如GPCR破解)或检测疾病的生物 标记的潜能。除其他外,生物活性肽包括生物活性肽类激素。肽类激素的 特征在于其高特异性,以及极低的作用浓度。肽类激素最初以更大的前体 或激素原合成。
前体是这样的物质,其可形成通常更具活性或更成熟的物质。蛋白质 前体是无活性的蛋白质(或肽),可通过翻译后修饰转变为活性形式。 一些 切割位点参与了产生成熟蛋白质的前体修饰信号序列切割位点、蛋白酶 切割位点、酰胺化位点等。
蛋白质前体的名称通常以前(pro或pre )为字首。当某种蛋白质具有 潜在的危害,但又需要在短时间内和/或大量获得时,生物体常采用前体。
术语"多肽"、"肽"和"蛋白质"在此可互换使用,意指通过共价键 连接的M酸残基组成的聚合物。这些术语包括全长蛋白质的部分或片段, 如肽、寡肽和由至少2个氨基酸组成的更短的肽序列、特别是由4-45个氨 基酸组成的肽序列。
此外,这些术语包括经修饰氨基酸(包括经翻译后修饰的氨基酸)的 聚合物,如经化学修饰,其包括但不限于酰胺化、糖基化、磷酸化、乙酰 化和/或硫酸化反应,这些反应有效地改变了基本的肽骨架。因此,可通过 化学或酶切割从天然存在的蛋白质获得肽(特别是可从全长蛋白质获得), 可使用如CNBr的试剂等,或如胰蛋白酶或胰凝乳蛋白酶的蛋白酶。另夕卜, 可用众所周知的肽合成方法,通过化学合成获得此类多肽。
M酸是任何包含氨和羧酸官能团的分子。氨基酸残基是在肽键形成 中失去一分子水(来自含氮侧的H+和来自氯基侧的OIT )后氨基酸的剩余 部分,肽键是蛋白质链中连接M酸单体的化学键。
每一蛋白质都有其自身独特的M酸序列,称之为一级结构。 一级结 构是比较筒单的,指的是蛋白质或多肽链中M酸的数目和顺序。在蛋白 质结构的这一水平上,共价肽键是唯一的结合类型。蛋白质中的#^#列由DNA中的遗传信息决定,DNA转录为RNA, RNA再翻译为蛋白质。 所以蛋白质结构是遗传决定的。
蛋白质结构的下一水平通常指多肽链采用的结构规律性或形状的数 量。天然多肽链自动折叠为规则而确定的形状。已在蛋白质中发现两种主 要的二级结构,即oc螺旋和P折叠片。
多肽链的三级结构是其链的a螺旋或P折叠片采用的构象或形状的下 一水平。大部分蛋白质趋向于折叠为在排列上可大体上归类为球状的形状, 一些蛋白质,特别是结构蛋白质则形成长纤维形状。这些是总体三级结构 的主要形式。结构域是常用术语,其意指多肽链中球状结构的紧密单位。
每种蛋白质的独特形状决定了其在体内的功能。 "多肽,,定义的范围还包括氨基酸序列变体。这些变体可以在天然存 在的氨基酸序列中包含一个或多个优选的保守性氨基酸替换、缺失或插入, 而不改变所述多肽的至少一种基本性质,例如其生物学活性。可通过化学 多肽合成法合成这种多肽。保守性氨基酸替换为本领域公知。例如,可按 此处所述,用具有相似电荷、大小或极性的氨基酸残基对天然蛋白质中的 一个或多个氨基酸残基进行保守性替换,得到的多肽还保有其功能。进行 这种替换的规则是众所周知的。
更具体地,保守性氨基酸替换一般发生于侧链相关的同 一氨基酸家族内。
基因编码的氨基酸一般分为四组(1)酸性氨基酸=天冬氨酸、谷氨 酸;(2)碱性^酸=赖氨酸、精氨酸和组氨酸;(3)非极性#^酸=丙氨 酸、缬氨酸、亮氨酸、异亮氨酸、脯氨酸、苯丙氨酸、蛋氨酸和色氨酸; (4)不带电荷的极性#^酸=甘氨酸、天冬酰胺、谷氨酰胺、半胱氨酸、 丝氨酸、苏氨酸和酪氨酸。苯丙氨酸、酪氨酸和色氨酸还共同分类为芳香 族氨基酸。任一特定组内的 一个或多个替换对所产生的多肽功能一般没有 明显影响,如可选择用异亮氨酸或缬氨酸替换亮氨酸、用谷氨酸替换天冬 氨酸或用丝氨酸替换苏氨酸、或用结构相关的氨基酸残基替换其他任一种 氨基酸残基。术语"多肽"定义的范围包括由于其氨基酸序列对应于功能结构域, 其生物学活性可预测的肽。术语"多肽"还包括不能通过对其氨基酸序列 的分^f斤预测其生物学活性的肽。
在本发明中,支持向量机(SVM)用于区分具有体内活性的多肽和不 具有体内活性的多肽。
支持向量机(SVM):
支持向量机(SVM)是在训练阶段确定决定表面或"超平面"的通用 学习机。通过一组选自向量训练群体的支持向量和一组对应的乘数 (multiplier)确定决定超平面。决定超平面还通过核函数表征。
John Shawe Taylor和腿o Cristianini在书中(剑桥大学出版社, 2000, 题为 "Support Vector Machines and other kernel-based learning methods" )、Chih-Chimg Chang和Chih画Jen Lin在文章中(题为 "LIBSVM - A Library for Support Vector Machines" , 2001 )解释了 SVM
的数学^i^出。
训练阶段之后,SVM在测试阶段运转,在此阶段,根据之前在训练阶 段确定的决定超平面,用它来分类测试向量(Noble, 2006)。
支持向量机在多种不同的领域找到应用。例如,在H. Kim和H. Park
题为"Prediction of protein relative solvent accessibility with support vector
machines and long-range interaction 3d local descriptor"的文章中,为了
研究大分子对接,将SVM用于预测高分辨率3D结构的问题。
在本发明中,支持向量机算法(SVM)用于区分具有体内活性的多肽 和不具有体内活性的多肽。
出于实践的观点,在本发明中利用如个人计算机的计算设备执行 SVM。
如实施例部分(l.l.)所述,计算设备包括一个或多个执行一系列不同 软件的处理器,所述软件包含执行本发明方法的指令。
14SVM训练和模型生成
为了训练SVM模型,用实^P分(1.1,)中常规描述并概略示意于图 l中的程序,生成49维度向量。
对SVM训练组,关于已知生物活性肽的信息可以从任一公开可用的 人类蛋白质数据库提取,如Swissprot。根据其在Swissprot中的注释,从 其前体提取长度在4至55个氨基酸的优选生物活性肽,并标记为用于SVM 算法训练的阳性实例。生成的所有其他来源于同一已知肽类激素前体,长 度在4-55个M酸之间,不具有指定功能的片段用作SVM训练的阴性训 练组。由于SVM是二元系统,将生物活性肽标记为+1,并将非生物活性 肽标记为-1。
类似地,用长度在56至300个氨基酸的生物活性和非生物活性肽训练 第二个模型,以预测更长的多肽。为了不过度表现阴性实例,通过随;feM^ 所有阴性肽中选择相同数量的阴性(实例),校正分别用于短序列(4-55 个氨基酸)和长序列(56-300个氨基酸)的最终SVM训练组,至与阳性 和阴性训练数据数目相等。
为转化生物活性和非生物活性肽隐藏的信息,定义了一组49个描述 符,并用于SVM训练。SVM模型的表现强烈地依赖于选择用于描述肽的 描述符质量。
在本发明中,前7个描述符反映多肽由人体产生的可能性。对肽类激 素前体序列使用一组蛋白酶预测位点工具来计算这7个维度(

图1 )。将每 一程序输出的产生评分直接用作描述符。其余42个描述符反映产生的每一 片段的重要理化性质(即生物活性或非生物活性肽)。实施例部分的第3 点中列出了本发明所使用的49个描述符。
每一肽对应于49个描述符的独特组合。不同肽可以表示为多维空间中 的点,其中每一维度对应一个描述符。SVM尝试找出一个界限,该界限最 优地将对应于生物活性和非生物活性肽的两组点分开。此界限称为最优超 平面,它能在n维空间中最优地将两类对象分开,即分别对应于生物活性 肽和非生物活性肽的向量。所得到的SVM模型学会区分生物活性和非生物活性肽。 选择了最好的模型,根据生物活性和非生物活性肽的一个独立测试组 的排序,该模型具有最佳的表现。为测试模型,测试了所有生成的模型的 表现,选择了分别用于短肽(4-55个氨基酸)和较长多肽(56-300个M 酸)的两个最优模型。
鉴定生物活性肽
训练后,得到的经训练的SVM模型能够鉴定生物活性尚未被束征过 的生物活性肽。
图l给出了本发明所公开的方法的概要示意图,解释肽文库生成所涉 及的步骤。提供自公开可用人类蛋白质数据库(如Swissprot)的蛋白质序 列作为输入值使用。在步骤1中,所有潜在的蛋白酶切割位点通过使用一 组预测这些事件的工具预测。保存每一前体序列的各切割位点位置。此夕卜, 推测了整个蛋白质前体序列的二级结构。根据预测的前体序列中的切割位 点,生成所有潜在的片段(步骤2),并用作步骤3的输入量。
步骤3包含对每一肽片段理化性质的计算(在实施例部分的第3点列 出)。通常,考虑关于每一片段内M酸的频率、每一片段的二级结构、每 一片段的等电点、每一片段的平均分子量、每一片段的疏水性、片段内每 一氨基酸的所有范德瓦尔斯力之和、片段内每一氨基酸的所有常用氨基酸 描述符(即根据Mei等人,2005的每一氨基酸的VHSE值)之和及片段 长度的信息,将生物学信息转化为数值。步骤1和3的计算值分别在步骤 4a和4b中转化产生0至1之间的标度值,生成每一片段的49维度向量。 步骤5中将向量提交至经训练的SVM模型,测量每一向量到超平面的距 离。然后在步骤6中使用SVM输出,决定该肽是否可能是生物活性的。 图3列出了对应于通过本发明的方法鉴定的生物活性肽的49维度向量。
为了大幅减少肽文库中结构的潜在数量,在本发明中,仅将发现于人 类分泌组的天然存在的蛋白质序列用作一级结构,来生成肽文库。人类分 泌组是对应于所有经细胞分泌的人类蛋白质的DNA所编码的全部信息。实施例部分l.l.点歹。出了从公开可用的序列数据库中提取的潜在的分 泌型人类蛋白质,其用作前体序列寻找新的生物活性肽。
将分泌蛋白质一级序列(即蛋白质前体)的不同部分用作模板,推测
新的生物活性肽。限制肽长度为4-45个氨基酸,以便于化学合成该肽。
通过本发明的方法鉴定出新的生物活性肽之后,进行抗微生物试验测 试该肽的生物活性。实施例部分的第6点详述了这些试验。
本发明还涉及肽文库,所述肽文库包含通过上述SVM模型方法鉴定 出的生物活性肽。图2列出了通过本发明的方法鉴定出、并包含于本发明 的肽文库的185条生物活性肽的氨基酸序列。
肽文库是新M的用于蛋白质相关研究的技术。肽文库包含具有系统 氨基酸组合的大量肽。通常,将肽文库合成于可制成平表面或球珠的固相 上(大部分是树脂上)。肽文库为药物设计、蛋白质-蛋白质相互作用和其 他生化及制药应用提供了强有力的工具。
本发明的肽文库可以用于筛选方法,所述篩选方法用于研究细胞间信 号通路、产生试剂深化对通路的了解、产生新的治疗形式及鉴定有药物活 性的化合物、药物介入靼点、发现相关耙点的配体或监测疾病的生物标记。
本发明的多肽具有激素活性。因此,本发明的多肽可用作药物(如治 疗性多肽)、发现相关靶点的配体(如GPCR)、药物介入靶点(如单克隆 抗体、受体片段的靶点)、监测疾病的生物标记(与工具抗体联用来检测体 液中的肽片段)、蛋白激酶抑制剂及底物、T细胞表位、受体结合位点的肽 模拟表位等。
编码本发明的肽或前体的DNA是有用的,例如作为基因治疗剂,治 疗或预防心血管疾病、产生激素的肿瘤、糖尿病、胃溃疡等;作为激素分 泌抑制剂、肿瘤生长抑制剂、神经活性剂等。此外,本发明的DNA可用 作疾病的基因诊断剂,所述疾病如心血管疾病、产生激素的肿瘤、糖尿病、 胃溃疡等。
实施例参考以下实施例可更容易地理解一般性描述的本发明,纳入此实施例 的目的只是说明本发明的某些方面及实施方案,并非旨在限定本发明。 1.数据库和计算机程序
1.1. 数据库
以下7>开可用的序列数据库用于提取潜在的分泌型人类蛋白质,这些
蛋白质用作前体序列来寻找新的生物活性肽
翻译为蛋白质的人类基因组(NCBI 33汇编,2003年7月1日),亚
组;
国际蛋白质索引,Swissprot(版本50.3,2006年7月11日)和TrEMBL (版本2003年8月—2006年3月);
对基于SVM算法的训练,有关已知生物活性肽的信息提取自 Swissprot。
1.2. 计算4/L程序
1.1. 2.0版Signal P (Nielsen等人,1997)
目的此程序用于检测潜在的信号序列和确定潜在的人类分泌组。使 用的划界(cutoff)评分为0.98。 2.0版Signal P预测来自不同生物的氨基酸 序列中信号肽切割位点的存在和位置此方法基于几种人工神经网络和隐 马尔科夫模型(hidden Markov model)的组合,将切割位点预测与信号J^ 非信号肽预测相结合。
1.2.1.0版ProP(Duckert等人,2004)
目的此程序用于检测蛋白质序列中潜在的切割位点。所用划界评分 设至O.ll。此程序使用神经网络总体,预测真核蛋白质序列中的精氨酸及 赖氨酸前肽切割位点。默认设置是弗林蛋白酶特异的预测。其还可进行一 般的前蛋白质(proprotein)转化酶(PC)预测。
1.3. 酰胺化位点预测和蛋白酶切割位点预测(Rohrer, 2004)目的Hamid程序预测蛋白质序列中的酰胺化位点。Hmcut程序预测 蛋白质序列中的蛋白酶切割位点,这种切割发生在碱性氨基酸残基(赖氨 酸,精氨酸)之前。这两种程序都基于隐马尔科夫模型,使用Hmnier 2.3.2 软件版本(Durbin等人,1998 )。
1.4. 支持向量机(Chang和Lin, 2001)
LIBSVM是进行支持向量分类、(C-SVC, nu-SVC)、回归 (epsilon-SVR, nu-SVR)和分布估计(单值SVM)的集成软件。
使用了以下SVM规范SVM类型,nu-SVC;核函数类型,径向基 函数。
1.5. 2.45版本PsiPred (Jone, 1999) 进4亍蛋白质二级结构预测的工具。该方法如Jones, 1999所述^f吏用。
1.6. 等电点的计算
目的多肽等电点的计算。按Gasteiger等,2005进行。
1.7. Perl-实际提取和才艮告语言
目的Perl是Larry Wall发明的一种动态编程语言,1987年首次发布。
2. SVM的训练
对监督学习过程,使用以下SRS (www.expasy.org上的序列查询系统) 请求指令,从诸如Swissprot的常用公共数据库提取已知生物活性肽前体 生物=脊推动物;序列长度=30:300;特征关键词=信号;关键词=细胞因子 或激素或铃蟾肽或緩激肽或胰高血糖素或生长因子或胰岛素或神经肽或阿 片样肽或速激肽或甲状腺激素或血管收缩剂或血管舒张剂。此请求产生一 组已知肽类激素前体,其中的生物活性肽易于通过Swissprot数据库的注
19释获取。因此,这些序列可用来推测一组生物活性和非生物活性肽,进行
基于SVM的模型的训练。
3.用于建立向量的分子描述符
SVM模型的表现主要依赖于所选用于描述肽的描述符的质量。 在本发明中,选择了以下描述符
维度1-7表示肽产生于人体的可能性,通过不同的蛋白酶切割位点预 测工具的组合来计算。这些工具的结果表示向量的前7个维度。 维度l: N端ProP评分; 维度2: N端Hmcut评分; 维度3: N端片段(固定值0.2); 维度4: C端ProP评分; 维度5: C端Hmcut评分; 维度6: C端Hamid评分; 维度7: C端片段(固定值2.0); 计算多肽的理化性质,表示向量的以下42个维度。 维度8:每一多肽酸性M酸(E, N, Q)的百分比; 维度9:每一多肽正电荷M酸(R, H)的百分比; 维度10:每一多肽芳香族氨基酸(F, Y, W)的百分比; 维度ll:每一多肽脂肪族氨基酸(G, V, A, I)的百分比; 维度12:每一多肽脯氨酸的百分比; 维度13:每一多肽反应性氨基酸(S, T)的百分比; 维度14:每一多肽丙氨酸的百分比; 维度15:每一多肽半胱氨酸的百分比; 维度16:每一多肽谷氨酸的百分比; 维度17:每一多肽苯丙氨酸的百分比; 维度18:每一多肽甘氨酸的百分比; 维度19:每一多肽组氨酸的百分比;维度20:每一-多肽异亮氨酸的百分比;
维度21:每一'多肽天冬酰胺的百分比;
在 平义",每一-多莊乂各磁.
维度23:每一-多肽精氨酸的百分比;
维度24:每一'多肽丝氨酸的百分比;
维度25:每一-多肽苏氨酸的百分比;
维度26:每一-多肽非经典氨基酸(未定义)的百分比;
(请注意此维度不包含除0外的任何值作为输入) 维度27:每一多肽缬氨酸的百分比; 维度28:每一多肽色氨酸的百分比; 维度29:每一多肽酪氨酸的百分比;
维度30:半胱氨酸含量(O、偶数或奇数分别设为0.5、 l或0);
维度31:每一多肽巻曲二级结构的百分比;
维度32:每一多肽螺旋二级结构的百分比;
维度33:每一多肽随机二级结构的百分比;
维度34: N端切割位点附近结构的评分;
维度35: C端切割位点附近结构的评分;
维度36:每一多肽螺旋区段的数目;
维度37:多肽的等电点;
维度38:多肽的平均分子量;
维度39:多肽内每一氨基酸的范德瓦尔斯力之和;
维度40:多肽内每一氨基酸的疏水性值之和;
维度41-48:根据每一多肽疏水性质、空间性质和电性质的主要成分 评分向量计算的平均值(Mei等人,2005); 维度49,多肽的长度。
在任何适用的地方,将维度1-49的值换算至0至1之间的范围。 用于训练和预测的输入向量包含49个维度,但是由于所有片段的维度 26 (每一片段非经典氨基酸的百分比)都设为0,本版本中仅使用了 48个
21维度。这是由于缺少包含非经典氨基酸的训练数据,但可在后续模型中纳 入。
4. 模型的测试
选择最优的模型,根据生物活性和非生物活性肽的独立测试组的排序, 该模型具有最佳的表现。为测试模型,测试了所有生成的模型的表现,选 择了分别用于短肽(4-55个氨基酸)和较长多肽(56-300个氨基酸)的两 个最优才莫型。结果,对短肽的总体预测准确度达到90.7%,对较长的肽达 到94%。 4吏用独立的测试组,所公开的方法正确鉴定出约93%的生物活性 肽和约91%的非生物活性肽。
5. 生物活性肽的鉴定
在排序步骤中(步骤6,图1),选^^每一前体长度短于46个氨基酸、 评分最高的肽。在此排序过程中,即使其是每一蛋白质前体的评分最高的 肽,也将所有经SVM分类后距离大于|0,65|,且处于于阴性训练数据组(即 评分为-0.65或更低)的片段舍弃。
6. 抗孩t生物试验测试通过本发明方法鉴定的肽的生物活性
6.1. 试验技术
微量稀释测试是确定培养物中存活细菌或酵母细胞数目的均相方法。 它依赖于活细菌或酵母在培养物中是浑浊的这一事实。浊度可用光度计测 量为光吸收,它与样品中细胞的数目相关。
6.2. 材料和方法 细菌和酵母菌抹
本实验过程中使用的菌林为大肠杆菌(五sc/^Wd^Vi E co// ATCC 25922)、 金黄色葡萄球菌0S似/7/^/ococc"s , 51. ATCC 29213)
和白色念珠菌(CVwi力V/fl a/6/oms1 , C. "/6/c朋s FH 2173)。所有测试菌株的预培养
菌株的培养起始于建立冻存贮存物(eryostoek),它可用于进行预培 养物的多次接种。
1. 用接种环将细菌划线接种于Mueller Hilton (MH)琼脂板上,并 将琼脂板于37 "C孵育3天。对酵母采用同样的程序,但使用Sabouraud dextrose ( SD )琼脂。
2. 在装有30 ml MH培养液的100 ml摇瓶中接种入一接种环的细菌, 并将摇瓶于37 °C 、 180转/分钟孵育1天。在SD培养液中对酵母应用同 样的条件。
3. 用无菌吸头从Cryobank (CRYO/G)塑料管中移去高渗的冻存液, 每个塑料管含有25个绿色玻璃小珠。
4. 每管中装入2ml细菌/酵母悬液,盖上管盖,仔细混合。
5. 尽可能多地从管中去除细菌/酵母培养物上清。此时小珠表面为细 菌/酵母覆盖。残留于管内的液体应尽可能少,以防止小珠凝聚。 一个小珠 可用于接种一瓶预培养物(30 ml MH/SD培养液于100 ml摇瓶内)。
6. 将Cryobank (CRYO/G)管保存于-80 °C。
7. 质量/无菌检验从水箱取出一个Cryobank ( CRYO/G )管,置于 Cryoblock (CRYO/Z)内。打开管盖,取出一个小珠,并立即用小珠在 MH/SBD琼脂板上划线。平板于37 °C孵育3天。通过检查克隆形态,验 证只有测试菌林生长。
用MH培养液制备测试培养物
从Cryobank中取出测试菌林管。用无菌吸头取出一个小珠,接种于 100 ml锥形瓶内,瓶内装有30ml分别用于细菌和酵母的MH和SD培养 液。培养物于37。C、 180转/分钟生长18小时。用MH培养液调节所有测 试菌林的光密度至细胞密度对应于108细胞/毫升。将进行此试验的标准接 种培养物1: 100稀释至终浓度为106 CFU/ml (克隆形成单位/毫升)。肽稀释
将化合物从125 nM的标准初始浓度连续稀释(10个稀释步骤),至终 浓度为0.24 pM。所有样品和对照中的初始DMSO浓度为1.4%。
进行剂量反应曲线实验的标准抗生素稀释
用MH培养液将化合物连续稀释(16个稀释步骤),进行剂量反应实 验。化合物终浓度范围在64照/ml和0.002照/ml之间。所有样品和对照 中的初始DMSO浓度为1.4%。
供应商目录号功能
Mueller Hinton (MH)培养液Becton Dickinson275730培养基
Sabouraud dextrose (SD)培养 液Becton Dickinson238230培养基
DMSOMerck102 931溶剂
制霉菌素 Cyprobay 100Calbiochem Bayer475914抗生素
Greiner, 384Greincr781182试验用板
SPECTRAFl雨PlusTecsiii-吸光度读数器
试验方案
*在30 ml MH培养液中,于37。C预培养细菌18小时(100 ml锥形
瓶)
*在30 ml SD培养液中,于37。C预培养酵母18小时(100 ml锥形
瓶)
*用MH培养液调节细胞悬液至106 CFU/ml (测试培养物) 试验*在第一个管中加入10jUDMSO中的化合物和30^UMH培养液 *从第一个管中转移20 pl至第二个装有20 |nl MH培养液的管中 *将最后一步重复8次(肽,10个稀释步骤)或14次(抗生素,16 个稀释步骤)
*向每一管中加入10 pl测试培养物悬液(肽为10管,抗生素为16
管)
起始细胞接种物 5xl05CFU
起始DMSO浓度 12.5 %
起始/最^f匕合物浓度 125 pM - 0.24 pM => 起始/最终抗生素浓度64照/ml — 0.002照/ml *5%相对湿度,5%C02, 37。C孵育18小时 *在590 nm读取光吸收5次
对照
*高对照有细菌的MH培养液(生长对照,高信号) *低对照无细菌的MH培养液(无菌对照,低信号)
6.3. 抗生素敏感性测试 为了评估此试验对潜在药物鉴定的适合性,用"材料和方法"下所述
的条件,测试了许多抗生素的剂量依赖效应。预期Cyprofloxacin对大肠 杆菌和金黄色葡萄球菌有活性,制霉菌素对白色念珠菌有活性。图4中以 pg/ml为单位给出了这些抗生素的计算IC50值。
6.4. 试验结果
针对测试菌林大肠杆菌(ATCC 25922 )、金黄色葡萄球菌(ATCC 29213 )和白色念珠菌(FH 2173 )对多肽进行了测试。多肽A003500589和 A003500548对大肠杆菌显示的IC50值分别为7.25 pg/ml和6.79 pg/ml。 未发现针对金黄色葡萄球菌和白色念珠菌的活性。参考文献
Chih-Chung Chang和Chih-Jen Lin; "LIBSVM: a library for support vector machines"; 2001
Peter Duckert, S0ren Brunak和Nikolaj Blom; "Prediction of proprotein convertase cleavage sites"; Protein Engineering, Design and Selection, 17:107-112, 2004
Durbin R, Eddy S, Krogh A和Mitchison G; "The theory behind profile HMMs: Biological sequence analysis: probabilistic models of proteins and nucleic acids"; Cambridge University Press, 1998.
C. Falciani, L Lozzi, A. Pini, L Bracci; "Bioactive Peptides from Libraries"; Chemistry & Biology,第12巻,第4期,第417-426页,2005 Gasteiger E., Hoogland C., Gattiker A., Duvaud S., Wilkins M.R., Appel R.D., Bairoch A.; "Protein Identification and Analysis Tools on the ExPASy Server"; (In) John M. Walker (编)The Proteomics Protocols Handbook, Humana Press, 2005
Jones, D.T.; "Protein secondary structure prediction based on position-specific scoring matrices"; J. Mol. Biol. 292:195-202,1999 H. Kim和H. Park; "Prediction of protein relative solvent accessibility with support vector machines and long-range interaction 3d local descriptor"; Proteins, 54(3): 557-62, 2004
Md, H., Liao, T.H., Zhou, Y.,和Li, S.Z.; "A new set of amino acid descriptors and its application in peptide QSARs"; Biopolymers第80巻, 775-786, 2005
Henrik Nielsen, Jacob Engelbrecht, S0ren Brunak和Gunnar von Heijne; "Identification of prokaryotic and eukaryotic signal peptides and prediction of their cleavage sites"; Protein Engineering, 10:1-6, 1997 Noble WS.; "What is a support vector machine "; Nat. Biotechnol.24(12):1565-7, 2006
Rohrer, S.; "Prediction of post-translational processing sites in peptide hormone precursors"; Diplomarbeit, UniversitSt Wiirzburg, 2004 John Shawe Taylor和Nello Cristianini; "Support Vector Machines and other kernel-based learning methods"; Cambridge University Press, 2000
附图描述 图1:
图l给出了本发明所公开的方法的概要示意图,以解释肽文库生成所 涉及的步骤。 图2:
图2显示了根据共有理化性质选择的185条生物活性肽的J^,列。 图3:
图3显示了通过经训练的SVM算法鉴定出的185条生物活性肽的输 入向量。 图4:
图4以照/ml为单位显示了抗生素的计算IC50值。
权利要求
1.在基于计算机的系统中鉴定生物活性肽的方法,其使用基于二元支持向量机(SVM)的算法,所述方法包含步骤a)训练SVM算法学会区分生物活性和非生物活性肽,所述训练包含步骤a1)为一组带标签的已知生物活性肽和非生物活性肽生成49维度向量,每一维度源于对分子描述符值的计算,其中标签分别表明肽是生物活性的或非生物活性的;a2)将步骤a1)生成的向量数据转入基于SVM的算法,所述算法计算出最优超平面,其将分别对应于生物活性肽和非生物活性肽的向量分开;b)从公开可用的人类蛋白质数据库提供蛋白质序列;c)用计算法预测步骤b)提供的蛋白质序列的二级结构和切割位点;根据所述预测步骤,计算一组7个分子描述符,导致肽片段的生成;d)计算对应于步骤c)生成的肽片段理化性质的一组42个分子描述符;e)将来自步骤c)的计算值转化为0至1之间的标度值,为每一肽片段生成49维度向量的1至7维度,将来自步骤d)的计算值转化为0到1之间的标度值,为每一肽片段生成所述向量的8至49维度;f)将步骤e)生成的向量提交至在步骤a)中经过训练的SVM算法,测量每一向量到步骤a2)中计算出的超平面的距离;并g)根据步骤f)中测量的距离,将每一肽片段分类为生物活性肽或非生物活性肽。
2. 权利要求l的方法,其中步骤e)中生成的维度l至7如下维度l: N端ProP评分;维度2: N端Hmcut评分;维度3: N端片段;维度4: C端ProP评分;维度5: C端Hmcut评分;维度6: C端Hamid评分; 维度7: C端片段;步骤e)中生成的8至42维度如下维度8:每一多肽中酸性氨基酸(E、 N、 Q)的百分比;维度9:每一多肽中正电荷氨基酸 (R、 H)的百分比;维度10:每一多肽中芳香族氨基酸(F、 Y、 W)的 百分比;维度 :每一多肽中脂肪族氨基酸(G、 V、 A、 I)的百分比; 维度12:每一多肽中脯氨酸的百分比;维度13:每一多肽中反应性^酸 (S、 T)的百分比;维度14:每一多肽中丙氨酸的百分比;维度15:每 一多肽中半胱氨酸的百分比;维度16:每一多肽中谷氨酸的百分比;维度 17:每一多肽中苯丙氨酸的百分比;维度18:每一多肽中甘氨酸的百分比; 维度19:每一多肽中組氨酸的百分比;维度20:每一多肽中异亮氨酸的百 分比;维度21:每一多肽中天冬酰胺的百分比;维度22:每一多肽中谷氨 酰胺的百分比;维度23:每一多肽中精氨酸的百分比;维度24:每一多肽 中丝氨酸的百分比;维度25:每一多肽中苏氨酸的百分比;维度26:每一 多肽非经典氨基酸的百分比;维度27:每一多肽中缬氨酸的百分比;维度 28:每一多肽中色氨酸的百分比;维度29:每一多肽中酪氨酸的百分比; 维度30:半胱氨酸含量;维度31:每一多肽中巻曲二级结构的百分比;维 度32:每一多肽中螺旋二级结构的百分比;维度33:每一多肽中随机二级 结构的百分比;34: N端切割位点附近结构的评分;维度35: C端 切割位点附近结构的评分;维度36:每一多肽中螺旋区段的数目;维度37: 多肽的等电点;维度38:多肽的平均分子量;维度39:多肽中每一M酸 的范德瓦尔斯力之和;维度40:多肽中每一氨基酸的疏水性值之和;维度 41-48:根据每一多肽疏水性质、空间性质和电性质的主要组分评分向量计 算的平均值;维度49:多肽的长度。
3. 权利要求1和2的方法,其中来自步骤b)的蛋白质序列是只发现 于人类分泌组的天然存在的蛋白质序列。
4. 权利要求1至3的方法,其中所述生物活性肽是来源于前体激素的 生物活性肽类激素。
5. 生物活性肽,其通过使用权利要求1和2的方法选自人类分泌组。
6. 权利要求5的生物活性肽,其中所述生物活性肽是生物活性肽类激素。
7. ;f又利要求6的生物活性肽,其中所述生物活性肽类激素来源于前体 蛋白质。
8. 权利要求5至7的生物活性肽,其具有选自以下氨基酸序列的序列SEQIDNO: 1、2、3、 4、 5、6、 7、8、9、 10、 11、12、13、14、15、16、17、18、 19、 20、21、22、23、 24、 25、26、27、28、29、30、31、32、 33、 34、 35、 36、 37、 38、39、40、41、42、43、44、45、 46、 47、48、49、50、 51、 52、53、54、55、56、57、58、59、 60、 61、62、63、64、 65、 66、67、68、69、70、71、72、73、 74、 75、76、77、78、 79、 80、81、82、83、84、85、86、87、 88、 89、90、91、92、 93、 94、95、96、97、98、99、100、101、 102、103、104、105、 106、107、108、109、110、111、 112、 113、 114、115、116、117、 118、119、120、121、 122、 123、 124、 125、 126、 127、 128、 129、 130、 131、 132、 133、 134、 135、 136、 137、 138、 139、 140、 141、 142、 143、 144、 145、 146、 147、 148、 149、 150、 151、 152、 153、 154、 155、 156、 157、 158、 159、 160、 161、 162、 163、 164、 165、 166、 167、 168、 169、 170、 171、 172、 173、 174、 175、 176、 177、 178、 179、 180、 181、 182、 183、 184、 185。
9. 肽文库,其包含通过权利要求1至3的方法鉴定出的生物活性肽。
10. 权利要求9的肽文库,其中所述肽文库包含权利要求8的生物活 性肽。
11. 权利要求9的肽文库,其中所述生物活性肽是生物活性肽类激素。
12. 权利要求ll的肽文库,其中所述生物活性肽类激素来源于前体蛋 白质。
13. 计算设备,其配置为通过使用基于二元支持向量机(SVM)的方 法鉴定生物活性肽,所述方法包含步骤a)训练SVM算法学会区分生物活性和非生物活性肽,所述训练 包含步骤ai)为一组带标签的已知生物活性肽和非生物活性肽生成49 维度向量,每一维度源于对分子描述符值的计算,其中标签分别表明肽是 生物活性的或非生物活性的;a2)将步骤a,)生成的向量数据转入基于SVM的算法,所述 算法计算出最优超平面,其将分别对应于生物活性肽和非生物活性肽的向 量分开;b) 从公开可用的人类蛋白质数据库提供蛋白质序列;c) 用计算法预测步骤b)提供的蛋白质序列的二级结构和切割位 点;根据所述预测步骤,计算一组7个分子描述符,导致肽片段的生成;d) 计算对应于步骤c)生成的肽片段理化性质的一组42个分子描述符;e) 将来自步骤c)的计算值转化为0至1之间的标度值,为每一肽 片段生成49维度向量的1至7维度,将来自步骤d)的计算值转化为0到1 之间的标度值,为每一肽片段生成所述向量的8至49维度;f) 将步骤e)生成的向量提交至在步骤a)中经过训练的SVM算法, 测量每一向量到步骤a2)中计算出的超平面的距离;并g) 根据步骤f)中测量的距离,将每一肽片段分类为生物活性肽或 非生物活性肽。
14. 权利要求1至4的方法的用途,所述用途为鉴定治疗性多肽、药 物介入靶点、发现相关靶点的配体或监测疾病的生物标记。
15. ^5L利要求9至12的肽文库在筛选方法中的用途,所述篩选方法用 于研究细胞内信号通路、产生试剂深化对通路的了解、产生新的治疗形式 及鉴定药物活性化合物、药物介入靶点、发现相关靶点的配体或监测疾病 的生物标记。
16. 药物组合物,其包含生物活性肽作为生物活性剂,所述生物活性 肽具有选自SEQIDN01-185的^J^酸序列的序列。
全文摘要
在不同试验中筛选肽文库提供了同时研究细胞内信号通路、产生试剂深化对通路的了解和产生治疗的新形式的可能性。通过生长刺激作用、生长抑制作用或关键代谢通路的调节,多数(若非全部)生物活性肽(如肽类激素)在健康和疾病中都具有深远的影响。本发明涉及新的生物活性肽、鉴定这些肽的计算机模拟方法及包含这些肽的肽文库。
文档编号G06F19/16GK101663668SQ200880008365
公开日2010年3月3日 申请日期2008年3月4日 优先权日2007年3月13日
发明者E·容, M·亨德里奇 申请人:塞诺菲-安万特股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1