一种利用蛋白质芯片技术鉴定差异表达蛋白的新方法

文档序号:6148086阅读:390来源:国知局
专利名称:一种利用蛋白质芯片技术鉴定差异表达蛋白的新方法
技术领域
本发明属于生物技术领域,涉及生物标记和药物靶标筛选方面。
背景技术
本发明是一种适用于蛋白芯片数据分析的新算法,可以将实验鉴定的差异蛋白峰 所对应的目标蛋白进行生物信息学预测。适用于基于SELDI(表面增强激光解吸离子)或 MALDI (基质辅助激光解吸电离离子)平台的蛋白芯片实验系统。 飞行时间质谱(TOF)蛋白质芯片能够找到对照及实验样本之间的差异峰,而这些 差异峰都是由相应的蛋白经过激发而产生的(蛋白质在吸收能量后脱离芯片表面,由于其 中加有一个正电荷,在电场中向阴极飞去,分子量大的飞行时间长,分子量小的飞行时间 短,以此标记蛋白质的分子量),蛋白质芯片的原理大致如图1。 由于蛋白质芯片分析的是混合蛋白,通过单次质谱,解析离子峰所对应的蛋白是 困难的,故这些差异峰对应的是哪个或者哪些蛋白质却并不知道,需要进一步的利用其他 实验方法得到,如western[l],串联质谱[2]等,这样即耗时又耗费金钱。
因为SELDI —般使用能量比较低的激光,因此产生的主要的是一价离子,所以理 论的m/z值即为多肽的分子量与一个质子的质量。常规的方法就是将实验分析得到的感兴 趣的离子峰的m/z值,与基因的理论的m/z比较,来得到离子峰所对应的基因。由于实验误 差的存在,以及理论的m/z可能计算不准,如多肽链可能脱水或脱氨,因此m/z比较的时候 可以允许一定的偏差的,一般Am/Z = 1 20Da(道尔顿,分子量计量单位)是可以接受的。 使用该方法对应到的基因,可以使用western直接进行实验验证。但是该方法也有自己的 缺点。我们感兴趣的离子峰的m/z值一般都在l,OOO 10,000Da左右,而在swiss-prot 的人的蛋白数据库中,大约只有2. 78% (348/12,484)的基因m/z小于10, 000。因此这种 方法实际上是将基因组内97%以上的基因都排除在外。这显然是不够合理的。因此我们提 出了新的解决方案。 在飞行时间质谱(TOF)蛋白质芯片的实验过程中,蛋白质的断裂有三种情况一 是有些蛋白是完整的,没有在内部发生断裂;第二种是有些蛋白的肽键只发生了一次断裂, 并由此产生两种离子,阳离子和阴离子;第三种情况是有些蛋白发生了随机的断裂,且断裂 的次数大于一次。 我们的专利方法通过综合分析这3种不同的情况,利用生物信息学方法预测蛋白 质芯片质谱峰所对应的蛋白质。


图1是蛋白质芯片的原理图。 图2是质谱生成b-ion(负离子)和y-ion(正离子)两种离子的示意图。
图3是直接搜索法的结果。
图4是间接搜索法的结果。
图5是混合搜索法的结果。

发明内容
本发明根据相关的文献和蛋白质芯片的原理,找到了一种可以直接利用蛋白质芯 片找到的差异峰来进行目标蛋白质筛选的生物信息学方法,可以免除中间实验的繁烦步 骤,直接针对目标蛋白质进行锁定,以便于进一步的实验验证。
其实施步骤如下 步骤一 将实验样本(病人的血清标本)进行蛋白质芯片的实验操作,每个样本都 可以得到一系列蛋白质离子峰的数据。 步骤二 根据实验设计的情况,对样本进行分组,得到不同组份样本间的差异蛋白 峰。 步骤三对步骤二得到的差异蛋白峰进行蛋白质预测。依据蛋白质断裂的三种情 况,我们综合3种方法来对差异蛋白峰进行蛋白预测。 方法一 该方式假定目标蛋白没有发生断裂,我们直接将差异蛋白峰与蛋白质数 据库(如swiss-prot数据库,www. ebi. ac. uk/swiss)中已经存在的蛋白质进行比较,比较 的标准是利用质荷比(m/z)这个参数。 方法二 假蛋白只断裂一次,该方法假定蛋白(多肽)只断裂一次。那么将生成 b-ion(负离子)和y-ion(正离子)两种离子。b-ion和y-ion产生的示意图见图2。
通过将我们感兴趣的离子峰的m/z值与蛋白数据库中所有理论的b-ion和y-ion 的m/z相比较,既可找出质谱峰对应的蛋白。 一般允许误差取A m/z = 0. 01 0. IDa比较适宜。 方法三假设蛋白断裂的次数大于一次,最后利用假设检验的方法可以给出m/z 与基因的关联的显著性。对于同时可以获得基因芯片数据的项目,使用这种方法是比较恰 当的。 在第二种方法中,假设每个蛋白(多肽)被切割不多于一次。更为宽松的假设则 是不限制蛋白(多肽)被切割的次数。即蛋白(多肽)可以被随意切碎,产生任意的子肽 段。但是这样的假设会大大的增加理论离子库的规模,结果是,每个我们要分析的离子峰m/ z都会找到很多个基因相对应。为了从这些众多的基因中,筛选出真正的对应来,需要用到 基因芯片实验的数据。利用基因芯片筛选到的差异基因,作为分析背景,可以大大的縮小理 论离子库的规模,提高信噪比。最后利用假设检验的方法可以给出m/z与基因的关联的显 著性。对于同时可以获得基因芯片数据的项目,使用混合搜索法是比较恰当的。
简单来讲,比如我们使用swiss-prot数据库,假设该数据库一共有R条蛋白质 (多肽)序列。这些序列的长度记为&,rv…,rv对于任何一个质量为m的峰,在数据库中
能产生该峰的多肽序列长度应该介于和L2之间,其中A =
186. 07932和57. 02147分别为最大氨基酸残基(tryptophan)和最小残基(glycine)的分 那么,在数据库中,可以产生质量为m的峰的多肽总数为

57.02147
w 在这N (m)个多肽中,质量恰好为m的多肽数目记作E (m),那么质量为m的峰的背 景分布频率为〃(W) = ]^ 实际上由于精确度的原因,我们允许m值有小的误差S (比如说S = 0. lDa),那 么ms = [m- S , m+ S ],则
《)。 获得了质量为m的峰的背景分布频率之后,对于一个基因芯片筛选到的差异基因 P(氨基酸长度为np),该基因能产生质量为ms的多肽总数为
^k)=|]( -"i)
基因P与质量为m的峰之间的匹配是完全随机的概率为
P—va/ e = l — =1-(1 —6>(附《)卢°""
、0 如果基因P与质量为m的峰之间的P-value小于某个阈值,比如说O. Ol,我们就可 以认为基因P与质量为m的峰之间的匹配不是随机的,即质量为m的峰很有可能来源于基 因P。 本方法的特征 该方法根据相关的文献和蛋白质芯片的原理,找到了一种可以直接利用蛋白质芯 片找到的差异峰来进行目标蛋白质筛选的生物信息学方法,可以免除中间实验的繁烦步 骤,直接针对目标蛋白质进行锁定,以便于进一步的实验验证。 在创新性方面,我们的方法解决了常规方法无法预测大分子量蛋白的问题(方法 二)。同时提供了一种整合基因芯片与蛋白芯片分析来鉴定蛋白的新方法(方法三)。最 后通过整合3种不同的方法,可以大大增加预测的灵敏度和特异度。
下面以一癌症疾病实例,做进一步的说明
疾病类型一种癌症 SELDI结果根据SELDI芯片分析,找到了 10个差异峰。
进一步的分析 利用前期的SELDI芯片得到的差异峰,利用上述的算法,对上述的差异峰进行了 分析,结果如下 方法一 直接搜索法的结果(部分结果) 参见图3。 方法二间接搜索法结果 参见图4。
方法三混合搜索法结果
参见图5。
参考文献 [1]JT Huang et al. Independent protein-profiling studies show a decreasein apolipoprotein Al levels in schizophrenia CSF, brain andperipheral tissues. Mol Psychiatry. 2007 Oct 16 [2]G Kwapiszewska et al. Identification of proteins inlaser—microdissected smal1 cell numbers by SELDI—T0F and TandemMS. BMC Biotechnol. 2004Dec 3 ;4 :30. [3]YT Li et al. Identification of a plasma proteomic signature todistinguish pediatric osteosarcoma from benign osteochondroma. Proteomics 2006,6,3426-3435 [4] XT Deng et al.Link test-a statistical method for finding prostatecancer biomarkers. Computational Biology and Chemistry 30(2006)425-433
以上是对本发明的描述而非限定,基于本发明思想的其它实施方式,均在本发明 的保护范围之中。
权利要求
一种利用蛋白质芯片技术鉴定差异表达蛋白的新方法,其特征在于该方法包括有如下步骤步骤1将实验样本(病人的血清标本)进行蛋白质芯片的实验操作,每个样本都可以得到一系列蛋白质离子峰的数据。步骤2根据实验设计的情况,对样本进行分组,得到不同组份样本间的差异蛋白峰。步骤3对步骤2得到的差异蛋白峰进行蛋白质预测。依据蛋白质断裂的三种情况,我们采用三种方式来对差异蛋白峰进行蛋白预测。
2. 根据权利要求1所述的一种利用蛋白质芯片技术鉴定差异表达蛋白的新方法,其特 征在于在步骤3中对其得到的差异蛋白峰进行采用三种方法进行蛋白质预测方法一 假定目标蛋白没有发生断裂,我们直接将差异蛋白峰与蛋白质数据库(如swiss-prot数据 库,www. ebi.ac.uk/swiss)中已经存在的蛋白质进行比较,比较的标准是利用质荷比(m/ z)这个参数。方法二假设蛋白只断裂一次,该方法假定蛋白(多肽)只断裂一次。那么 将生成b-ion(负离子)和y-ion(正离子)两种离子。通过将我们感兴趣的离子峰的m/z 值与蛋白数据库中所有理论的b-ion和y-ion的m/z相比较,既可找出质谱峰对应的蛋白。 一般允许误差取Am/z = 0. 01 0. 1Da比较适宜。方法三假设蛋白断裂的次数大于一次,最后利用假设检验的方法可以给出m/z与基 因的关联的显著性。对于同时可以获得基因芯片数据的项目,使用这种方法是比较恰当的。
全文摘要
本发明根据相关的文献和蛋白质芯片的原理,找到了一种可以直接利用蛋白质芯片找到的差异峰来进行目标蛋白质筛选的生物信息学方法,可以免除中间实验的繁琐步骤,直接针对目标蛋白质进行锁定,以便于进一步的实验验证。本发明主要包括如下流程步骤1将实验样本(病人的血清标本)进行蛋白质芯片的实验操作,每个样本都可以得到一系列蛋白质离子峰的数据。步骤2根据实验设计的情况,对样本进行分组,得到不同组份样本间的差异蛋白峰。步骤3对步骤二得到的差异蛋白峰进行蛋白质预测。依据蛋白质断裂的三种情况,我们综合3种方法来对差异蛋白峰进行蛋白预测。
文档编号G01N27/64GK101776681SQ20091004522
公开日2010年7月14日 申请日期2009年1月13日 优先权日2009年1月13日
发明者吴剑丙, 陈喆 申请人:陈喆;吴剑丙
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1