一种基于从头测序和同源标签图论的抗体序列鉴定方法

文档序号:35529960发布日期:2023-09-21 08:29阅读:126来源:国知局
一种基于从头测序和同源标签图论的抗体序列鉴定方法

本发明涉及一种基于从头测序和同源标签图论的抗体序列鉴定方法,属于生物分析。


背景技术:

1、抗体的氨基酸序列和翻译后的修饰是影响抗体药物特异性和有效性的决定性因素。在单克隆抗体药物的研发阶段,主要使用dna测序技术初步的对抗体基因序列进行鉴定,使用密码子解码后可获得对应的抗体氨基酸序列。但是,对于某些用于临床的抗体药物,其可能来源于免疫宿主、商品化的抗体、杂交瘤细胞产物,很多这样的抗体无法获得其cdna序列。在这样的场景下,需要直接在蛋白水平进行氨基酸序列的鉴定,以满足临床实验中的抗体测序需求。

2、在蛋白质组学中,基于质谱能够实现蛋白质测序方法主要分为两种:数据库搜索和从头测序。数据库搜索方法仅能鉴定数据库中已有的蛋白序列,而从头测序方法不依赖于已有的序列信息,直接由二级谱图离子信息推导未知蛋白序列。由于抗体序列的可变区具有高度的可变性,已有蛋白序列数据库中通常缺少抗体的序列数据,这导致数据库搜索方法对抗体序列鉴定时,序列覆盖率通常较低。要完成抗体序列或者数据库中不存在的蛋白序列的鉴定,只能使用从头测序方法进行鉴定。

3、为了得到尽可能丰富的序列碎片,目前主流的方法是采用多种酶切和多种质谱碎裂方式进行组合后,采集高精度、高质量的质谱数据,然后使用从头测序软件进行分析和设计序列组装算法,获得抗体的完整序列。

4、为了解决肽段序列组装过程中存在的肽段碎片引起的覆盖度不足以及谱图解释的模糊性,peaks蛋白质组学团队在2016年提出了集成系统alps,首次将全长单克隆抗体的组装过程自动化,此系统将从3种酶(asp n、chymotrypsin、trypsin)处理后的从头测序肽段、质谱强度、位置置信度分数、以及数据库的纠错信息集成到了加权de bruijn图中进行蛋白的序列组装。alps系统实现100%的覆盖率和96.64%-100%的组装准确率,能够实现的最长组装长度为441个氨基酸。但是alps系统的序列组装性能容易受到重叠肽缺失和从头测序错误以及序列同源性的影响。杨超等人在2020年发展了一种基于非特异性蛋白酶连续酶解的蛋白质全序列测定方法。该方法构建了连续酶解装置,并使用多种非特异性蛋白酶对蛋白质进行连续酶解。利用非特异性蛋白酶酶解位点的非特异性、不同的酶解时间以及不同种类蛋白酶酶解产生肽段的互补性,提高蛋白质酶解肽段的种类和重叠度,并发展了蛋白质序列组装算法对液相色谱质谱联用(lc-ms/ms)和从头测序获得的肽段序列进行组装。将此方法应用于牛血清白蛋白和单克隆抗体赫赛汀的全序列测定,在不考虑亮氨酸和异亮氨酸的情况下,对牛血清白蛋白和赫赛汀轻链的测序准确度达到100%,赫赛汀重链的测序准确度为99.7%。

5、然而,当肽段中有质量十分相近的肽片段出现时,从头测序方法通常很难区分开。氨基酸质量相近的肽段常见的有如下3种:1)同分异构体i和l;2)氨基酸组合质量相近如:ag=q,gg=n;3)氨基酸组合一样,但排列方式不同。如af和fa,kr和rk。从头测序的大部分错误均来自于上述3种情况。由于组装过程是基于片段之间的重叠性,从头测序方法报告的错误肽段,会给组装任务的全长覆盖带来巨大的挑战。而如何在存在歧义的肽段中优选出正确的肽段以及对个别氨基酸位点进行纠错则完成组装过程首要前提。


技术实现思路

1、有鉴于此,本发明的目的在于提供一种基于从头测序和同源标签图论的抗体序列鉴定方法。

2、为实现上述目的,本发明的技术方案如下:

3、一种基于从头测序和同源标签图论的抗体序列鉴定方法,所述方法步骤包括:

4、(1)对待鉴定抗体进行氨基酸水平切割,得到肽段溶液;

5、(2)对得到的肽段溶液分别进行液相分离和质谱分析,得到质谱文件;

6、(3)对得到的质谱文件进行pfind检索,确定待鉴定抗体的轻链恒定区肽段序列和待鉴定抗体的重链恒定区肽段序列;对得到的质谱文件进行pnovo从头测序,确定待鉴定抗体的可变区候选肽段序列;

7、(4)分别对待鉴定抗体的轻链恒定区肽段序列和待鉴定抗体的重链恒定区肽段序列进行同源搜索,获得与轻链恒定区、重链恒定区高同源完整轻链和重链;分别对完整轻链和完整重链中可变区每个位点的氨基酸组成进行统计,得到轻链可变区氨基酸概率分布表和重链可变区氨基酸概率分布表;

8、(5)分别选择轻链可变区氨基酸概率分布表和重链可变区氨基酸概率分布表中的同源标签,所述同源标签由5~8个氨基酸组成序列组成,所述氨基酸序列中包含2个以上概率大于60%的氨基酸和3个概率在前5的氨基酸;从步骤(3)的待鉴定抗体的可变区候选肽段序列中筛选包含所述同源标签的肽段,得到高可信可变区肽段序列;

9、(6)将高可信可变区肽段序列分为多个长度k为5~8的小肽段序列(kmer),统计每个小肽段序列的出现次数及概率,得到每个小肽段的组装得分,以满足同源标签且得分最高的小肽段序列为组装起点,沿两端寻找满足具有k-1个重叠氨基酸的小肽段,根据组装得分在末端添加一个氨基酸,重复组装,得到轻链可变区肽段序列和重链可变区肽段序列;

10、(7)将步骤(3)中的轻链恒定区肽段序列、重链恒定区肽段序列分别与轻链可变区肽段序列、重链可变区肽段序列进行二次组装,得到完成的抗体轻链和重链。

11、进一步的,步骤(1)中,采用蛋白酶解法、微波水解法和微波辅助蛋白酶解法中的一种以上对待鉴定抗体进行氨基酸水平切割,不同方法得到的肽段之间存在4个以上重叠氨基酸。

12、进一步的,步骤(1)中,分别采用特异性蛋白酶和非特异性蛋白酶对待鉴定抗体进行蛋白酶解,特异性蛋白酶和非特异性蛋白酶总数大于等于3。

13、进一步的,步骤(2)中,采用流动相梯度洗脱对肽段溶液进行液相分离,色谱柱采用c18反相色谱柱;质谱分析时,选择一级谱图中前20个母离子进行二级谱图分析,母离子采用高能碰撞碎裂模式(hcd)进行二级碎裂。

14、进一步的,步骤(3)中,pfind检索的数据库为swissprot全库;检索时,母离子偏差、片段偏差均为±20ppm,从检索结果中选择与抗体轻链恒定区序列、抗体重链恒定区序列长度接近且覆盖度最高的氨基酸序列结果,作为待鉴定抗体的轻链恒定区肽段序列和待鉴定抗体的重链恒定区肽段序列。

15、进一步的,步骤(3)中,对得到的质谱文件进行pnovo从头测序,保留母离子质量偏差小于10ppm的肽段,作为待鉴定抗体的可变区候选肽段序列。

16、进一步的,步骤(4)中,同源搜索时使用在线抗体库abysis。

17、进一步的,步骤(4)中,同源搜索时,获得与轻链恒定区、重链恒定区e值小于10-5的高同源完整轻链和重链。e值指的是:蛋白序列相同长度的情况下,两个氨基酸残基随机排列的序列,基于打分矩阵对各对氨基酸残基打分的得分总和出现的概率的大小;e值越小表示随机情况下得到该总分的可能性越低,在得分总和高的且e值小的情况下,两个蛋白序列的同源性越高。

18、进一步的,步骤(6)中,每个小肽段的组装得分s=r×10p,其中,r为小肽段出现次数,p为小肽段的氨基酸概率。

19、进一步的,步骤(6)中,组装时,若同一位点存在歧义,选择概率分布表中概率最高的氨基酸是次优氨基酸概率3倍以上的氨基酸。

20、进一步的,步骤(6)中,组装时,可变区c端多延伸4~7氨基酸与恒定区的n端前4~7个形成重叠。

21、进一步的,所述待鉴定抗体包括血清中的具不同特异性的多克隆抗体混合物、单克隆抗体纯品、杂交瘤细胞分泌的单克隆抗体或浆细胞分泌的单克隆抗体。

22、有益效果

23、本发明提供了一种基于从头测序和同源标签图论的抗体序列鉴定方法,首先对待鉴定抗体进行切割,得到的肽段溶液进行液相-质谱分析;然后通过检索确定轻链、重链恒定区肽段序列,并通过从头测序确定可变区候选肽段序列;之后通过发展动态窗口方法结合物种特异性抗体同源库,对从头测序错误进行有效的识别,并能够区分同分异构体形式的亮氨酸与异亮氨酸,提升了组装准确率与组装稳定性。

24、在从头测序确定抗体恒定区与从头测序确定抗体可变区的分析过程中,使用3种蛋白序列切割方法(蛋白酶解法、微波水解法以及微波辅助蛋白酶解法)分别处理抗体,可保证抗体肽段序列之间具有高度重叠性,提高了抗体蛋白序列的覆盖度。并对蛋白酶进行选择、设母离子偏差和片段偏差均设置为20ppm,可保证肽段的氨基酸水平的准确性。

25、在序列组装过程中,涉及的关键参数包括:同源标签中氨基酸概率阈值的大小与kmer的大小。同源标签中概率阈值选择大于60%,以提取高度保守的序列对从头测序肽段进行优选,从而提高序列组装的准确性。kmer选择为5、6、7或8,其果影响具有互补性。当kmer较小时,组装结果容易受到重复肽段的影响,组装结果中会出现错误的重复的氨基酸片段,降低准确率。但是,较小的kmer能够提高序列组装的长度,从而提高覆盖度。当kmer较大时,组装结果不易受到重复肽段的影响,提高组装结果准确度高。但是,较大的kmer会过滤掉一部分较短的序列,并降低不同kmer之间重叠性,会导致组装的序列长度较短,序列覆盖度降低。

26、本发明所述方法基于数据挖掘方法获得的同源分布概率表,使用同源概率表对齐肽段,将低概率的氨基酸替换为高概率的氨基酸,可实现对歧义氨基酸和同分异构氨基酸的纠错,同时将匹配得分最佳的肽段进行保留,获得优选的从头测序结果。上述方法可以提高参与组装的肽段的准确性,同时也提高了抗体序列鉴定的准确性。

27、本发明所述方法适用的抗体样本类型广,包括血清中的具不同特异性的多克隆抗体混合物、单克隆抗体纯品、杂交瘤细胞分泌的单克隆抗体、以及浆细胞分泌的单克隆抗体等。不同来源的抗体蛋白均可采用氨基酸水平的蛋白序列切割方法进行切割,形成重叠肽段,并进行组装后获得完整抗体序列。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1