一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法

文档序号:6567231阅读:396来源:国知局
专利名称:一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法
技术领域
本发明属于生物信息学技术领域,更确切的是涉及一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法。
背景技术
近年来,随着一些农艺性状得到遗传改良的食物增多及基因工程药物的应用增加,一些对人类具有潜在过敏的蛋白可能引入这些食品和药品中,由此将导致过敏性体质人群的生活压力和整个社会的生活成本增加。在这些新蛋白基因遗传转化之前及与人体的产生接触之前,先期进行过敏原性评价,显得十分迫切。而应用软件对蛋白的过敏原性进行精确预测是过敏原性评价的最经济有效的首选方案。过敏原性的精确评估,既可避免高过敏原性蛋白基因的应用所带来的前期巨额投入,又可避免这类蛋白对人体的伤害,使风险成本得到降低。目前,国内尚没有一款可以评价过敏原的软件,而国际上,过敏原性预测软件可以概括为如下几类方法进行过敏原检测,包话(1)通常的序列比对;(2)基于滑动肽窗口原理的过敏原IgE表位和基序的检测;(3)以支持向量机(Support Vector Machine, SVM)为支持算法的分类器来区分过敏原和非过敏原;(4)基于过敏原代表肽段(Allergen Representative Peptides, ARPs)或经过长度调整后的过敏原肽段构建的描述器 (Detection based on Filtered Length-adjusted Allergen Peptides, DFLAPs)。当待查询序列或其片段与已知过敏原完全相同、或者同源、或者具有匹配的基序时,这些软件就非常有效,而对于那些跟已知过敏原相似性低的新型蛋白质,这些软件的预测准确性就不佳了。因此,为了从随机的序列数据、特别是从那些农艺性状优良而尚未开发的外源基因里甄别过敏原,以避免将从未被人类作为食物的外源基因通过遗传工程等方法引入食品中, 需要在准确性、特异性和敏感性等方面对过敏原预测软件进行大幅度的改良提高。

发明内容
本发明要解决的技术问题是克服现有技术的不足而提供一种能提高过敏原预测的敏感性、特异性和精确性的基于支持向量机的过敏原的预测方法。为解决上述技术问题,本发明的技术方案是一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,包括以下步骤
步骤1:数据库的建立,
从各过敏原数据库经过筛选得到的过敏原序列和非过敏原序列作为数据库; 步骤2:过敏原家族特征肽的提取,
针对过敏原序列进行聚类分析,在形成的每一过敏原家族中,过敏原序列按照每相隔 1-10个碱基用滑动窗口分成6-32个碱基长度的肽段,然后用所得肽段和非过敏原序列进行BLAST (Basic Local Alignment Search Tool,序列基本对齐本地搜索工具)比对后,剔除那些与非过敏原相同或相似的片段,而那些和非过敏原序列没配对的肽段,并且E值低于10〃 IiT1时,即是过敏原特征肽(Allergen Featured Peptides, AFPs),而落在同一过敏原上且相邻的过敏原特征肽拼接后形成由2-30个小的特征肽构成的过敏原家族特征肽 (Allergen Family Featured Peptides, AFFPs); 步骤3:建立支持向量机模型,
对于一个查询蛋白X建立特征向量FX = fxl, fx2,…,fxn,η代表过敏原家族特征肽库的片段数量,fxi为蛋白X和第i个AFFP进行BLAST (Basic Local Alignment Search Tool,序列基本对齐本地搜索工具)后E值均一化的值作为矢量,并转换为径向基函数(Radial Basis Function, RBF); 步骤4:支持向量机模型的性能测定,
采用交叉验证方法进行测定,即将训练集随机均分成η个互不相交的子集,利用η-1个训练子集,对给定的一组参数建立模型,利用剩下一个子集做测试评估参数性能,即为η倍的内在交叉效度。进一步的,上述方案中步骤 3 所述对 BLAST (Basic Local Alignment Search Tool,序列基本对齐本地搜索工具)比对所得的E值χ进行均一化,均一化的公式如下
权利要求
1.一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其特征在于包括以下步骤步骤1:数据库的建立,从各过敏原数据库经过筛选得到的过敏原序列和非过敏原序列作为数据库;步骤2:过敏原家族特征肽的提取,针对过敏原序列进行聚类分析,在形成的每一过敏原家族中,过敏原序列按照每相隔 1-10个碱基用滑动窗口分成6-32个碱基长度的肽段,然后用所得肽段和非过敏原序列进行BLAST (Basic Local Alignment Search Tool,序列基本对齐本地搜索工具),剔除那些与非过敏原相同或相似的片段,而那些和非过敏原序列没配对的肽段,并且采用BLAST 所得的E值低于10,KT1时,即是过敏原特征肽(Allergen Featured Peptides, AFPs), 而落在同一过敏原上且相邻的过敏原特征肽拼接后形成由2-30个小的特征肽构成的过敏原家族特征肽(Allergen Family Featured Peptides, AFFPs);步骤3:建立支持向量机模型,对于一个查询蛋白X建立特征向量FX = fxl,fx2,…,fxn , η代表过敏原家族特征肽库的片段数量,fxi为蛋白X和第i个AFFP进行BLAST后E值均一化的值作为矢量, 并转换为径向基函数(Radial Basis Function, RBF);步骤4:支持向量机模型的性能测定,采用交叉验证方法进行测定,即将训练集随机均分成η个互不相交的子集,利用η-1个训练子集,对给定的一组参数建立模型,利用剩下一个子集做测试评估参数性能,即为η倍的内在交叉效度。
2.根据权利要求1所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方法步骤3所述对BLAST比对所得的E值χ进行均一化,均一化的公式如下
3.根据权利要求1所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其特征在于步骤3所述支持向量机是基于结构风险最小化原则的统计,其使用核函数将输进去的矢量投射到高维特征空间,在空间形成一个超平面,使过敏原和非过敏原得以在超平面两边分开,支持向量机的核函数首先经过标准化,以使每个向量在特征空间拥有长度单位1,核函数标准化的公式如下
4.根据权利要求3所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其特征在于所述核函数y (X,Y)转换为径向基函数RBF (Radial Basis Function)以使形成的平面通过原点,由核函数转换为径向基函数RBF的公式如下
5.根据权利要求1所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其特征在于步骤4所述支持向量机模型的性能测定采用十倍的内在的交叉效度方法进行测定,计算模型的敏感性(SE)、特异性(SP)、精确度(ACC),马太相关系数(MCC),而这四个参数的计算公式如下
6.根据权利要求1所述的借助支持向量机建立过敏原家族特征肽的过敏原的预测方法,其特征在于步骤1所述数据库的建立中过敏原序列是从各过敏原数据库收集过敏原序列,并移除序列同源性达到80-90%的过敏原后得到的;非过敏原序列是以大米,苹果,胡萝卜和人类自身蛋白并经过过敏原筛选后得到的。
全文摘要
本发明属于生物信息学技术领域,更确切的是涉及一种借助支持向量机建立过敏原家族特征肽的过敏原的预测方法。该预测方法包括建立过敏原数据库;形成过敏原聚类与家族;提取过敏原家族代表肽;建立支持向量机模型;模型性能参数的优化训练及大规模过敏原数据的测试。本发明优点是建立在优先淘选过敏原家族特征肽基础上,该特征肽不仅对过敏原的典型特征作了精细描述,而且将过敏原与非过敏原做了严格区分,避免了过敏原判别过程中假阳性和假阴性的产生,从而在过敏原判别的准确性与灵敏度上取得了高水平的平衡而具有明显优势。在蛋白序列过敏原性的生物信息学分析方面具有广阔的应用前景。
文档编号G06F19/24GK102346817SQ20111030253
公开日2012年2月8日 申请日期2011年10月9日 优先权日2011年10月9日
发明者张利达, 邹泽红, 陶爱林, 黄于艺 申请人:广州医学院第二附属医院
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1