基于预测加权整合的农作物潜在过敏原检测实现方法

文档序号：8396086阅读：383来源：国知局

基于预测加权整合的农作物潜在过敏原检测实现方法
【技术领域】
[0001] 本发明涉及的是一种基因检测领域的技术，具体是一种基于预测加权整合的农作物潜在过敏原检测实现方法，用于为转基因作物进入食物链前的致敏性风险评估提供一个可靠的参考。
【背景技术】
[0002] 食品过敏是指食物中的某些物质（多为蛋白质）进入了体内，被体内的免疫系统当成入侵的有害物，引发机体免疫，对人体造成一系列复杂的反应。全世界约有25 %的人口受此困扰。目前，我国政府把生物技术作为未来解决中国粮食安全的重要途径之一，加强转基因作物进入食物链前的致敏性风险评估非常有必要。
[0003] 目前，基于计算生物学来进行过敏原预测的方法主要有三种：
[0004] 第一种是于2001年由联合国粮食与农业组织/世界卫生组织（FA0/WH0)提出的基于序列的预测方法，即FA0/WH0规则1，其包括两条规则：1)与已知过敏原有连续六个氨基酸相同；2)与已知过敏原在80个氨基酸范围内相似度达到35%及以上。只要满足其中一则就被预测为过敏原蛋白。FA0/WH0方法的优点在于敏感度高，而缺点在于假阳性高，大概每200个被它预测为过敏原的蛋白中只有1个是真的过敏蛋白。第二种是于2003年提出的基于motif(模体）的预测方法，即FA0/WH0规则2,它利用的是比较待测蛋白与过敏原特征motifs，该方法同基于序列的方法相比，一定程度上提高了特异性，减少了假阳性率，但由于已知过敏原的motif有限，所以该类方法的使用受到限制。第三种是于2006年提出的基于SVM(支持向量机）的预测方法，即PREAL(PREdictionofALlergenicprotein，蛋白质过敏原预测）方法，采用线性分类器，通过根据样本调整线性分类面函数的系数，所有训练样本被正确划分即完成迭代，这类算法通过训练过敏原和非过敏原的各种特征，获得分类函数，从而达到过敏原预测的目的。该方法大大提高了准确率，但无法得知过敏原特征信息。
[0005] 经过对现有技术的检索发现，中国专利文献号CN103049679A公开（公告）日 2013.04. 17,公开了一种蛋白质潜在致敏性的预测方法，包括以下步骤：步骤一，制作训练正集和训练负集；步骤二，对蛋白质的各类属性进行编码，构建特征向量；步骤三，引用最大相关最小冗余方法进行特征排序，引用递增式的特征选择方法进行最优特征选择；步骤四，通过对选择出的特征进行统计分析，给出与蛋白质致敏特性显著相关的特征结果报告。该PREAL0技术采用的是基于SVM的预测方法，它囊括了蛋白的128维向量特征，在整体准确率与特异性方面比以往的算法有明显优势，并且提供与蛋白质致敏特性显著相关的特征。但该算法的检测敏感度低于FA0/WH0预测方法。

【发明内容】

[0006] 本发明针对现有技术存在的上述不足，提出一种基于预测加权整合的农作物潜在过敏原检测实现方法，克服FA0/WH0预测方法的假阳性高的不足，以及如果训练集内没有与待测样本特征相似的已知样本，PREAL的预测准确率会下降的不足。本发明利用规范化的加权平均分（WAS，weightedaverageofthenormalizedscores)整合基于序列的FAO/ WHO预测方法和基于SVM的PREAL算法，增加预测的性能和覆盖范围，通过把序列、二级结构等层面信息尽可能全面地引入我们的模型，我们可以更清楚地将过敏原与非过敏原区别开来，从而达到提高预测精确度的效果。
[0007] 本发明是通过以下技术方案实现的：
[0008] 本发明包括以下步骤：
[0009] 步骤一，构建过敏原蛋白作为训练正集、非过敏原蛋白作为训练负集。
[0010] 步骤二，使用FA0/WH0预测方法和PREAL算法对训练正负集的蛋白进行潜在致敏性预测。
[0011] 所述的预测是指：针对每个蛋白评估其在FA0/WH0规则1、FA0/WH0规则2以及 PREAL规则下的过敏判断结果，当FA0/WH0规则1预测该蛋白为过敏原时则评价为1，非过敏原打分为0 ;FA0/WH0规则2的打分标准与FA0/WH0规则1相同；在PREAL规则下的打分区间为（0,1)且分值越接近1表示越可能是过敏原。
[0012] 步骤三，对步骤二所得到的预测结果根据不同的预测方法赋予权重，并计算加权预测结果值。
[0013] 所述的权重是指：当Ci=1时，Wi=1-Pni;iCi=0时，Wi=l_Ppi,其中：i为预测方法的编号，且i为1、2、3巧是当前蛋白用第i个方法时获得的打分；Ci表示当前蛋白是过敏原还是非过敏原，过敏原为1，非过敏原为0。
[0014] 所述的综合预测结果是指：= 计算每个蛋白的加权预测结果值 (WAS)。
[0015] 步骤四，根据步骤三得到的训练正集和训练负集蛋白的WAS值进行预测测试，然后计算其10 _折叠交叉验证的性能参数，并通过绘制准确率_敏感度曲线确定建议阈值。
[0016] 所述的10-折叠交叉验证性能参数包括：敏感度、特异性和准确率。
[0017] 所述的建议阈值，通过绘制准确率-敏感度曲线，根据曲线顶点确定，该准确率-敏感度曲线的纵坐标为WAS值，横坐标为敏感度。
[0018] 步骤五，对待测蛋白采用步骤二至步骤四的计算得到其加权预测结果值，当高于所述建议阈值，则认为该蛋白更可能为过敏原蛋白。技术效果
[0019] 与现有技术相比，本发明通过加权整合保留了PREAL准确率与特异性高的优势，同时也弥补了PREAL检测敏感度低于FA0/WH0预测方法的不足。本发明首次利用加权方式整合已有预测方法，可以更为准确地判断出过敏原蛋白。
【附图说明】
[0020] 图1为FA0/WH0预测方法打分示意图。
[0021] 图2为实施例PREAL算法的打分权重Wi依据累积分布图。
[0022] 图3为实施例准确率-敏感度曲线示意图。
[0023] 图4为本发明实施例的流程示意图。
[0024] 图5为本发明实施例提供的预测方法与现有预测方法的性能比较图。
【具体实施方式】
[0025] 下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。实施例1
[0026] 如图4所示，本实施例包括以下步骤：
[0027]步骤1、训练正集（过敏原蛋白）和训练负集（非过敏原蛋白）：
[0028] 过敏原蛋白数据集构建：其数据来源包括IUISAllergenNomenclature(国际免疫学会联盟-过敏原命名表）；Allergome(过敏蛋白的分子数据库），AllergenOnline(为风险评估提供某一蛋白质与已知过敏原及腹腔蛋白的比对服务的数据库），Allfam(过敏原蛋白家族信息的数据库），从中提取水稻、小麦、玉米、大豆四个物种的过敏原蛋白，去冗余后共得到957条过敏原蛋白信息，这些蛋白将作为训练模型时的正集；
[0029] 非过敏原蛋白数据集构建：为构建一个可行的负集，采用如下步骤实现：
[0030] 1?下载NCBI上Genpept和Refseq库中所有植物蛋白序列，从中提取水稻、小麦、玉米、大豆四个物种的全部蛋白序列298827条，移除所有同已知过敏原相似度> =30%的序列；
[0031] 2.移除所有长度小于80个氨基酸的序列；
[0032] 3.从2的结果中随机选取同正集相同数目的蛋白序列作为负集。
[0033]表1训练正集（过敏原蛋白）和训练负集（非过敏原蛋白）
【主权项】
1. 一种基于预测加权整合的农作物潜在过敏原检测实现方法，其特征在于，包括以下步骤：步骤一，构建过敏原蛋白作为训练正集、非过敏原蛋白作为训练负集；步骤二，使用FAO/WHO预测方法和PREAL算法对训练正负集的蛋白进行潜在致敏性预测；步骤三，对步骤二所得到的预测结果根据不同的预测方法赋予权重，并计算加权预测结果值；步骤四，根据步骤三得到的训练正集和训练负集蛋白的WAS值进行预测测试，然后计算其10-折叠交叉验证的性能参数，并通过绘制准确率_敏感度曲线确定建议阈值；步骤五，对待测蛋白采用步骤二至步骤四的计算得到其加权预测结果值，当高于所述建议阈值，则认为该蛋白更可能为过敏原蛋白。
2. 根据权利要求1所述的方法，其特征是，所述的预测是指：针对每个蛋白评估其在 FAO/WHO规则UFAO/WHO规则2以及PREAL规则下的过敏判断结果，当规则1预测该蛋白为过敏原时则评价为1，非过敏原打分为0 ;FAO/WHO规则2的打分标准与FAO/WHO规则1相同；在PREAL规则下的打分区间为（0,1)且分值越接近1表示越可能是过敏原。
3. 根据权利要求1所述的方法，其特征是，所述的权重是指：当Ci= 1时，Wi=I-Pni; 当(；=0时，Wi=I-Ppi，其中：i为预测方法的编号，且i为1、2、3巧是当前蛋白用第i个方法时获得的打分；(^表示当前蛋白是过敏原还是非过敏原，过敏原为1，非过敏原为0。
4. 根据权利要求1所述的方法，其特征是，所述的综合预测结果是指：
计算每个蛋白的加权预测结果值。
5. 根据权利要求1所述的方法，其特征是，所述的10-折叠交叉验证性能参数包括：敏感度、特异性和准确率。
6. 根据权利要求1所述的方法，其特征是，所述的建议阈值，通过绘制准确率-敏感度曲线，根据曲线顶点确定，该准确率-敏感度曲线的纵坐标为WAS值，横坐标为敏感度。
【专利摘要】一种基于预测加权整合的农作物潜在过敏原检测实现方法，利用规范化的加权平均分(WAS，weighted average of the normalized scores)整合基于序列相似性的FAO/WHO规则1、规则2预测方法和基于SVM的PREAL算法，增加预测的性能和覆盖范围，通过把序列、二级结构等层面信息尽可能全面地引入我们的模型，我们可以更清楚地将过敏原与非过敏原区别开来，从而达到提高预测精确度的效果。
【IPC分类】G06F19-18
【公开号】CN104715166
【申请号】CN201510096519
【发明人】李婧
【申请人】上海交通大学
【公开日】2015年6月17日
【申请日】2015年3月4日

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：李婧;李婧;
技术所有人：上海交通大学;
我是此专利的发明人

上一篇：基于回溯法和动态规划法的生物网络模体识别方法
上一篇：一种基于宏基因技术的石油污染海洋生态环境评价方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。