用于鉴定包含与天然内源性或外源性细胞加工、转运和主要组织相容性复合物(MHC)呈递正相关的特征的肽的机器学习算法的制作方法

文档序号:16991702发布日期:2019-03-02 01:01阅读:288来源:国知局
用于鉴定包含与天然内源性或外源性细胞加工、转运和主要组织相容性复合物(MHC)呈递正相关的特征的肽的机器学习算法的制作方法

本发明涉及通过使用机器学习算法或统计推断模型,鉴定包含与成功的细胞加工、转运和主要组织相容性复合物呈递相关的特征的肽的方法。



背景技术:

几十年来,病原体和肿瘤中免疫原性抗原的鉴定在疫苗开发中发挥了核心作用。在过去的15至20年中,已经通过采用减少需要测试的抗原数量的计算方法,简化和增强了这个过程。尽管尚不完全了解确定免疫原性的关键特征,但已知大多数免疫原性i类肽(抗原)是在经典途径中通过其胞质溶胶中的亲本多肽/蛋白质的蛋白酶体切割产生的,随后通过tap转运蛋白被转运到内质网中,然后被包装成空的hla/mhc分子,被转运到表面并呈递给循环cd8+t细胞。

肽结合hla/mhc的能力代表确定免疫原性的最重要步骤,因为只有hla/mhc结合的肽才能结合并激活循环t细胞,并且这个研究领域非常活跃。现在有广泛分布的公共可用数据库,它们列出了针对最常见的hla/mhc等位基因的许多经过验证的hla/mhc配体,所述数据库诸如iedb(http://www.iedb.org/;2016年4月访问)。这些数据库已经被用于训练不同类型的预测算法,所述算法能够可靠地预测从头合成的未经测试的肽是否能够结合给定的等位基因并尝试以不同的成功程度预测结合亲和力。然而,在这些数据库中引用的显著比例的hla/mhc结合数据来自体外结合研究,因此包含许多非体内天然加工的肽的示例。

有趣的是,最近的研究已经显示,少于15%的经过验证的mhc结合物是经过天然加工的,因此它们实际上是在细胞表面处观察到的(giguere等人,2013年)。此外,少于5%的预测的mhc结合物具有免疫原性,即结合并激活循环t细胞(paulfrobbins等人,2013年),从而证明了加工和呈递在确定免疫原性中的重要作用。因此,显然需要用另外的算法来补充hla/mhc预测算法,所述另外的算法已经被训练用于识别肽的与有效加工和呈递同义的关键特征。

最早开发用于预测加工和呈递的计算方法的尝试集中于预测经典途径中的特定步骤,诸如胞质溶胶中的蛋白酶体切割。例如,fragpredict、proteasmm、paproc和pepcleave已经在来自β-酪蛋白和烯醇化酶的体外蛋白酶体消化数据方面进行了训练(holzhutter和kloetzel,2000年;tenzer等人,2005年;nussbaum等人,2001年;ginodi等人,2008年;emmerich等人,2000年;以及toes等人,2001年)。而netchop和proteasmm的更新版本在来自β-酪蛋白、烯醇化酶和朊病毒蛋白的体外蛋白酶体消化数据方面进行训练(kesmir等人,2002年;nielsen等人,2005年;emmerich等人,2000年;toes等人,2001年;tenzer等人,2004年)。然而,虽然已经证明这些方法在预测于新型体外蛋白酶体消化实验中观察到的切割模式方面是相当准确的,但它们不能很好地预测从肽洗脱研究中鉴定的mhc-i配体。这种差的性能可能反映了以下事实:体外蛋白酶体的蛋白水解活性可能不能反映它们的体内活性,并且蛋白酶体消化仅代表复杂加工和呈递途径中的一个步骤。

在2002年,kesmir等人描述了捕获有助于体内蛋白水解的其他蛋白酶(除蛋白酶体外)的活性的替代且可能更全面的方法,并且所述方法从非冗余mhci配体推断出体内切割位点。所述方法的作者将阳性肽(mhci配体)的c末端指定为切割位点,并将同一配体内的剩余位置指定为阴性位点(因为它们必须使在胞质溶胶和内质网中的蛋白水解活性幸存),并且使用数据来训练称为netchop-cterm的基于神经网络的机器学习算法。虽然netchop-cterm在使用相同原理产生的切割/非切割数据集中表现相对较好,但它在鉴定免疫原性表位方面并不是特别成功。例如,与单独使用hla/mhc结合预测相比,将早期版本的netchop(netchop-2)和hla/mhc结合预测组合进行的研究并没有显著改善表位预测(nielsen等人,2005年)。这种缺乏与hla/mhc结合预测因子的协同作用的一种可能解释是以下事实:默认选择阴性切割位点的方法在阳性数据集与阴性数据集之间产生大的结合亲和力差异。训练集中的这种不平衡可能产生以下算法性能:其已经学习了蛋白酶切割和hla/mhc结合的特征,而不是加工特征本身。因此,这两个预测因子大体上执行重叠任务,从而不具有协同性。

最近,已经开发出了一些用于预测加工和呈递的更全面的计算方法,诸如mhc-np和nieluter,所述方法并不集中在单独的步骤,而是试图学习与内源性加工和呈递途径相关的所有特征(sebastiengiguere等人,2013年;以及qiangtang等人,2014年)。这两种方法都使用了六个hla/mhc人等位基因(hla-a*02:01、hla-b*07:02、hla-b*35:01、hla-b*44:03、hla-b*53:01和hla-b*57:01)的训练和测试数据集,所述数据集是由dana-farber癌症研究所的brusic团队主办的2012年第二届免疫学机器学习完成的一部分。比赛的目的是将天然加工的肽与非天然加工的肽区分开。mhc-np和nieluter均使用基于支持向量机的分类器,所述分类器是在肽洗脱测定中鉴定的真正hla/mhc洗脱肽(阳性数据集)、或者经过验证的hla/mhc结合肽(其中少数将是天然加工的)和/或已经显示在体外结合研究中未结合hla/mhc分子的肽上进行训练的。

虽然mhc-np和nieluter在针对所提供的测试集进行测试时均报道了良好的性能,但仔细检查训练集和测试集确定了阳性数据集与阴性数据集之间的显著结合亲和力差异。这种结合差异可能产生已经学习了加工和hla/mhc结合两者的特征而不是加工特征本身的算法,此外,这些工具的hla/mhc受限性质限制了它们在抗原发现中的效用。

因此,本领域需要专门鉴定用于确定加工和呈递的关键特征的方法。此外,非常需要能够为任何肽提供准确的预测,而不管其mhc限制。



技术实现要素:

本发明提供了用于鉴定包含与细胞的天然内源性和/或外源性加工、转运和呈递途径的成功导航正相关的特征的肽的方法。因此,如果这些肽能够结合特定的mhc分子,则它们可能在mhc-肽(mhc-p)复合物中的细胞表面上是可检测的。

这是通过将机器学习算法或统计推断模型应用于包括以本文限定的方式构建的阳性数据集和阴性数据集的训练数据集来实现的。阳性数据集包括从表面结合或分泌的mhc-p复合物中鉴定或推断出的肽序列的条目,特别是通过文献中所报道的肽洗脱测定。阴性数据集包括尚未报道所述鉴定或推断的序列的条目。

训练数据还包括阳性数据集与阴性数据集的条目之间的多个配对。每对中的两个序列具有相同或相似的长度,并且来自相同的源蛋白质(或其片段),并且/或者相对于据报道限制所述对的阳性成员的hla/mhc分子(与之形成复合物),具有相当的估计结合亲和力。

通过使用序列作为训练数据(其优选地是从由多个hla/mhc等位基因编码的表面结合或分泌的hla/mhc分子鉴定或推断出的),以及产生具有与其阳性对应物相当的hla/mhc结合亲和力的阴性对,和/或在关键的hla/mhc结合锚定位置去除氨基酸,所述方法控制hla/mhc结合对加工和呈递途径的效率的影响,并且确保所述算法学习与有效加工和呈递而不是hla/mhc结合相关的特征。因此,针对人白细胞抗原(hla)分子的加工和呈递的示例,本发明被认为是“hla无关的”。因此,利用所述方法训练的算法可以用于对任何已知或预测的hla-p复合物进行准确预测,并且不限于由特异性hla等位基因或特异性hla基因位点编码的那些复合物,尽管所述方法可以应用于在从由单个等位基因编码的hla分子鉴定或推断出的训练数据上训练机器学习算法或统计推断模型。因此,这种训练的机器学习算法或统计推断模型可以用于进行hla/mhc等位基因特异性预测。此外,通过从与阳性对应物相同的源蛋白质中选择所述对的阴性序列,所述方法控制亲本蛋白质表达和稳定性的差异并降低引入假阴性的风险,所述假阴性即包含优异的加工特征但在与hla/mhc复合的细胞表面处观察不到的肽,这是因为亲本蛋白质表现出mhc/hla呈递所需的次优表达和/或稳定性特性。这导致改善的训练数据和更准确的预测。

因此,在第一方面,本发明提供了用于训练机器学习算法或统计推断模型以鉴定包含与天然内源性或外源性细胞加工、转运和hla/mhc呈递正相关的特征的肽的方法;所述方法消除了hla/mhc结合的影响并且可以应用于任何肽,而不管其hla/mhc限制,所述方法包括:

(a)构建包括阳性数据集和阴性数据集的一个或多个训练数据集;

其中所述阳性数据集包括从由一个或多个不同的hla/mhc等位基因编码的表面结合或分泌的hla/mhc-p复合物中鉴定或推断出的肽序列的条目,并且其中所述阴性数据集包括从表面结合或分泌的hla/mhc-p复合物中未鉴定或推断出的肽序列的条目;

其中所述训练数据还包括阳性数据集与阴性数据集的条目之间的多个配对;并且其中所述多个配对中的每一对包括肽序列,所述肽序列:

(i)具有相同或相似的长度,

并且

(ii)来自相同的源蛋白质(或其片段),并且/或者

(iii)相对于限制阳性数据集的肽的hla/mhc分子,具有相似的结合亲和力。

以及(b)将机器学习算法或统计推断模型应用于所述训练数据。

根据第二方面,本发明提供了一种计算机可读介质,所述计算机可读介质具有存储于其上用于实现第一方面所述的方法的计算机可执行指令。

根据第三方面,本发明提供了一种设备,所述设备包括:

一个或多个处理器;以及

存储器,所述存储器包括在由所述一个或多个处理器执行时使所述设备执行第一方面所述方法的指令。

其他方面在本发明的具体实施方式中限定。

附图说明

图1展示了在构建训练数据时,从与阳性肽相同的蛋白质中对比从随机蛋白质中选择阴性肽,可以提高算法的预测性能。

图2展示了用于构建训练数据的阳性匹配对和阴性匹配对之间的结合差异的变化如何影响算法的性能。

图3展示了用于选择强结合物(ic50=<500)和弱结合物(ic50<500)两者的阴性肽的最佳标准。

图4展示了使用本文所述方法训练的算法的hla/mhc无关性质,即所述算法可以将从原始训练数据中未表示的hla/mhc等位基因中分离的新型肽正确地分类。

图5展示了使用本文所述方法训练的svm算法对比文献中公布的最佳表现hla/mhc无关的分类器(称为netchop-cterm-3.0)的优越性能。

图6展示了使用本文所述方法训练的svm算法对比最佳表现的基于等位基因特异性训练的svm分类器之一“mhc-np”的优越性能,所述分类器是在由dana-farber癌症研究所的brusic团队提供作为2012年第二届免疫学机器学习完成的一部分的数据集上进行训练的。

发明详述

除非另有说明,否则本文使用的所有术语具有本领域中使用的标准定义。

根据第一方面,本发明提供了用于训练机器学习算法或统计推断模型以鉴定包含与天然内源性或外源性细胞加工、转运和hla/mhc呈递正相关的特征的肽的方法;所述方法消除了hla/mhc结合的影响并且可以应用于任何肽,而不管其hla/mhc限制,所述方法包括:

(a)构建包括阳性数据集和阴性数据集的一个或多个训练数据集;

其中阳性数据集包括从由一个或多个不同的hla/mhc等位基因编码的表面结合或分泌的hla/mhc-p复合物中鉴定或推断出的肽序列的条目,并且其中阴性数据集包括从表面结合或分泌的hla/mhc-p复合物中未鉴定或推断出的肽序列的条目;

其中训练数据还包括阳性数据集与阴性数据集的条目之间的多个配对;并且其中所述多个配对中的每一对包括肽序列,所述肽序列:

(i)具有相同或相似的长度,

并且

(ii)来自相同的源蛋白质(或其片段),并且/或者

(iii)相对于限制阳性数据集的肽的hla/mhc分子,具有相似的结合亲和力,

以及(b)将机器学习算法或统计推断模型应用于所述训练数据。

在过程的确切机制尚未完全开发的领域中,机器学习系统特别有益,因为它们可以对现有数据集执行模式识别和学习技术以构建预测模型。在已知某些输入导致期望结果并且其他输入导致不期望结果的情况下,机器学习系统可以鉴定那些输入中的哪些参数可以指示期望结果和不期望结果,从而提供预测模型而不需要对所涉及机制的任何基本理解。

机器学习系统需要在现有数据(称为训练数据)上进行训练,以便构建机器学习模型。训练数据的选择可以对训练的机器学习算法的有效性产生显著影响,并且所要求保护的解决方案提供了应当使用哪些训练数据来开发改善的机器学习模型的特别有效的教导。

根据所提出的解决方案的示例实施方案,可以将匹配对作为训练数据提供给机器学习系统。每个配对可以是具有期望结果的肽序列(阳性数据)和具有不期望结果的肽序列(阴性数据)。阳性数据和阴性数据中的每一个可以包括限定肽序列特性的一个或多个参数,并且可以训练机器学习算法以确定参数的哪些组合可以在不同条件下产生期望的结果。

例如,每个肽序列可以被表示为特征向量,其是代表这个肽序列的数值参数的n维向量。阳性数据的特征向量可以存储在一个数据结构中,阴性数据的特征向量可以存储在另一个数据结构中,并且单独的数据结构可以提供阳性数据和阴性数据的特征向量的匹配对之间的链接。可选地,匹配的阳性数据和阴性数据对可以存储在单个数据结构中,诸如二元组集合,其中二元组的第一元素是阳性肽序列的n维特征向量,并且二元组的第二元素是阴性肽序列的n维特征向量。在一些实施方案中,肽序列被表示为串联的向量,其中每个氨基酸被编码为针对每个可能的氨基酸具有一个元素的二进制向量,并且其中每个氨基酸的存在用1表示,并且每个氨基酸的缺失用0表示。如本文所定义的,“二进制向量”或“位数组”是指紧凑地存储位或二进制值的数据结构,其中向量的每个元素或位可以仅由二进制值表示,例如0或1。

存在可用的机器学习的几种不同实现方式,并且技术人员将能够根据诸如可用数据集、可用加工能力和期望精度的特征来调整所使用的实现方式。技术人员可以选择在每个特征向量中包括尽可能多的参数,以提高数据模型的精度。可选地,技术人员可以选择较少的参数以降低任务的计算复杂度。

机器学习系统优选地分布在几个逻辑连接的计算机系统上,以满足在大型数据集上执行机器学习的大型计算要求,但是机器学习系统可以在单个计算机系统上实现。

根据第一方面,有必要使用从表面结合或分泌的hla/mhc-肽复合物中鉴定或推断出的肽序列的条目来构建阳性数据集。通常,可以使用已经在文献中通过实验鉴定的组合的阳性肽集合,例如针对特定细胞类型所报道的hla/mhc“肽组(peptidomes)”(如例如espinosa等人(2013年)和jarmalavicius等人(2012年)所教导的—参见本申请的实施例)。可以使用被鉴定或推断为与由单个等位基因编码的hla/mhc分子表面结合或分泌的肽序列的条目来构建阳性数据集。优选地,阳性数据集(和/或互补的阴性数据集)包括从表达各种不同hla/mhc等位基因的多种不同细胞系或原代细胞鉴定的肽序列。在这个实施方案中,所述阳性数据集和/或阴性数据集包括从由“多个”不同hla/mhc等位基因编码的表面结合或分泌的mhc/hla-p复合物鉴定或推断出的肽序列,其中“多个”是指两个或更多个hla/mhc等位基因。可能已经使用本领域中可获得的标准方案鉴定了每个“肽组”(或阳性肽集合)。这些方案通常包括细胞裂解、通过亲和层析(使用对hla/mhc的特定等位基因变体具有特异性,或识别多个等位基因变体或整个hla/mhc类别中常见的决定簇的抗体)和超滤进行的纯化、任选地hplc分离以及随后通过质谱法进行的肽鉴定(例如,基质辅助激光解吸电离飞行时间质谱(maldi-tofms))。对于示例性方案,参见espinosa等人(2013年),第25页“2.材料和方法”,或jarmalavicius等人(2012年),第33402页“实验程序”。

根据第一方面,除了特征(ii)和(iii)中的一个或两个之外,特征(i)、(ii)和(iii)也应当被解释为需要特征(i)。优选地,所述多个配对中的每一对由具有所述特征(如上文所解释的)的两个序列组成。更优选地,所述多个配对中的每一对包括具有所有特征(i)、(ii)和(iii)的两个序列,更优选地由具有所有特征(i)、(ii)和(iii)的两个序列组成。

关于特征(i),序列的长度优选地为8个、9个、10个、11个或大于11个氨基酸。优选地,i类肽的长度为8至14个氨基酸,ii类肽的长度为9至32个氨基酸。在这个背景下,“相似”长度在这些限值内,即对于i类肽,相似长度为8至14个氨基酸(最多差6个氨基酸),对于ii类肽,相似长度为9至32个氨基酸(最多差23个氨基酸)。进一步优选的是,阳性数据集和阴性数据集中的每个肽序列具有相等的长度(即,相等的长度不仅存在于成对的阳性条目与阴性条目之间,而且还存在于两个数据集中的所有条目之间)。

关于特征(ii),这可以由技术人员使用本领域中可获得的数据库和搜索功能来确定。举例来说,可以通过参考uniprot数据库(theuniprotconsortium,2014年;http://www.uniprot.org/,2016年4月访问)的条目来构建对。

关于特征(iii),这优选使用本领域中可获得的已知hla/mhc结合预测算法在计算机中确定。可以使用体外hla/mhc结合竞争测定(可能与计算机方法组合)。结合亲和力通常表示为以nm测量的ic50值,它是预测引起50%的标准肽结合抑制的查询肽的浓度,已知所述标准肽以高亲和力结合特定的hla/mhc变体。然而,也可以使用结合亲和力的替代测量或比较来选择匹配的阴性肽,诸如结合百分位数等。

为避免疑义,相对于相同的hla/mhc分子进行结合预测,由此将匹配对的阳性成员被鉴定或推断为与所述hla/mhc分子形成复合物(也称为“受限制的”)。如果使用ic50度量来选择匹配对的阴性成员,则与其阳性对应物的结合亲和力相比,阴性肽的ic50值应当相差不超过500%、200%和100%(优先性逐渐增加)。

此外,根据所述第一方面,针对本发明的hla/mhc无关性质(参见实施例4)优选的是,阳性数据集包括从多个不同的hla/mhc等位基因中鉴定或推断出的肽序列。如上文详细描述的,优选的是,从表达不同hla/mhc等位基因的多种不同组织样品、细胞系或原代细胞中鉴定或推断出所述序列。因此,通常需要构建包括从表达多种不同hla/mhc等位基因的多个不同人(或动物)对象中鉴定或推断出的肽序列的阳性数据集。

进一步优选的是,(阳性数据集的)所述肽序列是从表面结合或分泌的hla/mhc分子鉴定或推断出的,所述hla/mhc分子由(a)hla-a、hla-b或hla-c基因位点(或其在非人物种中的等效位点)或它们的任何组合的hla/mhci类等位基因编码;或者由(b)hla-dq、hla-dp或hla-dr基因位点(或其在非人物种中的等效位点)或它们的任何组合的hla/mhcii类等位基因编码;其中阳性数据集来自同一物种。在一些实施方案中,所述阳性数据集包括从根据(a)的所有所述基因位点或从根据(b)的所有所述基因位点鉴定或推断出的肽序列。在一些实施方案中,非人物种是动物。

此外,根据所述第一方面,可以排除阳性数据集和阴性数据集的肽序列内的关键hla/mhc结合锚定位置作为机器学习算法或统计推断模型的特征。优选地,所述关键hla/mhc结合锚定位置是肽序列的第2位和第9位(对于i类hla/mhc等位基因)和锚定位置1、4、6和9(对于ii类等位基因)。

此外,根据所述第一方面,以下各项优选地用作机器学习算法或统计推断模型的特征:

(1)在阳性数据集和阴性数据集的序列中的任何给定位置处的氨基酸同一性、大小、电荷、极性、疏水性和/或其他物理化学性质。

(2)在源蛋白质中,位于阳性数据集和阴性数据集的序列末端(称为肽侧翼区域)的10个、优选地5个、更优选地3个位置内的位置中的氨基酸同一性、大小、电荷、极性、疏水性和/或其他物理化学性质。

(3)针对阳性数据集和阴性数据集的序列的氨基酸的疏水性、空间和电子性质的主成分评分向量(vhse)描述符(mei等人,2005年)。

(4)针对阳性数据集和阴性数据集的序列的氨基酸的拓扑和结构性质的主成分评分向量(vtsa)描述符(zhiliang等人,2008年)。

(5)在阳性数据集和阴性数据集的肽序列中的任何给定位置处的氨基酸序列的k-mer频率;其中k等于2或3。

以上各项中的任何一个、组合或全部可以用作机器学习算法或统计推断模型的特征。

此外,根据所述第一方面,在另一个实施方案中,所述方法还包括询问包括肽序列、完整蛋白质或其片段的输入数据。其中输入数据包括完整蛋白质或其片段,在测试之前,可以将此类序列分成上文所限定的长度的肽,优选为九聚物的肽(nonamericpeptide)。输出将被分为两类中的一类:在细胞表面上加工和呈递或不在细胞表面上加工或呈递,或者使用诸如platt缩放的数学技术将其转换为概率标度。

根据本发明的第三方面,提供了一种计算机可读介质,其包括在由电子装置的一个或多个处理器执行时,使所述电子装置根据本发明第一方面所述的方法所限定的方法操作的指令。

根据本发明的第四方面,提供了一种电子装置,其包括:一个或多个处理器;和存储器,所述存储器包括在由所述一个或多个处理器执行时使所述电子装置根据本发明第一方面所述的方法进行操作的指令。

根据本发明的第五方面,提供了一种用于构建如本发明第一方面所述的方法中限定的训练数据的模块。

根据本发明的第六方面,提供了一种用于根据本发明第一方面所述的方法进行机器学习的模块。

材料和方法—构建阳性训练数据集和阴性训练数据集以去除蛋白质丰度、稳定性和hla/mhc(hla/mhc)结合的影响

从科学文献中报道的许多hla/mhc/肽洗脱研究中鉴定天然加工的nonomeric肽。随后通过参考uniprotkb数据库(theuniprotconsortium,2014年),根据这些肽是否能够与单一源蛋白质相匹配来对这些肽进行过滤。然后使用hla/mhc结合预测算法仔细检查单一源蛋白质,以鉴定具有相似结合亲和力但在任何肽洗脱测定中均未观察到的其他nonomeric肽(范围根据实验而变化)。因此,开发了匹配的阳性肽(在洗脱测定中鉴定)和阴性肽(该肽在与阳性肽相同的亲本蛋白质中出现,具有相似的预测结合亲和力,但在任何洗脱测定中均未观察到)对。使用来自相同源蛋白质的匹配对控制了以下事实:蛋白质表达和稳定性的差异可以以序列非依赖性方式影响肽的加工和呈递效率,即,在与hla/mhc复合的细胞表面处可能永远不会观察到包含优异加工特征的肽,因为它们的亲本蛋白质具有错误的表达和稳定性特性。因此,使用来自相同蛋白质的匹配对确保每个阳性肽和阴性肽具有均等的加工机会,由此加工和效率的任何差异应当反映每种肽的生理化学特征的差异。其次,通过确保匹配对的两个成员具有等效的预测结合亲和力,我们控制hla/mhc结合对加工和呈递途径的效率的影响,并且确保所述算法不会错误地学习肽的指示hla/mhc结合的特征。

最终训练集由从12种不同hla/mhc-a等位基因、14种不同hla/mhc-b等位基因和5种不同hla/mhc-c等位基因分离的37,648个肽(18,824个阳性肽和18,824个阴性肽)组成。

训练特征

除非另有说明,否则使用vhse和频率向量(二聚体)作为训练特征来训练所有算法。

测试

使用了许多独立的测试集来验证svm模型的预测能力,并将其性能与使用替代方法训练的其他分类器进行比较:所有测试集包含从肽洗脱测定中鉴定的nonomer,其中针对所述nonomer的相应hla/mhc等位基因,预测的结合亲和力为500nm或更小(除了稍后描述的样品10互补测试集之外)。然后,基于上述方法来构建匹配的阴性测试集,除了基于具有在匹配的阳性肽的10%范围内的预测ic50评分(参见下文)来选择阴性肽。此外,还进行了交叉验证和常规验证。

独立测试集

黑色素瘤测试集

使用从四种不同的黑色素瘤细胞系洗脱的预测ic50值为500nm或更小的nonomerici类肽(由jarmalavicius等人在2012年描述)来产生阳性测试集。然后,如上所述,从相同的亲本蛋白质中鉴定匹配的阴性测试集。最终的测试集共包含206个肽;从5个不同的i类hla/mhc等位基因中分离出的103个阳性肽及其103个匹配的阴性配偶体。

胸腺测试集

使用从人胸腺组织洗脱的预测ic50值为500nm或更小的nonomerici类肽(如espinasa等人在2013年描述)来产生阳性测试集。然后,如上所述鉴定匹配的阴性测试集。测试集共包含158个肽;从10个不同的i类hla/mhc等位基因中分离出的78个阳性肽及其78个匹配的阴性配偶体。

样品10测试集

随机选择每个等位基因的10个阳性肽和10个阴性肽,将其从训练数据中去除并用于后续测试。应当注意:对于可获得少于10个阳性肽和阴性肽的等位基因,选择并去除可获得的最大数量。最终的测试集共包含608个肽;从31个不同的i类等位基因中分离出的304个阳性肽及其304个匹配的阴性配偶体。

样品10互补测试集

使用从训练数据中排除的nonomerici类肽(因为它们的预测ic50值大于500nm)来形成阳性“弱结合”测试集。然后,如上所述鉴定匹配的阴性测试集。最终的测试集共包含5200个肽;从30个不同的i类hla/mhc等位基因中分离出的2600个阳性肽及其2600个匹配的阴性配偶体。

训练数据验证测试

三倍交叉验证

以常规方式进行3倍交叉验证以评价不同的训练集组成和不同的训练特征。在此类实验中,训练数据被随机划分为3个不同的互补子集。3个子集中的2个用于训练,而剩余的子集用于后续测试。然后重复交叉验证过程,其中每个子集用于测试一次。然后对3轮测试中的每一轮的总体所有结果进行平均以产生单一性能度量。

常规验证

此外,进行了常规验证,其中训练数据被划分为2个集合;一个集合包含70%的肽并且用于训练,而另一个集合包含30%的肽并且用于测试。

svm模型性能的评价。

为了评估svm模型的预测准确性,我们使用roc(接收器操作特性)曲线下方的面积,也称为auc,其通过绘制召回率(真阳性)和1-特异性(真阴性)作为这个阈值的函数来提供分类器召回率和特异性(bradley等人,1997年)。auc是通过roc曲线下方的面积获得的阈值无关的度量。auc评分的范围为0至1,前者指示总的逆预测,后者代表完美预测,0.5意味着随机预测。

结果

实施例1—使用来自相同源蛋白质的匹配对的优势以及随后对匹配对训练集进行优化。

为了研究从与阳性肽相同的蛋白质中选择匹配阴性肽的益处,产生了不同的训练集,其中每对的匹配阴性成员选自相同或随机的蛋白质。基于阴性肽在其相应的阳性配偶体的10%、100%或10%-100%范围内共有预测的结合亲和力来选择阴性肽。然后使用不同的训练集来训练svm算法,使用vhse和频率向量(二聚体)作为从亲本蛋白质中提取的跨越整个肽长度和3个氨基酸长的肽侧翼区域(随后称为“宽”配置)的训练特征。

然后使用三个不同的独立测试集(称为黑色素瘤、胸腺和样品10测试集)来对每种算法进行测试。不同测试集的结果(使用auc测量)在图1(分别在图a、b和c)中示出。该图清楚地示出,从与阳性肽相同的蛋白质(而非随机蛋白质)中选择阴性肽产生范围为1%-9%的显著性能改善。有趣的是,选择阴性肽的最佳结合范围似乎为0-100%。

重复实验,但是锚定区域(nonomer中的第2位和第9位)被排除作为算法训练的训练特征(排除的),并且三个数据集(黑色素瘤、胸腺和样品10)的结果分别在图d、e和f中示出。虽然稍后实验的auc测量值略低于先前使用宽特征集报道的那些测量值,但是锚点的移除并未完全破坏性能的事实表明所述算法已经“学习了”与有效呈递而不是hla/mhc结合相关的特征,因此在hla/mhc无关的领地中操作。

实施例2—研究训练集的阳性成员与阴性成员之间的预测的结合亲和力差异对性能的影响。

为了研究用于训练的匹配对的阳性成员与阴性成员之间的关系,产生了不同的训练集,其中在下表中列出的基础上选择匹配的阴性成员;在阳性成员与阴性成员之间以渐增宽度的结合差异创建培训集。

表1:创建具有不同结合差异的训练集

一旦产生了训练集,仅通过选择匹配对就可以使它们在大小方面均衡,其中阳性成员对所有不同的组是共同的。随后使用均衡的训练集来训练8种不同的svm算法(使用上述训练特征)。然后使用黑色素瘤、胸腺和样品10测试集来对每种算法进行测试,结果在图2(分别在图a、b和c)中示出。结果证明,当结合差异增加到3以上时,算法的性能开始下降,因为它可能开始“学习”与结合以及加工相关的特征。趋势线用黑色示出。有趣的是,虽然随着结合差异的增加,独立平衡测试集的性能恶化,但交叉验证评分从0.72增加到0.985。这种相互关系强烈表明,随着结合差异的增加,算法开始学习与hla/mhc结合而不是加工和呈递相关的特征,并且当差异已经达到400时,分类器仅识别与结合相关的特征(因为独立测试集的性能已经降至auc0.52,对比交叉验证为0.985)。

使用上述排除的特征集来重复实验。然后使用黑色素瘤、胸腺和样品10测试集来对每种算法进行测试,并且结果在图2(分别在图d、e和f)中示出。有趣的是,虽然“排除的”训练算法的曲线遵循与使用宽特征集训练的曲线相同的总体趋势,但性能降低被延迟,这是因为排除锚定区域似乎有助于抵消结合差异增加的影响,即算法开始学习与结合以及加工相关的特征的点延迟。这种假设得到以下观察结果的支持:与宽特征集相比,当使用排除的特征集进行训练时,交叉验证评分增加得更慢,并且对比0.985,在0.923处达到峰值。这个观察结果提供了进一步的证据表明,使用本文所述方法(使用宽特征集和排除的特征集)训练的机器学习算法“学习”与有效呈递而不是hla/mhc结合相关的特征,并且可以在hla/mhc无关的领地中操作。

实施例3—优化阴性训练集的组成以改善性能。

为了找到用于选择阴性训练集的最佳标准,我们创建了一系列阴性数据集,其中阴性肽的选择是基于它在其相应匹配的阳性配偶体的预定义范围(如下表2中所定义)内共有预测的结合亲和力。

表2:用于选择阴性训练集的不同结合阈值和标准

然后,使用28个不同的训练集来训练svm算法。然后使用分别包含608个和5200个肽的样品10测试集(其中所有阳性肽的预测结合ic50值低于500nm)和样品10互补测试集(其中所有阳性肽的预测结合ic50值高于500nm)来对每种算法进行测试。

如图3中的图a至d(红线)所示,对于auc测量值为0.82的样品10测试集来说,用于选择阴性肽的最佳结合阈值似乎在0-100%的范围内(其中阴性肽的选择是基于其具有比其阳性配偶体更高或更低的结合亲和力),与其他经过训练的算法相比(参见图b至d中的红线),所述测量值表示性能改善的范围为3%-6%。使用样品10互补测试集观察到类似的趋势,尽管性能差异较小(参见图a至d中的蓝线)。

重复以上实验,除了使用下表3中所示的相互排斥的亲和力匹配阴性训练数据集范围(仓)而不是“滑动标度”阈值创建一系列阴性数据集:

表3:用于选择阴性训练集的不同结合亲和力仓和标准

如图3中的图e(蓝线)所示,与图f至h相比,对于两个测试集,用于选择阴性肽的最佳结合阈值在10%-100%的范围内(其中阴性肽可以具有比其阳性配偶体更高或更低的结合亲和力)。然而,虽然样品10测试集的最佳性能低于使用1-100的结合标度阈值所报道的最佳性能(0.82对比0.79),但样品10互补测试集的性能实际上更高(0.74对比0.72)。这表明,使用相互排斥的结合范围对于训练机器学习算法可能比使用滑动标度范围更好,以便对所加工的对其相应的hla/mhc分子具有较弱结合亲和力的肽进行分类(ic50低于500nm以上的肽)。

实施例4—证明匹配对方法的等位基因无关性质=

为了证明本文所述的匹配对方法可以用于训练机器学习算法以鉴定包含与加工和呈递而不是hla/mhc结合相关的特征的肽,并且因此可以应用于任何肽,而不管其mhc限制,即算法是hla/mhc无关的,我们针对如下表中所概述的我们的训练集中表示的每个单独的等位基因训练并测试了svm算法:

表4:划分训练数据用于后续测试

如图4所示,结果清楚地证明,与在以等位基因特异性方式训练(测试1)时相比,匹配对训练的svm分类器在以非hla/mhc等位基因特异性方式训练(测试2和3)时经常做出等效或更好的预测。对于使用宽特征集和排除的特征集进行训练的算法,观察到这种趋势。

实施例5—针对netchop3(常用的唯一其他hla/mhc无关加工工具)的基准测试

使用优化的训练集来训练svm算法:其中从与阴性肽的阳性对应物相同的亲本蛋白质中鉴定阴性肽,并基于估计的ic50结合亲和力在匹配阳性肽的100%范围内来选择所述阴性肽。还使用vhse和频率向量(二聚体)作为跨越整个肽长度和3个氨基酸长的侧翼区域(宽)的训练特征来训练所述算法,所得的算法被命名为panpro(宽)。使用相同的训练特征在完全相同的训练集上训练第二算法,除了锚定区域被排除作为训练特征之外(排除的),所得的算法被命名为panpro(排除的)。

然后使用黑色素瘤、胸腺和样品10测试集,相对于netchop-termc3.0来对每种算法进行基准测试。如图5(图a至c)所示,panpro的两个版本在所有三个测试集中均优于netchop-termc3.0。最大的性能差异在于panpro能够正确地调用阴性肽从而导致低的假阳性率(数据未示出)。

实施例6—panpro相对于hla/mhc特异性分类器mhc-np的基准测试(证明了我们的pan方法可以与当前的黄金标准hla/mhc特异性训练方法竞争)。

将使用先前所述的“排除的”和“宽”特征集训练的panpro与使用从样品10测试集中提取的相关等位基因特异性测试数据训练的mhc-np进行比较(giguere等人,2013年)。如图6所示,panpro的两个版本在测试的6个等位基因中有5个优于mhc-np。

讨论

少于15%的经过验证的hla/mhc结合肽是天然加工的,有机会与t细胞相互作用(giguere等人,2013年),并且少于5%的肽能够引发免疫应答。(robbins等人,2013年)。因此,显然需要开发用于鉴定会被天然加工的肽的计算机方法,所述方法可以与hla/mhc结合预测因子组合以提高以及时且成本有效的方式鉴定免疫原性抗原的能力。不幸的是,经过训练以学习加工和呈递特征的算法的性能落后于hla/mhc结合预测因子的算法(giguere等人,2013年)。开发计算机方法的挑战之一是加工和呈递途径的复杂性,其涉及多个步骤以及多种蛋白酶、分子伴侣和转运蛋白质等(neefjes等人,2011年)。另一个挑战是多种“序列非依赖性”因素影响肽是否可能是天然加工的,包括源蛋白质的丰度和稳定性。因此,由于源蛋白质缺乏必要的特性,可能永远不会观察到包含有效加工和呈递的恰当生理化学性质的肽与细胞表面处的hla/mhc结合。最后,已经证明解开有效加工和呈递而不是hla/mhc结合所必需的天然加工肽的特征具有挑战性;因为有助于结合的特征(特别是在锚定区域)倾向于主导信息领域,这一问题由于这些过程已经共同进化并且相关的生理化学特征可能重叠的事实而加剧(kesmir等人,2003年)。在本专利中,我们描述了用于训练机器学习算法或统计推断模型的方法,其控制蛋白质丰度、稳定性和hla/mhc结合的影响,从而使所述算法或模型能够学习与有效加工和呈递而不是hla/mhc结合同义的特征。由于消除了hla/mhc结合的影响,因此所述算法或模型可以应用于任何肽,而不管其hla/mhc限制。

结果清楚地显示,构建成对的阴性数据集具有优势,其中阴性成员的选择是基于它们源自与其阳性对应物相同的源蛋白质(控制蛋白质丰度和稳定性的差异),参见图1;并且对于相同的hla/mhc等位基因共有类似的hla/mhc结合亲和力(控制hla/mhc结合的影响),参见图2和图3。此外,我们已经尝试将锚定位置2和9排除作为用于机器学习的特征,以便进一步使hla/mhc结合的任何影响最小化。有趣的是,虽然在这个部分肽序列(排除的)上训练的算法表现得不如在完整肽(宽)上训练的算法,但性能下降相对较小,从而进一步支持了我们的假设,即算法已经学习了与加工而不是hla/mhc结合相关的特征,因为去除锚定区域将会破坏hla/mhc结合预测因子的性能。

此外,由于以这种方式构建训练数据使得机器学习算法能够学习与有效加工和呈递相关的真正通用特征,因此它可以应用于任何肽,而不管其hla/mhc限制,即所述算法或模型以hla/mhc无关的方式操作(参见图4)。

最后,我们使用本文所述的方法,利用宽特征集和排除的特征集,并使用vhse和频率向量(二聚体)作为训练特征,训练了两种svm算法,我们调用算法panpro(宽)和panpro(排除的,并且相对于netchop-termc-3对性能进行基准测试。有趣的是,panpro的两个版本都明显优于netchop-termc-3。我们还基准测试了panpro相对于等位基因特异性加工预测工具mhc-np的性能。panpro的两个版本在测试的6个等位基因中有5个优于mhc-np,其中panpro(排除的)表现最强。

总之,我们相信我们已经开发出了第一个基于机器学习的分类器,它已经学习了确定有效加工和呈递的真实生理化学特征。我们已经证明,所述算法可以用于评价任何肽,而不管其mhc限制,并且因此是hla/mhc无关的。所述分类器应当与hla/mhc结合算法协同操作,以帮助提高在计算机中鉴定免疫原性抗原的能力。

参考文献

bradlyetal.(1997).theuseoftheareaundertheroccurveintheevaluationofmachinelearningalgorithms.patternrecognition,30(7):1149-1155

emmerichetal.(2000).thehuman26sand20sproteasomesgenerateoverlappingbutdifferentsetsofpeptidefragmentsfromamodelproteinsubstrate.jbiolchem.2000jul14;275(28):21140-8.

espinosaetal.(2013).peptidespresentedbyhlaclassimoleculesinthehumanthymus.jproteomics.94:23-36

giguereetal.(2013).mhc-np:predictingpeptidesnaturallyprocessedbythemhc.jimmunolmethods.2013dec31;400-401:30-6

ginodietal.(2008).precisescoreforthepredictionofpeptidescleavedbytheproteasome.bioinformatics.2008feb15;24(4):477-83.

holzhutter&kloetzel(2000).akineticmodelofvertebrate20sproteasomeaccountingforthegenerationofmajorproteolyticfragmentsfromoligomericpeptidesubstrates.biophysj.2000sep;79(3):1196-205

jarmalaviciusetal.(2012).highimmunogenicityfothehumanleukocyteantigenpepidomesofmelanomatumorcells.jbiolchem.287,40:33401-33411.

meietal.(2005).anewsetofaminoaciddescriptorsanditsapplicationinpeptideqsars.biopolymers.80,6:775-86.

kesmiretal.(2002).predictionofproteasomecleavagemotifsbyneuralnetworks.proteineng.2002apr;15(4):287-96.

kesmiretal.(2003).bioinformaticanalysisoffunctionaldifferencesbetweentheimmunoproteasomeandtheconstitutiveproteasome.immunogenetics55:437–449.

zhiliangetal.(2008).anoveldescriptorofaminoacidsanditsapplicationinpeptideqsar.journaloftheoreticalbiology253(1):90-7august2008

meietal.(2005).anewsetofaminoaciddescriptorsanditsapplicationinpeptideqsars.biopolymers.2005;80(6):775-86.

neefjesetal.(2011).towardsasystemsunderstandingofmhcclassiandmhcclassiiantigenpresentation.natrevimmunol.2011nov11;11(12):823-36.

nielsenetal.(2005).theroleoftheproteasomeingeneratingcytotoxict-cellepitopes:insightsobtainedfromimprovedpredictionsofproteasomalcleavage.immunogenetics.2005apr;57(1-2):33-41.

nussbaumetal.(2001).paproc:apredictionalgorithmforproteasomalcleavagesavailableonthewww.immunogenetics.2001mar;53(2):87-94.

robinsetal.(2013).miningexomicsequencingdatatoidentifymutatedantigensrecognizedbyadoptivelytransferredtumor-reactivetcells.natmed.2013jun;19(6):747-52

tangetal.(2014).nieluter:predictingpeptideselutedfromhlaclassimolecules.jimmunolmethods.2015jul;422:22-7.

tenzeretal.(2004).quantitativeanalysisofprion-proteindegradationbyconstitutiveandimmuno-20sproteasomesindicatesdifferencescorrelatedwithdiseasesusceptibility.jimmunol.2004jan15;172(2):1083-91

tenzer&schild(2005).assaysofproteasome-dependentcleavageproducts.methodsmolbiol.2005;301:97-115.

theuniprotconsortium(2014).activitiesattheuniversalproteinresource(uniprot)nucleicacidsres.42:d191-d198(2014).

toesetal.(2001).discretecleavagemotifsofconstitutiveandimmunoproteasomesrevealedbyquantitativeanalysisofcleavageproducts.jexpmed.2001jul2;194(1):1-12.

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1