一种基因合成致死关联预测方法与流程

文档序号:22744484发布日期:2020-10-31 09:31阅读:210来源:国知局
一种基因合成致死关联预测方法与流程

本发明涉及计算机生物学领域,更具体地,涉及一种基因合成致死关联预测方法。



背景技术:

癌症是由基因缺陷引起的复杂疾病。因此,揭示基因之间的相互作用关系对癌症的诊断、治疗和药物开发至关重要。两个基因合成致死是指两个基因都同时失活对细胞是致命的,但其中一个基因的失活对细胞不会造成影响。因此,挖掘基因合成致死关联有利于发现新的抗癌药物靶点,对癌症的治疗意义重大。近年来,很多研究人员利用生物实验手段对基因合成致死展开了研究。然而,基于生物实验方法的基因合成致死关联识别仍面临诸多挑战,如高成本,脱靶效应以及平台或细胞系之间的低一致性等。因此,需要先借助计算方法筛选出潜在的基因合成致死关联,再通过生物实验进一步验证。

近年来,涌现了许多基于计算模型的基因合成致死关联预测方法,根据模型的基本原理,可以大致地将现有的方法分为三类,即基于知识的方法、监督机器学习方法和矩阵分解方法。虽然每种算法都有各自的特点,它们通常只能够利用到网络中某种特定的拓扑结构。例如,基于知识的方法利用已有的合成致死基因的知识或假设来预测潜在的基因合成致死关联,然而,该方法严重依赖于其它基因组数据,并且没有利用已知的基因合成致死关联中隐含的信息。监督机器学习方法利用已知的基因合成致死关联建立分类模型,用于预测新的基因合成致死关联,但是传统的监督机器学习方法既需要正例,也需要负例,然而基因合成致死关联数据中通常只有正例,因此,在基因合成致死关联预测方面,该模型具有一定的局限性。矩阵分解方法将基因合成致死关联预测问题转化为矩阵填充问题,进而通过矩阵分解来进行填充,但是矩阵分解方法的性能依赖于对潜变量空间维数的假设,而真实维数通常是未知的,并且很难确定。由此可见,现有的计算方法通常缺乏足够的已知基因合成致死关联数据进行训练,并且难以有效利用已知合成致死基因的相关知识,加上原始数据的固有噪声,导致其难以取得较高的预测准确率。



技术实现要素:

本发明为克服上述现有技术所述的基因合成致死关联预测准确率不够高的缺陷,提供一种基因合成致死关联预测方法。

所述方法包括以下步骤:

s1:确定并使用多标签学习损失函数;

s2:对多标签学习损失函数设置图正则化惩罚项;得到图正则化多标签学习模型;

s3:利用多视角信息重新构建s2中的图正则化多标签学习模型,确定自适应加权多视角模型;

s4:对自适应加权多视角模型进行求解,实现基因合成致死关联的预测。

本发明的目的是为了从不同来源得到的基因相似信息中提取有用的信息,并且产生一个更为准确和可靠的基因相似矩阵,通过图正则化项将学习得到的基因相似矩阵整合到基因合成致死的预测中,进而挖掘出更为准确和可靠的新的基因合成致死对,该方法可用于融入多个视角数据,打破单个视角的局限,具备较高的灵活性。

优选地,s1所述损失函数为:

其中,u为预测的基因合成致死关联矩阵,矩阵中每个元素uij的数值表示基因gi和基因gj形成合成致死关联的可能性,数值越大表明越可能形成致死关联;y∈{0,1}n×n描述已知的基因合成致死关联,n为基因的数目;tr(·)表示矩阵的迹。

优选地,s2中图正则化多标签学习模型为:

对上述模型进一步整理如下:

其中,los是基因相似矩阵的标准化拉普拉斯矩阵,拉普拉斯矩阵定义为l=d-os,其中d为对角矩阵,其对角线元素标准化拉普拉斯矩阵定义为α是控制图正则化项的超参数;os为基因相似矩阵。

优选地,基因相似矩阵的构建过程具体为:

利用多视角数据,从不同视角计算基因之间的相似性,得到多个基因相似矩阵,m个视角则对应m个相似矩阵:s={s(1),s(2),...,s(m)};

从上述m个相似矩阵中通过加权学习得到一个总的基因相似矩阵os,其中,osij度量了基因i和基因j的相似程度。

优选地,s3具体为:

引入加权损失项该项通过赋予多个不同视角的相似矩阵不同的权重w(z),进而学习出一个最优的基因相似矩阵os,综合图正则化多标签学习模型以及加权损失项w,目标函数可以进一步地转化为下述自适应加权多视角模型:

其中,s(z)为第z个视角的基因相似矩阵;w(z)为第z个视角的基因相似矩阵被赋予的权重。

优选地,s4中对自适应加权多视角模型进行求解,采取迭代更新的求解方法;

在每次迭代更新的过程中,先固定一个变量,再求解另一个变量的措施,使得两个变量在迭代过程中交替更新,进而达到最优解。

优选地,s4的求解过程具体为:

s4.1:初始化权重w(z),z=1,…,m;

s4.2:依次交替更新以下操作,直至满足收敛条件:

固定u,将u看成已知常量,求解os;

固定os,将os看成常量,求解u;

s4.3:更新权重w(z),z=1,…,m;

s4.4:重复进行s4.2和s4.3,直至满足预设的权重收敛条件,得到最终的基因致死关联矩阵os。

优选地,s4.2中固定u,将u看成已知常量,求解os的具体过程为:

将目标函数可以化简为:

将该表达式进一步转换成:

其中,uj表示矩阵u的第j行;

由于矩阵os中,第i行与第j行之间是相互独立的,因此求解过程中,只考虑单行的求解:

目标式可化简为:

最后利用迭代算法对上式进行求解。

优选地,s4.2中固定os,将os看成常量,求解u的具体过程为:

将目标函数可以化简为:

将目标函数对u求导,且令导函数为0,求得:

(2αlos+e)u=y

其中,e为对角线元素值为1的单位矩阵;

通过矩阵线性方程求解,得:

u=(2αlos+e)-1y。

优选地,对于第z个视角的权重,其更新公式为:

对权重进行归一化,得到:

与现有技术相比,本发明技术方案的有益效果是:

本发明融入了半监督学习,克服传统监督学习方法单实例单标签、训练数据要同时含有正负例的局限,可用于单实例多标签的预测问题,与此同时,引进了多视角学习,可从多个来源的生物数据集中自适应地学习出一个新的相似矩阵,并且在模型优化过程中自动调整权值,具备较好的准确性和可靠性,使得其相对其它技术,对异常值和噪声的鲁棒性更强,此外,基于图的多标签学习较好地利用了多个标签之间的内在相关性及图上标签的一致性,通过有限的已知基因合成致死关联发掘了基因间的潜在机制信息。最后经过实验验证,该算法最终预测准确率优于只用单个视角的数据及其它基因合成致死预测算法,说明本发明所述方法可提高基因合成致死关联预测的准确率,这意味着在研究癌症这样的复杂疾病上,本发明突破了仅对单个基因缺陷致死的研究的局限,通过本发明更好地理解基因相互作用,并且提高了对基因间合成致死关联的预测准确率,这对于癌症的治疗、医学的发展具有重要意义。

附图说明

图1为本实施例所述基因合成致死关联预测方法流程图。

图2为自适应加权多视角模型(mvl)随着参数α的变化,其auc的变化曲线示意图。

图3为自适应加权多视角模型(mvl)随着参数α的变化,其aupr的变化曲线示意图。

图4为自适应加权多视角模型(mvl)分别在输入为单视角g0矩阵、单视角ppi矩阵、多视角g0和ppi矩阵时,其预测效果示意图。

图5为算法mvl、sl2mf以及blm-nii的预测性能比对示意图。

具体实施方式

附图仅用于示例性说明,不能理解为对本专利的限制;

为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;

对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1:

本实施例提供一种基因合成致死关联预测方法。所述方法首先从每个视角提取得到的基因相似信息对应一个相似矩阵,m个视角则对应m个相似矩阵:s={s1,s2,...,sm};从上述m个相似矩阵中通过加权学习得到一个总的基因相似矩阵os,其中,osij度量了基因i和基因j的相似程度;

然后实现基因合成致死的预测:以图正则化的形式将基因相似矩阵os中提供的信息用于基因合成致死关联的预测,把权重的学习、相似矩阵os的学习和基因合成致死的预测整合到一个优化目标式中,从而可以通过基因合成致死关联的预测结果来优化相似矩阵的学习,反之可以用相似矩阵来指导基因合成致死关联的预测,优化终止后获取最终的基因合成致死关联预测结果。

如图1所示,以下是对上述步骤的原理的具体讲解:

首先对本实施例所述方法中相关符号说明。给定一组基因{g1,g2,...,gn},其中n为基因的数目,用一个二值矩阵y∈{0,1}n×n描述已知的基因合成致死关联。显然,y为对称矩阵,当yij=1时,表示基因gi和gj形成了合成致死,当yij=0时,表示基因gi和gj之间能否构成合成致死仍然未知,而本实施例所述方法就是要预测这未知的基因对中,哪些是潜在的合成致死关联。tr(·)表示矩阵的迹,at表示矩阵a的转置,||a||f表示矩阵a的frobenius范数,即对应元素的平方和再开方。

s1:确定并使用多标签学习损失函数。

多标签学习主要用于解决一个实例可以分配给多个类别的问题,每个基因可以同时与多个基因形成合成致死关联,因此,可以将基因合成致死关联视为一种多标签学习问题,引入下述损失函数:

minutr((u-y)t(u-y))(1)

其中,u为预测的基因合成致死关联矩阵,矩阵中每个元素uij的数值表示基因gi和基因gj形成合成致死关联的可能性,数值越大表明越可能形成致死关联。

s2:对多标签学习损失函数设置图正则化惩罚项;得到图正则化多标签学习模型;

由于相似的基因更可能有相似的合成致死关联模式,基于基因之间的相似矩阵os,引入如下的图正则化多标签学习模型:

上述模型可以进一步整理如下:

其中,los是基因相似矩阵的标准化拉普拉斯矩阵,拉普拉斯矩阵定义为l=d-os,其中d为对角矩阵,其对角线元素标准化拉普拉斯矩阵定义为α是控制图正则化项的超参数,os为基因相似矩阵。

s3:利用多视角信息重新构建s2中图正则化多标签模型中的图正则化惩罚项,确定自适应加权多视角模型。

由于从不同生物数据集中提取的基因相似信息包含不同程度的噪声,这些相似信息与基因合成致死的相关程度也各不相同,因此,在上述模型基础上,这里提出一个新的目标函数,它可以从多个视角的相似信息中自适应地学习出一个与基因合成致死关联的相关程度较高的基因相似矩阵,并且利用学到的基因相似矩阵来指导基因合成致死关联的预测。此外,该方法可以在优化过程中自适应地进行权重学习,而不是显式地为每个视角分配权值,通过权重的学习可以减弱不可靠数据集的干扰,增加可靠结果对最终预测结果的影响。

令m为从不同生物集中提取到的基因相似矩阵的数目,把每个矩阵视为从一种视角描述基因之间的相似性,则s(1),s(2),...s(m)表示每个视角所对应的基因相似矩阵,且s(z)∈rn×n。基于这些已知的相似矩阵和已知的合成致死关联矩阵y,令目标是通过赋予多个不同视角的相似矩阵不同的权重w(z),本实施例的目标是学习到关联预测矩阵u以及最优相似矩阵os,目标函数如下:

其中,s(z)为第z个视角的基因相似矩阵;w(z)表示赋予第z个视角的基因相似矩阵的权重,los为os矩阵的标准化拉普拉斯矩阵。

s4:对自适应多视角模型进行求解,实现基因合成致死关联的预测。

上述目标函数中含有两个未知的变量,因此很难直接求解,故采取在每次迭代更新的过程中,先固定一个变量,再求解另一个变量的措施,使得两个变量在迭代过程中交替更新,进而达到最优解。

i、首先固定u,即将u看成已知常量,则目标函数则等价为求解os。

目标函数可以化简为:

该表达式可以进一步转换成:

其中,uj表示矩阵u的第j行,进一步地,注意到矩阵os中,第i行与第j行之间是相互独立的,因此求解过程中,可以只考虑单行的求解:

进一步地,令目标式可化简为:

该函数可由迭代算法高效求解。

ii、其次固定os,即将os看成常量,则目标函数可等价为求解u。

目标函数可以化简为:

易知上式为求最值问题,可将目标函数对u求导,且令导函数为0,求得:

(2αlos+e)u=y(8)

其中,e为对角线元素值为1的单位矩阵,进一步地,通过矩阵线性方程求解,得:

u=(2αlos+e)-1y(9)

iii、通过更新公式(6)和(8),可以通过不断迭代更新os和u。首先初始化u=y(y为初始的致死对矩阵),设第t次迭代时,os用os(t)表示,先固定u=u(t-1),通过公式(6)更新os(t),得到os(t)之后,固定其取值,根据公式(8)得到u(t),在这里,我们设置收敛条件为||f(t+1)-f(t)||1/||f(t)||1<10-4,其中||...||1是矩阵的1范数,即每个元素的绝对值之和。

iv、权值的更新。在每次权值自适应更新中,可将||os-s(z)||f数值越小的一项赋予更大的权重w(z),其中权值w(z)表明第z个视角的重要程度,这样目标函数中的值才会尽可能的小。其更新公式为:

对权重进行归一化,得到:

vi、通过更新公式(9),可以通过迭代更新wi的数值来求解模型参数。设第k次迭代时,目标函数的数值用j(k)表示,通过公式(9),可求得w(z),进而可结合iii中所求得的os和u来表示j,本实施例设置j的收敛条件为:||j(k+1)-j(k)||1/||j(k)||1<10-4

下面结合具体试验对本实施例所述方法进行论证:

(一)收集数据:基于本实施例所述方法,需要收集数据集对该方法进行实验验证,具体需要的数据有原始的合成致死对关联矩阵y,以及来自多个生物源的基因相似矩阵s(z)。synlethdb是当前最全面的关于人类的基因致死对数据库,它从4个不同的来源收集了人类基因致死对数据:(1)生物实验、(2)文本挖掘、(3)相关数据库、(4)来自算法daisy的预测。在排除了重复的基因对后,我们获得了19667条涉及6375种基因的人类基因致死对数据。与此同时,我们下载了hprd数据库来构建基因的ppi拓扑相似矩阵,以及运用了在文献[1]中呈现的方法计算出了基因的go语义相似矩阵,这样我们就获得了来自两个视角的基因相似矩阵。

(二)选取验证方法和评估指标。我们采取了五折交叉验证方法,即将原始的致死对矩阵y平均分配成5个互不相交的子集{p1,p2,p3,p4,p5}∈{0,1},在参数固定的情况下,轮流选取其中1个子集作为测试集,其余剩下的4个子集作为训练集,求出预测关联矩阵,并且采取常用的auc和aupr作为评估指标,将预测出的关联矩阵与测试集数据进行比对,度量预测复合体与参考库中的复合体的匹配情况,其具体计算方法见表1。

针对一个二分类问题,将实例分成正类(postive),用“1”表示,以及负类(negative),用“0”表示。但是实际中分类时,会出现四种情况.其中,正类便是基因间形成了合成致死关联,负类便是基因间没有形成合成致死关联。

(1)若一个实例是正类并且被预测为正类,即为真正类(truepostive,tp)

(2)若一个实例是正类,但是被预测成为负类(漏报),即为假负类(falsenegativ,fn)

(3)若一个实例是负类,但是被预测成为正类(误报),即为假正类(falsepostive,fp)

(4)若一个实例是负类,但是被预测成为负类,即为真负类(truenegative,tn)

表1

真阳性率:tpr=tp/(tp+fn)

假阳性率:fpr=fp/(fp+tn)

准确率:precision=tp/(tp+fp)

召回率:recall=tp/(tp+fn)

以tpr为y轴,fpr为x轴绘制roc曲线,auc值即为roc曲线下的面积,值越大表示模型性能越好。以precision为y轴,recall为x轴绘制pr曲线,aupr值即为pr曲线下的面积,值越大表示模型性能越好。

其中,评估时,测试集的数据中,pij=1时为正类(阳性),pij=0(阴性)时为负类。这样在一次五折交叉验证中,我们就能分别得到5个不同的auc和aupr值,并对其取平均得到指定参数下的模型效果,鉴于实验存在偶然性,我们对实验重复进行5次。

(三)参数设定及效果评估。实验中,为了考察参数值的灵敏度,将矩阵y与两个视角的相似矩阵作为模型输入,进行上述实验,权衡参数α取值范围均设定为{2-8,2-7,2-6,...,20},实验结果展示auc和aupr随参数的变化情况如图2、图3所示,由图可知,当α<2-3时,auc随着参数α的变大而变大,在此期间,aupr变化趋势不明显,当α=2-3时,模型mvl的性能达到最强,此后,过大的参数值会导致模型性能的下降。该图说明了模型中图正则化项可以进一步学习到已有基因致死对之间隐藏的潜在机制信息,从而改善模型的预测效果。

(四)为了进一步说明本实施例所述方法相对于单个视角的优越性,我们将矩阵y分别和单视角的go相似矩阵(实验一)、单视角的ppi相似矩阵(实验二)以及两个视角的相似矩阵(实验三)作为模型输入,进行实验,在这三种设定条件下,三个实验获得的最佳效果比较如图4所示,很明显,由图可以得到,当输入为多视角时,模型的预测效果最好。该图说明了模型能够较好地融合来自多个视角的生物数据源,进而加强了对原始数据中噪声和异常值的鲁棒性,从而达到较好的预测效果。

(五)为了进一步验证本发明的有效性,我们选择了两个经典的用于预测基因致死对的算法sl2mf、blm-nii与本实施例所述方法进行了比较,并且采用相同的评估指标,实验结果如图5所示。从图中可看出,我们的算法在auc、aupr的表现上均优越于其余两个算法,进一步说明了mvl相对于其他算法在模型设计上的优越性。

参考文献:

[1]wangjz,duz,payattakoolr,etal.anewmethodtomeasurethesemanticsimilarityofgoterms[j].bioinformatics,2007,23(10):1274-1281.

附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1