药物设计中配体分子特征筛选装置和筛选方法与流程

文档序号:15164324发布日期:2018-08-14 17:16阅读:680来源:国知局
本发明属于药物研发计算机辅助设计
技术领域
领域,特别涉及一种药物设计中配体分子特征筛选装置,还包括利用该装置的筛选方法。
背景技术
::近年来,如何提高药物虚拟筛选的有效性,如何对一些潜在的药物靶标的研究,成为新药研发的重要问题。对于无三维结构,ligand数量少的相关主体的子家族,如何虚拟筛选,成了一个必要解决的问题。而机器学习的方法,利用数据,更好的解决了这些问题在过去的二十年中,计算机的发展使得虚拟筛选技术在药物发现过程中得到了广泛的应用。虚拟筛选是一种可靠的方法,主要是在小分子数据库中筛选大生物的活性分子,这使得研究人员,可以不用进行成千上万次实验,节省了大量的人力物力,避免了更多的花销。而且,很多大分子在体外的状态很不稳定,难于通过实验的方法得到这些大分子蛋白质的三维结构。利用虚拟筛选的方法,可以有效的解决这个问题。药物虚拟筛选的方法分为基于靶标结构和基于配体的两类方法。基于靶标结构的药物虚拟筛选模拟化合物与靶标之间的物理相互作用来确定是否可能存在药效,如分子对接方法。基于配体的方法主要是在靶标结构未知的情况下,利用已有的数据对化合物的活性进行预测。这类方法最关键的是使用各种方法或分子指纹对化合物进行充分的描述,以研究该化合物是否具有类似活性或治病机理,或归纳得到对化合物活性起关键作用的一些基团的信息。在基于配体的药物虚拟筛选中,配体分子的分子指纹表征是关键。常用的分子指纹有:子结构键的分子指纹(maccs,pubchem)等,环形指纹(ecfp,fcfp)等。这些都是用不同的0,1码来表示配体的特征。对于一些大分子化合物,虽然是重要的药物靶标,但是发现的配体数量很少,很难构建好的虚拟筛选模型。公开于该
背景技术
部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。技术实现要素::本发明的目的在于提供一种药物设计中配体分子特征筛选方法,从而克服上述现有技术中的缺陷。为实现上述目的,本发明提供了一种药物设计中配体分子特征筛选方法,其特征在于,包括如下步骤:(1)获取所需要的初始数据集;(2)配体分子的特征生成;(3)获取各个配体药物靶标作用的活性值;(4)利用多任务学习的方法,进行特征筛选。相似子家族,子家族中主体与配体药物靶标相互作用有很多共同关键因素。联合分析多种主体与配体药物靶标的相互作用,发现共同的作用因素和各自独特的作用因素对于开发新药有重要的意义。多任务学习的方法大致可以总结为挖掘不同任务之间隐藏的共有数据特征,相比于单任务学习,性能更加优良。与单任务学习相比,多任务学习的优势在于考虑了任务之间的联系,把一个任务可以分为多个子任务去学习,多任务学习的优势就在于能发掘各个子任务之间的关系,同时又能区分这些任务之间的差别。当每个药物靶标的配体样本数量比较少的时候。我们采用多任务学习的方法,结合任务与任务之间的亲缘关系,提高了模型的鲁棒性,这样可以帮助我们筛选出独特特征、关键特征和无关特征。本发明进一步限定的技术方案为:优选地,上述技术方案中,步骤(1)中,所述初始数据集包括生成配体分子特征所需要的smiles,以及得到活性值standardvalues,并对所得到的活性值v,取-lgv。优选地,上述技术方案中,步骤(2)具体包括如下分步骤:(2.1)对于原始数据集,我们有t个任务,n个样本,每个样本有d维特征;(2.2)步骤(1)中,从数据库得到初始数据集{x1,…,xn};(2.3)将得到的配体分子,在这里是各个主体的smiles,利用分子指纹的方法,得到相对应的特征;(2.4)我们把x=[x1…xn]t∈rn×t作为输入的数据特征矩阵。优选地,上述技术方案中,步骤(3)进一步包括步骤:(3.1)读取各配体分子所作用的活性值standardvalues;(3.2)我们把y=[y1…yn]t∈rn×t作为输入。优选地,上述技术方案中,步骤(4)进一步包括步骤:(4.1)通过多任务学习的算法,对于输入的x,y矩阵进行优化;(4.2)构建损失函数模型,求得权重矩阵w,w=[w1,…wt]∈rn×t;(4.3)得到特征筛选的结果。一种药物设计中配体分子特征筛选的装置,特征筛选装置包括:初始模块,用于从数据库得到初始数据集;配体特征生成模块,用于得到配体分子的特征矩阵;配体作用活性值生成模块,用于得到各个配体分子所作用的活性值;基于lasso的多任务学习算法模块,用于构建损失函数,优化模型,得到权重矩阵,进而得到我们所需要的特征筛选的结果。本方面进一步限定的技术方案为:优选地,上述技术方案中,所述初始模块还包括,对配体分子生成所需smiles的获取模块,对活性值standardvalues的获取模块。优选地,上述技术方案中,所述特征生成模块还包括配体分子的优化与处理模块,用于对原始数据进行整理,筛除出重复的,无活性值的配体分子。优选地,上述技术方案中,所述配体作用活性值生成模块还包括,对活性值数据整理模块,统一相同的单位,对于重复的配体分子的活性值,求取平均值。优选地,上述技术方案中,所述基于lasso多任务学习算法生成模块还包括算法模型的选择,加入lasso,考虑任务与任务,个体与个体之间的相关性,提高了模型的鲁棒性。与现有技术相比,本发明具有如下有益效果:本申请的一种药物设计中配体分子特征筛选方法及装置,能够根据得到的配体分子的特征及各个标记,构建多任务学习的框架,进行特征筛选。相较于传统方法,节省了大量的人力物力及财力,解决了一些大分子化合物无法在自然状态下存在的问题。相较与单任务学习,考虑到了相似药物靶标之间的相关性,解决了当配体分子较少时模型的构建问题,提高了模型的鲁棒性,更好的进行特征筛选,对新药物的发现有重要的帮助。附图说明:图1为本申请一种特征筛选方法流程示意图;图2为本申请一种特征筛选装置结构示意图。具体实施方式:下面对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。本申请一种特征筛选方法如图1所示,包括步骤:步骤101、获取所需要的初始数据集。具体地,canonicalsmilesstandardvaluestandardunitsc(c1=nccn1)c2cccc3ccccc232.29nm表1以表1为例,初始数据集包括:canonicalsmiles:配体分子的ligand,用于生成配体的分子特征;standardvalue:各个配体作用的活性值;standardunits:单位。步骤102、根据初始数据集,生成配体分子特征。针对每个任务,从数据库得到初始数据集;进一步,得到的配体分子,在这里是各个主体的smiles,利用分子指纹的方法,得到相对应的特征;将各个任务考虑在一起,把x=[x1…xn]t∈rn×t作为输入的数据特征矩阵,记为x。步骤103、根据初始数据集,得到各配体作用的药物靶标,即standardvalues。将得到的共有特征y=[y1…yn]t∈rn×t作为输入,记为y。步骤104、基于lasso,利用多任务学习的方法,进行特征筛选。在机器学习中,对于一般的目标函数的构建,通常是由一个损失函数,加上一个正则项。目标函数:w=l(w)+ω(w);对于目标函数,其中第一项是损失函数项,用来衡量我们模型中,每个样本,真实值与预测值之间的误差;对于损失函数,一般情况下l(w)=l(yi-f(xi;w));其中l(yi-f(xi;w)),就是用来衡量我们的模型对于第i个样本的预测值f(xi;w)和真实的标签yi之前的误差;因为我们的模型需要尽可能的拟合我们的训练样本,所以在训练的时候,我们会尽可能的拟合训练数据,以实现这一项最小;因此,就会出现过拟合的情况;为了避免过拟合问题,我们加入l1范数或l2范数作为正则项,也叫惩罚项;l1正则化有助于生成一个稀疏矩阵;l1正则化有助于产生许多元素为零的稀疏矩阵,对于多数元素为零,少数元素有非零值的稀疏矩阵,在线性回归模型中,对于高维度的问题,为零的特征不提供任何有用的信息,我们只需考虑非零值的特征,这样就更有利于进行特征的筛选;l2正则化是求向量各元素的平方和然后求它们的平方根;对于l2正则化,它是让许多元素都接近于零,但却不等于零,而此时的特征矩阵,参数最小,模型简单,因此避免产生过拟合的可能;而对于多任务学习的方法;进一步说明,在得到各个任务中配体的分子特征以及共同特征,考虑任务与任务,个体与个体之间的相关性,在算法模型中进行目标函数的优化,最后实现特征筛选的功能。对于我们的模型:l(w)表示损失函数;其中s∈rn×t,表示无特征值矩阵,当第i个样本在第j个任务中无值时,si,j=0;反之si,j=1;对于z=a⊙b则是指zi,j=ai,jbi,j;γ1|w|1表示l1正则化,我们通过对γ1进行多次的调参,得到最好的特征矩阵w;表示l2正则化,我们通过对γ2进行多次的调参,得到最好的特征矩阵w;在调参的过程中,我们通过对参数γ1、γ2的选择,来确定我们的模型是采用l1正则化作为惩罚项,还是l2正则化作为惩罚项;本申请同时还公开了一种特征筛选装置,如图2所示,包括:初始模块201,得到所需要的基本数据内容;配体特征生成模块202,用于得到配体分子的特征矩阵;进一步地,特征生成模块还包括配体分子的优化与处理,用于对原始数据进行整理,筛除出重复的,无活性值的配体分子配体作用活性值生成模块203,用于得到各个配体分子的共有特征;进一步地,配体作用活性值生成模块还包括,对活性值数据进行整理,统一相同的单位,对于重复的配体分子的共同特征,求取平均值。基于lasso的多任务学习算法模块204,用于构建损失函数,优化模型,得到权重矩阵,进而得到我们所需要的特征筛选的结果。进一步地,基于lasso的多任务学习算法模块还包括,考虑l1正则化的作用及其在特征筛选中的优势;多任务学习算法生成模块,加入lasso,考虑任务与任务,个体与个体之间的相关性,提高了模型的鲁棒性。本申请的一种药物设计中配体分子特征筛选方法及装置,能够根据得到的配体分子的特征及各个标记,构建多任务学习的框架,进行特征筛选。相较于传统方法,节省了大量的人力物力及财力,解决了一些药物靶标无法在自然状态下存在的问题。相较与单任务学习,考虑到了亲缘化合物之间的相关性,解决了当配体分子较少时模型的构建问题,提高了模型的鲁棒性,更好的进行特征筛选,对新药物的发现有重要的帮助。前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1