一种融合粒子群和遗传算法的基因调控网络构建方法

文档序号:10656252阅读:272来源:国知局
一种融合粒子群和遗传算法的基因调控网络构建方法
【专利摘要】一种融合粒子群和遗传算法的基因调控网络构建方法,包括构建样本集;数据预处理以及参数设置;利用粒子群算法对特征进行选择,设置每个粒子的个体极值和全局极值;计算特征子集的适应度并排序;对排序在预设概率之前的粒子使用粒子群算法进行位置和速度更新;对排序在预设概率之后的粒子利用遗传算法的交叉和变异操作进行更新;对粒子的个体极值和全局极值进行更新;判断是否满足迭代要求,不满足则转向S4,否则输出全局最优粒子;根据全局最优粒子所选择的特征对支持向量机进行训练构建基因调控网络模型;使用构建的基因调控网络模型对验证集进行实验,得到预测的基因调控网络。本发明可与现有的优化方法配合使用,具有更广阔的应用前景。
【专利说明】
-种融合粒子群和遗传算法的基因调控网络构建方法
技术领域
[0001] 本发明设及生物信息学和数据挖掘领域。尤其是针对于序列数据的一种融合粒子 群和遗传算法的基因调控网络构建方法。
【背景技术】
[0002] MicroRNAs(miRNAs)是一类非常重要的非编码RNA分子,通过触发祀基因降解,从 而广泛地参与到基因的转录后调控,或者通过抑制基因的转录,对基因在转录水平上进行 调控。miRNA通过与祀mRNA匹配结合实现对生物学功能的调控,因此,研究miRNA与其祀基因 的调控关系成为生物界广泛关注的问题。传统的实验验证方法耗费巨大,利用现有的序列 数据、基因表达数据或其它生物信息学数据,通过统计学模型或机器学习的方法构建基因 调控网络来发现基因之间的关系,能够有效的减少实验花费,对生物学研究者有一定的指 导作用。
[0003] 识别miRNA与其祀基因之间的关系的方法主要有两类:基于序列的miRNA祀基因识 别和基于机器学习的miRNA祀基因识别。
[0004] 从机器学习的角度来看,基因调控网络构建可W分为非监督学习和监督学习。非 监督学习不需要已知的调控关系,只是利用一些生物数据来进行调控网络的构建。监督学 习则需要已知的调控关系,可W看出监督学习需要的数据信息多于非监督学习,具有更强 的发现能力。有研究表明,在网络推断方面,监督学习优于非监督学习。
[0005] 监督学习需要利用已有的调控关系数据,通过学习调控关系的判别模型,对未知 的调控关系进行判别,需要处理特征生成和分类器选择问题。miRNA与其祀基因的交互的特 征包括自由能特征,结构序列特征和基于绑定位置特征,收集运些特征并进行计算,然后使 用分类器进行模型的构建。由于支持向量机(Suppod Vector Machine,SVM)在解决小样 本、非线性W及高维问题中表现出的优势,使得它在基因网络构建方面独具一格,已成为近 期的研究热点。

【发明内容】

[0006] 本发明的目的是提供一种能够有效预测miRNA与其祀基因之间的调控关系的融合 粒子群和遗传算法的基因调控网络构建方法。
[0007] 本发明解决现有技术问题所采用的技术方案:一种融合粒子群和遗传算法的基因 调控网络构建方法,包括W下步骤:
[000引Sl、构建样本集:所述样本集包括正样本和负样本,所述正样本捜集来自文献中的 具有调控关系的miRNA: mRNA交互信息对;负样本通过人工生成的假阳性miRNA: mRNA交互信 息对组成,使用祀基因预测工具用来生成假阳性miRNA的祀基因作为训练集的负样本;使用 祀基因预测工具对miRNA进行预测,得到的所有miRNA:mRNA交互信息对作为验证集;提取正 样本和负样本的腺隹特征,所述特征包括位点结合特征、结构特征和热力学特征;
[0009] S2、数据预处理及参数设置:利用SMOTE方法使正样本与负样本的比例平衡;对所 提取的特征进行离散化和标准化处理;
[0010] S3、利用粒子群算法对粒子的特征进行选择,设置粒子群中每个粒子的个体极值 和全局极值:将每一个粒子表示为N维向量,每一维对应一个特征,每一维的值为1或0;1表 示对应的特征被选择了,0表示对应的特征没有被选择;每个粒子所选中的特征构成每个粒 子的特征子集;个体极值为粒子在整个迭代过程中的最优位置,初始化为粒子的初始化 值;全局极值为所有粒子的最优位置,初始化为整个粒子群的最优值;
[0011] S4、计算每个粒子的特征子集的适应度,根据适应度进行排序:包括下面几个步 骤:
[0012] Al:计算每个粒子的特征子集的等价类:
[0013] T= (U,CUD,V,f)表示一个决策表,其中U是一个非空且有限的样本集合,称为论 域;C是条件属性集合,D是决策属性集合;如果Q = CUD,任意属性qEQ是一个全映射fq:U^ Vq,其中Vq表示属性q所有取值,称为q的值域,且V= U qeQVq,f = U qeQf q ;每一个属性子集 SgC,它的不可分辨关系表示为:
[0014]
[001引令XEU,帅所有与X满足不可分辨关系IND(B)的对象构成X的一个基于属性集B的 等价类[x]B={y IyGU, (x,y) G IND(B)K
[0016] A2:任意对象子集A台(/,属性子集公过二X的上近似集为:
[0017]
[001引 A3:任意条件属性子集及eC,U/D是由等价关系IND(D)诱导出的所有相异的等价 类的集合:相对干决策属忡隹D的B正域定义为:
[0019]
[0020] A4: B是一个条件属性集合,D是决策属性,D对于B的依赖度定义为:
[0021]
[0022] 通常0《k《l。当k=l,时,称D完全依赖于B;0<k<l时,D部分依赖于B;当k = 0时,D 完全独立于B;
[0023] A5:计算每个粒子的适应度,适应度公式如下:
[0024]
[0025] 其中丫 B(D)是条件属性集B相对于决策属性集D的依赖度,Icl是总的特征数,Ib 是选择的特征数。在运里,a的取值为0.9,0的取值为0.1;
[0026] A6:根据适应度的大小对粒子进行排序;
[0027] S5、对排序在预设概率之前的粒子继续使用粒子群算法进行位置和速度更新:
[002引Al:速度更新公式如下:
[0029] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandO X (Pgd-Xid),
[0030] Al:位置更新公式如下:
[0031] Xid = Xid+Vid,
[0032] 其中第i个粒子表示为Xi= (Xii,Xi2, . . .,xid),它的飞行速度为Vi= (Vii,Vi2,..., Vid ),在每次迭代中,粒子根据两个极值来对自己进行更新;第一个极值就是粒子本身找到 的最优解Pbest,第i个粒子本身的最优解可W表示为Pi= (Pil,Pi2, ...,pid).第二个极值是整 个种群目前找到的最优解,运个极值是全局极值gbset;
[0033] S6、对排序在预设概率之后的粒子利用遗传算法的交叉和变异操作进行更新:
[0034] S7、对粒子的个体极值和全局极值进行更新:
[0035] S8、判断是否满足迭代要求,不满足的话转向S4,否则的话,输出全局最优粒子:
[0036] S9、根据全局最优粒子所选择的特征进行对支持向量机进行训练构建基因调控网 络模型:
[0037] S10、使用构建的基因调控网络模型对验证集进行实验,得到预测的基因调控网 络。
[0038] SMOTE算法是通过合成的方法产生新的少数样本;所述合成的方法是对每一个少 数类样本a,计算a与少数类样本之间的欧式距离,选取k个最短的距离作为其最近邻;然后 从它的最近邻中随机选择样本b,然后在a和b之间的连线上随机选一点作为新合成的少数 类样本M,公式如下所示,其中U是一个介于0和1之间的随机数;最后将属性值进行离散化到 [0,1]之间;
[0039] M = a+u ? (b-a)
[0040] 对粒子群算法的种群规模设置为特征个数N,迭代次数为100。
[0041 ] k为5。
[0042] 本发明的有益效果在于:
[0043] 1、发明能够与现有的优化方法配合使用,具有更广阔的运用前景;
[0044] 2、采用依赖度和特征个数为关联准则利用粒子群算法和遗传算法对特征进行选 择,依赖度是基于粗糖集进行计算的,从而可W获得个数较少,分类性能较好的特征;
[0045] 3、利用支持向量机对降维后的样本进行训练,本发明的方法能够比较准确的预测 miRNA与其祀基因之间的调控关系。
【附图说明】
[0046] 图1为本方明的总体流程图。
[0047] 图2是本发明所预测的部分调控网络示意图。
【具体实施方式】
[0048] W下结合附图及【具体实施方式】对本发明进行说明:
[0049] 如图1所示,本发明的总体设计思路为:首先捜集来自文献中的被实验证实的具有 调控关系的miRNA:mRNA交互信息对作为正样本,负样本是通过人工生成的方式进行创建, 提取运些样本的特征,构建训练集合,验证集由祀基因预测工具进行生成,带有精确的祀位 点;由于样本存在不平衡问题,会造成假阳性过高,因此需要对样本进行平衡化处理,在特 征选择时需要用到粗糖集,需要对特征进行标准归一化处理;利用粒子群算法随机选择一 些特征子集。其中,特征是判断miRNA与其祀基因是否有关系的一些依据,而将每个粒子所 选择的特征提取出来作为特征子集即为位点结合特征,结构特征比如A:U,C:G,G:UW及错 误匹配的个数,例如20个位点结合特征,24个结构特征和4个热力学特征;20个位点结合特 征是miRNA前20位与祀基因的4:11,。6,6:1]和错配,其中4:1],。6属于完全匹配,赋值分别为 1和2,G: U属于不完全匹配赋值为3,错配为4; 24个结构特征是将整个miRNA序列分为种子区 域2-8位,中屯、区域9-11位,其它区域W及整个区域四部分,每个分别计算CG配对,AU配对, CG+AU匹配,GU不完全匹配,错配,GU+错配6种,所W有4*6 = 24个特征,另外4个能量相关的 特征使用Vienna RNA包中的RNAup和RNAfold计算获得选择的特征子集就是运48维特征中 的一部分。
[0050] 使用适应度函数评价运些特征子集的优劣,对于含有较优的特征子集的粒子继续 使用粒子群算法进行速度和位置更新,对于不太优的粒子使用遗传算法的交叉变异算子形 成新的粒子;最后得到最优的特征集合,对运个特征子集使用支持向量机进行构建模型,在 验证集上进行实验,最后得到预测的基因调控网络关系;具体步骤如下;
[0051] 如图1所示,一种融合粒子群和遗传算法的基因调控网络构建方法,包括W下步 骤:
[0052] Sl、构建样本集:样本集包括正样本和负样本,正样本捜集来自文献中的具有调控 关系的miRNA:mRNA交互信息对;负样本通过人工生成的假阳性miRNA:mRNA交互信息对组 成,使用祀基因预测工具用来生成假阳性miRNA的祀基因作为训练集的负样本;在运里,使 用人工生成的方法生成假的miRNA,通过统计拟南芥的miRNA中碱基A、U、C、G的比例,按照比 例生成300个miRNA,使用祀基因预测工具psRNA化巧et用来生成运些miRNA的祀基因作为训 练集的负样本;最后,生成1311条负样本。因为实验中需要精确的祀位点,因此使用祀基因 预测工具对miRNA进行预测,得到的所有miRNA :mRNA交互信息对作为验证集;提取正样本和 负样本的N维特征,所述特征包括位点结合特征、结构特征和热力学特征。本发明依次提取 了 48维特征,本发明提取的特征可分为=类:位点结合特征、结构特征和热力学特征;
[0053] S2、数据预处理及参数设置:实验中,正负样本的比例存在不平衡,负样本的比例 大于正样本的比例,因此结果会出现较高的假阴性;利用经典的SMOTE方法对样本的不平衡 进行处理;SMOTE算法是一种过采样算法,基本思想是通过合成的方法产生新的少数样本。 合成的方法是对每一个少数类样本a,计算a与少数类样本之间的欧式距离,选取k个最短的 距离作为其最近邻,其中,k值为5;然后从它的最近邻中随机选择样本b,然后在a和b之间的 连线上随机选一点作为新合成的少数类样本M,公式如下所示,其中U是一个介于0和1之间 的随机数。而不是简单的进行复制;最后将属性值进行离散标准化到[0,1]之间;
[0054] M = a+u ? (b-a)
[0055] 对粒子群算法的种群规模设置为特征个数48,迭代次数为100,遗传算法的概率 〇.2(就是对粒子群算法中排序往后的80%粒子进行遗传算法的交叉和变异操作,运个是通 过对拟南芥进行实验,将遗传概率从0.1到0.9 W步长0.1进行增长,结果最好的是0.2),交 叉速率为0.7,变异速率为0.1;
[0056] S3、利用粒子群算法对特征进行选择,设置每个粒子的个体极值和全局极值:每 一个粒子是一个48维的向量,每一维对应一个特征,每一维的值为1或者0,; 1代表对应的特 征被选择了,0代表对应的特征没有被选择;个体极值代表的是运个粒子在整个迭代过程中 的最优位置,初始化为运个粒子的初始化值;全局极值是所有粒子的最优位置,初始化为整 个粒子群的最优值;
[0057] S4、计算每个粒子选择的适应度值,根据运个适应度值对粒子进行排序;包括下面 几个步骤:
[005引Al:计算特征子集的等价类:
[0059] T= (U,CUD,V,f)表示一个决策表,其中U是一个非空且有限的样本集合,称为论 域;C是条件属性集合,D是决策属性集合;如果Q = CUD,任意属性qEQ是一个全映射fq:U^ Vq,其中Vq表示属性q所有取值,称为q的值域,且V= U qeQVq,f = U qeQf q ;每一个属性子集 及cC,它的不可分辨关系表示为:
[0060]
[0061] 令XGU,U中所有与X满足不可分辨关系IND(B)的对象构成X的一个基于属性集B的 等价类[x]B={y|yGU,(x,y)ElND(B)};
[0062] A2:任意对象子集义巨队属性子集盈臣C,X的上近似集定义为:
[0063]
[0064] A3:任意条件属性子集及£巴,11/0是由等价关系IND(D)诱导出的所有相异的等价 类的集合;相对于决策属性集D的B正域定义为:
[00 化]
[0066] A4: B是一个条件属性集合,D是决策属性,D对于B的依赖度定义为:
[0067]
[0068] 通常0《k《l;当k=l,时,称D完全依赖于B;0<k<l时,D部分依赖于B;当k = 0时,D 完全独立于B;
[0069] A5:计算每个粒子的适应度,适应度公式如下:
[0070]
[0071] 其中丫 B(D)是条件属性集B相对于决策属性集D的依赖度,Icl是总的特征数,Ib 是选择的特征数;在运里,a的取值为0.9,0的取值为0.1;
[0072] A6:根据适应度的大小对粒子进行排序;
[0073] S5、对排序往前的那些粒子(在拟南芥数据集上是20%)继续使用粒子群算法进行 位置和速度更新;
[0074] Al:速度更新公式如下:
[0075] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandQ X (Pgd-Xid),
[0076] Al:位置更新公式如下:
[0077] Xid = Xid+Vid,
[007引其中第i个粒子表示为Xi=Uil, Xi2, ...,Xid),它的飞行速度为Vi= (Vil,Vi2, ..., Vid),在每次迭代中,粒子会根据两个极值来对自己进行更新;第一个极值就是粒子本身找 到的最优解Pbest,第i个粒子本身的最优解可W表示为Pi= (Pil,Pi2, ...,pid).第二个极值是 整个种群目前找到的最优解,运个极值是全局极值gbset;
[0079] S6、对排序往后的那些粒子(后80%的粒子)利用遗传算法的交叉和变异操作进行 更新:
[0080] 随机产生一个(0,1)之间的随机数a,当a小于交叉概率时,进行交叉操作;比如运 个粒子的长度是18,生成一个1到18之间的随机树作为交叉点,下面粒子的交叉点为8,将父 个体1的8后面的几位与父个体2进行交换:
[0081] Al:交叉操作:
[0082] 父个体 1 011111110000000000
[0083] 父个体2 000000001111111111
[0084] 如粗体前边位置为所选择的交叉点,那么生成的子个体为:
[0085] 子个体 1 011111111111111111 [00化]子个体2 000000000000000000
[0087] Al:变异操作:
[0088] 比如一个粒子用W下码串表示,码长是8:
[0089] 10100110
[0090] 随机产生一个巧化之间的随机数k,假设k = 5,将第5位的1变成0或将0变成1,得到 码串:10101110
[0091 ] S7、对粒子的全局极值和个体极值进行更新;
[0092] S8、判断是否满足迭代要求,不满足的话转向S4,否则的话,输出全局最优粒子;
[0093] S9、根据全局最优粒子所选择的特征进行对支持向量机进行训练构建基因调控网 络模型;
[0094] S10、使用构建的分类模型对验证集进行实验,得到预测的基因调控网络。
[0095] 将本发明所述方法应用于表1中拟南芥数据集和表2中水稻数据集,本发明的准确 率,F值和ROC面积明显高于现有方法。构建的调控网络如图2所示。
[0096] 表1拟南芥数据集的实验效果对比表
[0097]
[009引
[0099]
[0100] 实施例
[0101] 为使本发明的目的、技术方案和有益效果更加清晰和更易于实验,W下结合具体 实施例,并参照附图,对本发明做进一步详细说明。
[0102] 为了更好的说明本方法的过程,使用了 W下运份简单的数据来辅助。
[0103] 表3文献中捜集的正样本集合
[0104]
[0105] 运是从文献中捜集的正样本的几个,格式如上面所示,第一列是代表miRNA名称, 第二列代表的是HiiRNA的祀基因 mRNA名称,第S列是miRNA作用于mRNA的祀位点,第四列是 miRNA的序列,第五列是祀基因序列,第六列是祀基因序列两翼序列,第屯列是类标签,类标 签为1说明miRNA与对应的mRNA之间有调控作用,0表示没有调控作用;运个表是文献中捜集 的具有调控关系的m i RNA: mRNA对,因此运个表中的类标签都为1;
[0106] 表4数据库中5个miRNA序列 Tnmvl L0108J 巧日数据巧甲mKM的斤夕y

[0110]
[0111] 表4提取的是miRNA数据库中5个miRNA的序列,表5摘取了3个mRNA的序列,有了运 些信息,就可W开始下面的实验了:
[0112] 步骤1、生成样本集:从文献中捜集实验验证的带有精确祀位点的(即具有调控关 系的)miRNA: mRNA交互信息对,如表3所示;人工生成的miRNA是根据数据库中的miRNA中A、 U、C、G所占的比例,例如表4中运些mi RNA的碱基比例,统计出运些序列中A共34个,C共18个, G共27个,U共26个,总共105个,那么A占总个数的大约32%,C占17%,G占26%,U占25%,因 此人工的miRNA序列就按照运种比例进行生成;因为运个实验中需要miRNA:mRNA结合的祀 位点,所W使用一个祀基因预测工具psRNA化巧et预测运些生成的miRNA祀基因及对应的祀 位点信息,表示成表3运样的形式,最后的类标签都改为-1;因为实验中需要精确的祀位点, 因此使用祀基因预测工具对mi RNA进行预测,得到的所有miRNA: mRNA交互信息对作为验证 集;提取的特征分别为20个位点结合特征,24个结构特征和4个热力学特征;20个位点结合 特征是miRNA前20位与祀基因的A:U,C:G,G:U和错配,其中A:U,C:G属于完全匹配,赋值分别 为1和2,G:U属于不完全匹配赋值为3,错配为4;24个结构特征是将整个miRNA序列分为种子 区域2-8位,中屯、区域9-11位,其它区域W及整个区域四部分,每个分别计算CG配对,AU配 对,CG+AU匹配,GU不完全匹配,错配,GU+错配6种,所W有4*6 = 24个特征,另外4个能量相 关的特征使用Vienna RNA包中的RNAup和RNAfold计算获得;
[0113] 步骤2、数据预处理及参数设置:实验中,正负样本的比例存在不平衡,负样本的比 例大于正样本的比例,因此结果会出现较高的假阴性。利用经典的SMOTE方法对样本的不平 衡进行处理。SMOTE算法是一种过采样算法,基本思想是通过合成的方法产生新的少数样 本。合成的方法是对每一个少数类样本a,计算a与少数类样本之间的欧式距离,选取k个最 短的距离作为其最近邻,文中的k值为5。然后从它的最近邻中随机选择样本b,然后在a和b 之间的连线上随机选一点作为新合成的少数类样本M,公式如下所示,其中U是一个介于0和 1之间的随机数,而不是简单的进行复制。最后将属性值进行离散化到[0,1]之间;
[0114] M = a+u ? (b-a)
[0115] 对粒子群算法的种群规模设置为特征个数48,迭代次数为100,遗传算法的概率 〇.2(就是对粒子群算法中排序往后的80%粒子进行遗传算法的交叉和变异操作,运个是通 过对拟南芥进行实验,将遗传概率从0.1到0.9 W步长0.1进行增长,结果最好的是0.2),交 叉速率为0.7,变异速率为0.1。
[0116] 步骤3、利用粒子群算法对特征进行选择,设置每个粒子的个体极值和全局极值: 每一个粒子是一个48维的向量,每一维对应一个特征,每一维的值要么是1,要么是0。1表示 对应的特征被选择了,0表示对应的特征没有被选择;个体极值代表的是运个粒子在整个迭 代过程中的最优位置,初始化为运个粒子的初始化值。全局极值是所有粒子的最优位置,初 始化为整个粒子群的最优值。
[0117] 步骤4、计算每个粒子选择的适应度值,根据运个适应度值对粒子进行排序;包括 下面几个步骤:
[0118] Al:计算特征子集的等价类:
[0119] T= (U,CUD,V,f)表示一个决策表,其中U是一个非空且有限的样本集合,称为论 域;C是条件属性集合,D是决策属性集合;如果Q = CUD,任意属性qEQ是一个全映射fq:U^ Vq,其中Vq表示属性q所有取值,称为q的值域,且V= U qeQVq,f = U qeQf q ;每一个属性子集 公cC,它的不可分辨关系表示为:
[0120]
[0121] 令XGU,U中所有与X满足不可分辨关系IND(B)的对象构成X的一个基于属性集B的 等价类[x]B={y IyGU, (x,y) G IND(B)K
[0122] A2:任意对象子集乂空1/,属性子集度£仁,乂的上近似集定义为:
[0123]
[0124] A3:任意条件属性子集盈cC,U/D是由等价关系IND(D)诱导出的所有相异的等价 类的集合;相对于决策属性集D的B正域定义为:
[0125]
[0126] A4:B是一个条件属性集合,D是决策属性,D对于B的依赖度定义为:
[0127]
[012引通常0《k《l。当k=l,时,称D完全依赖于B;0<k<l时,D部分依赖于B;当k = 0时,D 完全独立于B;
[0129] A5:计算每个粒子的适应度,适应度公式如下:
[0130]
[0131] 共T y BW巧巧化牌化采M日刈T决策属性集D的依赖度,I C I是总的特征数,I B 是选择的特征数。在运里,a的取值为0.9,0的取值为0.1;
[0132] A6:根据适应度的大小对粒子进行排序;
[0133] 步骤5、对排序往前的那些粒子(在拟南芥数据集上是20%)继续使用粒子群算法 进行位置和速度更新;
[0134] Al:速度更新公式如下:
[0135] Vid=WX vid+ci XrandQ X (pid-Xid)+C2 XrandQ X (Pgd-Xid),
[0136] Al:位置更新公式如下:
[0137] Xid = Xid+Vid,
[013引其中第i个粒子表示为Xi=Uil, Xi2, ...,Xid),它的飞行速度为Vi= (Vil,Vi2, ..., Vid),在每次迭代中,粒子会根据两个极值来对自己进行更新;第一个极值就是粒子本身找 到的最优解Pbest,第i个粒子本身的最优解可W表示为Pi=(Pil,Pi2, . . .,Pid).第二个极值是 整个种群目前找到的最优解,运个极值是全局极值gbset。
[0139] 步骤6、对排序往后的那些粒子(后80%的粒子)利用遗传算法的交叉和变异操作 进行更新:
[0140] 随机产生一个(0,1)之间的随机数a,当a小于交叉概率时,进行交叉操作;比如运 个粒子的长度是18,生成一个1到18之间的随机树作为交叉点,下面粒子的交叉点为8,将父 个体1的8后面的几位与父个体2进行交换:
[0141] Al:交叉操作:
[0142] 父个体 1 011111110000000000
[0143] 父个体2 000000001111111111
[0144] 如粗体前边位置为所选择的交叉点,那么生成的子个体为:
[0145] 子个体 1 011111111111111111
[0146] 子个体2 000000000000000000
[0147] Al:变异操作:
[0148] 比如一个粒子用下列式子表示,码长是8:
[0149] 10100110
[0150] 随机产生一个巧化之间的随机数k,假设k = 5,将第5位的1变成0或将0变成1,得到 码串:10101110
[0151 ]步骤7、对粒子的全局极值和个体极值进行更新。
[0152] 步骤8、判断是否满足迭代要求,不满足的话转向S4,否则的话,输出全局最优粒 子。
[0153] 步骤9、根据全局最优粒子所选择的特征进行对支持向量机进行训练构建基因调 控网络模型。
[0154] 步骤10、使用构建的分类模型对验证集进行实验,得到预测的基因调控网络。
[0155] W上内容是结合具体的优选技术方案对本发明所作的进一步详细说明,不能认定 本发明的具体实施只局限于运些说明。对于本发明所属技术领域的普通技术人员来说,在 不脱离本发明构思的前提下,还可W做出若干简单推演或替换,都应当视为属于本发明的 保护化围。
【主权项】
1. 一种融合粒子群和遗传算法的基因调控网络构建方法,其特征在于,包括以下步骤: 51、 构建样本集:所述样本集包括正样本和负样本,所述正样本搜集来自文献中的具有 调控关系的miRNA:mRNA交互信息对;负样本通过人工生成的假阳性miRNA:mRNA交互信息对 组成,使用靶基因预测工具用来生成假阳性miRNA的靶基因作为训练集的负样本;使用靶基 因预测工具对miRNA进行预测,得到的所有miRNA:mRNA交互信息对作为验证集;提取正样本 和负样本的N维特征,所述特征包括位点结合特征、结构特征和热力学特征; 52、 数据预处理及参数设置:利用SMOTE方法使正样本与负样本的比例平衡;对所提取 的特征进行离散化和标准化处理; 53、 利用粒子群算法对粒子的特征进行选择,设置粒子群中每个粒子的个体极值和全 局极值:将每一个粒子表不为N维向量,每一维对应一个特征,每一维的值为1或0; 1表不对 应的特征被选择了,〇表示对应的特征没有被选择;每个粒子所选中的特征构成每个粒子的 特征子集;个体极值为粒子在整个迭代过程中的最优位置,初始化为粒子的初始化值;全局 极值为所有粒子的最优位置,初始化为整个粒子群的最优值; 54、 计算每个粒子的特征子集的适应度,根据适应度进行排序:包括下面几个步骤: Al:计算每个粒子的特征子集的等价类: T= (U,CUD,V,f)表示一个决策表,其中U是一个非空且有限的样本集合,称为论域;C 是条件属性集合,D是决策属性集合;如果Q = C U D,任意属性q e Q是一个全映射fq: U^Vq,其 中Vq表示属性q所有取值,称为q的值域,且V= U qeQVq,f = U qeQfq;每一个属性子集 它的不可分辨关系表TK为:令xeu,u中所有与X满足不可分辨关系IND(B)的对象构成X的一个基于属性集B的等价 类[x]b= {y |yeu,(x,y) e IND(B)}。 A2:任意对象子集属性子集谷czC-X的上近似集为:A3:任意条件属性子集谷gC,U/D是由等价关系IND(D)诱导出的所有相异的等价类的集 合.*日姑丰it铕届.《:隹nfrftRTP+或定义为:A4: B是一个条件属性集合,D是决策属性,D对于B的依赖度定义为:通常0彡k彡1。当k=l,时,称D完全依赖于B;0〈k〈l时,D部分依赖于B;当k = 0时,D完全 独立于B; A5:计算每个粒子的适应度,适应度公式如下:其中Yb(D)是条仵属性集B相对t決策属性集D的依赖度,|C|是总的特征数,|B|是选择 的特征数。在这里,α的取值为0.9,β的取值为O. I; A6:根据适应度的大小对粒子进行排序; 55、 对排序在预设概率之前的粒子继续使用粒子群算法进行位置和速度更新: Al:速度更新公式如下: vid = wX vid+ci XrandO X (pid~xid)+C2 Xrand() X (Pgd-Xid), Al:位置更新公式如下: Xid - Xid+Vid , 其中第i个粒子表示为Xi=(Xil,Xi2,…,Xid),它的飞行速度为Vi=(Vil,Vi2,…,Vid), 在每次迭代中,粒子根据两个极值来对自己进行更新;第一个极值就是粒子本身找到的最 优解Pbest,第i个粒子本身的最优解可以表示为 Pl=(pu,pl2, . . .,pld).第二个极值是整个种 群目前找到的最优解,这个极值是全局极值gbset; 56、 对排序在预设概率之后的粒子利用遗传算法的交叉和变异操作进行更新: 57、 对粒子的个体极值和全局极值进行更新: 58、 判断是否满足迭代要求,不满足的话转向S4,否则的话,输出全局最优粒子: 59、 根据全局最优粒子所选择的特征进行对支持向量机进行训练构建基因调控网络模 型: S10、使用构建的基因调控网络模型对验证集进行实验,得到预测的基因调控网络。2. 根据权利要求1所述的一种融合粒子群和遗传算法的基因调控网络构建方法,其特 征在于,SMOTE算法是通过合成的方法产生新的少数样本;所述合成的方法是对每一个少数 类样本a,计算a与少数类样本之间的欧式距离,选取k个最短的距离作为其最近邻;然后从 它的最近邻中随机选择样本b,然后在a和b之间的连线上随机选一点作为新合成的少数类 样本M,公式如下所示,其中u是一个介于0和1之间的随机数;最后将属性值进行离散化到 [〇,1]之间; M=a+u · (b_a) 〇3. 根据权利要求1所述的一种融合粒子群和遗传算法的基因调控网络构建方法,其特 征在于,对粒子群算法的种群规模设置为特征个数N,迭代次数为100。4. 根据权利要求1所述的一种融合粒子群和遗传算法的基因调控网络构建方法,其特 征在于,k为5。
【文档编号】G06K9/62GK106022473SQ201610346242
【公开日】2016年10月12日
【申请日】2016年5月23日
【发明人】孟军, 郝涵
【申请人】大连理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1