序列位点重要度的确定方法、装置、设备及存储介质与流程

文档序号:13290855阅读:214来源:国知局
本发明涉及计算机设备
技术领域
,尤其涉及序列位点重要度的确定方法、装置、设备及存储介质。
背景技术
:转录是生物体中基因表达的第一个阶段,dna的转录需要转录因子的调控,其中,转录必须要结合到dna上才能进行转录过程的调控,dna上与转录因子结合的部位叫做转录因子结合位点,一般地,转录因子结合位点为一个序列特征串,相当于多个序列位点组成。对转录因子中序列特征串是否为转录因子结合位点的预测判定,有助于理解转录调控机制及细胞的生长过程,对确定药物靶点有非常重要的意义,因此科研人员通常采用生物实验方法或通过计算方法查找转录因子结合位点。然而生物实验方法不仅耗时长而且代价也很昂贵,单纯依靠这类技术来对几百条或者上千条潜在的结合位点进行预测,科研人员需要付出极大的代价。因此,通过计算方法对转录因子结合位点进行预测成为科研人员常用手段,常见的计算方法如隐马氏模型方法以及位点特异性打分矩阵方法等。然而,采用现有的计算方法对给定的序列特征串进行转录因子结合位点预测时,通常在默认序列特征串中每个序列位点的重要性相同的前提下进行,很大程度影响了对转录因子结合位点预测的准确性。技术实现要素:本发明实施例提供了序列位点重要度的确定方法、装置、设备及存储介质,以实现转录因子序列特征串中序列位点重要度的确定。第一方面,本发明实施例提供了一种序列位点重要度的确定方法,包括:确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。第二方面,本发明实施例提供了一种序列位点重要度的确定装置,包括:向量生成模块,用于确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;向量初始模块,用于初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;向量处理模块,用于基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;重要度确定模块,用于将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。第三方面,本发明实施例提供了一种计算机设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序;所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例提供的序列位点重要度的确定方法。第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例提供的序列位点重要度的确定方法。在上述序列位点重要度的确定方法、装置、设备及存储介质中,所提方法首先确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为序列位点数的位点权重向量;然后初始化上述位点权重向量,获得设定数量的具有初始分量值的初始位点权重向量;之后基于选定的最优解搜索算法迭代处理各初始位点权重向量,获得目标位点权重向量,最终将目标位点权重向量中个目标分量值对应确定为序列特征串中各序列位点的重要度。上述技术方案,能够准确快速的确定序列特征串中各序列位点的重要度,为后续对序列特征串的转录因子结合位点预测提供了有效的预测信息,从而保证了转录因子结合位点预测处理的准确性。附图说明图1为本发明实施例一提供的一种序列位点重要度的确定方法的流程示意图;图2为本发明实施例二提供的一种序列位点重要度的确定方法的流程示意图;图3为本发明实施例三提供的一种序列位点重要度的确定装置的结构框图;图4为本发明实施例四提供的一种计算机设备的硬件结构示意图。具体实施方式下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。实施例一图1为本发明实施例一提供的一种序列位点重要度的确定方法的流程示意图,该方法适用于对转录因子序列特征串中序列位点重要度进行确定的情况,该方法可以由序列位点重要度的确定装置执行,其中该装置可由软件和/或硬件实现,并一般集成计算机设备上。如图1所示,本发明实施例一提供的一种序列位点重要度的确定方法,包括如下操作:需要说明的是,基于现有预测方法对转录因子中的序列特征串进行转录因子结合位点预测时,因不考虑序列特征串各序列位点的不同重要度,所以技术人员缺乏对序列位点重要度方面的研究。本实施提供了序列位点重要度的确定方法,并在转录因子结合位点预测时将序列位点重要度考虑其中,从而增加了预测结果的准确性。s101、确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量。本实施例中的序列特征串可以理解为用来进行转录因子结合位点预测的一段转录因子数据。一般地,每一种转录因子数据的长度是给定的,其给定的长度相当于本实施例待确定的序列位点数,例如ebox转录因子数据的长度为10,myc转录因子数据的长度为7,即,ebox转录因子数据对应的序列为点数为10,myc转录因子数据对应的序列为点数为7。需要说明的是,在进行本实施例的操作之前,首先通过特定的数据处理方法获得包含多个长度相同的序列特征串的定长序列串集合。具体地,为保证后续所确定重要度结果的准确性,本实施例选取了学术界常用和一些较为重要的转录因子数据作为序列特征串,如,本实施例可以从transfac数据库下载多套转录因子数据,并分别从多套转录因子数据中选取部分转录因子数据作为符合本实施例要求的序列特征串的选取对象,其中,transfac数据库是关于转录因子、它们在基因组上的结合位点和与dna结合的描述信息的数据库。本实施例在transfac数据库中选取任一套转录因子数据,处理获得定长序列串集合过程可描述为:1)从一套转录因子数据中提取多条数据长度相同的序列特征串;2)从ensembl数据库中得到每条序列特征串对应的目标基因序列和启动子区域信息,以判断相应的序列特征串是否为已确定为转录因子结合位点,其中,ensembl数据库具体存储了目前已通过生物实验确定出的转录因子结合位点信息;3)将基于2)确定为转录因子结合位点的序列特征串记作正序列特征串,并将基于2)确定不是转录因子结合位点的序列特征串记作负序列特征串;4)选取为正序列特征串10倍数量的负序列特征串,同时保证正序列特征串和负序列特征串中各序列位点的数据不同,即,保证正序列特征串和负序列特征串之间没有任何重叠;5)基于确定的正序列特征串和选取的负序列特征串组成定长序列串集合。可以理解的是,一个定长序列串集合对应所选取的一套转录因子数据。本实施例优选地对transfac数据库中的13套转录因子数据进行了上述的数据处理操作,由此各套转录因子数据所对应的定长序列串集合中,其正序列特征串的数量以及负序列特征串的数量可以如下表1表示:表1不同定长序列串集合中所包含序列特征串的数量序列串集合q6mazq601_mazq3-srebpq6-srebp2q5q6p53正序列串量1227819486146负序列串量12027080200469599460序列串集合q3phcrq601hnfq602hnfq603hnfeboxmyc----正序列串量3158585811921----负序列串量3105805805801190210----可以发现上述各定长序列串集合中,负序列特征串的数量大多为正序列特征串数量的10倍。基于上述方法获得一个或多个定长序列串集合后,可以基于本步骤的操作确定定长序列串集合中序列特征串的序列位点数,确定序列位点数之后,可将序列位点数作为待生成的位点权重向量的维数。本步骤优选生成设定数量的位点权重向量,且各位点权重向量的维数等于确定的序列位点数,可以理解的是,本步骤默认设定各位点权重向量的分量值为0。s102、初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量。在本实施例中,可以通过设定的初始条件对上述设定数量的位点权重向量中的各分量进行初始化操作,由此获得初始后的初始分量值,并将初始后的位点权重向量记作初始位点权重向量。本实施例可基于上述设定数量的初始位点权重向量实现序列位点重要度的确定。本实施例中,进行位点权重向量初始化的初始条件可以根据实际情况实际设定,示例性地,如设定一个初始分量值的选择范围,然后在该选择范围内选取数据作为初始分量值。s103、基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量。一般地,最优解搜索算法相当于在穷举组成的一个问题解空间中迭代搜索出最优解的算法,常见的最优解搜索算法有遗传算法、模拟退火算法、粒子群算法以及蚁群算法等等。本实施例可以将设定数量的初始位点权重向量看作一个穷举组成的问题解空间,基于本实施选定的最优解搜索算法,通过有限次的迭代循环处理初始的问题解空间,最终可以在迭代结束后形成的问题解空间查找出符合条件的结果。本实施例最终获得了符合条件的一个或设定个数的目标位点权重向量。所述目标位点权重向量相当于向量中各维度的分量值均为多次迭代处理后获得的目标分量值。s104、将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。可以理解的是,上述获得的目标位点权重向量中,包含了与序列位点数相同的分量,且当前的各分量值记作目标分量值。本步骤可以将上述序列位点数个目标分量值一一对应确定为序列特征串中各序列位点的重要度。示例性地,假设序列位点数为7,序列特征串中的各序列位点可表示为“abcdefg”,目标位点权重向量表示为w=[w1,w2,w3,w4,w5,w6,w7],此时,可以将w1对应确定为序列位点a的重要度,依次将w7对应确定为序列位点g的重要度。本发明实施例一提供的一种序列位点重要度的确定方法,首先确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为序列位点数的位点权重向量;然后初始化上述位点权重向量,获得设定数量的具有初始分量值的初始位点权重向量;之后基于选定的最优解搜索算法迭代处理各初始位点权重向量,获得目标位点权重向量,最终将目标位点权重向量中个目标分量值对应确定为序列特征串中各序列位点的重要度。上述技术方案,能够准确快速的确定序列特征串中各序列位点的重要度,为后续对序列特征串的转录因子结合位点预测提供了有效的预测信息,从而保证了转录因子结合位点预测处理的准确性。实施例二图2为本发明实施例二提供的一种序列位点重要度的确定方法的流程示意图,本发明实施例二以上述实施例为基础进行优化,在本实施例中,进一步将初始化各所述位点权重向量具体优化为:在设定取值范围内随机选定各所述位点权重向量中分量的初始分量值,其中,所述设定取值范围为(0,1)。进一步地,本实施例将基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量具体优化为:将各所述初始位点权重向量作为所选定遗传算法中当前种群的个体;确定所述当前种群中各个体相对于所述等长序列串集合的适应值;如果当前符合迭代终止条件,则确定符合目标选取条件的目标适应值,将所述目标适应值对应的个体作为目标位点权重向量;否则,根据所述适应值确定下一代种群,并将所述下一代种群作为新的当前种群返回执行适应值的确定操作。在本实施例中,在将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度之后还进一步优化包括了:根据所述各序列位点的重要度及设定的相似性打分公式,采用设定的预测策略对所述定长序列串集合中的序列特征串进行转录因子结合位点预测。如图2所示,本发明实施例二提供的一种序列位点重要度的确定方法,具体包括如下操作:s201、确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量。在本实施例中,所述定长序列串集合可通过预先设定的数据处理方法对在transfac数据库中下载的任一套转录因子数据获得。所获得定长序列串集合中包含了多条长度相同的序列特征串,其长度相当于本实施例中的序列位点数,且有的序列特征串可能是已确定为转录因子结合位点的正序列特征串,余下的序列特征串则可能是确定为非转录因子结合位点的负序列特征串。本步骤将序列位点数看作待生成向量的维度,由此可以生成设定数量的维度为该序列位点数的位点权重向量,其中所述设定数量可优选为100。s202、在设定取值范围内随机选定各所述位点权重向量中分量的初始分量值,获得所述设定数量的具有初始分量值的初始位点权重向量。示例性地,本步骤进行位点权重向量初始化时,设定了初始化操作的条件,其条件为在设定取值范围内随机的选定数据作为向量的初始分量值,其中,所述设定取值范围优选为(0,1)。通过本步骤的操作,可以获得设定数量的初始位点权重向量。所述设定数量与上述步骤中的设定数量相同,具体优选为100。本实施例优选采用了遗传算法作为最优解搜索算法,下述s203至s208则相当于通过遗传算法实现了序列位点重要度的确定。s203、将各所述初始位点权重向量作为所选定遗传算法中当前种群的个体。具体地,本实施例将上述设定数量的初始位点权重向量看作遗传算法中一个初始种群(为便于描述,初始种群也可看作当前种群),相当于遗传算法的第一次迭代,每个初始位点权重向量则相当于当前种群中的个体。本实施例优选设定各初始权重向量以w0=[w01,w02,w03,w04,w05,w06,w07]的形式表示,各分量对应的具体值可通过上述s202确定。s204、确定所述当前种群中各个体相对于所述等长序列串集合的适应值。可以理解的是,在遗传算法中,适应值具体作为进行下一代群体选择的最基本参考数据。一般地,可以基于实际的应用目的设定不同的条件在当前种群中确定各个体对应的适应值。本实施例的应用目的相当于采用设定的预测策略对定长序列串集合中的序列特征串进行转录因子结合位点预测,通过预测结果与序列特征串真实所对应结果的比对验证,并通过设定的评测标准来确定该预测策略的有效性,其中,准确性(ac)便是设定的其中一个评测标准,该评测标准具体可表示为:其中,tp,tn,fp和fn分别是基于当前给定的序列位点重要度(当前种群中个体的分量值),采用预测策略对定长序列串集合中的序列特征串测试得到序列特征串为真阳性、真阴性、假阳性和假阴性的数目。具体地,真阳性(truepositives,tp)相当于被预测成正序列特征串,且本身也为正序列特征串;假阳性(falsepostiives,fp)相当于被预测成正序列特征串,但本身为负序列特征串;假阴性(falsenegatives,fn)相当于被预测成负序列特征串,但本身为正序列特征串;真阴性(truenegatives,tn)相当于被预测成负序列特征串,且本身也为负序列特征串。在该预测策略中,需要采用序列特征串各序列位点的重要度,由此本实施例优选的将ac作为本步骤中的适应值,此时,本步骤将各个体当前对应的分量值分别作为序列特征串中序列位点的重要度,由此分别基于各个体下确定的序列位点的重要度,采用设定预测策略实现转录因子结合位点的预测,并将各个体当前对应的ac值确定为各个体当前相对应定长序列串集合的适应值。s205、判定当前是否符合迭代终止条件,若是,则执行s206;若否,则执行s207。一般地,可以将基于遗传算法确定出下一代种群的过程看作一次迭代。本实施例优选的将设定的迭代次数确定为算法的迭代终止条件。本实施例优选设定迭代次数为10000次。具体地,如果当前的迭代次数没有达到10000次时,相当于不符合迭代终止条件,此时可以执行s207;否则,需要执行s206。s206、确定符合目标选取条件的目标适应值,将所述目标适应值对应的个体作为目标位点权重向量,之后执行s208。具体地,当符合迭代终止条件后,相当于不再基于当前种群中的个体进行下一代种群的确定,此时可获得当前种群中每个个体(当前的位点权重向量,可能既不是初始位点权重向量,也无法作为目标位点权重向量)中包含的分量值,同时,每个个体相对于定长序列串集合还存在一个适应值。本实施例可优选将适应值设定选取目标位点权重向量的目标选取条件,其中,目标选取条件优选为:按适应值大小排序后,排名前5的适应值。本实施例将符合目标选取条件的适应值确定为目标适应值。根据其目标适应值可以确定出与之关联的个体,这些个体就可作为本实施例的目标位点权重向量,在确定目标位点权重向量后,就可跳转至s208执行重要度确定操作。s207、根据所述适应值确定下一代种群,并将所述下一代种群作为新的当前种群,返回执行s204。当不符合迭代终止条件时,需要进一步确定形成下一代种群,所述下一代种群与当前种群相比,主要是其包含的个体所具备的分量值发生了改变。进一步地,本实施例优选设定所述根据所述适应值确定下一代种群,包括:根据所述适应值从所述当前种群中选取符合设定选择条件的个体作为下一代候选种群;根据设定的交叉算子及变异算子处理所述下一代候选种群中的个体,生成下一代种群。具体地,本实施例首先可对当前种群中个体的适应值以大小排序,将排名前2的适应值对应的个体直接作为下一代候选种群中的个体,然后在当前种群的其余个体中,基于轮盘赌选择方法确定下一代候选种群中的其余个体。可以知道的是,所述下一代候选种群的个体总数等同于当前种群的个体总数,同时也等同于下一代种群的个体总数。之后,本实施例可以对下一代候选种群中的个体通过给定的交叉算子和变异算子进行交叉变异处理,最终在下一代候选种群的基础上交叉变异生成下一代种群。其中,本实施例优选设定交叉算子为算数交叉,其具体描述如下:将下一代候选种群中的个体两两分组,分组后每组中的两个个体wi和wj分别相当于遗传学中的双亲,则双亲可通过下述公式进行交叉组合:其中,wi、和wy、分别表示交叉后生成的两个子个体,λ1为(0,1)之间的随机数,λ1=1-λ2;本实施例优选设定λ1为0.8,λ2为0.2。在基于上述交叉算子对下一代候选种群中的个体进行两两交叉形成新的个体后;再次基于本实施例设定的变异算子对交叉产生的个体进行变异处理。其中,本实施例优选其变异算子为简单的随机选值变异,即在设定的[0,1]范围内随机确定各交叉产生个体的分量值,由此实现个体的变异,并最终基于变异后的个体生成下一代种群。为实现遗传算法的迭代循环,本实施例将新生成的下一代种群确定为新的当前种群,然后跳转至s204进行下一的迭代处理。s208、将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。示例性地,本步骤可以在s206确定出目标位点权重向量后,将目标位点权重向量中各目标分量值对应确定为各序列位点的重要度。可以理解的是,本实施例基于s206确定出5个目标位点权重向量,因此,本实施例可以为序列特征串的每个序列位点确定出5个重要度。这里主要考虑了不同重要度对应的生物学意义,序列位点的不同重要度,可能在生物学中尤其是转录因子结合位点预测研究中具有不同的研究意义。s209、根据所述各序列位点的重要度及设定的相似性打分公式,采用设定的预测策略对所述定长序列串集合中的序列特征串进行转录因子结合位点预测。本实施例中,可以根据上述确定出的各序列位点的重要度,及设定的相似性打分公式,在设定的预测策略的规则下,对定长序列串集合中的序列特征串进行转录因子结合位点预测。具体地,设定的预测策略可表述为:1)确定所述定长序列串集合中包含的正序列特征串以及负序列特征串;2)将所述正序列特征串及所述负序列特征串分别对应划分为设定等份;3)顺序选取一等份的正序列特征串作为训练数据集,将其余等份的正序列特征串及对应等份的负序列特征串作为待测数据集;4)基于设定的相似性打分公式及所述各序列位点的重要度,确定待测数据集中各序列特征串与训练数据集中各序列特征串的相似性分值,并返回执行步骤3)直至重复进行设定等份次;5)循环结束后确定所述定长序列串集合中各序列特征串对应的最高相似性分值;6)将所述定长序列串集合中最高相似性分值大于或等于设定阈值的序列特征串预测为转录因子结合位点。上述预测策略相当于k倍交叉验证预测法,可以理解的是,本实施例通过已确定是否为转录因子结合位点的序列特征串的预测,可以验证所提出预测策略的准确性。其中,k相等于设定等份,可以将正序列特征串和负序列特征串分别划分为k份,k没有具体限制,可以人为设定,对于k份正序列特征串而言,每份正序列特征串可以做一次训练数据集,此时,将其余份的正序列特征串和与其余份对应的负序列特征串随机打乱顺序后作为待测数据集,由此可根据设定的相似性打分公式为待测数据集中的序列特征串计算出对应于训练数据集个数的相似性分值(相似性打分公式中涉及了各序列位点的重要度)。上述每份正序列特征串轮流做一次训练数据集后,定长序列串集合中的每个序列特征串均对应多个相似性分值,此时,可以确定每个序列特征串对应的最高相似性分值;最终,可以根据预先设置的设定阈值,确定是否存在最高相似分值大于或等于设定阈值的序列特征串,若存在,相当于将其该序列特征串预测为转录因子结合位点。进一步地,所述相似性打分公式表示为:其中,a表示所述定长序列串集合中的任一序列特征串;b表示所述定长序列串集合中不同于a的正序列特征串;a[i]和b[i]分别表示a和b中第i个序列位点的位点数据;sdna(a[i],b[i])表示设定的dna替代矩阵中的替代分数;w(i)表示第i个序列位点的重要度;l表示序列特征串的序列位点数。可以发现,转录因子结合位点预测的重要环节在于相似性打分阶段,基于本实施例的上述方法确定序列位点的重要度保证了相似性打分的准确性。需要说明的是,上述相似性打分公式中的替代分数具体根据组成转录因子序列的字符在生物学中的关系设定。在生物学中,可认为转录因子序列具体由表示带线嘌呤、鸟嘌呤、胞嘧啶以及胸腺嘧啶的a、g、c和t组成,且在化学性质上,可以知道嘌呤和嘌呤之间,即a和g是相似的,嘧啶和嘧啶之间,即t和c是相似的,但嘌呤和嘧啶之间没有相似性。因此本实施例采用了以下述方式替代矩阵形式表示的替代分数:acgta2-11-1c-12-11g1-12-1t-11-12基于上述替代矩阵中,可以知道,当上述a和b中的第i个位点的字符均为‘a’时,可确定sdna(a[i],b[i])=2;同样,当上述a和b中的第i个位点的字符分别为‘a’和‘c’时,sdna(a[i],b[i])=-1。为验证本实施例基于确定的序列位点重要度,采用预测策略进行转录因子结合位点预测时的预测结果的准确性和有效性,本实施例进一步给出了对预测结果进行验证的验证操作。具体地,本实施例给出了除ac之外的其余三个评测标准分别为:敏感度(sn)、特异性(sp)以及相关系数(mcc),其中,sn、sp以及mcc分别定义为:其中,上述公式中的tp,tn,fp和fn具有的意义已在上述s204后阐述。本实施例采用上述实施例一的表1中名称为q5的定长序列串集合,分别基于本实施例所提供的方法以及位点特异性打分矩阵方法(对比方法)进行转录因子结合位点预测。其中,上述两种方法中的预测策略均采用4倍交叉验证法,本实施的设定阈值为1.6,对比方法的设定阈值分别选取0.73、0.769和0.824。表2本实施例所提供方法与位点特异性打分矩阵方法的评测标准比对结果上述表2给出了本实施例所提供方法与位点特异性打分矩阵方法处理定长序列串集合q5中序列特征串后的评测标准比对结果。需要说明的是,设定阈值越高,相当于对序列特征串最高相似分数值的选择要求越高,基于上表可以发现,本实施例提供的方法中设置的设定阈值远比对应方法中的设定阈值高,但此时本实施例方法对应的各项评测标准值却比对比方法对应的评测标准值要好。由此说明,基于本实施例提供的序列位点重要度的确定方法对序列位点进行重要度确定后,其进行转录因子结合位点预测时的准确度和有效性都相对高于现有的预测方法。本发明实施例二提供的一种序列位点重要度的确定方法,具体描述了初始位点权重向量的确定过程,同时描述了目标位点权重向量的获得过程,此外还增加了基于各序列位点的重要度进行序列特征串进行转录因子结合位点预测的预测操作。利用该方法,能够根据确定的初始位点权重向量及选定的遗传算法确定分量值最优的位点权重向量作为目标位点权重向量,最终将目标位点权重向量中的最优分量值确定为序列特征串中各序列位点的重要度,所确定的重要度为后续对序列特征串的转录因子结合位点预测提供了有效的预测信息,从而保证了转录因子结合位点预测处理的准确性。实施例三图3为本发明实施例三提供的一种序列位点重要度的确定装置的结构框图。该装置适用于对转录因子序列特征串中序列位点重要度进行确定的情况,该装置可由软件和/或硬件实现,并一般集成计算机设备上。如图3所示,该装置包括:向量生成模块31、向量初始模块32、向量处理模块33以及重要度确定模块34。其中,向量生成模块31,用于确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;向量初始模块32,用于初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;向量处理模块33,用于基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;重要度确定模块34,用于将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。在本实施例中,该装置首先通过向量生成模块31确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;然后通过向量初始模块32初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;之后通过向量处理模块33基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;最终通过重要度确定模块34将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。本发明实施例三提供的一种序列位点重要度的确定装置,能够准确快速的确定序列特征串中各序列位点的重要度,为后续对序列特征串的转录因子结合位点预测提供了有效的预测信息,从而保证了转录因子结合位点预测处理的准确性。进一步地,向量初始模块32,具体用于:在设定取值范围内随机选定各所述位点权重向量中分量的初始分量值,获得所述设定数量的具有初始分量值的初始位点权重向量,其中,所述设定取值范围为(0,1)。进一步地,向量处理模块33,具体用于:将各所述初始位点权重向量作为所选定遗传算法中当前种群的个体;确定所述当前种群中各个体相对于所述等长序列串集合的适应值;如果当前符合迭代终止条件,则确定符合目标选取条件的目标适应值,将所述目标适应值对应的个体作为目标位点权重向量;否则,根据所述适应值确定下一代种群,并将所述下一代种群作为新的当前种群返回执行适应值的确定操作。在上述优化的基础上,所述根据所述适应值确定下一代种群,包括:根据所述适应值从所述当前种群中选取符合设定选择条件的个体作为下一代候选种群;根据设定的交叉算子及变异算子处理所述下一代候选种群中的个体,生成下一代种群。进一步的,本实施例还包括:结合位点预测模块35,用于在将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度之后,根据所述各序列位点的重要度及设定的相似性打分公式,采用设定的预测策略对所述定长序列串集合中的序列特征串进行转录因子结合位点预测。在上述优化的基础上,所述相似性打分公式表示为:其中,a表示所述定长序列串集合中的任一序列特征串;b表示所述定长序列串集合中不同于a的标签为阳性数据的序列特征串;a[i]和b[i]分别表示a和b中第i个序列位点的位点数据;sdna(a[i],b[i])表示设定的dna替代矩阵中的替代分数;w(i)表示第i个序列位点的重要度;l表示序列特征串的序列位点数。实施例四本发明实施例四提供了一种计算机设备,图4为本发明实施例四提供的一种计算机设备的硬件结构示意图,如图4所示,该计算机设备包括:处理器41和存储装置42,该计算机设备中的处理器可以是一个或多个,图4中以一个处理器41为例;此外,处理器和存储装置可以通过总线或其他方式连接,图4中以通过总线连接为例。该计算机设备中的存储装置42作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例提供的序列位点重要度的确定装置中对应的程序指令/模块(例如,附图3所示的模块,包括:向量生成模块31、向量初始模块32、向量处理模块33以及重要度确定模块34,还包括了结合位点预测模块35)。处理器41通过运行存储在存储装置42中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述方法实施例中序列位点重要度的确定方法。存储装置42可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储装置42可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置42可进一步包括相对于处理器41远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。并且,当上述计算机设备所包括一个或者多个程序被所述一个或者多个处理器41执行时,其中一个程序可以进行如下操作:确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。此外,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明实施例一和实施例二提供的序列位点重要度的确定方法,其中,上述实施例一供的方法包括:确定定长序列串集合中序列特征串具有的序列位点数,生成设定数量的维数为所述序列位点数的位点权重向量;初始化各所述位点权重向量,获得所述设定数量的具有初始分量值的初始位点权重向量;基于选定的最优解搜索算法迭代处理各所述初始位点权重向量,获得目标位点权重向量;将所述目标位点权重向量中的各目标分量值对应确定为序列特征串中各序列位点的重要度。通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。值得注意的是,上述序列位点重要度的确定装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。需要说明的是,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1