基因载体的序列诊断方法、系统、存储介质及电子设备与流程

文档序号:20760831发布日期:2020-05-15 18:06阅读:319来源:国知局
基因载体的序列诊断方法、系统、存储介质及电子设备与流程

本发明涉及基因诊断领域,更具体地,涉及一种基因载体的序列诊断方法、基因载体的序列诊断系统、计算机存储介质及电子设备。



背景技术:

随着生物技术的不断发展,人们对生物实验所需的基础材料——载体的需求愈来愈大,而对于载体生产商来说,随着载体制作量的增大,客户设计载体的多样化让生产商无法逐一定价,往往在载体生产过程中才发现由于序列不同特点导致制作难度增大,生产需要消耗更大成本或根本无法完成,中途改价或终止生产都大大影响了客户的服务体验,降低了双方的生产效率,致使买卖双方都遭受无法预计的损失。

面对这种情况,目前采用的方案通常是在载体进入生产前(载体生成时),就对它的序列特点有一定的判断,当用户进行人工询价时,有利于工作人员对载体价格有初步判断,同时在发现有完成难度大或无法完成的情况时,提前向生产者发出预警,引起重视,提前调整定价及生产计划,告知客户具体情况,从而预防以上情况的发生。但由于载体数量较大,人工逐一判断存在很多缺陷,不仅容易出现判断错误的问题,而且劳动量大,成本难以控制,也在很大程度上影响了生产效率。



技术实现要素:

有鉴于此,本发明提供一种基因载体的序列诊断方法、基因载体的序列诊断系统、计算机存储介质及电子设备,能够有效提高基因载体的诊断效率和生产效率,降低成本。

为解决上述技术问题,一方面,本发明提供一种基因载体的序列诊断方法,包括以下步骤:s1、获取多个基因载体的基因序列,得到基因序列集合;s2、根据所述基因序列的特性,将所述基因序列集合的多个所述基因序列进行随机分类,得到多个子集合;s3、对每个所述子集合的基因序列分别进行训练,得到训练模型;s4、获取待诊断基因载体和/或目的基因的基因序列,并将其输入所述训练模型;s5、所述训练模型根据检测结果对所述待诊断基因载体和/或目的基因设定对应的标签。

根据本发明实施例的基因载体的序列诊断方法,通过对基因载体的基因序列进行搜集、分类和训练,得到合理的训练模型,运用训练模型对待诊断基因载体和/或目的基因进行直接诊断,可以有效提高诊断效率和生产效率,预防载体进入生产后才发现难度大,成本过高或无法进行生产等情况的发生,降低了成本。

根据本发明的一些实施例,在步骤s2中,所述基因序列的特性包括:基因序列的gc含量、基因序列的重复序列数量、基因序列的长度、基因序列是否含有非atcg字符、基因载体是否为病毒,所述子集合为五个。

根据本发明的一些实施例,步骤s3包括:计算启动子的gc含量;判断所述启动子的总gc含量是否大于70%或局部片段的gc含量是否大于80%,若是,则对所述基因序列设定第一标签;判断所述启动子的总gc含量是否小于30%或局部片段的gc含量是否小于20%,若是,则对所述基因序列设定第二标签。

根据本发明的一些实施例,所述局部片段为180bp-230bp。

根据本发明的一些实施例,步骤s3包括:

判断启动子是否有10个以上重复的重复序列,或是否有连续超过20个单一碱基的重复序列,若有,则对所述基因序列设定第三标签。

根据本发明的一些实施例,步骤s3包括:计算启动子的长度;判断所述启动子的长度是否小于100bp,若是,则对所述基因序列设定第四标签;判断所述启动子的长度是否大于77000bp,若是,则对所述基因序列设定第五标签。

根据本发明的一些实施例,步骤s3包括:判断基因序列是否含有非atcg字符,若是,则对所述基因序列设定第六标签。

根据本发明的一些实施例,步骤s3还包括:判断待诊断基因载体的病毒种类;若所述待诊断基因载体是慢病毒载体时,判断δ5'ltr'和'δu3/3'ltr元件之间的序列片段是否大于9200bp;若所述待诊断基因载体是腺相关病毒载体时,判断5'itr和3'itr元件之间的序列片段是否大于4700bp;若所述待诊断基因载体是腺病毒载体时,判断5'itr和3'itr元件之间的序列片段是否大于38700bp;若所述待诊断基因载体是逆转录病毒mmlv载体时,判断5'momulvltr和3'momulvltr元件之间的序列片段是否大于8300bp;若所述待诊断基因载体是逆转录病毒mscv载体时,判断mscv5'ltr和mscv3'ltr元件之间的序列片段是否大于8300bp;若是,则对所述待诊断基因载体设定第七标签。

第二方面,本发明实施例提供一种基因载体的序列诊断系统,包括:基因序列获取模块,所述基因序列获取模块能够获取用户上传的待诊断基因载体和/或目的基因的基因序列;数据处理模块,所述数据处理模块能够接收所述基因序列获取模块获取的基因序列,并对所述基因序列的特性进行判断,得到判断结果;标签打印模块,所述标签打印模块根据所述判断结果对需要设定标签的所述基因序列打印对应的标签。

根据本发明的一些实施例,所述数据处理模块能够计算启动子的gc含量,判断所述启动子的总gc含量是否大于70%或局部片段的gc含量是否大于80%,若是,则对所述基因序列设定第一标签;判断所述启动子的总gc含量是否小于30%或局部片段的gc含量是否小于20%,若是,则对所述基因序列设定第二标签。

根据本发明的一些实施例,所述数据处理模块能够判断启动子是否有10个以上重复的重复序列,或是否有连续超过20个单一碱基的重复序列,若有,则对所述基因序列设定第三标签。

根据本发明的一些实施例,所述数据处理模块能够计算启动子的长度,判断所述启动子的长度是否小于100bp,若是,则对所述基因序列设定第四标签;判断所述启动子的长度是否大于77000bp,若是,则对所述基因序列设定第五标签。

根据本发明的一些实施例,所述数据处理模块能够判断基因序列是否含有非atcg字符,若是,则对所述基因序列设定第六标签。

根据本发明的一些实施例,所述数据处理模块能够判断待诊断基因载体的病毒种类,若所述待诊断基因载体是慢病毒载体时,判断δ5'ltr'和'δu3/3'ltr元件之间的序列片段是否大于9200bp;若所述待诊断基因载体是腺相关病毒载体时,判断5'itr和3'itr元件之间的序列片段是否大于4700bp;若所述待诊断基因载体是腺病毒载体时,判断5'itr和3'itr元件之间的序列片段是否大于38700bp;若所述待诊断基因载体是逆转录病毒mmlv载体时,判断5'momulvltr和3'momulvltr元件之间的序列片段是否大于8300bp;若所述待诊断基因载体是逆转录病毒mscv载体时,判断mscv5'ltr和mscv3'ltr元件之间的序列片段是否大于8300bp;若是,则对所述待诊断基因载体设定第七标签。

第三方面,本发明实施例提供一种计算机存储介质,包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现如上述实施例所述的方法。

根据本发明第四方面实施例的电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令;所述处理器用于调用并执行所述一条或多条计算机指令,从而实现如上述任一实施例所述的方法。

附图说明

图1为根据本发明实施例的基因载体的序列诊断方法的流程图;

图2为根据本发明实施例的基因载体的序列诊断系统的示意图;

图3为本发明实施例的电子设备的示意图。

附图标记:

基因载体的序列诊断系统100;

基因序列获取模块10;数据处理模块20;标签打印模块30;

电子设备300;

存储器310;操作系统311;应用程序312;

处理器320;网络接口330;输入设备340;硬盘350;显示设备360。

具体实施方式

下面将结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。

下面首先对本申请中涉及的相关名词进行解释说明。

载体:载体(vector),指在基因工程重组dna技术中将dna片段(目的基因)转移至受体细胞的一种能自我复制的dna分子。三种最常用的载体是细菌质粒、噬菌体和动植物病毒。在实际生活中,胰岛素就可以通过使用载体将已插入胰岛素基因片段的质粒放入大肠杆菌内。经过插入基因片段的质粒就称作载体。该质粒在细菌内可以进行自我复制,并且不会影响到生物原来的活动。

构建载体:载体构建是分子生物学研究常用的手段之一。主要包括已有载体多克隆位点mcs的改造和已有载体启动子、增强子、筛选标记等功能元件的改造。通过计算机构建载体是指,在已有的载体框架需要改造的功能元件处,插入或修改核酸序列,构建出新的载体。

启动子:启动子是rna聚合酶识别、结合和开始转录的一段dna序列,它含有rna聚合酶特异性结合和转录起始所需的保守序列,多数位于结构基因转录起始点的上游,启动子本身不被转录。但有一些启动子(如trna启动子)位于转录起始点的下游,这些dna序列可以被转录。启动子的特性最初是通过能增加或降低基因转录速率的突变而鉴定的。启动子一般位于转录起始位点的上游。

目的基因:目的基因(geneofinterest),也称靶标基因,是指在实验中研究或操纵的特定基因。在基因克隆过程中目的基因就是要分离、纯化、克隆并转化到生物体的那个可以带来预期表型性状如抗虫或耐除草剂的基因。

下面结合附图具体描述根据本发明实施例的基因载体的序列诊断方法。

如图1所示,根据本发明实施例的基因载体的序列诊断方法包括以下步骤:

s1、获取多个基因载体的基因序列,得到基因序列集合。

s2、根据所述基因序列的特性,将所述基因序列集合的多个所述基因序列进行随机分类,得到多个子集合。

s3、对每个所述子集合的基因序列分别进行训练,得到训练模型。

s4、获取待诊断基因载体和/或目的基因的基因序列,并将其输入所述训练模型。

s5、所述训练模型根据检测结果对所述待诊断基因载体和/或目的基因设定对应的标签。

换言之,根据本发明实施例的基因载体的序列诊断方法在对待诊断基因载体进行诊断之前,首先搜集现有的基因载体的基因序列,形成一个数据集,然后根据基因载体的不同特性,将数据集随机分成多个对应的子集合,接着将每个子集合的基因序列分别按照设定的指令进行训练,得到训练模型。然后获取用户提供的待诊断载体或者目的基因的基因序列,通过训练模型对该基因序列进行诊断,并根据诊断结果对基因序列设定对应的标签,以供后续生产人员或其他人员对该载体或目的基因的重复序列、病毒包装难度、生产风险、载体生产难度、载体的生物有效性等进行综合判断。

由此,根据本发明实施例的基因载体的序列诊断方法,通过对基因载体的基因序列进行搜集、分类和训练,得到合理的训练模型,运用训练模型在生产前提前对待诊断基因载体和/或目的基因进行直接诊断,可以有效提高诊断效率和生产效率,预防载体进入生产后才发现难度大,成本过高或无法进行生产等情况的发生,降低了成本。

根据本发明的一个实施例,在步骤s2中,所述基因序列的特性包括:基因序列的gc含量、基因序列的重复序列数量、基因序列的长度、基因序列是否含有非atcg字符、基因载体是否为病毒,所述子集合为五个。

针对基因序列的不同特性,步骤s3也包括不同的训练流程。在本发明的一些具体实施方式中,步骤s3包括:

计算启动子的gc含量。

判断所述启动子的总gc含量是否大于70%或局部片段的gc含量是否大于80%,若是,则对所述基因序列设定第一标签。

判断所述启动子的总gc含量是否小于30%或局部片段的gc含量是否小于20%,若是,则对所述基因序列设定第二标签。

优选地,所述局部片段为180bp-230bp。

具体地,针对基因序列的该特性,在实际诊断过程中,首先计算启动子和目的基因的gc含量,若启动子或目的基因的片段的总体gc含量大于70%或片段局部(200bp)的gc含量大于80%,则为该载体打上标签risk-highgc;若启动子或目的基因的片段的总体gc含量小于30%或片段局部(200bp)的gc含量小于20%,则为该载体打上标签risk-lowgc;其他情况则不做处理。

在本发明的一些具体实施方式中,步骤s3包括:判断启动子是否有10个以上重复的重复序列,或是否有连续超过20个单一碱基的重复序列,若有,则对所述基因序列设定第三标签。

具体地,在实际诊断过程中,判断载体中启动子或目的基因是否有10个以上重复的重复序列,或有连续超过20(包括20)个单一碱基的重复序列。若有则打上标签risk-repeat,否则不做处理。

根据本发明的一个实施例,步骤s3还可以包括:

计算启动子的长度;

判断所述启动子的长度是否小于100bp,若是,则对所述基因序列设定第四标签;

判断所述启动子的长度是否大于77000bp,若是,则对所述基因序列设定第五标签。

换句话说,该步骤中,可以计算启动子和目的基因的长度,若启动子或者目的基因的长度小于等于100bp,则为该载体打上标签risk-smallinsert;若启动子或目的基因的长度大于等于77000bp,则为该载体打上标签risk-largeinsert;其他情况则不做处理。

在本发明的另一些具体实施方式中,步骤s3包括:判断基因序列是否含有非atcg字符,若是,则对所述基因序列设定第六标签。例如,该步骤为判断载体全序列是否含有非atcg字符,若有则为该载体打上标签containingambiguousbase;否则不做处理。

根据本发明的一个实施例,当基因载体为病毒时,步骤s3还包括:

判断待诊断基因载体的病毒种类;

若所述待诊断基因载体是慢病毒载体时,判断δ5'ltr'和'δu3/3'ltr元件之间的序列片段是否大于9200bp;

若所述待诊断基因载体是腺相关病毒载体时,判断5'itr和3'itr元件之间的序列片段是否大于4700bp;

若所述待诊断基因载体是腺病毒载体时,判断5'itr和3'itr元件之间的序列片段是否大于38700bp;

若所述待诊断基因载体是逆转录病毒mmlv载体时,判断5'momulvltr和3'momulvltr元件之间的序列片段是否大于8300bp;

若所述待诊断基因载体是逆转录病毒mscv载体时,判断mscv5'ltr和mscv3'ltr元件之间的序列片段是否大于8300bp;

若是,则对所述待诊断基因载体设定第七标签。

具体地,若载体是慢病毒(lv)载体的同时δ5'ltr'和'δu3/3'ltr元件之间的序列片段大于9200bp,或载体是腺相关病毒(aav)载体的同时5'itr和3'itr元件之间的序列片段大于4700bp,或载体是腺病毒(av)载体的同时5'itr和3'itr元件之间的序列片段大于38700bp,或载体是逆转录病毒(mmlv)载体的同时5'momulvltr和3'momulvltr元件之间的序列片段大于8300bp,或载体是逆转录病毒(mscv)载体的同时mscv5'ltr和mscv3'ltr元件之间的序列片段大于8300bp,则为该载体打上标签risk-overviruspackagingsize;其他情况则不做处理。

由此,通过对多个子集合分别进行不同的训练,在需要对待诊断基因载体进行诊断时,可以根据需要采用不同的训练模型对待诊断基因载体或目的基因进行诊断,通过提前判断载体序列特性,为载体打上不同特性标签,有利于工作人员在用户询价时对载体价格有初步判断,同时预防载体进入生产后才发现难度大,成本过高或无法进行等情况,提高效率,减少买卖双方损失。

如图2所示,根据本发明实施例的基因载体的序列诊断系统100包括基因序列获取模块10、数据处理模块20和标签打印模块30。

具体而言,基因序列获取模块10能够获取用户上传的待诊断基因载体和/或目的基因的基因序列,数据处理模块20能够接收基因序列获取模块10获取的基因序列,并对基因序列的特性进行判断,得到判断结果,标签打印模块30根据判断结果对需要设定标签的基因序列打印对应的标签。

其中,数据处理模块20能够根据基因序列的不同特性进行不同的数据处理。在本发明的一些具体实施方式中,数据处理模块20能够计算启动子的gc含量,判断启动子的总gc含量是否大于70%或局部片段的gc含量是否大于80%,若是,则对基因序列设定第一标签;判断启动子的总gc含量是否小于30%或局部片段的gc含量是否小于20%,若是,则对基因序列设定第二标签。

可选地,数据处理模块20能够判断启动子是否有10个以上重复的重复序列,或是否有连续超过20个单一碱基的重复序列,若有,则对基因序列设定第三标签。

可选地,数据处理模块20能够计算启动子的长度,判断启动子的长度是否小于100bp,若是,则对基因序列设定第四标签;判断启动子的长度是否大于77000bp,若是,则对基因序列设定第五标签。

可选地,数据处理模块20能够判断基因序列是否含有非atcg字符,若是,则对基因序列设定第六标签。

可选地,数据处理模块20能够判断待诊断基因载体的病毒种类,

若待诊断基因载体是慢病毒载体时,判断δ5'ltr'和'δu3/3'ltr元件之间的序列片段是否大于9200bp;

若待诊断基因载体是腺相关病毒载体时,判断5'itr和3'itr元件之间的序列片段是否大于4700bp;

若待诊断基因载体是腺病毒载体时,判断5'itr和3'itr元件之间的序列片段是否大于38700bp;

若待诊断基因载体是逆转录病毒mmlv载体时,判断5'momulvltr和3'momulvltr元件之间的序列片段是否大于8300bp;

若待诊断基因载体是逆转录病毒mscv载体时,判断mscv5'ltr和mscv3'ltr元件之间的序列片段是否大于8300bp;

若是,则对待诊断基因载体设定第七标签。

根据本发明实施例的基因载体的序列诊断系统100的具体诊断过程在上述实施例中已经详细描述,因此不再赘述。

其中需要说明的是,根据本发明实施例的基因载体的序列诊断系统100可以应用于网络,基因序列获取模块10可以为在线显示的数据输入窗口,用户从数据输入窗口输入数据后,交由后台的数据处理模块20进行数据处理,数据处理模块20通过对用户输入的基因序列进行诊断,并通过标签打印模块30输出标签打印结果,后台在获取询价或订单的数据的同时获取对应的载体的标签,将其同时显示在一个页面中,供工作人员查看,有利于工作人员在用户询价时对载体价格有初步判断,同时预防载体进入生产后才发现难度大,成本过高或无法进行等情况,提高效率,减少买卖双方损失。

此外,本发明还提供一种计算机存储介质,所述计算机存储介质包括一条或多条计算机指令,所述一条或多条计算机指令在执行时实现上述任一所述的基因载体的序列诊断方法。

也就是说,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器运行时,使得所述处理器执行上述任一所述的基因载体的序列诊断方法。

如图3所示,本发明实施例提供了一种电子设备300,包括存储器310和处理器320,所述存储器310用于存储一条或多条计算机指令,所述处理器320用于调用并执行所述一条或多条计算机指令,从而实现上述任一所述的方法。

也就是说,电子设备300包括:处理器320和存储器310,在所述存储器310中存储有计算机程序指令,其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器320执行上述任一所述的方法。

进一步地,如图3所示,电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。

上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(cpu),以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。

所述网络接口330,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,并可以保存在硬盘350中。

所述输入设备340,可以接收操作人员输入的各种指令,并发送给处理器320以供执行。所述输入设备340可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。

所述显示设备360,可以将处理器320执行指令获得的结果进行显示。

所述存储器310,用于存储操作系统运行所必须的程序和数据,以及处理器320计算过程中的中间结果等数据。

可以理解,本发明实施例中的存储器310可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram),其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。

在一些实施方式中,存储器310存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统311和应用程序312。

其中,操作系统311,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序312,包含各种应用程序,例如浏览器(browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。

本发明上述实施例揭示的方法可以应用于处理器320中,或者由处理器320实现。处理器320可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310,处理器320读取存储器310中的信息,结合其硬件完成上述方法的步骤。

可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(asic)、数字信号处理器dsp)、数字信号处理设备(dspd)、可编程逻辑设备(pld)、现场可编程门阵列(fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。

对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。

具体地,处理器320还用于读取所述计算机程序,执行上述任一所述的方法。

在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read-onlymemory,简称rom)、随机存取存储器(randomaccessmemory,简称ram)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1