背景技术:
1、腺相关病毒(aav)是基因疗法中转基因递送的金标准。虽然提供许多优点,例如低免疫原性和强感染性,但一个限制是其严格的dna包装容量。许多治疗模式已经接近此限制。结合在重组aav载体中编码的其它特征,这为调控序列留下了很少的空间。常用的病毒和内源性哺乳动物启动子都超过这些限制,并且不能用于aav介导的大型转基因的递送。因此,强烈需要短且有效的调控序列。
技术实现思路
1、公开了包括以下的方法:接收遗传数据,其中遗传数据包括第一多个核苷酸序列,其中多个核苷酸序列中的每个核苷酸序列包括具有相关联表达得分的至少一个转录起始位点(tss);基于相关联表达得分满足阈值,从第一多个核苷酸序列确定多个tss;基于多个tss确定多个顶点核苷酸碱基;针对多个顶点核苷酸碱基中的每个顶点核苷酸碱基确定相关联的多个周围碱基;将每个顶点核苷酸碱基和相关联的多个周围碱基存储为标记为核心启动子的第二多个核苷酸序列;针对第二多个核苷酸序列中的每个核苷酸序列确定相关联的多个移位碱基;将每个相关联的多个移位碱基存储为标记为非核心启动子的第三多个核苷酸序列;基于标记为核心启动子的第二多个核苷酸序列和标记为非核心启动子的第三多个核苷酸序列生成训练数据集;基于训练数据集确定预测模型的多个特征;基于训练数据集的第一部分,根据多个特征训练预测模型;基于训练数据集的第二部分测试预测模型;以及基于测试输出预测模型。
2、还公开了包括以下的方法:接收遗传数据,其中遗传数据包括第一多个核苷酸序列,其中多个核苷酸序列中的每个核苷酸序列包括具有相关联表达得分的至少一个转录起始位点(tss);基于第一多个核苷酸序列确定标记为核心启动子的第二多个核苷酸序列;基于第二多个核苷酸序列确定标记为非核心启动子的第三多个核苷酸序列;基于标记为核心启动子的第二多个核苷酸序列和标记为非核心启动子的第三多个核苷酸序列生成训练数据集;基于训练数据集确定预测模型的多个特征;基于训练数据集的第一部分,根据多个特征训练预测模型;基于训练数据集的第二部分测试预测模型;以及基于测试输出预测模型。
3、还公开了包括以下的方法:接收遗传数据,其中遗传数据包括第一多个核苷酸序列,其中多个核苷酸序列中的每个核苷酸序列包括具有相关联表达得分的至少一个转录起始位点(tss);归一化遗传数据;基于相关联的表达得分对tss进行集群;针对tss的每个集群确定分位数间宽度;基于分位数间宽度将每个tss标记为尖锐tss或宽tss;基于多个tss确定多个顶点核苷酸碱基;针对多个顶点核苷酸碱基中的每个顶点核苷酸碱基确定相关联的多个周围碱基;将每个顶点核苷酸碱基和相关联的多个周围碱基存储为标记为核心启动子的第二多个核苷酸序列;基于相关联表达得分满足阈值,从第二多个核苷酸序列确定第三多个核苷酸序列;针对第三多个核苷酸序列中的每个核苷酸序列确定相关联的多个移位碱基;将每个相关联的多个移位碱基存储为标记为非核心启动子的第四多个核苷酸序列;基于标记为核心启动子的第三多个核苷酸序列和标记为非核心启动子的第四多个核苷酸序列生成训练数据集;针对训练数据集中的每个核苷酸序列生成多个种子序列和靶核苷酸对;向量化多个种子序列和靶核苷酸对中的每个种子序列和靶核苷酸对;基于向量化的种子序列和靶核苷酸对训练生成模型;以及输出生成模型。
4、还公开了包括以下的方法:接收遗传数据,其中遗传数据包括第一多个核苷酸序列,其中多个核苷酸序列中的每个核苷酸序列包括具有相关联表达得分的至少一个转录起始位点(tss);基于第一多个核苷酸序列确定标记为核心启动子的第二多个核苷酸序列;基于相关联表达得分满足阈值,从第二多个核苷酸序列确定第三多个核苷酸序列;基于第三多个核苷酸序列确定标记为非核心启动子的第四多个核苷酸序列;基于标记为核心启动子的第三多个核苷酸序列和标记为非核心启动子的第四多个核苷酸序列生成训练数据集;基于训练数据集训练生成模型;以及输出生成模型。
5、还公开了包括以下的方法:接收核苷酸序列;向经训练预测模型提供核苷酸序列;以及基于预测模型确定核苷酸序列为核心启动子。
6、还公开了包括以下的方法:(a)接收核苷酸序列和序列长度;(b)向经训练生成模型提供核苷酸序列;(c)基于生成模型确定与核苷酸序列相关联的下一个核苷酸;(d)将下一个核苷酸附加到核苷酸序列;(e)重复b-d直到核苷酸序列的长度等于序列长度;以及(f)将核苷酸序列输出为核心启动子序列。
7、还公开了包括以下的方法:接收遗传数据,其中遗传数据包括第一多个核苷酸序列,其中多个核苷酸序列中的每个核苷酸序列包括具有相关联表达得分的至少一个转录起始位点(tss);基于第一多个核苷酸序列确定标记为核心启动子的第二多个核苷酸序列;基于相关联表达得分满足阈值,从第二多个核苷酸序列确定第三多个核苷酸序列;基于第三多个核苷酸序列确定标记为非核心启动子的第四多个核苷酸序列;基于标记为核心启动子的第三多个核苷酸序列和标记为非核心启动子的第四多个核苷酸序列生成训练数据集;基于训练数据集训练生成模型。
8、公开了被配置成执行所公开的方法中的任何方法的设备。
9、公开计算机可读介质,其上具有被配置成使设备执行所公开方法中的任一种的处理器可执行指令实施例。
10、所公开的方法和组成的另外优势将部分地在以下描述中阐述,并且将部分地从描述中理解,或可通过实践所公开的方法和组成来学习。所公开的方法和组合物的优点将通过所附权利要求书中特别指出的元素和组合来实现和获得。应当理解,前述一般描述和以下详细描述两者均仅是示例性和解释性的,并且不限制所要求保护的本发明。
1.一种方法,其包括:
2.根据权利要求1所述的方法,其中所述相关联表达得分包括基因表达帽分析(cage)峰。
3.根据权利要求1所述的方法,其中基于所述多个tss确定所述多个顶点核苷酸碱基包括针对所述多个tss中的每一个确定具有最强cage信号的核苷酸碱基。
4.根据权利要求1所述的方法,其中针对所述多个顶点核苷酸碱基中的每个顶点核苷酸碱基确定所述相关联的多个周围碱基包括针对所述多个顶点核苷酸碱基中的每个顶点核苷酸碱基确定5'方向上的第一多个核苷酸碱基和3'方向上的第二多个核苷酸碱基。
5.根据权利要求4所述的方法,其中所述5'方向上的所述第一多个核苷酸碱基包括49个核苷酸碱基,且所述3'方向上的所述第二多个核苷酸碱基包括50个核苷酸碱基。
6.根据权利要求1所述的方法,其中针对所述第二多个核苷酸序列中的每个核苷酸序列确定所述相关联的多个移位碱基包括将一定数量的核苷酸碱基从所述第二多个核苷酸序列中的每个核苷酸序列移开。
7.根据权利要求1所述的方法,其中所述预测模型的所述多个特征包括gc含量、at和cg二核苷酸频率、atg频率、核心启动子基序出现、相对熵和相对于相关联tss的相对定位中的一个或多个。
8.根据权利要求1所述的方法,其还包括从所述第一多个核苷酸序列滤除所述多个tss中的任何tss,所述第一多个核苷酸序列具有与生成模型中使用的tss的表达得分重叠的表达得分。
9.根据权利要求1所述的方法,其还包括滤除在人类基因组组装体(hg19)中含有n的所述第二多个核苷酸序列中的任何核苷酸序列。
10.一种方法,其包括:
11.根据权利要求10所述的方法,其中基于所述第二多个核苷酸序列确定标记为非核心启动子的第三多个核苷酸序列包括:
12.根据权利要求11所述的方法,其中针对所述第二多个核苷酸序列中的每个核苷酸序列确定所述相关联的多个移位碱基包括将一定数量的核苷酸碱基从所述第二多个核苷酸序列中的每个核苷酸序列移开。
13.根据权利要求10所述的方法,其中所述相关联表达得分包括基因表达帽分析(cage)峰。
14.根据权利要求10所述的方法,其中基于所述第一多个核苷酸序列确定标记为核心启动子的所述第二多个核苷酸序列包括:
15.根据权利要求14所述的方法,其中基于所述多个tss确定所述多个顶点核苷酸碱基包括针对所述多个tss中的每一个确定具有最强cage信号的核苷酸碱基。
16.根据权利要求14所述的方法,其中针对所述多个顶点核苷酸碱基中的每个顶点核苷酸碱基确定所述相关联的多个周围碱基包括针对所述多个顶点核苷酸碱基中的每个顶点核苷酸碱基确定5'方向上的第一多个核苷酸碱基和3'方向上的第二多个核苷酸碱基。
17.根据权利要求16所述的方法,其中所述5'方向上的所述第一多个核苷酸碱基包括49个核苷酸碱基,且所述3'方向上的所述第二多个核苷酸碱基包括50个核苷酸碱基。
18.根据权利要求10所述的方法,其中所述预测模型的所述多个特征包括gc含量、at和cg二核苷酸频率、atg频率、核心启动子基序出现、相对熵和相对于相关联tss的相对定位中的一个或多个。
19.根据权利要求14所述的方法,其还包括从所述第一多个核苷酸序列滤除所述多个tss中的任何tss,所述第一多个核苷酸序列具有与生成模型中使用的tss的表达得分重叠的表达得分。
20.根据权利要求10所述的方法,其还包括滤除在人类基因组组装体(hg19)中含有n的所述第二多个核苷酸序列中的任何核苷酸序列。
21.一种方法,其包括:
22.根据权利要求21所述的方法,其中所述相关联表达得分包括基因表达帽分析(cage)峰。
23.根据权利要求21所述的方法,其中基于所述多个tss确定所述多个顶点核苷酸碱基包括针对所述多个tss中的每一个确定具有最强cage信号的核苷酸碱基。
24.根据权利要求21所述的方法,其中针对所述多个顶点核苷酸碱基中的每个顶点核苷酸碱基确定所述相关联的多个周围碱基包括针对所述多个顶点核苷酸碱基中的每个顶点核苷酸碱基确定5'方向上的第一多个核苷酸碱基和3'方向上的第二多个核苷酸碱基。
25.根据权利要求24所述的方法,其中所述5'方向上的所述第一多个核苷酸碱基包括49个核苷酸碱基,且所述3'方向上的所述第二多个核苷酸碱基包括50个核苷酸碱基。
26.根据权利要求21所述的方法,其中针对所述第三多个核苷酸序列中的每个核苷酸序列确定所述相关联的多个移位碱基包括将一定数量的核苷酸碱基从所述第三多个核苷酸序列中的每个核苷酸序列移开。
27.根据权利要求21所述的方法,其还包括滤除在人类基因组组装体(hg19)中含有n的所述第二多个核苷酸序列中的任何核苷酸序列。
28.根据权利要求21所述的方法,其中每个种子序列和靶核苷酸对在给定核苷酸序列上包括具有限定长度的种子序列和紧跟在所述种子序列之后的靶核苷酸。
29.根据权利要求28所述的方法,其中所述限定长度为10个碱基。
30.根据权利要求21所述的方法,其中针对所述训练数据集中的每个核苷酸序列生成所述多个种子序列和靶核苷酸对包括:
31.根据权利要求21所述的方法,其中向量化所述多个种子序列和靶核苷酸对中的每个种子序列和靶核苷酸对包括将每个核苷酸编码为相应数目。
32.根据权利要求21所述的方法,其中所述生成模型包括长短期记忆(lstm)循环神经网络(rnn)。
33.根据权利要求21所述的方法,其还包括基于所述生成模型生成核苷酸序列。
34.根据权利要求33所述的方法,其中基于所述生成模型生成所述核苷酸序列包括:
35.根据权利要求34所述的方法,其中所述所需长度为从约50个核苷酸到约100个核苷酸。
36.根据权利要求33所述的方法,其中所述核苷酸序列为核心启动子序列。
37.根据权利要求36所述的方法,其还包括基于所述核心启动子序列工程化启动子。
38.根据权利要求37所述的方法,其还包括将所述启动子插入到核酸构建体中。
39.根据权利要求38所述的方法,其中将所述启动子插入到所述核酸构建体中包括将所述启动子插入到转基因上游的所述核酸构建体中以驱动所述转基因的表达。
40.根据权利要求38所述的方法,其还包括产生包括所述核酸构建体的腺相关病毒或慢病毒。
41.一种方法,其包括:
42.根据权利要求41所述的方法,其还包括归一化所述遗传数据。
43.根据权利要求41所述的方法,其还包括:
44.根据权利要求41所述的方法,其中基于所述第三多个核苷酸序列确定标记为非核心启动子的所述第四多个核苷酸序列包括:
45.根据权利要求41所述的方法,其中基于所述训练数据集训练所述生成模型包括:
46.根据权利要求41所述的方法,其中所述相关联表达得分包括基因表达帽分析(cage)峰。
47.根据权利要求41所述的方法,其中基于所述第一多个核苷酸序列确定标记为核心启动子的所述第二多个核苷酸序列包括:
48.根据权利要求47所述的方法,其中基于所述多个tss确定所述多个顶点核苷酸碱基包括针对所述多个tss中的每一个确定具有最强cage信号的核苷酸碱基。
49.根据权利要求47所述的方法,其中针对所述多个顶点核苷酸碱基中的每个顶点核苷酸碱基确定所述相关联的多个周围碱基包括针对所述多个顶点核苷酸碱基中的每个顶点核苷酸碱基确定5'方向上的第一多个核苷酸碱基和3'方向上的第二多个核苷酸碱基。
50.根据权利要求49所述的方法,其中所述5'方向上的所述第一多个核苷酸碱基包括49个核苷酸碱基,且所述3'方向上的所述第二多个核苷酸碱基包括50个核苷酸碱基。
51.根据权利要求41所述的方法,其中针对所述第三多个核苷酸序列中的每个核苷酸序列确定所述相关联的多个移位碱基包括将一定数量的核苷酸碱基从所述第三多个核苷酸序列中的每个核苷酸序列移开。
52.根据权利要求41所述的方法,其还包括滤除在人类基因组组装体(hg19)中含有n的所述第二多个核苷酸序列中的任何核苷酸序列。
53.根据权利要求45所述的方法,其中每个种子序列和靶核苷酸对在给定核苷酸序列上包括具有限定长度的种子序列和紧跟在所述种子序列之后的靶核苷酸。
54.根据权利要求53所述的方法,其中所述限定长度为10个碱基。
55.根据权利要求45所述的方法,其中针对所述训练数据集中的每个核苷酸序列生成所述多个种子序列和靶核苷酸对包括:
56.根据权利要求45所述的方法,其中向量化所述多个种子序列和靶核苷酸对中的每个种子序列和靶核苷酸对包括将每个核苷酸编码为相应数目。
57.根据权利要求41所述的方法,其中所述生成模型包括长短期记忆(lstm)循环神经网络(rnn)。
58.根据权利要求41所述的方法,其还包括基于所述生成模型生成核苷酸序列。
59.根据权利要求58所述的方法,其中基于所述生成模型生成所述核苷酸序列包括:
60.根据权利要求59所述的方法,其中所述所需长度为从约50个核苷酸到约100个核苷酸。
61.根据权利要求41所述的方法,其中所述核苷酸序列为核心启动子序列。
62.根据权利要求61所述的方法,其还包括基于所述核心启动子序列工程化启动子。
63.根据权利要求62所述的方法,其还包括将所述启动子插入到核酸构建体中。
64.根据权利要求63所述的方法,其中将所述启动子插入到所述核酸构建体中包括将所述启动子插入到转基因上游的所述核酸构建体中以驱动所述转基因的表达。
65.根据权利要求64所述的方法,其还包括产生包括所述核酸构建体的腺相关病毒或慢病毒。
66.一种方法,其包括:
67.根据权利要求66所述的方法,其中接收所述核苷酸序列包括接收多个核苷酸序列,其中所述多个核苷酸序列由生成模型生成。
68.根据权利要求66所述的方法,其还包括基于所述核苷酸序列为核心启动子的所述确定,根据一个或多个标准过滤所述核苷酸序列。
69.根据权利要求68所述的方法,其中所述一个或多个标准包括gc含量或基序中的一个或多个。
70.根据权利要求66所述的方法,还包括:
71.一种方法,其包括:
72.根据权利要求71所述的方法,其还包括基于所述核心启动子序列工程化启动子。
73.根据权利要求71所述的方法,其还包括将所述启动子插入到核酸构建体中。
74.根据权利要求73所述的方法,其中将所述启动子插入到所述核酸构建体中包括将所述启动子插入到转基因上游的所述核酸构建体中以驱动所述转基因的表达。
75.根据权利要求73所述的方法,其还包括产生包括所述核酸构建体的腺相关病毒或慢病毒。
76.根据权利要求71所述的方法,其中所述序列长度为从约50个核苷酸到约100个核苷酸。
77.根据权利要求71所述的方法,还包括:
78.根据权利要求71所述的方法,其还包括根据一个或多个标准过滤所述核苷酸序列。
79.根据权利要求78所述的方法,其中所述一个或多个标准包括gc含量或基序中的一个或多个。
80.一种设备,其被配置成执行前述方法中的任何方法。
81.一种计算机可读介质,其上具有处理器可执行指令实施例,所述处理器可执行指令实施例被配置成使设备执行前述方法中的任何方法。