脂质修饰的寡核苷酸及其使用方法

文档序号：24641796发布日期：2021-04-13 11:28阅读：567来源：国知局

脂质修饰的寡核苷酸及其使用方法
1.相关申请
2.本申请要求于2018年7月6日提交的美国临时申请62/694,970号和2019年5月14日提交的美国临时专利申请62/847,916号的优先权，其各自内容通过引用整体合并于此。
3.关于联邦资助研究的声明
4.本发明是在美国国立卫生研究院授予的hd080351赠款的政府支持下完成的。政府拥有本发明的某些权利。
技术领域
5.本公开一般涉及单细胞条形码化的方法和应用，以及使用包含脂质修饰的寡核苷酸的组合物进行的核苷酸测序的方法。

背景技术：

6.单细胞rna测序已成为对细胞转录变化作图的有力工具。该技术的主要优势是能够测量样品中细胞多样性的能力。所有的单细胞rna测序方案都具有一个共同的初始步骤，该步骤中将细胞中转录的rna转换为cdna。下一步是通过诸如pcr和体外转录(ivt)等方法进行扩增。以测序为最终步骤的后续步骤使基因产物的表达水平得以量化。从单细胞分离并条形码化rna是单细胞rna测序中的第一步，也是至关重要的限制步骤。
7.最近，结合单细胞rna测序进行了大规模筛选(使用shrna或crispr进行遗传扰动)以了解复杂的生物学现象。这些具有明显的优点，即可以通过shrna或crispr grna序列轻松识别/条形码化样品。遗传扰动技术可以直接与条形码引入耦合(即，通过将polya+条形码本身添加到grna或shrna中)，然而，不涉及遗传操作的化学/药物/患者筛查无法以可以通过scrna
‑
测序“读取”的方式进行条形码化。参见例如adamson等,cell 167(7):1867
‑
82(2016)；aarts等,genes dev.31(20):2085
‑
98(2017)；jaitin等,cell 167(7):1883
‑
96(2016)。
8.在单细胞rna测序分析中，根据应用，传统上是通过将分子条形码添加到cdna片段或珠上来实现多通路的。这是在使用液滴微流控或微孔分离细胞后完成的。为了允许对从单个液滴(或微孔)中分离的细胞中cdna进行标记，可以将珠与还包含条形码(或在某些情况下在珠上带有条形码)的反转录(rt)引物一起使用。因此，rt和条形码化可发生在每个单独的液滴或孔中。当前的方法至少具有以下缺点：高成本，低效率和低多通路能力。由于用于细胞乳化和与mrna捕获珠共封装的离散通道的数量，基于商业微滴微流体的单细胞rna测序的当前样品多通路能力仅限于八路。
9.实施方式概述
10.本公开涉及包含特别设计用于标记细胞的寡核苷酸的组合物和用不同的外源性寡核苷酸条形码标记的合并的细胞的组合物，所述不同的外源性寡核苷酸条形码对应于不同的样品制备(例如，患者、扰动、单个实验的重复等)。通过以脂质修饰的外源寡核苷酸的形式掺入样品特异性信息，样品通量水平将不再局限于由微流体装置的物理尺寸所限定。
增强样品多通路将降低单细胞rna测序的成本，限制因批次效应而产生的技术噪音，并使单细胞转录组数据集的信息量更大。
11.本公开涉及使用脂质修饰的寡核苷酸对单个细胞进行条形码化和rna测序分析的组合物和使用这些组合物的方法。本公开还涉及一种对包括单个细胞的液滴进行多通路的方法。本公开还涉及在不引起细胞二重体的混淆伪影的情况下处理更大量的单个样品的方法。然后可以将样品分成几个等分试样，每个等分试样具有不同的条形码化脂质修饰的寡核苷酸，然后在运行于单细胞rna系统上之前将其合并。这将能够在计算上去除细胞二重体，同时增加处理的单个细胞的总数。
12.一方面是用于组合物，其包括：(a)第一脂质缀合的dna寡核苷酸，其包含第一脂质部分，第一杂交区和第一引物区；(b)第二脂质缀合的dna寡核苷酸，其包含第二杂交区和第二脂质部分，其中第二杂交区是第一杂交区的反向互补序列；和(c)第三dna寡核苷酸，其包含第二引物区域，条形码区域和捕获序列，其中第二引物区域是第一引物区域的反向互补序列。作为选择，在一些方面，该组合物可包含脂质缀合的dna寡核苷酸，该寡核苷酸包含脂质部分，条形码区域和捕获序列。在一些方面，所述组合物可以包含：(a)第一脂质缀合的dna寡核苷酸，其包含脂质部分和第一引物区；(b)第二dna寡核苷酸，其包含第二引物区域，条形码区域和捕获序列，其中第二引物区域是第一引物区域的反向互补序列。
13.另一个方面是包含上述组合物的膜。
14.再一个方面是包含上述组合物的细胞。
15.又一个方面是包括上述组合物的试剂盒。
16.另一个方面是rna测序的方法，包括使细胞与上述组合物接触。
17.再一个方面是定量样品中至少一种基因的mrna水平的方法，该方法包括使样品与上述组合物接触。
18.另一个方面是定量样品中mrna水平的方法，该方法包括：(a)将来自样品的两个或更多个单细胞添加到包含至少一个表面的固体支持物上的两个或更多个容器中，其中每个容器包含来自样品的单个细胞并且可从固体支持物的外部的点寻址；和(b)将每个单个细胞与前面提到的组合物接触，使得每个细胞包含该组合物，并且每个细胞可独立寻址以测量至少两个细胞之间的mrna水平差异。
19.另一个方面是确定化合物毒性的方法，该方法包括使一种或多种化合物与包含该化合物的一种或多种细胞接触。
20.另一个方面是诊断受试者疾病的方法，该方法包括测量从该受试者获得的样品中标志物基因的表达，其中该测量包括使样品与上述组合物接触，并且其中标志物基因的表达从预定水平增加或减少表明该受试者患有该疾病。
21.另一个方面是定量样品中经修饰细胞数量的方法，该方法包括使样品与上述组合物接触。
22.另一个方面是确定细胞表达模式的方法，该方法包括：(a)使细胞与化合物接触；和(b)与来自尚未与化合物接触的等效细胞的一个或多个基因的表达相比，测量来自该细胞的一个或多个基因的表达，其中该测量包括使该细胞与上述组合物接触。
附图说明
23.图1显示了用lmo和/或cmo标记的人胚肾细胞(hek293)、小鼠胚成纤维细胞(nih3t3)和人乳腺上皮细胞(hmec)的流式细胞仪分析。
24.图2显示，标记效率是可预测的，并且在hek中的滴定系列中可扩展。
25.图3显示，对于以不同lmo或cmo标记的混合细胞，条形码的加扰程度在hek中可忽略不计。
26.图4显示，细胞粘附在组织培养皿上时被标记，胰蛋白酶消化后信号未丢失。
27.图5显示了脂质修饰的寡核苷酸复合物的示意图，该复合物包含与第一dna寡核苷酸(即“锚”脂质修饰的寡核苷酸)的5'末端可操作连接的锚脂质，该第一dna寡核苷酸包含一个杂交序列和一个引物区。；可操作地连接至第二dna寡核苷酸(即，共锚脂质修饰的寡核苷酸)的3'端的共锚脂质，其包含杂交序列，该杂交序列是第一dna寡核苷酸的杂交序列的反向互补序列；以及第三dna寡核苷酸(即“条形码”寡核苷酸)，其包含作为第一dna寡核苷酸的引物区域的反向互补序列的引物区域，条形码区域和捕获序列。
28.图6显示了在hiseq数据中检测到的每个单个细胞的样品条形码比例的分布。
29.图7可视化了表达库数据中细胞之间的关系，并通过miseq数据中的相关样本调用为每个细胞上色。
30.图8a显示了具有杂交的样品条形码寡核苷酸(红色)的锚/共锚lmo和cmo骨架(黑色)的图。lmo和cmo以其独特的亲脂性部分(例如，木质酸，棕榈酸或胆固醇)来区分。
31.图8b显示了使用multi
‑
seq进行概念验证的单细胞rna测序实验的示意图。用lmo或cmo对三个样品(带有和不带有tgf
‑
β刺激的hek和hmec)进行条形码处理，并与未标记的对照一起测序。在scrna
‑
seq之前将细胞合并在一起。下一代测序产生对应于基因表达和条形码丰度的两种umi计数矩阵。
32.图8c显示了lmo标记的细胞的细胞类型注释，显示了基因表达空间中hek(粉红色)，mep(青色)和lep(深色蓝绿色)之间的分离(参见图12a)。对多个标记基因呈阳性的歧义细胞以灰色显示。n＝6,186个多序列条形码单元。
33.图8d显示了hek(深红色)，未刺激的hmec(绿色)和tgf
‑
β刺激的hmec(蓝色)匹配细胞状态注释的multi
‑
seq样本分类。分类为二重体(黑色)的细胞主要与含糊不清注释的细胞重叠。n＝6,186个多序列条形码单元。
34.图8e显示了相对于未刺激的hmec(绿色)，tgf
‑
β刺激的hmec(蓝色)表现出升高的tgfbi表达。***＝wilcoxon秩和检验(双侧)，p<＝10
‑
16。n＝1,950个多序列条形码hmec。数据表示为平均值
±
sem。
35.图8f示出了通过在基因表达空间中聚类而鉴定的每种细胞类型的单核multi
‑
seq样品分类比例(参见图12e
‑
g)。n＝5,894个多序列条形码核。
36.图8g显示了在用离子霉素和pma活化不同时间后，multi
‑
seq样品分类阐明了jurkat细胞中的时间基因表达模式。基因表达空间中的时间点质心以较大的圆圈表示。n＝3,709jurkat核。
37.图8h示出标记jurkat细胞活化的不同阶段的基因表达的小提琴图。n＝3,709jurkat核。
38.图9a显示了映射到条形码空间的条形码umi丰度(左)和二重体分类(右)。multi
‑
seq条形码#3被用作代表示例。在大规模样品多通路实验中，二重体位于样品组的外围。n＝25,166个细胞。
39.图9b显示了细胞状态注释，该注释显示了基因表达空间中mep(青色)和lep(深青色)之间的分离(左，见图15a)。对多个标记基因呈阳性的歧义细胞以灰色显示。按培养物组合物分组的multi
‑
seq分类(右)，例如，仅lep(蓝色)，仅mep(绿色)和两种细胞类型一起(深红色)，匹配细胞状态注释。用multi
‑
seq将注释的mep划分为二重体的不一致区域用箭头指示。n＝25,166个细胞。
40.图9c示出了multi
‑
seq二重体分类(左)和由二重体finder产生的计算预测(右)在基因表达空间中大量重叠。不连续区域，其中二重体finder定义的二重体被multi
‑
seq归为单峰，并用箭头指示。n＝25,166个细胞。
41.图9d显示了mep共培养物诱导lep增殖和tgf
‑
β信号传导。在基因表达空间中可鉴定出与静止的(黑色)和增殖的(绿色)lep对应的簇(图15b)。将共培养的lep(深红色，左上)和单独培养的lep(蓝色，右上)的样本分类密度投影到基因表达空间上，说明共培养的lep在增殖状态下富集(表，左下)。与单独培养的lep相比，共培养的lep还表达更多的tgfbi。每个点代表根据生长因子条件分组的lep的平均值。***＝wilcoxon秩和检验(双侧)，p＝3.1x10
‑
6。n＝32个信号传导分子条件组。数据表示为平均值
±
sem。
42.图9e显示了按治疗分组的静息lep的分层聚类和热图分析。强调的基因是已知的egfr信号转导靶标。每个基因的rna umi丰度从0
‑
1缩放。值对应于每个信号分子治疗组内的平均表达。树状图标签：e＝egf，w＝wnt4，a＝areg，i＝igf
‑
1，r＝rankl，c＝对照。
43.图10a示出了pdx实验的示意图。
44.图10b示出了映射到条形码空间上的多序列样品分类(wt，早期，中期，晚期肿瘤进展)。复制的组织表示为“a”或“b”。n＝10,427个细胞。
45.图10c显示multi
‑
seq分类有助于低rna和低质量的细胞去卷积。cellranger丢弃具有低rna umi计数(红色虚线)的细胞条形码。分类的低rna细胞的基因表达谱反映了已建立的免疫细胞类型(右上方，见图16f)。未分类的低rna细胞类似于低质量的单细胞转录组(右下图，见图23)。n＝2,580(分类)，583(未分类)细胞。
46.图10d显示了基因表达空间中肺免疫细胞的细胞状态注释(顶部)和肿瘤阶段(底部)。mono.＝单核细胞，c＝经典，nc＝非经典，mac.＝巨噬细胞，dc＝树突状细胞，pdc＝浆细胞样dc。注释无法确定的细胞显示为灰色。n＝5,965个细胞。
47.图10e显示了相对于wt，每个肿瘤阶段的肺免疫细胞类型比例的统计学上显著的变化。具有bonferroni多重比较调整的二比例z检验，*＝0.05>p>10
‑
10；**＝10
‑
10>p>10
‑
20；***＝p＜10
‑
20。n＝44个肿瘤分期/细胞类型组。忽略统计上不显著的比例偏移。
48.图10f示出了子集的经典单核细胞基因表达空间，其覆盖有对应于肿瘤阶段的样品分类密度。插图说明了晚期经典单核细胞内的异质性，其特征是thbs1和cd14的差异表达。n＝2,496(全部)，1,087(插图)细胞。
49.图11a示出了活细胞lmo(金色)和cmo(紫色)的标记效率在锚和共锚lmo/cmo浓度的滴定曲线上可预测地变化。直方图显示的定性趋势(上图)得到回归分析(下图)的支持，表明技术可重复性以及lmo/cmo浓度与荧光丰度之间的线性关系。n＝10,000个事件/样本。数据表示为3次实验重复的平均值
±
sem。
50.图11b显示了混合有af647或fam缀合条形码探针标记的活细胞群体后，lmo和cmo刮痕损失和在冰上交换的时程分析。定性趋势(等高线图，左)记录了lmo或cmo标记的细胞如何随时间保持未标记的对照细胞(灰色)上的荧光信号。定量分析(右)说明了lmo scaolds如何比cmo scaolds更稳定地嵌入质膜中，尽管样品间的串扰很小。n＝10,000个事件/时间点。重复实验3次，结果相似。
51.图11c示出了与图11a中描述的相同的实验，不同之处在于具有核。n＝10,000个事件/样本。数据表示为3次实验重复的平均值
±
sem。
52.图11d示出了与图11b中描述的相同的实验，不同之处在于具有核。lmo和cmo膜驻留动力学之间的差异在核膜标记过程中不会发生。n＝10,000个事件/时间点。
53.图11e示出了与图11c中描述的相同的实验，不同之处在于在室温下。lmo在4℃下显示的标签稳定性方面的优势在室温下会消失，因为cmo(紫色)和lmo(金色)标签以相似的速率降低。n＝10,000个事件/时间点。
54.图11f显示了用200nm的lmo或cmo标记活细胞，并用pbs(黑色)或pbs中的1％bsa(红色)稀释。沉淀细胞，并将上清液转移至未标记的细胞，以确定剩余的lmo或cmo标记的标记效率。与仅用pbs稀释相比，bsa稀释导致上清液标记减少。n＝10,000个事件/样本。数据表示为3次实验重复的平均值
±
sem。
55.图12a显示了汇总的lmo，cmo和未标记的对照scrna
‑
seq数据的细胞状态注释。小提琴图说明了用于定义hek(粉红色)，mep(青色)和lep(深青色)的标记基因。n＝15,482个细胞。
56.图12b示出了lmo
‑
(左)和cmo标记的细胞(右)的multi
‑
seq分类，其映射到聚集的基因表达空间上。与lmo标记一样，cmo标记的样本的样本分类与其预期的细胞类型注释匹配。n＝15,482个细胞。
57.图12c示出了小提琴图(左)，其描述了针对lmo标记的(金色)，cmo标记的(紫色)和未标记的对照hek(黑色)的检测到的umi的数量，检测到的基因的数量以及线粒体基因表达的百分比。分布基本相同，这表明lmo和/或cmo标记不会对内源性mrna捕获产生负面影响。对于lmo和cmo标记的细胞，条形码umi和rna umi呈正相关(右)的观察结果进一步支持了这一点，这表明样本条形码在mrna捕获期间不会超过内源转录本。n＝7,888个hek细胞。r＝皮尔逊相关性。
58.图12d显示了通过对细胞进行lmo标记的(金色)，cmo标记的(紫色)或未标记的(黑色)细胞着色的hek基因表达空间，揭示了对cmo标记特异性的亚结构。在基因表达空间中，对每个细胞的100个最近邻中的lmo，cmo和未标记细胞的比例进行量化，强调了cmo特定的亚结构。未标记和lmo标记的细胞具有相似的邻域，而cmo标记的细胞优先在基因表达空间共定位。n＝7,888个hek细胞。
59.图12e示出了使用multi
‑
seq的概念验证snrna
‑
seq实验的示意图。在进行lmo条形码和测序之前，从10个不同的细胞样品(hek(深红色)，mef(蓝色)和jurkats(绿色)，分别用离子霉素和pma刺激8个不同的时间点)中分离出细胞核。对cmo标记和未标记的hek和mef核进行平行测序。
60.图12f显示multi
‑
seq分类显示jurkat细胞(绿色)，hek(深红色)和mef(蓝色)之间的物种特异性。n＝4,848(人类)和1,046(小鼠)multi
‑
seq标记的细胞核。
61.图12g显示了汇总的lmo，cmo和未标记的对照snrna
‑
seq数据的细胞状态注释。小提琴图说明了用于定义hek(粉红色)和jurkats(深色蓝绿色)的标记基因。n＝8,468个人类核。
62.图12h显示了对snrna
‑
seq数据进行与图12c中所述相同的分析。n＝2,113mef原子核。r＝皮尔逊相关性。
63.图12i显示了对snrna
‑
seq数据进行与图12d中所述相同的分析。与活细胞不同，lmo和cmo标记的细胞的基因表达邻域都反映了未标记的细胞，这表明lmo和cmo均可实现无扰动的单核rna测序样品多通路。n＝2,113mef原子核。
64.图13a显示了96重hmec scrna
‑
seq分析的示意图。由单独的lep(蓝色)，单独的mep(绿色)或两种细胞类型一起(深红色)组成的96种不同的hmec培养物在补充了15种不同的信号分子或信号分子组合和一个对照的培养基中生长。
65.图13b示出了覆盖有热图的96孔板示意图，该热图显示了分配给每个样品条形码组的细胞数量。由于样品制备过程中的技术错误，最初的大型hmec实验未显示20个样品(主要是来自第2列的样品)。
66.图13c显示了归一化的条形码umi热图，表明样品组主要与单个multi
‑
seq条形码相关。
67.图13d示出了描述负细胞，二重体和单峰的条形码umi snr的小提琴图。n＝40,009个细胞。
68.图13e示出了与图14a中描述的相同的分析，不同之处在于以96重hmec技术重复实验。所有样品均按技术重复品分类。
69.图13f示出了与图14b中描述的相同的分析，不同之处在于以96重hmec技术重复实验。
70.图13g示出了与图14c中描述的相同的分析，不同之处在于以96重hmec技术重复实验。n＝48,091个细胞。
71.图14显示了来自96重hmec实验的结果，用作条形码分类工作流程的代表示例。96重技术重复hmec实验的结果用作半监督阴性细胞重分类工作流程的代表实施例。pdf＝概率密度函数。
72.图15a显示了用于在基因表达空间中鉴定mep(krt14)和lep(krt19)的标志物基因表达的分布。n＝25,166个细胞。
73.图15b显示了lep(左)和mep(右)的基因表达空间中mki67表达的分布。mki67富集用作区分增生性lep和静息性lep和mep的代理。n＝6,159(lep)和14,428(mep)个细胞。
74.图15c显示，相对于单一培养中生长的mep，与lep共培养的mep没有被诱导增殖。在基因表达空间中可鉴定出与静止的(黑色)和增殖的(蓝色)lep对应的簇(图15b)。将样本分类密度投影到共培养的mep(红色，左)和单独培养的mep(绿色，中)的基因表达空间上，说明两种培养物的增殖能力相同(表，右)。n＝14,428个细胞。
75.图15d显示了与lep共培养的mep相对于单培养中生长的mep显示出富集的tgf
‑
β信号传导(通过tgfbi表达测量)。每个点代表根据信号分子处理分组的mep的平均值。***＝wilcoxon秩和检验(双侧)，p＝1.5x10
‑
6。n＝32个信号分子条件组。数据表示为平均值
±
sem。
76.图15e示出了通过信号分子治疗分组的mep的分层聚类和热图分析突出了对egf和areg治疗特异的egfr信号转录应答。树状图标签：e＝egf，w＝wnt4，a＝areg，i＝igf
‑
1，r＝rankl，c＝对照。
77.图16a显示了肺组织的代表性组织学，其说明了早期，中期和晚期pdx小鼠的转移进程。黑色箭头表示单个转移。h&e染色进行了3次(早期)、4次(中期)和10次(后期)，得出相同的结果。
78.图16b显示阴性细胞重分类改善了样品分类结果。单重态(黑色)位于条形码空间中的簇中，而双重态(红色)位于单重态簇之间。阴性细胞要么与单重态或双重态簇共定位(蓝色轮廓，底部)，要么分别与簇(红色轮廓，底部)。阴性细胞重分类对分别聚集的真阴性不敏感，而募集在单重态和双重态之间聚集的假阴性的子集。n＝12086个单元。
79.图16c示出了根据multi
‑
seq条形码条件的生存力(顶部)或总细胞数(ncell，底部)排序的样品之间的条形码snr比较。有关详细信息，请参见图22。数据表示为平均值
±
sem。n＝10,427个细胞。
80.图16d显示了根据来源组织着色的基因表达空间中的小鼠免疫细胞。肺免疫细胞(棕色)与原发性肿瘤免疫细胞(蓝绿色)分开聚集。n＝8,420个细胞。
81.图16e显示了条形图，描述了在facs富集期间检测到并在最终的10x数据集中检测到的小鼠(粉红色)和人(蓝色)细胞的比例。来自la肺的人和小鼠细胞的分类证明了样品的分类准确性和物种独立性。
82.图16f显示了标记物基因热图，其描述了用于定义细胞类型注释的标记物。每个基因的rna umi丰度从0
‑
1缩放。值对应于每个注释组内的平均表达式。显示的基因代表每种细胞类型的前3个最具统计意义的基因(单细胞基因表达的似然比检验，采用bonferroni多重比较调整)。
83.图16g显示了经典的单核细胞的无监督聚类，归纳了由于转移进程而引起的细胞间异质性(如图10d所示)。差异基因表达分析结果见图25。n＝2,496个细胞。
84.图17示出了用fitc抗epcam和apc
‑
cy7抗cd49f标记的大量hmec以鉴定和分离lep和mep。lep被标识为epcam高和cd49f低，而mep被标识为cd49f高和epcam低。门控策略在最终分选的群体中导致较小的细胞类型杂质
85.图18a显示了在门控活单重态后，使用hcd298和mcd45将分离的人转移物和小鼠免疫细胞与分离的pdx小鼠肺分开。这里以小鼠847(样品l
‑
a)为代表示例。
86.图18b显示了门控活单重态后，使用hcd298和mcd45分离了解离的人原发性肿瘤细胞和小鼠肿瘤相关的免疫细胞。样品a在此作为所有其他原发性肿瘤样品的代表示例。
87.图19a显示了使用3.2x spri和1.8x 100％异丙醇进行cdna扩增和multi
‑
seq条形码富集之后的生物分析仪迹线显示两个不同的峰。生物分析仪痕迹代表了本研究中提出的所有数据集(n＝4)。第一个峰(p1)的平均长度为65
‑
70bp，可能对应于通过multi
‑
seq加性引物扩增的条形码。第二个峰(p2)的平均长度为100bp，可能对应于成功进行mmlv
‑
rtase模板转换并随后通过标准10x genomics single cell v2引物扩增的条形码。
88.图19b显示了文库制备pcr后的生物分析仪分析，显示出一个明显的峰(p3)，平均长度为173bp，符合预期。生物分析仪痕迹代表了本研究中提出的所有数据集(n＝4)。
89.图19c示出了图示具有和不具有模板转换的两种逆转录的multi
‑
seq条形码的示
意图。没有模板转换(p1)的进行性逆转录比有模板转换(p2)的逆转录更有可能导致cdna扩增后65
‑
70bp产物相对富集。
90.图20显示了与lmo/cmo标记的hek和未标记的hek之间表达差异>1.5倍的基因列表，相对于图8。
91.图21显示了multi
‑
seq条形码测序统计数据。
92.图22示出了与图10相关的pdx元数据。
93.图23显示了与图10相关的分类和未分类数据集中每个低rna簇的前5个标记基因。
94.图24显示了在转移进展的不同阶段经典单核细胞之间表达差异>1.5倍的基因列表，与图10相关。
95.图25显示了与图10相关的晚期经典单核细胞之间表达差异>1.5倍的基因列表。
96.图26a
–
26g描绘了一个实验，该实验通过使用多壁板中一系列容器中各个血管段中每个1mm组织切片的独特条形码对样品或组织的序列表达谱与空间位置进行关联，其中条形码对应于表达谱在受试者中的空间位置。
97.图27a至图27f描绘了通过使用多壁板中一系列容器中的一系列容器中的片段中的每1cm组织切片的独特条形码，使序列表达谱与样品或组织的空间位置相关的实验，其中条形码对应于空间位置在受试者中的表达谱。
具体实施方式
98.本公开提供了脂质修饰的或疏水锚的寡核苷酸，和包含脂质修饰的或疏水锚的寡核苷酸的组合物。还提供了脂质修饰的或疏水锚的寡核苷酸的合成方法，包含此类脂质修饰的或疏水锚的寡核苷酸的组合物，以及此类脂质修饰的或疏水锚的寡核苷酸及其组合物在例如，将单细胞rna测序与化学筛选或其他多重干扰方法耦合中的应用。基于crispr和短发夹rna的遗传扰动技术的最新发展，证明了可以从基于单细胞rna测序的筛选方法中获得的大量信息。这些方法在测序数据中引入了遗传干扰特有的条形码。
99.在描述示例性实施例之前，应当理解，本公开不限于所描述的特定实施例，因为这样当然可以变化。还应理解，本文中使用的术语仅出于描述特定实施方式的目的，而无意于限制本发明，因为本公开的范围将仅由所附权利要求书限制。
100.在提供值的范围的情况下，应理解的是，除非上下文另外明确指出，否则每个中间值，直到下限的单位的十分之一，也具体公开了该范围的上限和下限之间。在所述范围内的任何规定值或中间值与在所述规定范围内的任何其他规定或中间值之间的每个较小范围都包括在本公开内。这些较小范围的上限和下限可以独立地包括在该范围内或排除在该范围内，并且其中一个范围内，或者两个范围中的任意一个或两个都不包括在较小范围内的每个范围也包括在本公开中，但以规定范围中任何具体排除的范围为准。在所述范围包括一个或两个限制的情况下，排除那些包括的限制中的一个或两个的范围也包括在本公开中。
101.除非另有定义，否则本文中使用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常所理解的相同含义。尽管类似于或等同于本文描述的那些方法和材料的任何方法和材料都可以用于实践或测试所公开的实施例，但是现在可以描述一些潜在的和示例性的方法和材料。本文提及的任何和所有出版物通过引用整体并入本文，以公开和描
述与引用出版物有关的方法和/或材料。应当理解，在存在矛盾的范围内，本公开内容取代了所并入的出版物的任何公开内容。
102.必须指出的是，除非上下文另外明确指出，否则本文和所附权利要求书中使用的单数形式“一个”，“一种”和“该”包括复数对象。因此，例如，提及“脂质修饰的寡核苷酸”包括多个这样的脂质修饰的寡核苷酸，并且提及“寡核苷酸”包括提及一种或多种寡核苷酸，等等。
103.还应注意的是，权利要求书可以被撰写为排除可能是可选的任何要素。这样，该陈述旨在作为与权利要求要素的叙述结合使用诸如“唯一”，“仅”等排他性术语的先行基础，或使用“负”限制。
104.提供本文讨论的出版物仅是为了在本申请的提交日期之前进行公开。本文中的任何内容均不应解释为承认本公开无权先于此类出版物。此外，提供的出版日期可能与实际的出版日期不同，实际的出版日期可能需要独立确认。在此类出版物可以列出与本公开的显式或隐式定义冲突的术语的定义的范围内，以本公开的定义为准。
105.对于本领域技术人员而言，在阅读本公开后将显而易见的是，本文描述和示出的每个单独的实施例具有离散的组件和特征，其可以容易地与其他几个实施例中的任何一个的特征分离或组合在一起，而不会脱离从本公开的范围或精神出发。任何叙述的方法都可以按照叙述的事件顺序或逻辑上可能的任何其他顺序执行。
106.定义
107.在描述本发明的组合物和方法之前，应当理解，本公开不限于所描述的特定分子、组合物、方法或方案，因为这些可以变化。还应理解，说明书中使用的术语仅出于描述特定版本或实施方式的目的，并且无意限制本公开的范围，本公开的范围仅由所附权利要求书来限制。应当理解，这些实施方式不限于所描述的特定方法、方案、细胞系、载体和试剂，因为这些可以变化。还应理解，本文所使用的术语仅出于描述特定实施方式的目的，并不旨在限制本实施方式或权利要求的范围。
108.除非另有定义，否则本文中使用的所有技术和科学术语具有与本领域普通技术人员通常理解的相同含义。尽管类似于或等同于本文描述的那些方法和材料的任何方法和材料都可以用于本公开的实施例的实践或测试中，但是现在描述优选的方法，装置和材料。本文提及的所有出版物均通过引用并入本文。本文中的任何内容均不得解释为承认本公开无权先于在先公开而早于该公开。
109.除非明确指出相反的含义，否则在说明书和权利要求书中使用的不定冠词“一个”和“一种”应理解为表示“至少一”。
110.在说明书和权利要求书中使用的短语“和/或”应该理解为是指这样结合的元素中的“一个或两个”，即在某些情况下共同存在而在其他情况下不连续存在的元素。除非明确指出相反的意思，否则与“和/或”子句明确标识的元素不同，其他元素可以可选地存在，无论与那些具体标识的元素相关还是无关。因此，作为非限制性实施例，当与开放式语言(如“包括”)结合使用时，对“a和/或b”的引用在一些实施例中可以指代a而没有b(任选地包含除b之外的要素)；在另一个实施例中，指代b而没有a(任选地包含除a之外的要素)；在又另一个实施例中，指代a和b两者(任选地包含其它要素)；等等。
111.如本文在本说明书和权利要求中所使用的，“或”应当理解为具有与如上所定义的
“
和/或”的含义相同的含义。例如，当将列表中的项目分开时，“或”或“和/或”应当被解释为包含性的，即，包含多个要素或要素列表中的至少一个要素、但是还包含多于一个要素，以及任选地另外的未列出的项。只有明确地指示相反的术语，或
“……
中的恰好一个”或者在权利要求中使用时“由
……
组成”将指代包含多个要素或要素列表中的恰好一个要素。一般而言，当之前有排他性术语“任一个”、
“……
之一”、
“……
中的仅一个”、或
“……
中的恰好一个”时，本文中所使用的术语“或”应当仅被解释为指示排他性替代品(即，“一个或另一个、而不是两个”)。当在权利要求书中使用时，“主要由
……
组合物”应当具有如在专利法领域中使用的普通含义。
112.当提及如量、持续时间等可测量值时，本文中所使用的术语“约”意指涵盖偏离指定值
±
20％、
±
10％、
±
5％、
±
1％、
±
0.5％或
±
0.1％的变化，因为这些变化适合于执行所公开的方法。
113.如本文所用，短语“从x到y的整数”是指包括端点的任何整数。也就是说，在公开范围的情况下，公开了包括端点的范围内的每个整数。例如，短语“从x到y的整数”公开了1、2、3、4或5以及1到5的范围。
114.术语“脂质修饰的寡核苷酸”、“脂质dna”、“疏水性锚的寡核苷酸”和类似术语应广义地解释为包括以任何方式连接至疏水、亲脂或两亲性区域的任何寡核苷酸或多核苷酸，无论“脂质修饰的寡核苷酸”、“脂质dna”、“疏水性锚的寡核苷酸”或其部分实际上是否插入膜中，它们都可以插入膜中。
115.术语“膜”或任何类似术语在本文中被广泛地和通用地使用，是指任何含脂质的膜，细胞膜，核膜，单层，双层，囊泡，脂质体，脂质双层等，并且本公开内容不意味着限于任何特定的膜。
116.如本文所用，术语“受试者”、“个体”或“患者”可互换使用是指任何动物，包括哺乳动物，例如小鼠、大鼠、其他啮齿动物、兔、狗、猫、猪、牛、绵羊、马、或灵长类动物，例如人。
117.如本文所用，术语“试剂盒”是指在系统中提供的一组组件，该系统用于对核苷酸进行测序核苷酸和/或分离核苷酸序列和/或基于是否存在、不存在、和/或样品或细胞中表达核苷酸序列的数量来诊断患有疾病或感染的受试者。这样的系统可以包括例如允许在一个或多个细胞(例如，寡核苷酸、编码酶的寡核苷酸、合适的容器中的细胞外基质成分等)中存储、鉴定或递送表达的基因的系统。从一个位置到另一位置的支持材料(例如缓冲液、培养基、细胞、用于执行测定的书面说明等)。例如，在一些实施方式中，试剂盒包括一个或多个包含相关反应试剂和/或支持材料的外壳(例如，盒子)。如本文所用，术语“片段化试剂盒”是指诊断测定法，其包括两个或更多个单独的容器，每个容器包含全部试剂盒组分的一部分。可以将容器一起或分别交付给预期的接收人。例如，第一容器可包含用于细胞培养测定的固体支持物或聚苯乙烯板，而第二容器可包含细胞，例如对照细胞。作为另一个例子，试剂盒可以包括第一容器和第二容器，该第一容器包含诸如本文所述的芯片或载玻片的固体支持物，该芯片或载玻片具有与本文公开的一种或多种生物标记物具有亲和力的一种或多种配体，第二容器包含检测和/或定量样品中脂质修饰的寡核苷酸的量所必需的任何一种或多种试剂。术语“片段化试剂盒”旨在包括含有根据《federal food,drug,and cosmetic act》第520(e)条管制的分析物专用试剂(asr)的试剂盒，但不限于此。包含“两个或多个单独的容器且每个容器都包含全部试剂盒成分的子部分”的任何递送系统都包含在
术语“碎片化的试剂盒”中。相反，“组合试剂盒”是指将所有组分包含在单个容器中(例如，在容纳每个所需组分的单个盒子中)的输送系统。术语“试剂盒”包括分散的试剂盒和组合的试剂盒。
118.如本文所用，术语“动物”包括但不限于人类和非人类脊椎动物，例如野生动物、啮齿动物，例如大鼠、雪貂和家养动物，以及农场动物，例如狗、猫、马、猪、牛、绵羊和山羊。在一些实施方式中，动物是哺乳动物。在一些实施方式中，动物是人。在一些实施方式中，动物是非人类哺乳动物。
119.如本文所用，术语“哺乳动物”是指哺乳动物类中的任何动物，例如啮齿动物(即，小鼠、大鼠或豚鼠)、猴子、猫、狗、牛、马、猪或人。在一些实施方式中，哺乳动物是人。在一些实施方式中，哺乳动物是指任何非人类哺乳动物。本公开涉及本文公开的任何方法或物质组合物，其中样品取自哺乳动物或非人类哺乳动物。本公开涉及本文公开的任何方法或物质组合物，其中样品取自人。
120.如本文所用，短语“有需要”是指动物或哺乳动物已经根据生物标志物的存在，不存在和/或数量被确定或怀疑对需要的特定方法或治疗的需要。在一些实施方式中，可以通过任何诊断或观察手段进行识别。在本文描述的任何方法和治疗中，动物或哺乳动物可能是有需要的。在一些实施方式中，动物或哺乳动物处于环境中或将前往其中普遍存在或更可能发生特定疾病或病症的环境。
121.术语“核酸”，“寡核苷酸”和“多核苷酸”的特定应用绝不应认为是限制性的，并且可以在本文中互换使用。当相关核酸分子通常包含少于约100个碱基时，使用“寡核苷酸”。当相关核酸分子通常包含多于约100个碱基时，使用“多核苷酸”。这两个术语均用于表示dna、rna、修饰的或合成的dna或rna(包括但不限于包含合成和天然存在的碱基类似物，双脱氧或其他糖，硫醇或其他非天然或天然聚合物主链的核酸)或其他能够与dna和/或rna杂交的含核碱基的聚合物。因此，该术语不应解释为定义或限制本文中提及和使用的核酸的长度，也不应将该术语用于限制连接核碱基的聚合物主链的性质。
122.本公开的多核苷酸可以是单链、双链、三链的，或包括这些构象的组合。通常，多核苷酸含有磷酸二酯键，尽管在某些情况下，如下所述，包括了具有类似主链的核酸类似物，包括例如磷酰胺、硫代磷酸酯、二硫代磷酸酯、o
‑
甲基磷酰胺键、以及肽核酸主链和键。其他类似物核酸包括吗啉代，锁定核酸(lna)，以及具有正骨架，非离子骨架和非核糖骨架的核酸。包含一种或多种碳环糖的核酸也包括在核酸的定义内。可以进行核糖
‑
磷酸主链的这些修饰以促进附加部分的添加，例如标记，或增加此类分子在生理环境中的稳定性和半衰期。
123.术语“核酸序列”或“多核苷酸序列”是指核苷酸碱基的连续串，并且在特定情况下还指核苷酸碱基在多核苷酸中出现时彼此相对的特定位置。
124.如本文所用，术语“包括”(以及包括的任何形式，例如“包括”、“包含”和“含有”)，“具有”(以及任何形式的具有，例如“具有”和“有”)，“包含”(以及任何形式的包含，例如“包含”和“含”)或“含有”(以及任何形式的包含，例如“含有”和“有”)是包含性的或开放的
‑
且不排除其他未引用的元素或方法步骤。
125.如本文所用，术语“荧光探针”是指在暴露于已知波长的光时发射已知和/或可检测波长的光的任何分子(染料，肽或荧光标记)。在一些实施方式中，具有已知裂解位点的底物或肽可由一种或多种动物或单细胞生物表达的任何酶识别。在一些实施方式中，荧光探
针连接至本文公开的一个或多个寡核苷酸序列中的任一个。在一些实施方式中，荧光探针与本文公开的寡核苷酸的附着产生了嵌合分子，该嵌合分子能够在底物暴露于酶和已知波长的光下发出荧光或发射荧光，使得暴露于酶会产生反应。在荧光计或分光光度计的存在下可定量的产物。在一些实施方式中，在酶促裂解底物之前，将荧光探针在暴露于已知波长的光下完全淬灭，并且荧光探针发射已知波长的光，该波长的强度可通过存在下的吸光度读数或强度水平来量化。荧光计，以及任选地从结合了寡核苷酸的探针上切割下来的探针。在一些实施方式中，荧光探针是基于香豆素的染料或基于罗丹明的染料，其在预定波长的光的存在下或暴露于预定波长的光下可测量或定量的荧光发射光谱。在一些实施方式中，荧光探针包含罗丹明。在一些实施方式中，荧光探针包含罗丹明
‑
100。基于香豆素的荧光探针是本领域已知的，例如在美国专利7625758和7863048号中，其通过引用整体并入本文。在一些实施方式中，荧光探针是与本文公开的任何酶的一种或多种底物共价结合，非共价结合，嵌入的组分。在一些实施方式中，荧光探针选自acc或amc。在一些实施方式中，荧光探针是荧光素分子。在一些实施方式中，所述荧光探针在暴露于一种或多种酶催化本文公开的一种或多种脂质修饰的寡核苷酸的裂解之后，能够通过荧光计发射可检测和/或定量的共振波。
126.如本文所用，术语“分数”是指可以用作预测模型中组分的单一值，以用于诊断，预后或样品中表达基因的存在，不存在或数量的可能性，其中根据系统中测量的特征或度量，通过将原始数据值与控制值进行组合和/或标准化，可以计算出单个值。在一些实施方式中，得分是通过解释函数或算法来计算的。在一些实施方式中，怀疑受试者患有，有发展风险或具有感染或过度增殖细胞。
127.如本文所用，术语“分数”是指可以用作预测模型中用于对象的诊断，预后或临床治疗计划的组合物部分的单一值，其中该单一值是通过组合和/或计算得到的根据系统中测得的特征或度量，将原始数据值与控制值进行对照或对照。在一些实施方式中，得分是通过解释函数或算法来计算的。在一些实施方式中，怀疑受试者具有促进或有助于获得疾病状态或其表达与病原体存在相关的基因的表达。
128.为了促进对本文公开的脂质修饰的寡核苷酸的检测，可将可检测的物质例如预先施加到包含一个或多个反应容器的表面，例如板，孔，珠或其他固体支持物上。在一些实施方式中，在将样品施加到表面上之前，可以将其与稀释剂或试剂预混合。所述可检测物质可以用作脂质
‑
寡核苷酸，其可以通过视觉或通过仪器来检测。通常能够产生视觉上或仪器设备可检测到的信号的任何物质都可用作检测探针。合适的可检测物质可以包括例如发光化合物(例如，荧光、磷光等)；等等。放射性化合物；视觉化合物(例如，有色染料或金属物质，例如金)；含有信号产生物质的脂质体或其他囊泡；酶和/或底物等。其他合适的可检测物质可以在jou等的美国专利no5,670,381和tarcha等的美国专利no.5,252,459中描述，其出于所有目的通过引用整体并入本文。如果可检测物质是彩色的，则理想的电磁辐射是互补波长的光。例如，蓝色检测探针会强烈吸收红光。在一些实施方式中，脂质修饰的寡核苷酸包含探针。在一些实施方式中，可检测探针包含发光化合物或由其组成，该发光化合物产生与样品中脂质寡核苷酸的水平或数量相对应的光学可检测信号。例如，合适的荧光分子可包括但不限于：荧光素、铕螯合物、藻胆蛋白、藻红蛋白、藻蓝蛋白、别藻蓝蛋白、邻苯二甲醛、荧光胺、罗丹明及其衍生物和类似物。其他合适的荧光化合物是通常被称为“量子点”的半
导体纳米晶体。例如，这样的纳米晶体可以包含式cdx的核，其中x是se，te，s等。纳米晶体也可以用式yz的上覆壳钝化，其中y是cd或zn，z是s或se。合适的半导体纳米晶体的其他例子也可以在barbera
‑
guillem等的美国专利no.6,261,779，和dapprich的美国专利no.6,585,939中描述，出于所有目的通过引用整体并入本文。
129.此外，合适的磷光化合物可包括一种或多种金属的金属配合物，例如钌、锇、铼、铱、铑、铂、铟、钯、钼、锝、铜、铁、铬、钨、锌等。特别优选的是钌、铼、锇、铂和钯。金属配合物可以包含一种或多种促进配合物在水性或非水性环境中溶解的配体。例如，配体的一些合适的例子包括但不限于吡啶、吡嗪、异烟酰胺、咪唑、联吡啶、特吡啶、菲咯啉、二吡啶并吩嗪、卟啉、卟吩及其衍生物。这样的配体可以例如取代有烷基、经取代的烷基、芳基、经取代的芳基、芳烷基、经取代的芳烷基、羧酸盐、羧醛、羧酰胺、氰基、氨基、羟基、亚氨基、羟基羰基、氨基羰基、脒、胍、脲、含硫基团、含磷基团和n
‑
羟基琥珀酰亚胺的羧酸酯。
130.卟啉和卟啉金属配合物具有与亚甲基桥连在一起的吡咯基团，形成带有金属螯合内腔的环状结构。这些分子中的许多在室温下在合适的溶剂(例如水)和无氧环境中均表现出强大的磷光特性。能够显示磷光性质的一些合适的卟啉配合物包括但不限于铂(ii)卟啉
‑
i和iii、钯(ii)卟啉、钌
‑
卟啉、锌(ii)
‑
卟啉
‑
i、其衍生物等等。类似地，一些能够表现出磷光性质的合适的卟吩配合物包括但不限于四(间)氟苯基铂(ii)和四(间)氟苯基钯(ii)。其他合适的卟啉和/或卟吩络合物描述于schmidt等的美国专利第4,614,723号；hendrix的美国专利5,464,741号；soini的美国专利第5,518,883号；ewart等的美国专利5,922,537号；sagner等的美国专利6,004,530号；和ponomarev等的美国专利no.6,582,930号中，出于所有目的通过引用将其全文并入本文。
131.如本文所用，“序列同一性”是通过使用独立可执行文件来确定的blast引擎程序，用于对两个序列blasting(bl2seq)，可以从国家生物技术中心信息(ncbi)ftp站点获得，使用默认参数(tatusova和madden，fems microbiol lett.,1999,174,247
‑
250；通过引用将其全部内容合并在此)。使用术语“同源”是指与测得的“序列同一性”同义。
132.如本文中所使用的，术语“样品”通常是指有限量的某物，所述某物旨在类似于并且表示较大数量的所述某物。在本公开中，样品是要针对本文公开的测定法或方法进行测试的收集物，拭子，刷，刮擦，活检，去除的组织或手术切除物。在一些实施方式中，样品被认为是从患者或受试者中获取的，所述样品被认为包含过度增殖的细胞。在一些实施方式中，将据信含有一种或多种过度增殖性细胞的样品与已知不含有一种或多种过度增殖性细胞的“对照样品”进行比较。在一些实施方式中，将认为含有病原体细胞的样品与已知不含病原体细胞的对照样品进行比较。在一些实施例中，将据信含有一种或多种过度增殖性细胞的样品与已知不含有一种或多种过度增殖性细胞的“对照样品”进行比较。在一些实施方式中，样品是环境区域或位置的刷，例如实验室工作台或医疗设备。本公开内容考虑使用本文公开的任何一种或多种方法来鉴定，检测和/或定量基因的潜在有害表达的量或基于特定物品或位置的有害病原体或有害细胞的量，基于有害基因或核苷酸序列。
133.术语“互补的”或“互补性”是指通过碱基配对规则相关的多核苷酸(即核苷酸序列)，例如，序列“5'
‑
agt
‑
3'”与序列“5'
‑
act
‑
3'”互补”。互补性可以是“部分的”，其中仅一些核酸的碱基根据碱基配对规则匹配，或者在核酸之间可以存在“完全”或“全部”互补性。在限定条件下，核酸链之间的互补程度可对核酸链之间的杂交效率和强度产生重大影响。
这对于依赖于核酸碱基之间的结合的方法特别重要。
134.本文公开的任何探针可以是抗体。如本文所用，术语“抗体”是指由至少一个结合结构域组成的多肽或一组多肽，所述结合结构域由具有三维结合空间的多肽链折叠形成，所述三维结合空间的内表面形状和电荷分布与抗原的抗原决定簇的特征互补。抗体通常具有四聚体形式，包含两对相同的多肽链，每对具有一条“轻”和一条“重”链。每个轻/重链对的可变区形成抗体结合位点。如本文所用，“靶向结合剂”是优先结合靶位点的抗体或其结合片段。在一实施方式中，靶向结合剂仅对一个靶位点特异性。在其他实施方式中，靶向结合剂对一个以上的靶位点具有特异性。在一个实施方式中，靶向结合剂可以是单克隆抗体，并且靶位点可以是包含一种或多种本文公开的修饰的寡核苷酸的细胞表面上的表位或抗原。抗体的“结合片段”通过重组dna技术或通过完整抗体的酶或化学切割产生。结合片段包括fab、fab'、f(ab')2、fv和单链抗体。除“双特异性”或“双功能”抗体以外的抗体应理解为具有相同的结合位点。当过量的抗体使与反受体结合的受体的量减少至少约20％、40％、60％或80％，更通常大于约85％时(在体外竞争性结合试验中测得)，抗体基本上抑制受体与反受体的粘附。抗体可以是寡克隆抗体，多克隆抗体，单克隆抗体，嵌合抗体，cdr嫁接抗体，多特异性抗体，双特异性抗体，催化抗体，嵌合抗体，人源化抗体，完全人抗体，抗独特型抗体和可以以可溶性或结合形式标记的抗体及其片段，变体或衍生物，可以单独使用，也可以与已知技术提供的其他氨基酸序列组合使用。抗体可以来自任何物种。术语抗体还包括本发明的抗体的结合片段；示例性片段包括fv，fab，fab'，单链抗体(svfc)，二聚体可变区(diabody)和二硫桥稳定的可变区(dsfv)。如本文所讨论，抗体或免疫球蛋白分子的氨基酸序列的微小变化被认为涵盖在本发明中，条件是氨基酸序列的变化保持与本文所述的抗体或免疫球蛋白分子具有至少75％，更优选至少80％，90％、95％，最优选99％的序列同一性。特别地，可以考虑保守氨基酸的替换。保守替换是发生在具有相关侧链的氨基酸家族内的替换。遗传编码的氨基酸通常分为以下几类：(1)酸性＝天冬氨酸，谷氨酸；(2)碱性＝赖氨酸，精氨酸，组氨酸；(3)非极性的＝丙氨酸，缬氨酸，亮氨酸，异亮氨酸，脯氨酸，苯丙氨酸，蛋氨酸，色氨酸；(4)不带电荷的极性＝甘氨酸，天冬酰胺，谷氨酰胺，半胱氨酸，丝氨酸，苏氨酸，酪氨酸。更优选的家族是：丝氨酸和苏氨酸是脂肪族羟基家族；天冬酰胺和谷氨酰胺是含酰胺的家族；丙氨酸，缬氨酸，亮氨酸和异亮氨酸是脂肪族；苯丙氨酸，色氨酸和酪氨酸是芳香族。例如，可以合理地预期，用异亮氨酸或缬氨酸单独替代亮氨酸，用谷氨酸替代天冬氨酸，用丝氨酸替代苏氨酸，或用结构相关氨基酸替代氨基酸的类似替代物对所得分子的结合功能或性质的重大影响，特别是如果置换在框架位点内不涉及氨基酸时。氨基酸改变是否产生功能性肽可以通过测定多肽衍生物的比活性容易地确定。测定在本文中详细描述。抗体或免疫球蛋白分子的片段或类似物可以由本领域普通技术人员容易地制备。片段或类似物的优选的氨基和羧基末端出现在功能域的边界附近。可以通过将核苷酸和/或氨基酸序列数据与公共或专有序列数据库进行比较来鉴定结构域和功能域。优选地，计算机比较方法用于鉴定在已知结构和/或功能的其他蛋白质中出现的序列基序或预测的蛋白质构象结构域。鉴定折叠成已知的三维结构的蛋白质序列的方法是已知的。参见，例如，bowie等，science253:164(1991)，以引用的方式全文并入。可以使用常规技术使抗体片段化，并以与上述针对完整抗体所述相同的方式筛选片段的效用。例如，可以通过用胃蛋白酶处理抗体来产生f(ab')2片段。可以处理所得的f(ab')2片段以还原二硫键以产生fab'片段。
135.本发明还考虑使用一种或多种嵌合抗体衍生物，即结合非人类动物可变区和人类恒定区的抗体分子。嵌合抗体分子可包括例如来自小鼠，大鼠或其他物种的抗体的抗原结合结构域，其具有人类恒定区。已经描述了多种用于制备嵌合抗体的方法，并且可以用于制备包含免疫球蛋白可变区的嵌合抗体，所述免疫球蛋白可变区识别分化细胞或肿瘤细胞表面上的所选抗原。参见，例如，morrison等，1985；proc.natl.acad.sci.u.s.a.81,6851；takeda等，1985，nature 314:452；cabilly等，美国专利no.4,816,567；boss等，美国专利no.4,816,397；tanaguchi等，欧洲专利公开ep171496；和欧洲专利公开0173494，英国专利gb 2177096b。在任何公开的方法中，该方法可包括在将底物暴露于表1中列出的任何一种或多种酶后，暴露对由裂解已知底物产生的任何反应产物具有亲和力的任何抗体。
136.化学缀合基于使用具有e
‑
氨基或铰链区硫醇基的同双功能和异双功能试剂。诸如5,5'
‑
二硫代双(2
‑
硝基苯甲酸)(dntb)之类的同双功能试剂在两个fab之间产生二硫键，而o
‑
苯二甲基亚胺(o
‑
pdm)在两个fab之间产生硫醚键(brenner等，1985，glennie等，1987)。异双功能试剂，例如n
‑
琥珀酰亚胺基
‑3‑
(2
‑
吡啶基二巯基)丙酸酯(spdp)，将暴露的抗体和fab片段的氨基结合在一起，而不论其类别或同种型(van dijk等，1989)。
137.各种格式可用于使用本公开的测定装置测试从受试者分离的样品或细胞中是否存在脂质修饰的寡核苷酸或核酸序列，或其“片段”或其功能片段。例如，“夹心型”格式通常涉及将测试样品与脂质修饰的核酸序列混合，所述脂质修饰的核酸序列与针对分析物的特异性结合成员(例如抗体)缀合，以在分析物和缀合的探针之间形成复合物。然后使这些复合物与固定在检测区内的受体物质(例如抗体)接触。在分析物/探针缀合物复合物和固定的受体材料之间发生结合，从而定位“夹心型”复合物，其可被检测以指示本文公开的任何细胞上存在分析物或抗原。该技术可用于获得定量或半定量结果。此类夹心型测定的一些实施例在美国专利no.4,168,146中描述。
138.如本文所用，术语“杂交”用于指互补核酸的配对。杂交和杂交强度(即核酸之间的缔合强度)受诸如核酸之间的互补程度，所涉及条件的严格性以及所形成的杂交体的t
m
之类的因素影响。“杂交”方法涉及将一个核酸退火至另一互补核酸，即具有互补核苷酸序列的核酸。
139.杂交在允许特异性杂交的条件下进行。互补序列的长度，二级结构和gc含量影响获得靶位点与靶核酸的特异性杂交所必需的杂交条件的热熔点t
m
。杂交可以在严格条件下进行。短语“严格杂交条件”是指探针将与其靶标子序列杂交的条件，通常在核酸的复杂混合物中，但不与可检测或显著水平的其他序列杂交。严格条件是序列依赖性的并且在不同情况下将有所不同。严格条件是其中在约6至约8的ph和在约20℃至约65℃的温度范围内，盐浓度小于约1.0m钠离子，例如小于约0.01m，包括约0.001m至约1.0m钠离子浓度(或其他盐)的条件。也可以通过添加去稳定剂例如但不限于甲酰胺来达到严格条件。
140.本公开内容的寡核苷酸序列，核酸序列或其他试剂尤其可以以药学上可接受的盐，酯或酰胺的形式施用。术语“盐”是指本公开的化合物的无机盐和有机盐。可以在化合物的最终分离和纯化过程中原位制备盐，或通过将游离碱或酸形式的纯化化合物与合适的有机或无机碱或酸单独反应并分离由此形成的盐来制备盐。代表性的盐包括氢溴酸盐，盐酸盐，硫酸盐，硫酸氢盐，硝酸盐，乙酸盐，草酸盐，棕榈酸盐，硬脂酸盐，月桂酸盐，硼酸盐，苯甲酸盐，乳酸盐，磷酸盐，甲苯磺酸盐，柠檬酸盐，马来酸盐，富马酸盐，琥珀酸盐，酒石酸盐，
萘酸盐，甲磺酸盐，葡庚糖酸盐，乳酸盐和月桂基磺酸盐等。所述盐可包括基于碱金属和碱土金属的阳离子，例如钠，锂，钾，钙，镁等，以及无毒铵、季铵和胺阳离子，包括但不限于铵，四甲基铵，四乙基铵，甲胺，二甲胺，三甲胺，三乙胺，乙胺等。参见，例如，sm berge等，“pharmaceutical salts,”j pharm sci,66:1
‑
19(1977)。在一些实施方式中，本文公开的组合物包含本文公开的寡核苷酸序列的一种或多种盐。
141.术语“热熔点”、“熔点”或“t
m“在本文中是指这样的温度(在确定的离子强度，ph和核酸浓度下)：在该温度下与靶互补的探针的50％与靶序列平衡杂交(因为靶序列过量存在，在t
m
，其中50％的探针在平衡状态被占据)。在一些情况下，术语“t d”用于定义至少一半的探针与完全匹配的靶核酸解离的温度。
142.在相应的核苷酸之间具有所有完全形成的氢键的双链体分子的形成被称为“匹配”或“完全匹配”，而具有不匹配的单对或几对核苷酸的双链体被称为“错配”。在适当的实验条件下，单链rna或dna分子的任何组合都可以形成双链体分子(dna:dna、dna:rna、rna:dna或rna:rna)。类似地，合成类似物可在适当条件下彼此形成双链分子或rna和dna。
143.短语“选择性地(或特异性地)杂交”是指当分子在复杂混合物(例如总细胞或文库dna或rna)中存在时，在严格的杂交条件下，该分子仅与特定核苷酸序列结合，双链化或杂交。本领域普通技术人员将容易认识到，可以使用替代的杂交和洗涤条件来提供相似严格性的条件，并且将认识到参数的组合比任何单个参数的测量重要得多。
[0144]“结合”是指大分子之间(例如，蛋白质与核酸之间)的序列特异性的非共价相互作用。结合相互作用的所有组成部分都不需要是序列特异性的(例如，与dna主链中的磷酸酯残基接触)，只要整个相互作用是序列特异性的即可。这种相互作用通常以10
‑6m
‑1或更低的解离常数(k d
)为特征。“亲和力”是指结合强度：增加的结合亲和力与较低的k d
相关。
[0145]
在核酸或氨基酸序列同一性的上下文中使用的术语“基本上相似”是指具有至少约50％、至少约51％、至少约52％、至少约53％、至少约54％、至少约55％、至少约56％、至少约57％、至少约58％、至少约59％、至少约60％、至少约61％、至少约62％、至少约63％、至少约64％、至少约65％、至少约66％、至少约67％、至少约68％、至少约69％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性。
[0146]
如本文所用，“％序列同一性”使用可从欧洲生物信息学研究所(embl
‑
ebi)获得的emboss成对比对算法工具确定，该工具是欧洲分子生物学实验室(embl)的一部分。可通过在位于“ebi.ac.uk/tools/emboss/align/”前面放置“www”而在网站上访问此工具。该工具利用needleman
‑
wunsch全局对齐算法(needleman,s.b.和wunsch,c.d.(1970)j.mol.biol.48,443
‑
453；kruskal,j.b.(1983)an overview of sequence comparison in d.sankoff和b.kruskal,(ed.),time warps,string edits and macromolecules:the theory and practice of sequence comparison,pp.1
‑
44addison wesley。使用默认设置，包括gap open:10.0和gap extend 0.5。默认矩阵“blosum62”用于氨基酸序列，默认矩阵“dnafull”用于核酸序列。
[0147]
术语“可操作地连接”是指两个或两个以上组件(例如序列元素)的并置，其中这些组件的排列应使两个组件均正常形式功能，并允许至少一个组件可以介导一种施加在至少一个其他组件上的功能。
[0148]
如本文所用，“条形码”是指与多核苷酸相关的标签或标签的组合，其身份(例如，标签dna序列)可用于区分样品中的多核苷酸。在某些实施方式中，多核苷酸上的条形码用于鉴定多核苷酸的来源。例如，核酸样品可以是源自不同来源的多核苷酸库(例如，源自不同个体，不同组织或细胞的多核苷酸，或在不同时间点分离的多核苷酸)，其中来自每个不同来源的多核苷酸被标记带有唯一的条形码。这样，条形码提供了多核苷酸与其来源之间的相关性。在某些实施方式中，使用条形码来独特地标记样品中的每个单独的多核苷酸。样品中独特条形码的数量的鉴定可以提供样品中存在多少个单独的多核苷酸的读数(或从多少个原始多核苷酸中衍生出可操作的多核苷酸样品；参见，例如，美国专利no.7,537,897，通过引用整体并入本文)。条形码的长度范围可以从大约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或大约100个核苷酸碱基或更多，并且可以包括多个亚基，其中每个不同的条形码具有不同的亚基身份和/或顺序。可用作条形码的示例性核酸标签在美国专利no.7,544,473以及美国专利no.7,393,665中描述，其关于核酸标签的描述及其在鉴定寡核苷酸中的用途通过引用整体并入本文。在某些实施方式中，用于标记多个样本的一组条形码不需要具有任何特定的共同特性(例如，t m
、长度、碱基组成等)，因为本文所述的方法可以容纳各种各样的独特条形码套。这里要强调的是，条形码仅需在给定的实验中唯一。因此，相同的条形码可用于标记在不同实验中处理的不同样品。另外，在某些实验中，用户可以使用相同的条形码在同一实验中标记不同样品的子集。例如，可以将来自具有特定表型的个体的所有样品以相同的条形码标记，例如，可以将来自对照(或野生型)受试者的所有样品以第一条形码标记为，而可以将具有疾病状况的受试者标记为第二条形码(与第一条形码不同)。作为另一个示例，可能希望用不同的条形码标记源自同一来源的不同样本(例如，随时间推移而衍生的样本或源自组织内不同部位的样本)。此外，条形码可以以多种不同方式产生，例如，通过组合标记方法，其中一个条形码通过连接被附着，而第二条形码通过引物延伸被附着。在一些实施方式中，可以将多个唯一条形码附接到同一样本，以便相对于其他样本增加其唯一性。作为另选，一个条形码可以代表一类样品(例如，孔板)，而第二或第三条形码可以代表该板内的特定孔。在一些实施方式中，可以通过将不止一个条形码寡核苷酸与脂质修饰的或疏水锚的寡核苷酸杂交来用多个条形码标记样品，或者可以用多个条形码的脂质修饰或疏水锚的寡核苷酸标记样品。在一些实施方式中，可以通过分裂池标记对单个细胞进行条形码处理，以生成与池中每个其他细胞不同的独特条形码概况。因此，可以以多种不同方式设计和实施条形码，以在加工过程中跟踪多核苷酸片段和分析，因此在这方面没有限制。
[0149]“聚合酶链式反应”或“pcr”是指通过dna的互补链的同时引物延伸在体外扩增特定dna序列的反应。换句话说，pcr是用于制备侧翼为引物位点的靶核酸的多个拷贝或复制的反应，该反应包括以下步骤的一个或多个重复：(i)使靶核酸变性，(ii)使引物退火，和
(iii)在三磷酸核苷的存在下通过核酸聚合酶延伸引物。通常，将反应循环通过针对热循环仪仪器中每个步骤优化的不同温度。特定的温度，每个步骤的持续时间以及步骤之间的变化率取决于本领域普通技术人员众所周知的许多因素，例如参考文献：mcpherson等编，pcr:a practical approach and pcr2:a practical approach(irl press,oxford,1991和1995。例如，在使用taq dna聚合酶的常规pcr中，双链靶核酸可在>90℃的温度下变性，引物在50
‑
75℃的温度下退火，而引物在72
‑
78℃的温度下延伸。术语“pcr”涵盖反应的衍生形式，包括但不限于rt
‑
pcr，实时pcr，巢式pcr，定量pcr，多重pcr等。反应体积范围从几百纳升(例如200nl)到几百微升(例如200μl)。“逆转录pcr”或“rt
‑
pcr”是指先进行逆转录反应的pcr，该逆转录反应将靶rna转化为互补的单链dna，然后将其扩增，例如tecott等的美国专利no.5,816,038，该专利通过引用并入本文。“实时pcr”是指随着反应的进行监测其反应产物即扩增子的量的pcr。有许多形式的实时pcr，其主要区别在于用于监测反应产物的检测化学，例如gelfand等美国专利no.5,210,015wittwer等美国专利no.6,174,670和6,569,627(嵌入染料)；tyagi等美国专利no.5,925,517(分子信标)，所述专利通过引用并入本文。mackay等，nucleic acids research，30：1292
‑
1305(2002)中综述了用于实时pcr的检测化学，其也通过引用并入本文。“巢式pcr”是指两阶段pcr，其中第一pcr的扩增子变成使用新的一组引物的第二pcr的样品，其中至少一个引物结合到第一扩增子的内部位置。如本文所用，关于嵌套扩增反应的“初始引物”是指用于产生第一扩增子的引物，而“第二引物”是指用于产生第二或嵌套的扩增子的一个或多个引物。“多重pcr”是指这样的pcr，其中在同一反应混合物中同时携带多个靶序列(或单个靶序列和一个或多个参考序列)，例如bernard等，anal.biochem.273:221
‑
28(1999)(双色实时pcr)。通常，将不同的引物组用于每个被扩增的序列。
[0150]
术语“过度增殖细胞”是指癌细胞，癌前细胞，增生性细胞或衰老细胞并且不能正常进行有丝分裂的细胞。在一些实施方式中，过度增殖细胞是肿瘤细胞。在一些实施方式中，过度增殖细胞包含功能异常的细胞周期，使其缺乏凋亡或代谢不稳定，从而该细胞比相同类型且代谢稳定的细胞增殖更快。
[0151]
如本文所用，“表达”是指从dna模板转录多核苷酸的过程(例如转录成mrna或其他rna转录物)和/或随后将转录的mrna翻译成肽，多肽，或蛋白质。转录物和编码的多肽可以统称为“基因产物”。如果多核苷酸衍生自基因组dna，则表达可包括在真核细胞中剪接mrna。
[0152]
术语“功能片段”是指相应全长多肽或核酸所涉及的多肽或核酸序列的任何部分，其具有足够的长度并具有足以赋予至少相似或相似的生物学效应的结构。基本上类似于该片段所基于的全长多肽或核酸。在一些实施方式中，功能片段是全长或野生型核酸序列的一部分，其编码本文公开的任何一种核酸序列，并且所述部分编码具有一定长度和/或结构的多肽，所述多肽具有以下特征：小于全长，但编码的结构域与全长或野生型蛋白相比仍具有生物学功能。在一些实施方式中，功能片段可能具有降低的生物学活性，
[0153]
与该片段所基于的野生型或全长多肽序列相比，具有大约相等的生物活性，或具有增强的生物活性。在一些实施方式中，功能片段衍生自生物体例如人的序列。在此类实施方式中，功能片段可保留与获得该序列的野生型人序列的99％、98％、97％、96％、95％、94％、93％、92％、91％或90％的序列同一性。在一些实施方式中，功能片段可以与与获得该
序列的野生型序列或寡核苷酸部分保留85％、80％、75％、70％、65％或60％的序列同源性。
[0154]
脂质修饰的寡核苷酸
[0155]
本公开涉及一种组合物和将该组合物用于细胞条形码化方法的方法，所述细胞条形码化方法使用最近开发的脂质缀合的或疏水锚的寡核苷酸的特定组，有效地标记来自不同患者或测试条件的单个细胞。随后可以将寡核苷酸条形码(采用pcr柄、独特的标识符和捕获序列工程化)引入细胞和细胞子集，以进行基于微滴微滴的rna测序文库制备。
[0156]
通过二组分系统将脂质修饰的寡核苷酸稳定地嵌入细胞质膜中公开于selden等,j.am.chem.soc.134:765
‑
68(2012)；weber等,biomacromolecules15:4621
‑
26(2014)；和公开的美国专利申请no.2017/0305955，其全部内容通过引用整体并入本文。
[0157]
图5中显示了本文公开的脂质修饰的寡核苷酸的一个一般性非限制性实施例。该脂质修饰的寡核苷酸包含三个寡核苷酸：第一个寡核苷酸，其从5'至3'方向包含第一脂质部分，第一杂交区域和第一引物区域；第二寡核苷酸，其从5'至3'方向包含第二杂交区和第二脂质部分，其中第二杂交区是第一杂交区的反向互补序列；和第三寡核苷酸，其包含从5'至3'方向的第二引物区域，条形码区域和捕获序列，其中第二引物区域是第一引物区域的反向互补序列。
[0158]
本公开还涉及微流体和标记的核酸。例如，某些方面通常涉及用于标记微流液滴或其他隔室中的核酸的系统和方法，所述微流滴或其他隔室例如由细胞产生。在一组实施方式中，可以制备含有寡核苷酸的颗粒，所述寡核苷酸可用于确定例如附着于颗粒表面的靶核酸。寡核苷酸可包括“条形码”或独特序列，其可用于将液滴中的核酸与另一液滴中的核酸区分开，例如与核酸合并在一起或从液滴中除去之后。本发明的某些实施方式通常涉及用于将附加或任意序列连接至微流体液滴或其他区室中的核酸的系统和方法，例如，可用于选择性地确定或扩增怀疑存在于液滴中的所需序列的识别序列。这样的系统可用于例如各种应用中的选择性扩增，例如高通量测序应用。
[0159]
本公开的一些方面大体上涉及在微流体液滴或其他合适的区室中，例如微孔板的微孔，载玻片或其他表面上的单个斑点等中，用于以脂质修饰的或疏水锚的寡核苷酸包含或封装核酸的系统和方法。在某些情况下，核酸和寡核苷酸可以连接或结合在一起。核酸可以来自液滴内的裂解细胞、细胞器或其他物质。液滴内的寡核苷酸可与其他液滴内的寡核苷酸(例如，多个液滴或一群液滴内)区分。例如，寡核苷酸可包含一个或多个在各个液滴之间不同的独特序列或“条形码”。因此，可以通过确定与核酸相关的条形码来唯一地识别每个液滴内的核酸。这可能很重要，例如，如果液滴被“打断”或破裂，并且随后将来自不同液滴的核酸合并或储集在一起(例如，用于测序或其他分析)。
[0160]
本公开涉及包含一个或多个脂质修饰的寡核苷酸的细胞，其中所述脂质修饰的寡核苷酸包含脂质部分区域和任选的捕获区域。在一些实施方式中，细胞是过度增殖细胞，来自细胞系的转化细胞或分离自受试者或患者的原代细胞。
[0161]
脂质部分区域
[0162]
在一些实施方式中，脂质部分区域包含烷基链和烯基、烷基、芳基或芳烷基链。该烯基、烷基、芳基或芳烷基链可包含约12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、
77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个碳原子或更多。在一些实施方式中，烷基链包含约12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个碳原子数或更多，并且烯基、烷基、芳基或芳烷基链包含约12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个碳原子或更多。在一些实施方式中，链具有相同数目的碳原子。在其他实施方式中，一个链比另一个链具有少约1、2、3、4、5、6、7、8、9或10个碳原子。脂质部分区域可包含多于1个的烯基、芳基或芳烷基链，每个链包含12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个碳原子或更多。
[0163]
在一些实施方式中，脂质部分区域可以包含一个或多个不饱和碳键。在一些实施方式中，不饱和键全部包含在同一链内。在其他实施方式中，不饱和键可以包含在多于1个链内。
[0164]
在某些实施方式中，脂质部分区域包含二烷基磷酸甘油酯，并且多核苷酸缀合至二烷基磷酸甘油酯。在一些实施方式中，二烷基磷酸甘油酯的每条链具有与另一条链相同的碳原子数。在其他实施方式中，二烷基磷酸甘油酯的两个烷基链之间的碳原子数不同。在一些实施例中，每个链具有12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个碳原子或更多。在一些实施方式中，每个链具有约12个碳原子，或约14个碳原子，约16个碳原子，约18个碳原子，约20个碳原子，或约22个碳原子。在一些实施方式中，至少一个链具有约12个碳原子，约14个碳原子，约16个碳原子，约18个碳原子，约20个碳原子或约22个碳原子。
[0165]
脂质部分区域可以包含单烷基酰胺，并且多核苷酸可以与单烷基酰胺缀合。在一些实施方式中，单烷基酰胺链具有约12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或约100个碳原子或更多。在一些实施方式中，单烷基酰胺链具有约12个碳原子，或约14个碳原子，约16个碳原子，约18个碳原子，约20个碳原子或约22个碳原子。在某些实施方式中，单烷基酰胺包含约16或18个碳原子。
[0166]
在其他实施方式中，脂质部分区域和多核苷酸通过包含磷酸酯基团的化合物连接。在其他实施方式中，脂质部分区域和多核苷酸通过包含脲基的化合物连接。在其他实施
方式中，脂质部分区域和多核苷酸通过包含磺酰基的化合物连接。在另一个实施方式中，脂质部分区域和多核苷酸通过包含磺酰胺，醚，硫醚，氨基甲酸酯或碳酸酯基团的化合物连接。
[0167]
在其他实施方式中，脂质部分区域可包含固醇基团。在一些实施方式中，固醇基可以是天然的或合成的，或衍生自带有(或修饰以带有)用于连接至多核苷酸的官能团的固醇化合物。例如，来自生物来源的固醇通常以游离固醇、酰化(固醇酯)、烷基化(固醇烷基醚)、硫酸化(硫酸胆固醇)或与本身可以被酰化的糖苷部分(固醇糖苷)相连的形式(酰化的固醇糖苷)存在(参见，例如，fahy等,j.lipid res.46:839
‑
61(2005)，其全文引入作为参考)。实施例包括(1)可从动物来源获得的固醇，在本文中称为“动物固醇”，例如动物固醇胆固醇和某些类固醇激素；(2)可从植物，真菌和海洋来源获得的固醇，在本文中称为“植物固醇”，例如植物固醇菜油甾醇，谷固醇，豆甾醇和麦角固醇。这些固醇通常在环a的3位，另一个位置或它们的组合上带有至少一个游离羟基，或者可以根据需要进行修饰以掺入合适的羟基或其他官能团。
[0168]
特别令人关注的甾醇是简单的甾醇，其带有用于连接至多核苷酸的独特的官能团。特别感兴趣的是其中独特的官能团是羟基的简单固醇，尤其是在环a的3位具有羟基的简单固醇(例如胆固醇，β
‑
谷甾醇，豆固醇，菜油甾醇，和芸苔甾醇，麦角甾醇等，及其衍生物)。
[0169]
在某些实施方式中，胆固醇特别包含在脂质部分区域中。感兴趣的胆固醇类别的代表性固醇(包括取代的胆固醇)包括以下物质：(1)天然和合成固醇，例如胆固醇(羊羊毛)，胆固醇(植物来源的)，去甾醇，豆甾醇，β
‑
谷甾醇，硫代胆固醇，丙烯酸3
‑
胆固醇酯；(2)胆固醇，胆固醇等a环取代的氧固醇；(3)b
‑
环取代的氧固醇，例如7
‑
酮胆固醇，5α,6α
‑
环氧胆固醇，5β,6β
‑
环氧胆固醇和7
‑
脱氢胆固醇；(4)d
‑
环取代的氧固醇，例如25
‑
酮胆甾烯和15
‑
酮胆甾烷；(5)侧链取代的氧固醇，例如25
‑
羟基胆固醇，27
‑
羟基胆固醇，24(r/s)
‑
羟基胆固醇，24(r/s)，25
‑
环氧胆固醇和24(s)，25
‑
环氧胆固醇；(6)羊毛甾醇，例如24
‑
二氢羊毛甾醇和羊毛甾醇；(7)f7
‑
胆固醇，f7
‑
5α,6α
‑
环氧胆固醇，f7
‑
5β,6β
‑
环氧胆固醇，f7
‑7‑
酮胆固醇等氟化固醇；(8)荧光胆固醇，例如25
‑
nbd胆固醇，脱氢麦角固醇和胆固醇三烯。这些化合物还可以包括氘代和非氘代形式，并且可以从例如avanti polar lipids，inc.商购获得。
[0170]
在某些实施方式中，脂质部分区域可包含饱和或不饱和，直链或支链，取代或未取代的脂族链。特别令人感兴趣的是具有2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个碳的饱和或不饱和，直链或支链，取代或未取代的烃链。
[0171]
进一步的实施方式可以包含基于或衍生自各种脂质的元素，例如脂族酸、甘油脂、甘油磷脂、鞘脂、异戊烯醇脂质，聚异戊烯醇脂质和糖脂，例如fahy等,j.lipid res.46:839
‑
61(2005)所述的脂质。
[0172]“锚”脂质修饰的或疏水锚的寡核苷酸(例如，脂质修饰的寡核苷酸包含从5'到3'方向或从3'到5'方向的第一脂质部分，第一杂交区域和第一引物区域)和“共锚”脂质修饰的或疏水锚寡核苷酸(例如，脂质修饰的寡核苷酸，其包含从5'至3'的方向或从3'至5'的方向，第二杂交区和第二脂质部分，其中第二杂交区是第一杂交区)可以包含相同的脂质部分
或不同的脂质部分(例如，不同的碳链长度，不同的组成或不同的修饰)。在一些实施方式中，“锚”脂质修饰的或疏水锚的寡核苷酸包含脂质部分，该脂质部分含有与“共锚”脂质修饰的或疏水锚的寡核苷酸的脂质部分相同数目的碳。在一些实施方式中，“锚”脂质修饰的或疏水锚的寡核苷酸的脂质部分与“共锚”脂质修饰的或疏水锚的寡核苷酸的脂质部分相比包含约1、2、3、4、5、6、7、8、9、10、11或12个或更多个碳。在一些实施方式中，“共锚”脂质修饰的或疏水锚的寡核苷酸包含脂质部分，该脂质部分与“锚”脂质修饰的或疏水锚的寡核苷酸的脂质部分相比包含约1、2、3、4、5、6、7、8、9、10、11或12个或更多个碳。在一些实施方式中，“锚”脂质修饰的或疏水锚的寡核苷酸包含包含脂质部分，该脂质部分与“共锚”脂质修饰的或疏水锚的寡核苷酸的脂质部分相比包含约1、2、3、4、5、6、7、8、9、10、11或12个或更多个碳。在一些实施方式中，仅使用锚脂质修饰的或疏水锚的寡核苷酸，而没有相应的共锚脂质修饰的或疏水锚的寡核苷酸。
[0173]
在一些实施方式中，脂质部分(即，在仅具有锚脂质修饰的或疏水锚的寡核苷酸的实施方式中的脂质部分，或在具有锚的脂质修饰的或疏水锚的寡核苷酸的实施方式中的第一或第二脂质部分和共锚脂质修饰的或疏水锚的寡核苷酸)包含式i的化合物：
[0174][0175]
或其生理上可接受的盐，
[0176]
其中n1为5至25，n2为1至25，并且x选自nh，ch2，o和ch
‑
r，其中r为c12至c28单甘油酯，烯基，烷基，芳基或芳烷基。
[0177]
在一些实施方式中，脂质部分(即，在仅具有锚脂质修饰的或疏水锚的寡核苷酸的实施方式中的脂质部分，或在具有锚的脂质修饰的或疏水锚的寡核苷酸的实施方式中的第一或第二脂质部分和共锚脂质修饰的或疏水锚的寡核苷酸)包含式ii的化合物：
[0178][0179]
或其生理上可接受的盐，
[0180]
其中n1为5至25，n2为0至24，并且x选自nh，ch2，o和ch
‑
r，其中r为c12至c28单甘油酯、烯基、烷基、芳基或芳烷基。在一些实施方式中，脂质部分，第一脂质部分，第二脂质部分或两个脂质部分包含式iii的化合物：
[0181][0182]
在一些实施方式中，“锚”脂质修饰的或疏水锚的寡核苷酸包含固醇部分，而“共锚”脂质修饰的或疏水锚的寡核苷酸包含脂质部分。在一些实施方式中，“共锚”脂质修饰或疏水锚的寡核苷酸包含固醇部分，并且“锚”脂质修饰或疏水锚的寡核苷酸包含脂质部分。在一些实施方式中，“锚”脂质修饰的或疏水锚的寡核苷酸和“共锚”脂质修饰的或疏水锚的寡核苷酸包含固醇部分。
[0183]
杂交区
[0184]
锚脂质修饰的或疏水锚的寡核苷酸和共锚脂质修饰的或疏水锚的寡核苷酸包含彼此互补的杂交区。锚脂质修饰的或疏水锚的寡核苷酸包含脂质部分，该脂质部分可操作地连接(例如，共价连接)于包含寡核苷酸的第一杂交区域，该寡核苷酸有10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个或更多个核苷酸碱基。寡核苷酸可以是d na、rna或修饰的或合成的dna或rna。
[0185]
共锚脂质修饰的或疏水锚的寡核苷酸包含包含脂质部分，该脂质部分可操作地连接(例如，共价连接)于包含寡核苷酸的第二杂交区域，该寡核苷酸有10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个或更多个核苷酸碱基。寡核苷酸可以是d na、rna或修饰的或合成的dna或rna。在一些实施方式中，第二杂交区是与第一杂交区相同类型的核酸(例如，如果第一杂交区是dna，则第二杂交区是dna)，或者与第一杂交区相比，第二杂交区可以是不同类型的核酸(例如，如果第一杂交区是dna，则第二杂交区可以是rna，或修饰的或合成的dna或rna)。
[0186]
第二杂交区是第一杂交区的反向互补序列。在一些实施方式中，互补性可以是完美的互补性(即，第二杂交区与第一杂交区的长度相同，并且第二杂交区的每个碱基与其在第一杂交区上的碱基对是完美的互补)。在一些实施方式中，与第二杂交区相比，第一杂交区包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79或80个或更多的额外碱基。在一些实施例中，与第一杂交区域相比，第二杂交区域包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、
53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79或80个或更多的额外碱基。在一些实施方式中，第一杂交区与第二杂交区具有至少约50％、至少约51％、至少约52％、至少约53％、至少约54％、至少约55％、至少约56％、至少约57％、至少约58％、至少约59％、至少约60％、至少约61％、至少约62％、至少约63％、至少约64％、至少约65％、至少约66％、至少约67％、至少约68％、至少约69％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％的序列同一性。
[0187]
在一些实施方式中，第一杂交区与seq id no:4(gtaacgatccagctgtcact)具有至少约50％、至少约51％、至少约52％、至少约53％、至少约54％、至少约55％、至少约56％、至少约57％、至少约58％、至少约59％、至少约60％、至少约61％、至少约62％、至少约63％、至少约64％、至少约65％、至少约66％、至少约67％、至少约68％、至少约69％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％的序列同一性。
[0188]
在一些实施方式中，第二杂交区与seq id no:2(agtgacagctggatcgttac)具有至少约50％、至少约51％、至少约52％、至少约53％、至少约54％、至少约55％、至少约56％、至少约57％、至少约58％、至少约59％、至少约60％、至少约61％、至少约62％、至少约63％、至少约64％、至少约65％、至少约66％、至少约67％、至少约68％、至少约69％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％的序列同一性。
[0189]
引物区
[0190]
锚脂质修饰的或疏水锚的寡核苷酸和条形码寡核苷酸包含彼此互补的引物区域。锚脂质修饰的或疏水锚的寡核苷酸包含与第一杂交区域可操作地连接(例如，共价连接)的脂质部分，第一杂交区域与第一引物区域可操作地连接(例如共价连接)，第一引物区域包含具有10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个或更多核苷酸碱基的寡核苷酸。寡核苷酸可以是dna、rna或修饰的或合成的dna或rna。
[0191]
条形码寡核苷酸包含与条形码区域(下文描述)可操作地连接(例如，共价连接)的第二引物区域，条形码区域与捕获序列(下文描述)可操作地连接(例如共价连接)，第二引物区域包括具有10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个或更多核苷酸碱基的寡核苷酸。寡核苷酸可以是dna、rna或修饰的或合成的dna或rna。在一些实施方式中，第二引物区域是与第一引物区域相同类型的核酸(例如，如果第一引物区
域是dna，则第二引物区域是dna)，或者第二引物区域相对于第一引物区域而言可以是不同类型(例如，如果第一引物区域是dna，则第二引物区域可以是rna，或修饰的或合成的dna或rna)。
[0192]
第二引物区域是第一引物区域的反向互补序列。在一些实施方式中，互补性可以是完美的互补性(即，第二引物区域与第一引物区域的长度相同，并且第二引物区域的每个碱基与其在第一引物区域上的碱基对是完美的互补)。在一些实施方式中，与第二引物区域相比，第一引物区域包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个或更多的额外碱基。在一些实施方式中，与第一个引物区域相比，第二引物区域包含1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个或更多的额外碱基。在一些实施方式中，第一引物区与第二引物区具有至少约50％、至少约51％、至少约52％、至少约53％、至少约54％、至少约55％、至少约56％、至少约57％、至少约58％、至少约59％、至少约60％、至少约61％、至少约62％、至少约63％、至少约64％、至少约65％、至少约66％、至少约67％、至少约68％、至少约69％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％的序列同一性。
[0193]
在一些实施方式中，第一引物区与seq id no:5(tggaattctcgggtgccaagg)具有至少约50％、至少约51％、至少约52％、至少约53％、至少约54％、至少约55％、至少约56％、至少约57％、至少约58％、至少约59％、至少约60％、至少约61％、至少约62％、至少约63％、至少约64％、至少约65％、至少约66％、至少约67％、至少约68％、至少约69％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％的序列同一性。
[0194]
在一些实施方式中，第二引物区与seq id no:6(ccttggcacccgagaattcca)具有至少约50％、至少约51％、至少约52％、至少约53％、至少约54％、至少约55％、至少约56％、至少约57％、至少约58％、至少约59％、至少约60％、至少约61％、至少约62％、至少约63％、至少约64％、至少约65％、至少约66％、至少约67％、至少约68％、至少约69％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％的序列同一性。
[0195]
条形码区域
[0196]
条形码寡核苷酸包含与条形码区域可操作地连接(例如，共价连接)的第二引物区域，该第二引物区域又与捕获序列(如下所述)可操作地连接(例如共价连接)，条形码区域包含2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、
29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100或更多个核苷酸碱基的寡核苷酸。寡核苷酸可以是d na、rna或修饰的或合成的dna或rna。设计条形码序列集的方法例如在美国专利no.6,235,475中示出，其全部内容通过引用合并于此。将条形码序列附加到核酸模板上的方法在美国专利公开2008/0081330和美国专利公开2011/0301042中有描述，其全部内容通过引用整体并入本文。设计条形码序列集的方法和附加条形码序列的其他方法在美国专利nos.6,138,077；6,352,828；5,636,400；6,172,214；6,235,475；7,393,665；7,544,473；5,846,719；5,695,934；5,604,097；6,150,516；re39,793；7,537,897；6,172,218；和5,863,722中公开，其全部内容通过引用整体并入本文。测序和拷贝数估计的条形码在美国专利公开2016/0046986中有描述，通过引用整体并入本文。
[0197]
条形码可以是完全随机的，也可以按一定的预定顺序进行工程化。它们可能具有随机或半随机区域以及其他固定区域。条形码可以包括其他区域，例如引物位点，衔接子或其他有助于进一步处理和分析的互补区域。可以通过第一和第二引物区域的杂交，在锚脂质修饰的或疏水锚的寡核苷酸的任何结合或捕获之前，建立相对于其第二引物区域的特定条形码本身的身份。因此，在一些实施方式中，创建所有条形码的数据库，并将其在一些实施方式中存储在计算机存储介质上。
[0198]
在一些实施方式中，条形码区域的最后一个核苷酸将与捕获序列的第一个核苷酸不同。例如，如果捕获序列是聚腺苷酸化尾部，则在一些实施方式中，条形码区域的最后一个核苷酸将不是腺嘌呤。
[0199]
条形码使得能够对包含脂质修饰的或疏水锚的寡核苷酸的细胞或膜进行标记或追踪，以允许随后鉴定和起源特定的细胞或膜。条形码对寡核苷酸的单个或亚组的分配可以允许将独特的身份分配给单个序列，序列片段或细胞。这可以允许从单个样本获取数据，并且不限于样本的平均值。
[0200]
在一些实施方式中，寡核苷酸可以共享共同的条形码，因此可以随后被鉴定为源自相同的靶细胞。可以通过使用多个条形码来识别多个(相同或不同类型的)细胞，其中每个条形码识别特定的细胞类型或特定的细胞类型内的多个细胞。
[0201]
单个细胞或膜可以包含一个以上的脂质修饰的或疏水锚的寡核苷酸，每个脂质修饰的或疏水锚的寡核苷酸具有不同的第一引物区域。这样的细胞或膜可以通过不同的条形码寡核苷酸分离和/或鉴定，每个条形码寡核苷酸包含与不同的第一引物区域互补的第二引物区域，和每个条形码寡核苷酸的单个条形码或一些或全部条形码寡核苷酸的不同条形码。
[0202]
捕获序列
[0203]
在一些实施方式中，条形码寡核苷酸包含与条形码区可操作地连接(例如，共价连接)的第二引物区，该条形码区又与捕获序列(如下所述)可操作地连接(例如共价连接)，捕获序列包括2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100或更
多核苷酸碱基的寡核苷酸。寡核苷酸可以是dna、rna或修饰的或合成的dna或rna。
[0204]
在一些实施方式中，捕获序列是聚腺苷酸化的尾巴(“poly(a)尾巴”)，即，整个捕获序列由腺嘌呤碱基组成。在一些实施方式中，捕获序列与poly(a)尾巴具有至少约50％、至少约51％、至少约52％、至少约53％、至少约54％、至少约55％、至少约56％、至少约57％、至少约58％、至少约59％、至少约60％、至少约61％、至少约62％、至少约63％、至少约64％、至少约65％、至少约66％、至少约67％、至少约68％、至少约69％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％的序列同一性。在一些实施方式中，捕获序列具有seq id no：7的序列(aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa)。
[0205]
在一些实施方式中，捕获序列是聚胸腺嘧啶尾巴(“poly(t)尾巴”)，即，整个捕获序列由胸腺嘧啶碱基组成。在一些实施方式中，捕获序列与poly(t)尾巴具有至少约50％、至少约51％、至少约52％、至少约53％、至少约54％、至少约55％、至少约56％、至少约57％、至少约58％、至少约59％、至少约60％、至少约61％、至少约62％、至少约63％、至少约64％、至少约65％、至少约66％、至少约67％、至少约68％、至少约69％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％的序列同一性。
[0206]
在一些实施方式中，捕获序列是多尿嘧啶尾(“poly(u)tail”)，即，整个捕获序列由尿嘧啶碱基组成。在一些实施方式中，捕获序列与poly(u)尾巴具有的至少约50％、至少约51％、至少约52％、至少约53％、至少约54％、至少约55％、至少约56％、至少约57％、至少约58％、至少约59％、至少约60％、至少约61％、至少约62％、至少约63％、至少约64％、至少约65％、至少约66％、至少约67％、至少约68％、至少约69％、至少约70％、至少约71％、至少约72％、至少约73％、至少约74％、至少约75％、至少约76％、至少约77％、至少约78％、至少约79％、至少约80％、至少约81％、至少约82％、至少约83％、至少约84％、至少约85％、至少约86％、至少约87％、至少约88％、至少约89％、至少约90％、至少约91％、至少约92％、至少约93％、至少约94％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％或100％序列同一性。
[0207]
在一些实施方式中，捕获序列是poly(a)，poly(t)或poly(u)尾巴的变体。此类变体除纯poly(a)，poly(t)或poly(u)尾部外还包括碱基。例如，变体可以包括捕获序列，例如聚(a)变体，例如aauaaa、auuaaa aacaag、aacaaa、aauaau、aauaag、uauaaa、aguaaa、aauaca、cauaaa、aauaua、gauaaa、aaugaa、aagaaa、acuaaa、aauaga、aauaau、aacaaa、auuaca、auuaua、aacaag或aauaag，如果需要，每个变体都包含额外的核苷酸碱基，例如7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、
64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99或100个额外的核苷酸碱基，其中大多数(在一些实施方式中)所有另外的核苷酸碱基是腺嘌呤。可以类似地构建变体poly(t)和poly(u)捕获序列。
[0208]
在一些实施方式中，作为捕获序列的替代方案，偶联对的成员(如在例如美国专利申请第2006/0252077号中所描述的抗体/抗原、受体/配体或抗生物素蛋白
‑
生物素对，其通过引用并入本文)可以连接到每个片段以在涂覆有所述偶联对的相应的第二成员的表面上被捕获。捕获之后，可以例如通过例如美国专利no.7,283,337中所述单分子检测/测序来分析序列，通过引用并入本文。
[0209]
脂质修饰的或疏水锚的寡核苷酸的合成方法
[0210]
寡核苷酸可以使用本领域已知的方案来合成，例如如caruthers等,meth.enzymol.211:3(1992)；wo 99/54459；wincott等,nucleic acids res.23:2677(1995)；wincott等,meth.mol.bio.74:59(1997)；brennan等,biotechnol.bioeng.61:33(1998)；和美国专利no.6,001,311所述。所有这些参考文献均通过引用并入本文。寡核苷酸的合成利用了常见的核酸保护和偶联基团，例如在5'端的二甲氧基三苯甲基和在3'端的亚磷酰胺。
[0211]
本文公开的寡核苷酸涵盖天然的和合成的或修饰的寡核苷酸。修饰的核酸具有一个或多个修饰，例如碱基修饰，骨架修饰等，以为核酸提供新的或增强的特征(例如，改善的稳定性)。核苷可以是碱基
‑
糖的组合，其碱基部分是杂环碱基。杂环碱基包括嘌呤和嘧啶。核苷酸是进一步包括与核苷的糖部分共价连接的磷酸基团的核苷。对于包括戊呋喃糖基糖的那些核苷，磷酸基团可以连接至糖的2'、3'或5'羟基部分。在形成寡核苷酸时，磷酸基团将相邻的核苷彼此共价连接，以形成线性聚合化合物。在某些情况下，该线性聚合化合物的各个末端可以进一步连接以形成环状化合物。另外，线性化合物可以具有内部核苷酸碱基互补性，并且因此可以以产生完全或部分双链化合物的方式折叠。在寡核苷酸内，磷酸基团可被称为形成寡核苷酸的核苷间主链。rna和dna的连接或骨架可以是3'至5'磷酸二酯键。
[0212]
含有修饰的合适核酸的例子包括具有修饰的主链或非天然核苷间键的核酸。具有修饰的主链的核酸包括在主链中保留磷原子的那些和在主链中不具有磷原子的那些。其中包含磷原子的合适的修饰的寡核苷酸主链包括，例如，硫代磷酸酯，手性硫代磷酸酯，二硫代磷酸酯，磷酸三酯，氨基烷基磷酸三酯，甲基和其他烷基膦酸酯，包括3'
‑
亚烷基膦酸酯，5'
‑
亚烷基膦酸酯和手性膦酸酯，次膦酸酯，氨基磷酸酯(包括3'
‑
氨基氨基磷酸酯)，氨基烷基膦酸酯，二氨基磷酸酯，硫代膦酸酯，硫代烷基膦酸酯，硫代烷基磷酸三酯，硒代磷酸酯，具有正常3'
‑
5'键的硼酸磷酸酯，以及它们的2'
‑
5'连接的类似物，以及极性相反的那些，其中一个或多个核苷酸间键为3'至3'、5'至5'或2'至2'连接。合适的具有反极性的寡核苷酸在最3'
‑
核苷酸间键处包括单个3'至3'键，即单个倒核苷残基，该残基可以是碱性的(核碱基缺失或代替羟基)。还包括各种盐(例如钾或钠)、混合盐和游离酸形式。
[0213]
在一些实施方式中，受试者的核酸具有一个或多个硫代磷酸酯和/或杂原子核苷间键，特别是
‑‑
ch2‑‑
nh
‑‑
o
‑‑
ch2‑‑
、
‑‑
ch2‑‑
n(ch3)
‑‑
o
‑‑
ch2‑
(被称为亚甲基(甲基亚氨基)或mmi主链)、
‑‑
ch2‑‑
o
‑‑
n(ch3)
‑‑
ch2‑‑
、
‑‑
ch2‑‑
n(ch3)
‑‑
n(ch3)
‑‑
ch2—和
‑‑
o
‑‑
n(ch3)
‑‑
ch2‑‑
ch2‑‑
(其中天然磷酸二酯核苷酸间键表示为
‑‑
o
‑‑
p(＝o)(oh)
‑‑
o
‑‑
ch2‑‑
)。mmi型核
苷间键在上面引用的美国专利no.5,489,677中公开。合适的酰胺核苷间键在美国专利no.5,602,240中公开。
[0214]
同样合适的是具有吗啉代主链结构的核酸，例如在美国专利no.5,034,506中公开。例如，在一些实施方式中，主题核酸包括6
‑
元吗啉代环代替核糖环。在这些实施方式的一些中，二氨基磷酸酯或其他非磷酸二酯核苷间键取代了磷酸二酯键。
[0215]
在其中不包含磷原子的合适的修饰的多核苷酸主链具有由短链烷基或环烷基核苷间键，混合的杂原子和烷基或环烷基核苷间键或一个或多个短链杂原子或杂环核苷间键形成的主链。这些包括具有吗啉代键的那些(部分由核苷的糖部分形成)；硅氧烷主链；硫化物，亚砜和砜骨架形成乙酰基和硫代甲酰基乙酰基的骨架；亚甲基甲酰基和硫代甲酰基骨架；核糖乙酰基骨架；含烯烃的主链；氨基磺酸盐骨架；亚甲基亚氨基和亚甲基肼基骨架；磺酸盐和磺酰胺骨架；酰胺主链；其他具有混合的n、o、s和ch2组成部分。
[0216]
还包括核酸模拟物。应用于多核苷酸的术语“模拟物”包括其中仅呋喃糖环或呋喃糖环和核苷酸间键都被非呋喃糖基团取代的多核苷酸，仅呋喃糖环的取代也被称为糖替代物。维持杂环碱基部分或修饰的杂环碱基部分，以与适当的靶核酸杂交。一种这样的核酸，已经显示具有优异的杂交特性的多核苷酸模拟物，被称为肽核酸(pna)。在pna中，多核苷酸的糖
‑
骨架被含酰胺的骨架，特别是氨基乙基甘氨酸骨架取代。核苷酸被保留并直接或间接结合至主链酰胺部分的氮杂氮原子。
[0217]
具有出色的杂交特性的一种多核苷酸模拟物是肽核酸(pna)。pna化合物中的主链是两个或多个连接的氨基乙基甘氨酸单元，使pna具有含有酰胺的主链。杂环碱基部分直接或间接结合到主链酰胺部分的氮杂氮原子上。描述pna化合物制备的代表性美国专利包括但不限于：美国专利no.5,539,082；5,714,331；和5,719,262。
[0218]
另一类合适的多核苷酸模拟物基于具有连接到吗啉代环上的杂环碱基的连接吗啉代单元(吗啉代核酸)。已经报道了许多可以连接吗啉代核酸中的吗啉代单体单元的连接基团。选择了一类连接基团以得到非离子型低聚化合物。基于非离子吗啉代的寡聚化合物不太可能与细胞蛋白发生不良相互作用。基于吗啉基的多核苷酸是寡核苷酸的非离子模拟物，其不太可能与细胞蛋白形成不希望的相互作用(braasch等,biochemistry,41(14):4503
‑
10(2002))。基于吗啉代的多核苷酸公开在美国专利no.5,034,506。已经制备了多核苷酸的吗啉代类中的多种化合物，其具有连接单体亚基的多种不同的连接基团。
[0219]
另一类合适的多核苷酸模拟物称为环己烯基核酸(cena)。dna/rna分子中通常存在的呋喃糖环被环己烯基环取代。已经按照经典亚磷酰胺化学方法制备了cena dmt保护的亚磷酰胺单体，并将其用于低聚化合物的合成。已经制备并研究了完全修饰的cena寡聚化合物和具有被cena修饰的特定位置的寡核苷酸(参见wang等,j.am.chem.soc.,122:8595
‑
8602(2000))。cena单体掺入dna链可提高dna/rna杂种的稳定性。cena寡聚腺苷酸与rna和dna补体形成复合物，其稳定性与天然复合物相似。nmr和圆二色性显示，将cena结构掺入天然核酸结构以进行构象适应。
[0220]
锁核酸(lna)和/或lna类似物也适合作为修饰的核酸。在lna中，2'
‑
羟基与糖环的4'碳原子连接，从而形成'
‑
c,4'
‑
c
‑
氧亚甲基连接，并由此形成双环糖部分。所述连接可以是亚甲基(
‑
ch2‑
)，其桥接2'氧原子和4'碳原子，其中n为1或2(singh等,chem.commun.,4:455
‑
456(1998))。lna和lna类似物具有互补的dna和rna(tm＝+3至+10℃)的极高双链热稳
定性，对3'
‑
核酸外切降解的稳定性和良好的溶解性。已经描述了含有lna的有效且无毒的寡核苷酸(wahlestedt等,proc.natl.acad.sci.u.s.a.,97:5633
‑
38(2000))。
[0221]
lna单体腺嘌呤，胞嘧啶，鸟嘌呤，5
‑
甲基胞嘧啶，胸腺嘧啶和尿嘧啶的合成和制备，以及它们的低聚反应和核酸识别特性已被描述(koshkin等,tetrahedron,54:3607
‑
30(1998))。lna及其制备也描述在wo98/39352和wo99/14226中，在此通过引用将其全部内容并入本文。lna类似物的示例在美国专利nos.7,399,845和7,569,686，其全部内容通过引用结合于此。
[0222]
核酸还可包含一个或多个取代的糖部分。合适的多核苷酸包括选自以下的糖取代基：oh；和f；o
‑
、s
‑
或n
‑
烷基；o
‑
、s
‑
或n
‑
烯基；o
‑
、s
‑
或n
‑
炔基；或o
‑
烷基
‑
o
‑
烷基，其中所述烷基、烯基和炔基可以是取代或未取代的c1
‑
c10烷基或c2
‑
c10烯基和炔基。o((ch2)
n
o)
m
ch3,o(ch2)
n
och3,o(ch2)
n
nh2,o(ch2)
n
ch3,o(ch2)
n
onh2和o(ch2)
n
on((ch2)
n
ch3)2也合适，其中n和m为1至约10。其他合适的多核苷酸包括选自以下的糖取代基：c1至c10低级烷基，取代的低级烷基，烯基，炔基，烷芳基，芳烷基，o
‑
烷芳基或o
‑
芳烷基，sh，sch3，ocn，cl，br，cn，cf3，ocf3，soch3，so2ch3，ono2，no2，n3，nh2，杂环烷基，杂环烷芳基，氨基烷基氨基，聚烷基氨基，取代的甲硅烷基，rna裂解基团，报告基团，嵌入剂和具有类似性质的其他取代基。合适的修饰可以包括2'
‑
甲氧基乙氧基(2'
‑
o
‑
ch2c
h2
och3，也称为2'
‑
o
‑
(2
‑
甲氧基乙基)或2'
‑
moe)(martin等,helv.chim.acta,78:486
‑
504(1995))，即烷氧基烷氧基。合适的修饰可以包括2'
‑
二甲基氨基氧基乙氧基，即o(ch2)2on(ch3)2基团，也称为2'
‑
dmaoe，和2'
‑
二甲基氨基乙氧基乙氧基(也称为2'
‑
o
‑
二甲基氨基
‑
乙氧基
‑
乙基或2'
‑
dmaeoe)，即2'
‑
o
‑‑
ch2‑‑
o
‑‑
ch2‑‑
n(ch3)2。
[0223]
其他合适的糖取代基包括甲氧基(
‑
o
‑
ch3)，氨基丙氧基(
‑
och2ch2ch2nh2)，烯丙基(
‑
ch2‑
ch＝ch2)，
‑
o
‑
烯丙基(
‑
o
‑
ch2‑
ch＝ch2)和氟(f)。2'
‑
糖取代基可以在阿拉伯糖(上)位置或核糖(下)位置。合适的2'
‑
阿拉伯糖基修饰是2'
‑
f。还可以在寡聚化合物的其他位置，特别是在3'末端核苷、或在2'
‑
5'连接的寡核苷酸中糖的3'位置和5'末端核苷酸的5'位置进行类似的修饰。寡聚化合物还可具有糖模拟物，例如环丁基部分代替戊呋喃糖基糖。
[0224]
核酸还可以包含核碱基(也称为“碱基”)修饰或取代。如本文所用，“未修饰的”或“天然的”核碱基包括嘌呤碱基的腺嘌呤(a)和鸟嘌呤(g)，以及嘧啶碱基的胸腺嘧啶(t)、胞嘧啶(c)和尿嘧啶(u)。修饰的核碱基包括其他合成和天然核碱基，例如5
‑
甲基胞嘧啶(5
‑
me
‑
c)、5
‑
羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2
‑
氨基腺嘌呤、6
‑
甲基和腺嘌呤和鸟嘌呤的其他烷基衍生物、2
‑
丙基和腺嘌呤和鸟嘌呤的其他烷基衍生物，2
‑
硫尿嘧啶，2
‑
硫胸腺嘧啶和2
‑
硫胞嘧啶，5
‑
卤尿嘧啶和胞嘧啶，5
‑
丙炔基(
‑‑
c＝c
‑‑
ch3)尿嘧啶和胞嘧啶以及嘧啶碱基的其他炔基衍生物，6
‑
偶氮尿嘧啶，胞嘧啶和胸腺嘧啶，5
‑
尿嘧啶(假尿嘧啶)，4
‑
硫尿嘧啶，8
‑
卤代，8
‑
氨基，8
‑
硫醇，8
‑
硫烷基，8
‑
羟基和其他8
‑
取代的腺嘌呤和鸟嘌呤，5
‑
卤代，特别是5
‑
溴，5
‑
三氟甲基和其他5
‑
取代的尿嘧啶和胞嘧啶，7
‑
甲基鸟嘌呤和7
‑
甲基腺嘌呤，2
‑
f
‑
腺嘌呤，2
‑
氨基
‑
腺嘌呤，8
‑
氮杂鸟嘌呤和8
‑
氮杂腺嘌呤，7
‑
脱氮鸟嘌呤和7
‑
脱氮腺嘌呤和3
‑
脱氮鸟嘌呤和3
‑
脱氮腺嘌呤。修饰的核碱基还包括三环嘧啶，例如吩噁嗪胞苷(1h
‑
嘧啶(5,4
‑
b)(1,4)苯并嗪
‑
2(3h)
‑
酮)，吩噻嗪胞苷(1h
‑
嘧啶(5,4
‑
b)(1,4)苯并噻嗪
‑
2(3h)
‑
酮)，g
‑
钳，例如取代的吩噁嗪胞苷(例如9
‑
(2
‑
氨基乙氧基)
‑
h
‑
嘧啶(5,4
‑
(b)(1,4)苯并噁嗪)
‑
2(3h)
‑
酮)，咔唑胞苷(2h
‑
嘧啶(4,5
‑
b)吲哚
‑2‑
酮)和吡啶并吲哚胞苷(h
‑
吡啶基(3'，
2'：4,5)吡咯并(2,3
‑
d)嘧啶
‑2‑
酮)。
[0225]
杂环碱基部分还可以包括其中嘌呤或嘧啶碱基被其他杂环取代的那些，例如7
‑
脱氮
‑
腺嘌呤、7
‑
脱氮鸟嘌呤、2
‑
氨基吡啶和2
‑
吡啶酮。其他核碱基包括在美国专利no.3,687,808中公开的那些、在the concise encyclopedia of polymer science and engineering,pages 858
‑
859,kroschwitz,j.i.,ed.john wiley&sons,1990中公开的那些，在englisch等,angewandte chemie,international edition,1991,30,613中公开的那些，和在sanghvi,y.s.,chapter 15,antisense research and applications,pages 289
‑
302,crooke,s.t.and lebleu,b.,ed.,crc press,1993中公开的那些。这些核碱基中的某些可用于增加寡聚化合物的结合亲和力。这些包括5
‑
取代的嘧啶，6
‑
氮杂嘧啶和n
‑
2、n
‑
6和o
‑
6取代的嘌呤，包括2
‑
氨基丙基腺嘌呤，5
‑
丙炔基尿嘧啶和5
‑
丙炔基胞嘧啶。已经证明5
‑
甲基胞嘧啶取代可将核酸双链体稳定性提高0.6
‑
1.2℃(sanghvi等,eds.,antisense research and applications,crc press,boca raton,1993,pp.276
‑
278)，并且是合适的碱基取代，例如当与2'
‑
o
‑
甲氧基乙基糖修饰结合时。
[0226]
脂质(例如脂质，脂质，脂质前体，脂质前体，油脂化学或油脂化学)可以通过任何化学或生物化学产生(例如，如在us9,896,691、us9598710、us9,499,829、us9,428,779、us9,127,288中发现的，通过引用整体并入本文；和kinney,1997,genetic engeneering,ed.:j k setlow,19:149
‑
166；ohlrogge and browse,1995,plant cell 7:957
‑
970；shanklin and cahoon,1998,annu.rev.plant physiol.plant mol.biol.49:611
‑
641；voelker,1996,genetic engineering,ed.:j k setlow,18:111
‑
13；gerhardt,1992,prog.lipid r.31:397
‑
417；guhnemann
‑
schafer&kindl,1995,biochim.biophys acta 1256:181
‑
186；kunau等,1995,prog.lipid res.34:267
‑
342；stymne等,1993,in:biochemistry and molecular biology of membrane and storage lipids of plants,ed.:murata and somerville,rockville,american society of plant physiologists,150
‑
158,murphy&ross 1998,plant journal.13(1):1
‑
16)并通过任何方便的方法收集(例如离心细胞外分泌脂质，暴露于溶剂，全细胞提取(例如细胞分裂和收集)，疏水性溶剂提取(例如己烷)，液化，超临界二氧化碳提取，冷冻干燥，机械粉碎，分泌(例如通过添加有效的出口蛋白)或其组合)。在一些实施方式中，可以从例如植物，细菌或油质酵母或真菌中提取和纯化脂质。
[0227]
在一些实施方式中，脂质与本文公开的寡核苷酸共价连接。在一些实施方式中，脂质与本文公开的寡核苷酸交联。脂质与寡核苷酸结合的方式没有特别限制。脂质和寡核苷酸可以直接结合或通过接头(连接区)结合。在一些实施方式中，用于将脂质结合至寡核苷酸的接头包含核酸。在一些实施方式中，用于将脂质结合至寡核苷酸的接头不包含核酸。
[0228]
只要脂质和寡核苷酸彼此共价连接，就可以使用的接头没有特别限制。可用的接头的实施例包括以下结构的接头：
‑‑
o
‑
p(＝o)(oh)
‑
o
‑‑
、
‑‑
o
‑‑
co
‑‑
o
‑‑
、
‑‑
nh
‑‑
co
‑‑
o
‑‑
、
‑‑
nh
‑‑
co
‑‑
nh
‑‑
、
‑‑
nh
‑‑
(ch2)
n1
‑‑
、
‑‑
s
‑‑
(ch2)
n1
‑‑
、
‑‑
co
‑‑
(ch2)
n1
‑‑
co
‑‑
、
‑‑
co
‑‑
(ch2)
n1
‑‑
nh
‑‑
、
‑‑
nh
‑‑
(ch2)
n1
‑‑
nh
‑‑
、
‑‑
co
‑‑
nh
‑‑
(ch2)
n1
‑‑
nh
‑‑
co
‑‑
、
‑‑
c(＝s)
‑‑
nh
‑‑
(ch2)
n1
‑‑
nh
‑‑
co
‑‑
、
‑‑
c(＝s)
‑‑
nh
‑‑
(ch2)
n1
‑‑
nh
‑‑
c
‑‑
(＝s)
‑‑
、
‑‑
co
‑‑
o
‑‑
(ch2)
n1
‑‑
o
‑‑
co
‑‑
、
‑‑
c(.＝s)
‑‑
o
‑‑
(ch2)
n1
‑‑
o
‑‑
co
‑‑
、
‑‑
c(＝s)
‑‑
o
‑‑
(ch2)
n1
‑‑
o
‑‑
c
‑‑
(＝s)
‑‑
、
‑‑
co
‑‑
nh
‑‑
(ch2)
n1
‑‑
o
‑‑
co
‑‑
、
‑‑
c(＝s)
‑‑
nh
‑‑
(ch2)
n1
‑‑
o
‑‑
co
‑‑
、
‑‑
c(＝s)
‑‑
nh
‑‑
(ch2)
n1
‑‑
o
‑‑
c
‑‑
(＝s)
‑‑
、
‑‑
co
‑‑
nh
‑‑
(ch2)
n1
‑‑
o
‑‑
co
‑‑
、
‑‑
c(＝s)
‑‑
nh
‑‑
(ch2)
n1
‑‑
co
‑‑
、
‑‑
c(＝s)
‑‑
o
‑‑
(ch2)
n1
‑‑
nh
‑‑
co
‑‑
、
‑‑
c(＝s)
‑‑
nh
‑‑
(ch2)
n1
‑‑
o
‑‑
c
‑‑
(＝s)
‑‑
、
‑‑
nh
‑‑
(ch2ch2o)
n2
‑‑
ch(ch2oh)
‑‑
、
‑‑
nh
‑‑
(ch2ch2o)
n2
‑‑
ch2‑‑
、
‑‑
nh
‑‑
(ch2ch2o)
n2
‑‑
ch2‑‑
co
‑‑
、
‑‑
o
‑‑
(ch2)
n3
‑‑
s
‑‑
s
‑‑
(ch2)
n4
‑‑
o
‑‑
p(＝o)2‑‑
、
‑‑
co
‑‑
(ch2)
n3
‑‑
o
‑‑
co
‑‑
nh
‑‑
(ch2)
n4
‑‑
、
‑‑
co
‑‑
(ch2)
n3
‑‑
co
‑‑
nh
‑‑
(ch2)
n4
‑‑
、其中n1是从约40的整数，n2是约1至约20的整数，并且n3和n4可以相同或不同，并且是约1至约20的整数。在一些实施方式中，接头是磷酸基团(
‑
op(＝o)(oh)
‑
o
‑
)。
[0229]
膜
[0230]
本公开的另一方面涉及包含膜、颗粒或珠的组合物，所述膜、颗粒或珠包含本文公开的脂质修饰的或疏水锚的寡核苷酸。在一些实施方式中，膜是生物膜(例如，围绕生物区室例如细胞，包括人造细胞，或膜囊泡或片或细胞内部室例如核，线粒体和过氧化物酶体的脂质双层)。在一些实施方式中，膜是活细胞的一部分。在其他实施方式中，膜是人造(合成)膜，例如平面膜，脂质体等。膜可以是分离的膜。在一些实施方式中，将膜固定在表面上。
[0231]
在一些实施方式中，人造膜是脂质双层。在其他实施方式中，人造膜是脂质单层。在一些实施方式中，人造膜是脂质体的一部分。脂质体包括由单层膜或脂质双层构成的单层囊泡，以及由许多同心膜(或脂质双层)组成的多层囊泡(mlv)。
[0232]
人工膜及其制造方法已经在本领域中进行了描述。参见例如美国专利no.6,861,260；kansy等(1998)j.med.chem.41(7):1007
‑
10；和yang等(1996)advanced drug delivery reviews 23:229
‑
256。
[0233]
在一些实施方式中，主题人工膜将包含一种或多种磷脂。在一些实施方式中，人造膜包含含有饱和或不饱和单或双取代脂肪酸的磷脂的混合物及其组合。这些磷脂在一些实施方式中选自二油酰基磷脂酰胆碱、二油酰基磷脂酰丝氨酸、二油酰基磷脂酰乙醇胺、二油酰基磷脂酰甘油、二油酰基磷脂酸、棕榈酰油酰基磷脂酰胆碱、棕榈酰油酰基磷脂酰丝氨酸、棕榈酰油酰基磷脂酰乙醇胺、棕榈酰油酰基磷脂酰甘油、棕榈酰油酰基磷脂酸、棕榈石油基油l磷脂酰胆碱、泛脂酰油酰磷脂酰丝氨酸、棕榈石油基油l磷脂酰乙醇胺、泛脂酰油酰磷脂酰甘油、棕榈石油基油l磷脂酸、肉豆蔻油酰基磷脂酰胆碱、肉豆蔻油酰基磷脂酰丝氨酸、肉豆蔻油酰基磷脂酰乙醇胺、肉豆蔻油酰基磷脂酰甘油、肉豆蔻油酰基磷脂酸、二亚油酰基磷脂酰胆碱、二亚油酰基磷脂酰丝氨酸、二亚油酰基磷脂酰乙醇胺、二亚油酰基磷脂酰甘油、二亚油酰基磷脂酸、棕榈酸亚油酰基磷脂酰胆碱、棕榈酸亚油酰基磷脂酰丝氨酸、棕榈酸亚油酰基磷脂酰乙醇胺、棕榈酸亚油酰基磷脂酰甘油和棕榈酸亚油酰基磷脂酸。合适的磷脂包括磷脂酰胆碱的单酰化衍生物(溶血磷脂酰胆碱)，磷脂酰丝氨酸(溶血磷脂酰丝氨酸)，磷脂酰乙醇胺(溶血磷脂酰乙醇胺)，磷脂酰甘油(溶血磷脂酰甘油)和磷脂酸(溶血磷脂酸)，在这种溶血磷脂酰衍生物中的单酰基链在一些实施方式中是棕榈酰、油酰，棕榈油酰基，亚油酰基肉豆蔻酰基或肉豆蔻酰基。
[0234]
使用方法
[0235]
脂质修饰的或疏水锚的寡核苷酸化合物和脂质修饰的或疏水锚的寡核苷酸组合物可用于多种不同的药物，药妆，诊断和生物医学应用中。此类用途的非限制性实施例描述如下。
[0236]
例如，脂质修饰的或疏水锚的寡核苷酸化合物和包含脂质修饰的或疏水锚的寡核苷酸化合物的组合物可用于研究和治疗应用，包括研究细胞间相互作用，膜力学，自下而上
的组装。组织，非贴壁细胞的定量成像或研究细胞表面附近发生的生物过程。
[0237]
在实践这样的方法中，可以首先在允许将所述组合物插入所述膜的条件下使包含脂质修饰的或疏水锚的寡核苷酸的组合物与膜接触。在一些实施方式中，该方法包括使膜与包含脂质修饰的或疏水锚的寡核苷酸的组合物接触，并在允许所述组合物插入所述膜的条件下将所述组合物与所述脂质膜一起温育。
[0238]
在一些实施方式中，将锚脂质修饰的或疏水锚的寡核苷酸和共锚脂质修饰的或疏水锚的寡核苷酸同时添加至细胞或膜。在一些实施方式中，将锚脂质修饰的或疏水锚的寡核苷酸、和共锚脂质修饰的或疏水锚的寡核苷酸顺序地添加至细胞或膜，即，先将锚脂质修饰的或疏水锚的寡核苷酸添加至细胞或膜，然后将共锚脂质修饰的或疏水锚的寡核苷酸添加至细胞或膜，或先将共锚脂质修饰的或疏水锚的寡核苷酸添加至细胞或膜，然后将锚脂质修饰的或疏水锚的寡核苷酸添加至细胞或膜。
[0239]
在一些实施方式中，本公开涉及标记细胞的方法，从单个细胞分离内源dna的方法，或在单个细胞内测序核酸序列的方法，包括将单个细胞暴露于一个或多个锚物。脂质修饰的寡核苷酸，然后添加至少与锚脂质修饰的寡核苷酸互补的第一标记寡核苷酸序列，该第一标记寡核苷酸序列在其3'区域包含已知核酸序列部分。在一些实施方式中，第一标记寡核苷酸与锚脂质修饰的寡核苷酸的3'区域互补，使得3'末端的已知核酸序列的至少一部分是单链的。在一些实施方式中，该方法进一步包括将第一标记寡核苷酸的单链3'末端暴露于连接酶缓冲液和连接酶以将第一标记寡核苷酸共价连接至锚脂质修饰的寡核苷酸。锚脂质修饰的寡核苷酸可顺序地暴露于至少第二，第三或第四或更多个标记寡核苷酸，第一、第二、第三、第四或更多个寡核苷酸中的每一个在其各自的3'区域中包含独特的识别核酸序列。分子在一些实施方式中，该方法进一步包括将锚脂质修饰的寡核苷酸和第一或多个标记寡核苷酸暴露于第一接头，所述寡核苷酸序列与第一标记寡核苷酸和第二标记寡核苷酸的一部分互补，使得当当暴露于连接酶和游离的dntp时，第一接头用作模板核酸链，用于沿着每个标记寡核苷酸的3'端的单链区域的核酸链连接并形成互补核酸序列。在一些实施方式中，本公开涉及标记细胞的方法，从单个细胞分离内源dna的方法或从单个细胞测序核酸序列的方法，包括：
[0240]
(a)将细胞暴露于一个或多个锚脂质修饰的寡核苷酸一段足以使锚脂质修饰的寡核苷酸自身嵌入细胞的细胞膜内的时间；
[0241]
(b)将细胞暴露于与锚脂质修饰的寡核苷酸互补的一种或多种标记寡核苷酸一段足以使锚脂质修饰的寡核苷酸与一种或多种标记寡核苷酸形成核酸互补链的时间；
[0242]
(c)将一种或多种标记寡核苷酸与一种或多种锚脂质修饰的寡核苷酸连接；以及可选地
[0243]
(d)通过检测与一种或多种标记寡核苷酸相对应的多个独特核苷酸序列之一来检测一种或多种标记寡核苷酸的存在；和/或
[0244]
(e)基于一种或多种标记寡核苷酸的存在分离细胞，其中一种或多种标记寡核苷酸的存在通过检测对应于一种或多种标记寡核苷酸的多个独特核苷酸序列之一来确定。
[0245]
在一些实施方式中，标记细胞的方法、从单个细胞分离内源dna的方法、或从单个细胞测序核酸序列的方法包括：
[0246]
(a)将细胞暴露于一个或多个锚脂质修饰的寡核苷酸一段足以使锚脂质修饰的寡
核苷酸自身嵌入细胞的细胞膜内的时间；
[0247]
(b)将细胞暴露于与锚脂质修饰的寡核苷酸互补的第一标记寡核苷酸一段足以使锚脂质修饰的寡核苷酸与一个或多个标记寡核苷酸形成核酸互补链的时间；
[0248]
(c)将一个或多个标记寡核苷酸与第一锚脂质修饰的寡核苷酸连接；以及可选地
[0249]
(d)通过检测与第一标记寡核苷酸相对应的多个独特核苷酸序列中的一个来检测第一标记寡核苷酸的存在；和/或
[0250]
(e)基于第一标记寡核苷酸的存在分离细胞，其中一个或多个标记寡核苷酸的存在通过检测对应于第一标记寡核苷酸的多个独特核苷酸序列之一来确定。
[0251]
在一些实施方式中，标记细胞的方法、从单个细胞分离内源dna的方法、或从单个细胞测序核酸序列的方法包括：
[0252]
(a)将细胞暴露于一个或多个锚脂质修饰的寡核苷酸一段足以使锚脂质修饰的寡核苷酸自身嵌入细胞的细胞膜内的时间；
[0253]
(b)将细胞暴露于第一、第二、第三、第四或更多个标记寡核苷酸，其中第一标记寡核苷酸与一个或多个锚脂质修饰的寡核苷酸互补并且暴露于一个或多个锚脂质修饰的寡核苷酸的时间足以使锚脂质修饰的寡核苷酸与第一标记寡核苷酸形成核酸的互补链，并且其中第二，第三和/或第四或更多个标记寡核苷酸顺序暴露于3'部分在将第二，第三和/或第四或更多标记寡核苷酸暴露于细胞之前，立即暴露于细胞中的标记寡核苷酸的时间为足以使第二，第三和/或第四或更多标记寡核苷酸共价或非共价结合至先前暴露的标记寡核苷酸；
[0254]
(c)将一个或多个标记寡核苷酸与第一锚脂质修饰的寡核苷酸连接，并且在第二、第三、第四或更多个标记寡核苷酸的情况下，将标记寡核苷酸同时彼此连接；以及(可选)
[0255]
(d)通过检测与第一、第二、第三、第四标记寡核苷酸中的每一个对应的一个或多个独特核苷酸序列中的一个来检测第一、第二、第三、第四和/或更多个标记寡核苷酸的存在；和/或
[0256]
(e)基于第一、第二、第三、第四和/或更多标记寡核苷酸的存在或第一、第二、第三、第四和/或更多标记寡核苷酸各自的独特核苷酸序列的顺序组合来分离细胞，其中第一、第二、第三、第四和/或更多标记寡核苷酸的存在是通过检测与每个标记寡核苷酸之一或组合相对应的多个独特核苷酸序列之一来确定的。
[0257]
在一些实施方式中，本公开涉及从样品标记多个细胞的方法，并且，如果该方法包括将细胞暴露于多个标记寡核苷酸，则该方法进一步包括将细胞汇集在单个容器中的步骤，然后将细胞暴露于第二、第三、第四或更多个标记寡核苷酸的每个连续步骤。
[0258]
一方面，微流液滴用于例如容纳细胞。微流体液滴可用于保持多个细胞中的细胞分离和可识别，例如，使得可以识别不同细胞之间的差异。可以以低至单细胞水平的分辨率研究多个细胞，其中一些或全部可能包含个体差异，例如，通过使用本文公开的脂质修饰的或疏水锚的寡核苷酸。
[0259]
这些细胞可以来自任何受试者，例如人类，也可以来自非人类动物，例如无脊椎动物细胞(例如来自果蝇的细胞)，鱼细胞(例如斑马鱼细胞)，两栖动物细胞(例如青蛙细胞)，爬行动物细胞，鸟类细胞或哺乳动物细胞，例如猴子，猿，牛，绵羊，山羊，马，驴，单峰骆驼，双峰骆驼，羊驼，兔，猪，小鼠，大鼠，豚鼠，仓鼠，狗，猫等。如果该细胞来自多细胞生物，则该
细胞可能来自该生物的任何部分。在一些实施方式中，可以研究组织。例如，来自生物体的组织可以被处理以产生细胞(例如，通过组织均质化或通过激光捕获来自组织的细胞)，使得可以确定组织内的差异，如本文所讨论的。
[0260]
所述细胞或组织可以来自健康受试者，或者患病或怀疑患病的人。例如，可以从受试者的血细胞中取出并进行研究以确定这些细胞的分布差异或变化，例如以确定受试者是否健康或患有疾病，例如动物是否患有癌症(例如，通过确定血液中的癌细胞)。在某些情况下，可以研究肿瘤(例如，使用活检)，并可以确定肿瘤的情况。例如，可以研究细胞以确定任何细胞是否为癌症干细胞。
[0261]
除了本文讨论的技术之外，还可以使用其他技术来确定细胞，这可以帮助确定细胞的表观遗传概况。例如，可以使用流式细胞术，显微镜术研究细胞，可以培养细胞等，以确定所述情况(或情况中的改变)是否与细胞中的其他变化相关，例如蛋白质的表达水平、形态变化、繁殖或分化能力等。
[0262]
液滴可以包含在微流体通道中。例如，在某些实施方式中，液滴的平均尺寸或直径可小于约1mm、小于约500μm、小于约300μm、小于约200μm、小于约100μm、小于约75μm、小于约50μm、小于约30μm、小于约25μm、小于约10μm、小于约5μm、小于约3μm或在一些情况下小于约1μm。在某些情况下，平均直径还可以为至少约1μm、至少约2μm、至少约3μm、至少约5μm、至少约10μm、至少约15μm或至少约20μm。液滴可以是球形或非球形的。如果液滴是非球形的，则液滴的平均直径或尺寸可以视为具有与非球形液滴相同体积的理想球体的直径。
[0263]
可以使用任何合适的技术来产生液滴。例如，通道的结合部可用于产生液滴。该结合部可以是例如t形结合部，y形结合部，通道内通道间的结合部(例如，以同轴布置，或者包括内部通道和围绕内部通道至少一部分的外部通道)，交叉(或“x”)结合部，流动焦点结合部或任何其他合适的结合部来生成液滴。参见，例如，wo 2004/091763和wo 2004/002627，在此通过引用将其全部内容整体并入本文。在一些实施方式中，可以将结合部构造和布置成产生基本上单分散的液滴。
[0264]
在某些情况下，细胞可以以相对较高的速率包封在液滴内。例如，液滴中的细胞包封率可以是at a relatively high rate.for example、the rate of cell encapsulation in droplets may be至少约10个细胞/s、至少约30个细胞/s、至少约100个细胞/s、至少约300个细胞/s、至少约1,000个细胞/s、至少约3,000个细胞/s、至少约10,000个细胞/s、至少约30,000个细胞/s、至少约100,000个细胞/s、至少约300,000个细胞/s或至少约106个细胞/s。
[0265]
可以使用例如任何微流体装置(包括例如与多样品纳米分配器接口的微流体装置)进行pcr反应(包括，例如，利用本文公开的脂质修饰的或疏水锚的寡核苷酸的逆转录pcr和引物延伸pcr)。微流体装置是流体系统，其中流体的体积很小，通常约为微升至纳升。在一些实施方式中，微流体可以小体积处理数十至数千个样品。微流体可以是主动的或被动的。通过在微流体装置中使用诸如阀的有源元件，可以创建微流体回路。这不仅允许使用较小的试剂量，而且还可以实现很高的任务并行度，因为可以处理多个过程并将这些过程物理安装在同一芯片上。
[0266]
在微流体通道中，液体流可以完全层流，也就是说，所有流体都沿相同方向以相同速度运动。与湍流不同，这使得流体中分子的运输非常可预测。微流体装置可以由玻璃或塑
料制成。在一些实施例中，可以使用一种聚硅氧烷类型的聚二甲基硅氧烷(pdms)。pdms的一些优点是它便宜，光学透明且可渗透多种物质(包括气体)。在一些实施例中，可以使用软光刻或微成型来创建基于pdms的微流体装置。这些设备可以使用压力驱动流，电动流或润湿驱动流。
[0267]
在一些实施方式中，微流体装置具有多个腔室，每个腔室具有实时微阵列。在一些实施方式中，将阵列结合到微流体装置中。在一些实施方式中，通过将特征添加到具有多个实时微阵列的平面上以形成腔室，从而形成微流装置，其中该腔室对应于实时微阵列。在一些实施方式中，将具有3维特征的基底，例如具有孔和通道的pdms表面，放置成与具有多个实时微阵列的表面接触，以形成在多个腔室中具有多个阵列的微流体装置。
[0268]
可以使用具有多个小室的设备，每个小室都带有实时微阵列，以便同时分析多个样品。在一些实施方式中，多个腔室具有源自相同样本的样本流体。来自多个腔室中的相同样本的样本流体可能很有用，例如，用不同的阵列进行测量以分析同一样本的不同方面，或者例如通过对相同阵列进行并行测量来提高准确性。在某些情况下，同一样品中的不同扩增子将具有不同的最佳温度曲线条件。因此，在一些实施方式中，相同样品被分成不同的流体体积，并且不同的流体体积在具有实时微阵列的不同腔室中。并且至少某些不同的流体体积具有不同的温度循环。
[0269]
在一些实施方式中，多个腔室具有来自不同来源的样本流体。为了通过在给定仪器上在给定时间段内测量更多样品来增加通量，使用来自不同来源的样品流体可能会很有用。在一些实施方式中，具有包含实时微阵列的多个腔室的微流体可以用于诊断应用。该设备可能具有大约2、3、4、5、6、7、8、9、10、10
‑
15、15
‑
20、20
‑
30、30
‑
50、50
‑
75、75
‑
100或大于100个小室，每个小室都有一个实时微阵列。
[0270]
一些实施方式涉及脂质修饰的或疏水锚的寡核苷酸与固体支持物结合的用途。“固体支持物”是指具有可通过共价或非共价键直接或间接连接分子的表面的任何底物。固体支持物可以包括能够为附接到表面的探针提供物理支持的任何基底材料。该材料通常能够承受与条形码寡核苷酸在表面上的附着以及在测定过程中遇到的任何后续处理，处理或加工有关的条件。所述材料可以是天然存在的，合成的或天然存在的材料的变体。合适的固体载体材料可包括硅，石墨，镜面，层压板，陶瓷，塑料(包括诸如聚氯乙烯，环烯烃共聚物，聚丙烯酰胺，聚丙烯酸酯，聚乙烯，聚丙烯，聚(4
‑
甲基丁烯)，聚苯乙烯，聚甲基丙烯酸酯，聚对苯二甲酸乙二酯，聚四氟乙烯(ptfe或)，尼龙，聚丁酸乙烯酯)，锗，砷化镓，金，银等，可单独使用或与其他材料一起使用材料。可以考虑其他刚性材料，例如玻璃，其包括二氧化硅，并且还包括例如可作为生物玻璃获得的玻璃。可以采用的其他材料包括多孔材料，例如受控孔玻璃珠。也可以考虑在其表面上掺有能够具有一个或多个官能团的任何其他材料，例如氨基，羧基，硫醇或羟基官能团中的任何一个。
[0271]
用于固体支持物的材料可采用从简单到复杂的各种构造中的任何一种。固体支持物可具有多种形状中的任何一种，包括条，板，盘，棒，颗粒，包括珠，管，孔等。通常，该材料是相对平面的，例如，滑动件，尽管它可以是球形的，例如，珠，或者是圆柱形的(例如，圆柱)。在许多实施方式中，材料通常成形为矩形固体。可以在片上合成诸如探针阵列之类的多个预定布置，然后将其切成块，即，通过沿刻痕线断裂而切成单个阵列基板。可以使用的示例性固体支持物包括微量滴定孔，显微镜载玻片，膜，磁珠，带电纸，langmuir
‑
blodgett
膜，硅晶片芯片，流通芯片和微珠。在一些实施方式中，珠是塑料或聚苯乙烯。在一些实施方式中，珠是磁性的。在将珠暴露于磁力后，形成细胞的核酸分子或序列能够被分离。单个dna和rna
[0272]
在一些实施方式中，条形码寡核苷酸可以通过其捕获序列例如聚(a)尾巴直接偶联至固体支持物。在这样的实施方式中，可以在杂交条件下将包含锚和共锚脂质修饰的或疏水锚的寡核苷酸的细胞或膜暴露于固相支持物，使得包含锚和共锚脂质修饰的或疏水
‑
寡核苷酸的细胞或膜。锚的寡核苷酸与条形码寡核苷酸结合。然后可以洗涤固相支持物的非结合物质，并通过测序或其他鉴定方案进一步分析包括结合的细胞和膜在内的剩余固相支持物。
[0273]
在一些实施方式中，固体支持物最初是未结合的，并通过条形码寡核苷酸的捕获序列与条形码寡核苷酸结合。在这样的实施方式中，包含锚和共锚脂质修饰的或疏水锚的寡核苷酸的细胞或膜已经通过第一和第二引物区与条形码寡核苷酸杂交。然后可以洗涤固相支持物的非结合物质，并通过测序或其他鉴定方案进一步分析包括结合的细胞和膜在内的剩余固相支持物。
[0274]
在一些实施方式中，本公开涉及用本文公开的条形码或脂质修饰的寡核苷酸标记细胞的方法。在一些实施方式中，所述方法包括使公开的寡核苷酸的一种或多种同质混合物或异质混合物与一种或多种细胞接触。在一些实施方式中，细胞来自样品。在一些实施方式中，使细胞与至少第一和第二脂质修饰的寡核苷酸接触，使得脂质
‑
寡核苷酸与细胞中存在的rna，dna或rna/dna杂交体杂交。在一些实施方式中，寡核苷酸的捕获区域用于将寡核苷酸分离至固相支持物或另一种固定的寡核苷酸，从而可以去除细胞中未杂交的元件或组分，并保留从细胞捕获的rna/dna的保留物。。在一些实施方式中，可以在培养容器中分离从单个细胞捕获的rna/dna。在一些实施方式中，可以将多个捕获的dna/rna序列维持在与从其分离的细胞相对应的文库中。在一些实施方式中，对多个捕获的dna/rna序列进行测序，使得测序的dna或rna对应于该细胞的表达模式。
[0275]
本公开涉及一种制备由单个细胞或多个细胞分离表达的寡核苷酸文库的方法，该产生文库的方法包括在一个或多个细胞暴露于一个或多个细胞后，从一个或多个细胞测序rna或dna。或本文公开的多个脂质修饰的寡核苷酸。在一些实施方式中，可以通过使与脂质修饰的寡核苷酸结合的探针的已知信号或频率与结合了该寡核苷酸的细胞相关联来分离和/或鉴定来自一个或多个细胞的内源核苷酸。探针的信号或频率可以与内源dna和/或rna的来源配对。在一些实施方式中，所述内源核苷酸是来自一个或多个细胞或cdna的mrna，所述细胞或cdna是通过例如，pcr或其他已知技术通过从分离的mrna创建cdna文库构建dna的互补链文库而形成的。在一些实施方式中，通过使细胞与本文公开的一个或多个脂质修饰的寡核苷酸接触，而从单个细胞分离的cdna或mrna，从而使得捕获的每个细胞可以与结合至脂质修饰的寡核苷酸或检测寡核苷酸的探针的身份、数量或检测相关。一种或多种脂质修饰的寡核苷酸在一种或多种细胞上的不同分布可用于使该细胞与其特定的内源表达模式集相关。可以使用对细胞表面上的抗原或其他蛋白质具有特异性的抗体来分离带有一个或两个或多个脂质修饰的寡核苷酸的细胞。细胞的表达模式(通过对由细胞表达的一个或多个od内源序列进行测序而产生)可与带有已知抗原的细胞的相应身份相关，该已知抗原通过已知结合抗体的靶序列的抗体的粘附而鉴定。
[0276]
试剂盒
[0277]
提供了可以促进本文公开的组合物的生产和/或使用的试剂盒和系统。本文考虑的试剂盒可以包括一种或多种脂质修饰的或疏水锚的寡核苷酸，包含脂质修饰的或疏水锚的寡核苷酸的组合物，用于递送的目的试剂，其可以在单独的容器中或更通常在无菌容器中作为单一成分提供。
[0278]
此外，试剂盒还可以包含使用试剂盒组件的说明。
[0279]
在一些实施方式中，试剂盒包含多孔板，例如96、384、1536或3456孔板，其含有预杂交到样品条形码的锚脂质修饰的或疏水锚的寡核苷酸。来自不同患者，状况等的细胞可以通过分配到独特孔中，共锚标记、洗涤和单细胞rna测序的上游进行条形码化处理。
[0280]
实施例
[0281]
实施例1
[0282]
木质素酸部分(lmo)或胆固醇
‑
teg(cmo)改编自cite
‑
seq的条形码设计(stoekius等、nat.meth.14:865
‑
68(2017))，用于lmo/cmo，合成/订购以下材料：
[0283]
(1)在5'末端偶联于木质酸部分(lmo)或胆固醇
‑
teg(cmo)的41nt“锚”dna寡核苷酸。最5'的20nts是共锚序列的反向互补序列(见下文)并稳定膜标记。下游的21nt是位于未修饰dna条形码5'端的truseq小rna pcr柄的反向互补序列(请参见下文)。lmo/cmo锚序列如下：
[0284]
5'
‑
{24c.fa}
‑
gtaacgatccagctgtcacttggaattctcgggtgccaagg
‑
3'
[0285]
5'
‑
{chol
‑
teg}
‑
gtaacgatccagctgtcacttggaattctcgggtgccaagg
‑
3'
[0286]
(2)在3'末端与棕榈酸部分(lmo)或胆固醇
‑
teg(cmo)偶联的20nt“共锚”dna寡核苷酸。共同锚是锚5'末端的反向互补序列，具有以下序列：
[0287]
5'
‑
agtgacagctggatcgttac
‑
{16c.fa}
‑
3'
[0288]
5'
‑
agtgacagctggatcgttac
‑
{teg
‑
chol}
‑
3'
[0289]
(3)一组59nt scrnaseq条形码，每个条形码都通过与锚序列3'端的杂交而定位于细胞。杂交区域是truseq small rna pcr柄，用于在文库制备过程中基于pcr的条形码富集。条形码包括一个6nt的样品条形码和一个32nt的poly
‑
a区域，用于在scrnaseq mrna捕获珠上捕获。条形码具有以下顺序：
[0290]
5'
‑
ccttggcacccgagaattccannnnnnaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
‑
3'
[0291]
然后使用流式细胞仪确定(1)是否可以使用lmo和cmo成功和可预测地标记不同的细胞类型，以及(2)在一定时间范围内，scrnaseq缓冲液中的标记是否稳定(即，在细胞之间不加扰)与10x genomics scrnaseq工作流程匹配。图1中，显示用lmo和/或cmo标记的人胚肾细胞(hek293)，小鼠胚成纤维细胞(nih3t3)和人乳腺上皮细胞(hmec)的流式细胞仪分析。这是对现有bd技术的改进，该技术只能用于标记单个物种的细胞。图2中，标记效率是可预测的，并且在hek中的滴定系列中可扩展。图3中，混合细胞用不同的lmo或cmo标记(即，与不同的荧光团偶联的寡核苷酸杂交的共同锚序列)，并显示在hek中条形码加扰的程度可以忽略不计。图4中，细胞粘附在组织培养皿上时被标记，胰蛋白酶消化后信号未丢失。这也是对现有的基于抗体的标记技术的改进，该技术会因胰蛋白酶暴露而降解。
[0292]
实施例2
[0293]
培养用媒介物或5ng/sltgf
‑
β处理的hek和hmec 24小时以引发转录反应。胰蛋白
酶消化细胞后，这些细胞类型分别用基于lmo，cmo或bd抗体的条形码标记，并在微流控胶囊封装之前立即用相同类型的条形码标记合并的细胞。使用了10倍微流控芯片的四个泳道，每个泳道包含由lmo，cmo，bd标记的细胞混合物或完全没有条形码。
[0294]
在验证lmo和cmo条形码的测序文库制备成功后，使用v2 miseq试剂盒对条形码文库进行测序，并使用hiseq 4000对表达文库进行测序。图6显示了在hiseq数据中检测到的每个单个细胞的样品条形码比例的分布。正如在不进行大量条形码交换的情况下对细胞进行稳定标记所期望的那样，对于lmo和cmo标记的样品，细胞都富集在3d图的角落(即，大多数细胞仅富含单个样品条形码)。
[0295]
tsne然后用于通过miseq数据中的相关样本调用可视化表达库数据中细胞和每个细胞颜色之间的关系(图7)。再次，如成功标记所期望的那样，样本条形码并非在整个簇中随机地加扰，而是专门地富集在不同的簇或簇区域中。尽管用tgfb刺激hmec并没有引起足够大的转录反应以使其完全与未刺激的hmec分开聚簇，但样品条形码并未在hmec簇内打乱，而是在这些簇内定义了不同的结构域。
[0296]
实施例3
[0297]
单细胞和单核rna测序(scrna
‑
seq，snrna
‑
seq)已成为研究多细胞系统异质转录谱的强大技术。早期的scrna
‑
seq工作流程仅限于一次分析数十到数百个单细胞转录组。着基于微孔，分裂池条形码和液滴微流控技术的单细胞测序技术的出现，现在已经开始对103‑
105细胞或细胞核进行并行转录分析。细胞通量的这种增加催化了表征整个器官和整个生物体组成的努力。
[0298]
这些技术将越来越多地用于揭示细胞群体相互作用以促进发育，体内平衡和疾病的机制。从描述性分析到机械分析的这种转变需要整合时空信息，各种扰动和实验重复，以便得出强有力的结论。尽管现有方法可以分析成千上万个细胞，但在标准文库制备工作流程的最末尾加入了特定于样品的条形码(例如，illumina文库索引)，由于试剂成本和液滴微流控设备的物理限制，限制了scrna
‑
seq样品通量。样品多重方法通过在合并和单细胞分离之前用样品特有的条形码标记细胞来解决此限制。已经描述了几种多重方法，这些方法可以使用现有的遗传多样性来区分样品，或者使用遗传或非遗传机制引入样品条形码。但是，这些方法中的每一个都有缺点，包括可伸缩性，通用性以及在实验中引入二次扰动的可能性。
[0299]
我们确定脂质和胆固醇修饰的寡核苷酸(lmos，cmos)为试剂，可以规避其他样品多重技术的许多局限性。我们先前描述了通过逐步组装将lmo和cmo支架快速稳定地整合到活细胞的质膜中。在这里，我们使用脂质标记的索引将lmo和cmo调整为multi
‑
seq
–
scrna
‑
seq和snrna
‑
seq样品多重。无论物种或遗传背景如何，multi
‑
seq均可将样品条形码定位到活细胞和细胞核。multi
‑
seq是非扰动的，快速的，并且涉及最少的样品处理。在这里，multi
‑
seq的简便性和模块化使得能够分析t细胞活化时程，96种人乳腺上皮细胞(hmec)培养条件以及在不同阶段从患者源异种移植(pdx)小鼠模型中分离的冷冻保存的原代细胞转移进展。
[0300]
lmo，cmo和样品条形码寡核苷酸的设计和合成：锚和共同锚lmo和cmo设计改编自weber等。简而言之，锚的lmo具有带有两个寡核苷酸结构域的5'木质酸(la)修饰。5'端与带有3'棕榈酸(pa)的共锚lmo互补，而3'端与样品条形码寡核苷酸的pcr柄互补。样品条形码
的设计具有三个组成部分(如stoeckius等所述)：(1)5'pcr柄，用于条形码扩增和文库制备；(2)8bp条形码，相对于所有其他使用的条形码的汉明距离>3，和(3)与mrna捕获珠寡核苷酸的oligo
‑
dt区域杂交所必需的30bp poly
‑
a尾巴。相同设计的锚和共同锚的cmo通过三甘醇(teg)接头在3'或5'末端与胆固醇偶联，可从integrated dna technologies商购获得。
[0301]
锚：{la/chol
‑
teg}
‑5’‑
gtaacgatccagctgtcacttggaattctcgggtgccaagg
‑3’
[0302]
共锚：5
’‑
agtgacagctggatcgttac
‑3’‑
{pa/teg
‑
chol}
[0303]
样品条形码：5
’‑
ccttggcacccgagaattccannnnnnnna
30
‑3’
[0304]
锚lmo和共锚lmo合成：寡核苷酸是在applied biosystems expedite 8909dna合成仪上合成的，如先前所述(weber等，补充材料)。
[0305]
细胞培养：为了进行概念验证的scrna
‑
seq和snrna
‑
seq实验，将hek293细胞，hmec，jurkat细胞和mef细胞保持在37℃，5％co 2
的条件下。hek293和mef细胞在含有4.5g/l葡萄糖，0.584g/l l
‑
谷氨酰胺，3.7g/l nahco3的dulbecco改良eagle eagle中高葡萄糖(dmem h
‑
21)中培养，并补充10％胎牛血清(fbs)和青霉素/链霉素(分别为100u/ml和100μg/ml)。hmec在m87a培养基中培养，不刺激或以5ng/ml人重组tgf
‑
β(peprotech)刺激24小时。将jurkat细胞在rpmi
‑
1640中添加25mm hepes和2.0g/l nahco3补充10％fbs和青霉素/链霉素(分别为100u/ml和100μg/ml)进行培养。
[0306]
对于96个样品的hmec实验，使用0.05％胰蛋白酶
‑
edta将第4代hmec提起5分钟。使细胞悬液通过45μm细胞过滤器以除去任何团块。用m87a培养基洗涤细胞一次，并以107细胞/ml重悬。在冰上将细胞与1:50apc/cy
‑
7抗人/小鼠cd49f(biolegend，#313628)和1：200fitc抗人cd326(epcam)(biolegend，#324204)抗体孵育30分钟。用pbs洗涤细胞一次，并以2
‑
4百万细胞/ml将其重悬于具有2％bsa和dapi的pbs中。在bd facsaria iii上分选细胞。丢弃dapi+细胞。lep门控为epcam
hi
/cd49f
lo
，mep门控为epcam
lo
/cd49f
hi
(图17)。值得注意的是，这种门控策略会导致痕量的mep和lep分选不正确。将hmec亚群分类到24孔板中，使孔包含单独的lep，单独的mep或比例为2：1的lep与mep。分选的细胞群在m87a培养基中培养48小时，然后在补充了不同信号分子或信号分子组合的m87a培养基(
‑
egf)中培养72小时。具体来说，在m87a培养基(
‑
egf)中补充了100ng/ml rankl、100ng/ml wnt4、100ng/ml igf
‑
1、113ng/ml areg和/或5ng/ml egf(均来自peprotech)单独或所有可能的成对组合。对于96个样品的hmec技术复制实验，如上所述制备了体外培养物，除了所有分选的孔均包含lep和mep之外。然后将培养物在完整的m87a培养基中培养隔离前72小时。
[0307]
scrna
‑
seq样品制备：为了进行概念验证实验，首先在0.05％的胰蛋白酶
‑
edta中于37℃用胰蛋白酶处理细胞5分钟，然后用适当的细胞培养基淬灭。然后将单细胞悬浮液在160rcf下沉淀4分钟，并用pbs洗涤一次，然后将其悬浮于90μl的200nm溶液中，该溶液中含有pbs中的等摩尔量的锚lmo和样品条形码寡核苷酸。在冰上进行锚lmo条形码标记5分钟，然后将pbs中的10μl的2μm共同锚lmo(最终浓度为200nm)添加到每个细胞池中。温和混合后，标记反应在冰上继续进行另外5分钟，然后用pbs洗涤细胞两次，重悬于含0.04％bsa的pbs中，过滤并合并。cmo也执行了相同的工作流程。然后将lmo
‑
、cmo
‑
和未标记的对照细胞上样到三个不同的10x微流体通道中。
[0308]
对于最初的96重hmec实验，在胰蛋白酶消化过程中进行了lmo标记，以最小化洗涤
步骤，从而限制细胞损失并保持细胞活力。将在24孔板中培养的hmec在190μl的200nm溶液中于37℃和5％co2中标记5分钟，该溶液中含有等摩尔量的锚lmo和样品条形码寡核苷酸的0.05％胰蛋白酶
‑
edta。然后将10μl的4μm共锚lmo在0.05％胰蛋白酶
‑
edta中的溶液添加到每个孔中(最终浓度为200nm)，并在37℃和5％co2下继续标记/胰蛋白酶化5分钟。用适当的细胞培养基淬灭。类似的标记方案用于技术复制实验，不同之处在于，一旦细胞处于单细胞悬液中，就将lmo掺入。然后将细胞转移至96孔板中，用pbs中的0.04％bsa洗涤。最后，将细胞合并成一个等分试样，通过0.45μm细胞过滤器过滤，并在加载10x微流体泳道之前计数。
[0309]
对于pdx实验，如前所述，从nod
‑
scidγ(nsg)小鼠中生成的三阴性乳腺癌pdx模型解剖后，冷冻保存原发性肿瘤和肺。ucsf机构动物护理和使用委员会(iacuc)审查并批准了所有动物实验。在实验当天，将冻存的组织解冻，并在消化培养基中解离，其中该消化培养基含有dmem/f12(gibco)中的50μg/ml liberase tl(sigma
‑
aldrich)和2x104u/ml dnase i(sigma
‑
aldrich)的消化液gentlemacs协议。然后将离解的细胞通过70μm细胞过滤器过滤，以获得单细胞悬液，然后再用pbs洗涤。然后将细胞在冰中用pbs中的1：500zombie nir(biolegend，#423105)活力染料染色15分钟。然后用在pbs中的2％fbs洗涤细胞，然后在冰中用在2％fbs中的100μl的1：200fc
‑
block(tonbo，#70
‑
0161
‑
u500)在pbs中封闭5分钟。封闭后，将细胞在冰上用100μl的抗体混合物在冰上染色45分钟，抗体混合物包含抗小鼠ter119(fitc，thermofisher，#11
‑
5921
‑
82)、抗小鼠cd31(fitc，thermofisher，#11
‑
0311
‑
)85)、抗小鼠cd45(bv450，tonbo，#75
‑
0451
‑
u100)、抗小鼠mhc
‑
1(apc，ebioscience，#17
‑
5999
‑
82)和抗人cd298(pe，biolegend，#341704)。然后用pbs洗涤细胞，然后在冰上用100μl的2.5μm锚lmo条形码在pbs中进行multi
‑
seq标记5分钟。将pbs中的20μl的15μm共锚lmo添加到每个细胞池中(终浓度为2.5μm)，并继续标记另5分钟。
[0310]
值得注意的是，我们将lmo浓度提高了10倍，以说明解离后剩余的细胞和亲脂性分子总数增加。lmo标记后，将细胞用pbs中的100μl的2％fbs稀释以“淬灭”lmo，并在pbs中的2％fbs中洗涤一次。最后，如前所述(lawson等，2015；图18，图19)，在facs富集后合并来自分离的原发肿瘤和肺的mcd45+小鼠免疫细胞和hcd298+人转移瘤。然后在单个10x微流体通道中对细胞池进行测序。
[0311]
snrna
‑
seq样品制备：对于jurkat细胞激活时间过程，将2x105jurkat细胞添加到12孔板的8孔中，并用10ng/μl佛波醇12
‑
肉豆蔻酸酯13
‑
乙酸酯(pma，sigma
‑
aldrich#p8139)和1.3μm离子霉素(sigma
‑
aldrich#i0634)处理15分钟，30分钟，1小时，2小时，4小时，6小时或24小时，然后用lmo进行条形码编码。留下单孔的jurkat细胞不处理。如上所述培养hek293和mef细胞。使用适应于10x genomics的方案从细胞中分离细胞核。简而言之，将hek293、mef或经处理的jurkat细胞的悬浮液用pbs洗涤一次，以160rcf(hek293，mefs)或300rcf(jurkat)在4℃下沉淀4分钟，然后悬浮于冷的裂解缓冲液(milliq水中的0.5％nonidet p40替代物、10mm tris
‑
hcl、10mm nacl和3mm mgcl2)中，密度为2.5 x 106细胞/ml。在冰上进行裂解5分钟，然后将裂解物沉淀(500rcf，4℃，4分钟)，并在冷的重悬缓冲液(pbs中2％bsa)中洗涤3次。然后在进行lmo或cmo标记之前，将细胞核稀释至约106个细胞核/ml的浓度。将hek293和mef细胞分别分成两个样品，并使用lmo或cmo(重悬缓冲液中500nm)标记，方法与针对活细胞的描述相同(标记过程中存在bsa是唯一的改变，因为这是防止细胞核结块所必需的)。每个jurkat样品都单独用lmo标记。将每个样品在1ml重悬缓冲
液(500rcf，4℃，4分钟)中洗涤3次。将四个lmo和cmo标记的hek293和mef样品等量混合，分别将jurkat样品等比例混合。将最后两个样品以1：1的比例合并，并在单个10x微流体通道上测序。
[0312]
scrna
‑
seq和snrna
‑
seq库的制备：测序库是使用基于10x genomics single cell v2和cite
‑
seq工作流程的自定义方案制备的。简要地，跟踪10x的工作流程直至cdna扩增，然后将1μl的2.5μm的multi
‑
seq附加引物添加到cdna扩增预混液中：
[0313]
multi
‑
seq添加剂引物：
[0314]5’‑
ccttggcacccgagaattcc
‑3’
[0315]
该引物通过扩增能够成功引发mrna捕获珠上的反转录但未通过模板切换扩展的条形码来增加条形码测序的产量(图110c)。值得注意的是，在概念验证snrna
‑
seq库的制备过程中错误地排除了multi
‑
seq加成引物，并且仍然能够对细胞核进行可靠分类。扩增后，使用0.6x spri大小选择分离条形码和内源cdna片段。然后根据10x工作流程处理内源cdna部分，直到采用以下格式的下一代测序(ngs)：
[0316]
数据集ngs格式概念验证(scrna
‑
seq)2x hiseq 4000概念验证(snrna
‑
seq)novaseq(20％)hmecnovaseq(100％)hmec(技术复制)novaseq(5％)pdxnovaseq(70％)
[0317]
为了准备用于ngs的条形码部分，首先使用建立的小rna富集规程(beckman coulter)去除cdna扩增剩余的污染性寡核苷酸。具体来说，我们将条形码部分中的最终spri比值提高到3.2倍反应体积，并添加了1.8倍反应体积的100％异丙醇(sigma
‑
aldrich)。然后将珠用400μl 80％乙醇洗涤两次，风干2
‑
3分钟，然后用50μl buffer eb(qiagen，美国)洗脱。然后使用qubit对洗脱的条形码cdna进行定量，然后进行文库制备pcr(95℃，5'；98℃，15”；60℃，30”；72℃，30”；8个循环；72℃，1'；4℃保持)。每个反应体积总计为50μl，其中包含26.25μl 2x kapa hifi hotstart主混合物(roche)，2.5μl 10μm truseq rpix引物(illumina)，2.5μl 10μm truseq通用适配器引物(illumina)，3.5ng条形码cdna和无核酸酶的水。
[0318]
容器
–
细胞块(脂质)
–
条形码
–
每个孔
[0319]
取自受试者样品的组织或细胞切片的厚度为约100至约
‑
1000μm
[0320]
1.空间条形码
[0321]
2.将条带的位置与条形码相关联
[0322]
3.vibrotone
–
活检组织切片
[0323]
4.dropseq
[0324]
5.标记或募集以处理
–
脱离孔的细胞并测序单个细胞
[0325]
truseqrpix5
’‑
caagcagaagacggcatacgagatnnnnnngtgactggagttccttggcacccgagaattcca
‑3’
[0326]
其中n是任何核苷酸。
[0327]
truseq p5适配器：
[0328]5’‑
aatgatacggcgaccaccgagatctacactctttccctacacgacgctcttccgatct
‑3’
[0329]
在文库制备pcr之后，通过1.6x spri清除去除剩余的测序引物和污染性寡核苷酸。图11中记录了multi
‑
seq文库制备工作流程不同阶段的代表性生物分析仪迹线。使用图21中记录的ngs格式对条形码库进行测序。值得注意的是，测序读数主要与条形码参考序列比对，并导致高snr和低重复umi重复率，这表明条形码库未针对所提出的任何实验进行测序。
[0330]
表达库预处理：使用cellranger(10x genomics)对表达库fastq进行预处理，并与hg19(概念验证的scrna
‑
seq，hmec)对齐，连接的mm10
‑
hg19(pdx)或连接的mm10
‑
hg19前mrna(概念验证的snrna
‑
seq)参考转录组。在实验中对多个10x泳道进行测序时，cellranger聚集体用于执行读取深度归一化。
[0331]
细胞/核调用：对于概念验证scrna
‑
seq，snrna
‑
seq和hmec技术复制实验，使用cellranger定义了与细胞相关的条形码。对于原始的96重hmec实验，将细胞定义为细胞条形码(1)与>＝600总rna umi相关，(2)在multi
‑
seq样品分类工作流程中成功分类。为了排除低质量的细胞条形码，我们手动选择了600个rna umi作为阈值。对于pdx实验，我们将细胞定义为条形码(1)与>＝100个总rna umi相关，(2)在multi
‑
seq样品分类工作流程(补充材料)中成功分类。
[0332]
表达文库分析：如前所述，在预处理和细胞/核调用后，准备了rna umi计数矩阵以使用'seurat'r软件包进行分析。简而言之，在计算每个细胞映射到线粒体基因的读段百分比(％mito)之前，丢弃少于3个细胞中表达的基因。视觉确定并丢弃具有％mito升高的离群细胞。然后，对数据进行log2转换，居中和缩放，然后再归因于％mito导致的方差，并逐步淘汰rna umi的总数。然后通过选择平均表达和分散阈值为每个数据集定义高度可变的基因，从而产生约2000个总基因。然后在pca期间使用这些可变基因，并通过pc肘曲线拐点估计来定义具有统计学意义的pc。然后将大量pc用于t
‑
sne的无监督louvian聚类和降维。
[0333]
进行预处理后，使用“seurat”中的“findmarkers”命令进行差异基因表达分析，将“test.use”设置为“bimod”，并以与上下文相关的方式设置对数倍数变化阈值(补充材料)。其他数据集特定的分析在补充材料中讨论。特定于数据集的“seurat”预处理参数：
[0334][0335]
条形码库预处理：利用自定义脚本，利用'shortread'和'stringdist'r软件包将原始条形码库fastq转换为条形码umi计数矩阵(图13)。简而言之，首先对原始fastq进行解析，以丢弃其中r1的前16个碱基与匹配细胞条形码预定义列表的任何细胞条形码都不完全匹配的读取。其次，丢弃其中r2的前8个碱基与任何参考条形码的<1不匹配的对齐方式的读数。第三，将读段与细胞条形码进行分箱，并将重复的umi识别为r2碱基17
‑
26精确匹配的读段。最后，在将参考条形码对齐结果转换为最终条形码umi计数矩阵之前，先解析参考条形码对齐结果以除去重复的umi。
[0336]
条形码库测序统计数据：计算本研究中所有数据集中分类单峰的multi
‑
seq条形码库测序统计数据。通过找到前两个最丰富的条形码的商来计算每个单元的snr。本研究中介绍的每个数据集的所有单重态之间的平均snr记录在图21中。对齐率定义为单峰相关测序读数的比例，其中r2的前8个碱基与任何参考条形码的<1不匹配。
[0337]
multi
‑
seq样品分类：multi
‑
seq条形码umi计数矩阵通过以前的scrna
‑
seq多重方法的启发，通过工作流将细胞分为样品组(图13)。首先，将原始条形码读数进行log 2
转换并以均值为中心。然后通过对归一化的条形码计数矩阵执行t
‑
sne来目视检查每个条形码的存在，如在'rtsne'r包中实现的那样，其中'initial_dims'设置为条形码的总数。缺少的条形码(仅在96重hmec实验中观察到)被识别为条形码空间上缺乏任何富集的条形码，并被删除。
[0338]
接下来，排除每个条形码的最高和最低0.1％值，并且每个条形码的概率密度函数(pdf)是通过将'approxfun'r函数应用于使用'kernsmooth'r包中的'bkde'函数产生的高斯核密度估计来定义的。然后，我们根据每个条形码的阳性和阴性细胞组应表现为局部pdf最大值的假设，对细胞进行分类。为此，我们计算了每个pdf的所有局部最大值，并将负最大值和正最大值分别定义为最频繁和最高的局部最大值。值得注意的是，该策略假定对于任何给定的条形码，真正条形码的单元格将具有最高的丰度，并且没有一个单独的样本组具有比所有其他组的总和更多的成员。
[0339]
掌握了这些正负近似值之后，我们接下来尝试定义特定于条形码的umi阈值。为了找到用于阈值定义的最佳最大值间分位数(例如，最大值间分位数0.5对应于中点)，我们迭代了0.02分位数的增量，并选择了使单线态分类数量最大化的值。然后使用这些条形码特定的umi阈值，通过辨别每个单元格超过哪些阈值来进行样品分类，将二重体定义为单元格>1阈值。然后去除阴性细胞(即，超过0个阈值的细胞)，并重复此过程，直到将所有细胞分类为单峰或二重体。然后可以使用半监督学习对负性细胞的子集进行重新分类，其中在初始工作流程中定义的单峰用于在负性细胞的k均值聚类期间初始化聚类中心(补充材料)。
[0340]
统计测试：使用wilcoxon秩和检验(双面，n＝1,950个细胞)评估了概念验证的scrna
‑
seq实验中tgf
‑
β刺激和未刺激的hmec之间统计学显著性tgfbi表达富集。使用wilcoxon秩和检验(双面，n＝32个信号分子条件组)评估了根据信号传导分子暴露分组的lep和mep之间统计学显著性tgfbi表达富集。通过bonferroni多重比较调整，使用单细胞基因表达的似然比检验定义所有数据集中的簇之间的差异表达基因。使用bonferroni多重比较调整(n＝44个肿瘤阶段/细胞类型组)的二比例z检验，评估了转移过程中肺免疫细胞类型比例的统计学显著变化。
[0341]
原始基因表达和条形码计数矩阵已上载到基因表达
[0342]
omnibus(gse
…
)以及相关的元数据。
[0343]
multi
‑
seq概述：multi
‑
seq通过与“锚”lmo杂交将dna条形码定位在质膜上。“锚”lmo通过疏水性5'木质酸酰胺与膜缔合。随后与掺入3'棕榈酸酰胺的“共锚”lmo杂交，增加了复合物的疏水性，从而延长了膜的保留时间(图8a)。multi
‑
seq样品条形码包括3'poly
‑
a捕获序列，8bp样品条形码和库制备和锚杂交所需的5'pcr柄。细胞或细胞核将与膜相关的multi
‑
seq条形码携带到乳剂液滴中，其中3'poly
‑
a域在与mrna捕获珠杂交的过程中模拟内源性转录物。然后，在逆转录过程中将内源转录本和multi
‑
seq条形码链接到常见的细胞或细胞核特异性条形码，从而实现样品多路分解。在构建下一代测序文库之前，通过大小选择将multi
‑
seq条形码和内源表达文库分开，从而可以按用户定义的比例合并测序(实验方法)。可以将相同的策略应用于商用cmo。
[0344]
我们使用流式细胞仪评估了在典型的样品制备温度为4℃时，lmo和cmo是否能可预测地标记活细胞之间的交换，以及它们之间的交换最少(图11a，s1b)。还使用新鲜分离的核进行了相同的实验(图11c，s1d)。这些数据表明，在4℃下，lmo比活细胞膜上的cmo具有更长的膜停留时间，而lmo和cmo在室温下在活细胞之间具有可比的交换能力，这表明细胞应保持在冰上以达到最佳的样品多重结果(图11e)。对于细胞核，两种寡核苷酸偶联物在核膜之间均显示出最小的交换(图11d)，但是，在细胞核分离缓冲液中的牛血清白蛋白(bsa)特异性淬灭了lmo，降低了标记效率(图11b)。尽管在细胞核标记过程中存在问题，但我们认为可以在活细胞标记过程中策略性地采用lmo淬灭，以减少脱靶条形码，并可能最大程度地减少样品收集前的洗涤。确实，我们发现在pbs中用1％bsa稀释lmo标记反应可在合并后产生最小的脱靶标记(<主要标记信号的1％)，这比用pbs稀释低18倍(图11f)。
[0345]
multi
‑
seq可实现scrna
‑
seq样品的去多重：我们通过使用hek293细胞(hek)和在存在或不存在tgf
‑
β(图8b)的情况下培养的原代人乳腺上皮细胞(hmec)进行概念验证实验，测试了multi
‑
seq对scrna
‑
seq样品进行多路分离的能力。用10x genomics chromium系统对细胞进行胰蛋白酶消化，并用lmo或cmo进行条形码处理，并合并，然后滴加微流体乳
液。同时，我们准备了无条形码的重复样品，以测试multi
‑
seq是否影响基因表达或mrna捕获效率。
[0346]
经过数据预处理(计算方法)，我们分析了最终的scrna
‑
seq数据集，其中包含共14377个细胞。我们根据已知的hek标记以及hmec的两个细胞成分，肌上皮(mep)和腔上皮细胞(lep，图8c，图12a)在基因表达空间中识别出簇。将multi
‑
seq条形码分类投影到lmo标记的细胞(图8d)和cmo标记的细胞(图12b)的基因表达空间中，说明这两个膜支架成功地对每个样品进行了多路分离。预计已与tgf
‑
β培养的hmec表现出丰富的tgfbi表达(图8e)。重要的是，rna和multi
‑
seq条形码umi计数没有负相关，表明multi
‑
seq不会损害mrna捕获(图12c)。但是，我们观察到了cmo标记的hek中转录的变化(图12d，图20)，而lmo标记的hek中却没有。
[0347]
多路分离单核rna
‑
seq(snrna
‑
seq)和时程实验：snrna
‑
seq被广泛用于难以分离的实体组织的分析。我们探索了multi
‑
seq是否可以通过纯化来自hek和小鼠胚胎成纤维细胞(mef)的细胞核并在snrna
‑
seq之前用lmo或cmo标记每个细胞核来对snrna
‑
seq样本进行多路分离。并行地，我们在八个时间点(0
‑
24小时)复用了用离子霉素和佛波醇12
‑
肉豆蔻酸酯13
‑
乙酸酯(pma)处理的jurkat细胞，以追踪t细胞活化动力学(图12e)。multi
‑
seq样品分类在基因表达空间(图12f，图12g)中匹配了其预期的细胞类型簇，错误分类率为约0.5％(图8f)。值得注意的是，multi
‑
seq分类是特定于物种的，可预测约85％的小鼠
‑
人类二重体，接近约92％的理论二重体检测极限。与活细胞结果相匹配，multi
‑
seq条形码化不会损害mrna的捕获(图12h)。与活细胞结果相反，cmo和lmo标记的核均与未编码的对照在转录上无法区分(图12i)。此外，相对于lmo标记的核(图21)，cmo标记的核具有更高的平均信噪比(snr)和条形码umi总数，与以前的流式细胞仪结果一致。
[0348]
在沿着t细胞激活轨迹多路分解各个时间点时(图8g)，我们观察到了多种文献支持的转录动力学(图8h)。例如，在数据中容易鉴定出经历早期下调(例如tshr)和瞬时(例如dusp2)，持续(例如cd69)和晚期(例如grza)上调的基因。
[0349]
multi
‑
seq可以识别scrna
‑
seq数据中的二重体：我们接下来试图通过对96个独特的hmec样品进行跨多微环境条件的多重来证明multi
‑
seq的可扩展性。我们将由在没有egf的m87a培养基中生长的mep，lep和两种细胞类型组成的重复培养物暴露于15种生理相关的信号分子或信号分子组合(图13a)。我们对每个样品进行条形码编码，然后汇集并在三个10x微流体通道中加载细胞，相对于标准操作，试剂使用量减少了32倍。
[0350]
为了将hmec划分为样本组，我们实施了一个样本分类工作流程，该工作流程受到以前的策略(计算方法，补充材料，图13)的启发，该策略确定了由26,439个总细胞组成的76个样本组(图14)。每一组都专门富集了单个条形码(图9a，左，图13c)，比最丰富的脱靶条形码(图13d)平均高约199倍。与具有相对较少样本的样本多重数据不同，对于本实验，multi
‑
seq定义的二重体位于条形码空间中的单峰簇的外围(图9a，右)。我们怀疑缺少条形码是由于处理错误造成的(图13b，补充材料)，因为技术复制产生了所有96个样品组(图13e
‑
g)。
[0351]
为了评估多路分离的准确性，我们根据细胞类型组成(例如，单独的mep，单独的lep或两者)对multi
‑
seq分类进行分组，并在基因表达空间中可视化这些组。所得转录组数据的无监督聚类和标记分析将lep与mep以及表达两种细胞类型标记的歧义细胞子集区分开(图9b，左，图15a)。multi
‑
seq分类符合其预期的细胞类型簇(图9b，右)，而共表达mep和
lep标记的细胞则主要定义为二重体。multi
‑
seq识别使用标记基因预测二重体时被忽略的二重体(图9b，箭头)。此外，multi
‑
seq二重体分类通常与计算预测相符(图9c，灵敏度＝0.283特异性＝0.965)，但“同型”二重体(即由转录相似细胞形成的二重体)除外，因此需要计算二重体检测技术不敏感(补充材料)。此外，二重体finder将增殖性lep错误地归为二重体(图9c，箭头)，说明了将二重体finder应用于具有低像元类型编号的数据集时，其计算二重体推断性能会受到怎样的影响。
[0352]
multi
‑
seq识别对共培养条件和信号分子的转录反应：样品多路分离，二重体去除和质量控制过滤导致最终的scrna
‑
seq数据集包括21,753个总细胞，揭示了与培养物成分相关的两个转录反应。首先，我们观察到与mep共培养的lep相对于单独培养的lep表现出丰富的增殖(图9d，图15b)。相反，当单独或与leps培养时，mep的增殖能力相同(图15c)。第二，我们观察到相对于单独培养的mep和lep，非增殖共培养的mep和lep的tgfbi表达更丰富(图9d，右下图，图15d)。
[0353]
接下来，我们使用层次聚类来评估lep或mep对信号分子暴露的反应。暴露于egfr配体areg和egf的hmec的基因表达谱与对照细胞显著不同。相对于对照lep，areg和egf刺激的lep表达的egfr信号基因(例如dusp4)水平升高，而her2+乳腺癌中的基因上调(例如phlda1，图9e)。areg和egf刺激的mep也表达高水平的已知egfr调节基因(例如angptl4，图15e)。
[0354]
multi
‑
seq识别冷冻保存的原始pdx样品中的低rna细胞：使用scrna
‑
seq分析档案的原始组织样品通常很困难，因为这些样品在低温保存，解冻，酶消化和scrna
‑
seq样品制备过程中可能具有较低的细胞活力。我们调查了multi
‑
seq条形码的快速和非干扰性是否能够使用从转移性三阴性乳腺癌的pdx小鼠模型中解剖的样本进行冷冻保存的组织多重。在该模型系统中，原发肿瘤的直径被用作肺转移进程的替代指标(图16a)。我们对9个不同的样品进行了条形码化，这些样品代表了来自早期和中期pdx小鼠(一式两份)，一只晚期pdx小鼠和来自没有肿瘤的免疫缺陷小鼠的单个肺的原发性肿瘤和肺(图10a)。然后，在“超载”到单个10x genomics微流体泳道之前，我们用mcd45+小鼠免疫细胞汇集了富含facs的条形码化hcd298+人类转移人群。
[0355]
质量控制过滤，样品分类和二重体去除导致最终的scrna
‑
seq数据集包含9,110个小鼠和人类单峰，涵盖了所有9个样品(图10b，图16b)。在测试条件下，条形码snr对于总细胞数和生存力的样本间差异在很大程度上不变(图16c，图22)。组织特异性基因表达模式(图16d)和与facs富集结果的比较(图16e)支持分类准确性。另外，multi
‑
seq分类识别了使用标准质量控制工作流程(例如cellranger rna umi拐点阈值＝1350，图10c)会丢弃的高质量单细胞转录组。当比较具有100
‑
1350rna umi的细胞时，分类细胞包括免疫细胞类型，这些免疫细胞类型难以使用单细胞和大量转录组学(例如嗜中性白细胞)进行检测。令人惊讶的是，cellranger会丢弃90.8％的测序中性粒细胞。相反，未分类的低rna细胞的基因表达谱质量较差，主要对应于破碎的细胞(图23)。
[0356]
表征肺对转移进程的免疫应答：我们接下来试图描述肺免疫细胞如何对转移进程做出响应。从包含5690个mcd45+细胞的数据集开始，我们确定了与中性粒细胞，单核细胞和巨噬细胞(肺泡，间质和(非)经典单核细胞)，树突状细胞(成熟，未成熟，ccr7+和浆细胞样dc)相关的基因表达谱，和内皮细胞(图10c，顶部，图16f)。免疫缺陷型pdx小鼠的使用导致
淋巴细胞(例如t，b和nk细胞)缺乏。
[0357]
我们观察到每个肿瘤阶段免疫细胞比例(图10d)和转录状态(图10e)的文献支持的变化。例如，中性粒细胞在早期pdx小鼠中富集，而肺泡巨噬细胞在转移过程中被耗尽。此外，经典单核细胞(cm，图10f)之间的阶段特异性转录异质性反映了pdx乳腺癌模型中肺cm状态转变的先前描述。
[0358]
cm的无监督聚类可以清晰地分辨每个肿瘤阶段的细胞(图17g)，从而能够鉴定在转移过程中cms中上调的基因(图24)。值得注意的是，聚类还显示，来自后期pdx小鼠的cms进入了两种不同的转录状态，可通过cd14表达来区分(图10f，插图，图25)，与先前的观察结果相符。在cm子集之间差异表达的基因包括已知会影响转移进程的基因(例如thbs1，s100a8/9和wfdc21)。为了辨别结果是否主要归因于小鼠之间的变异性，我们使用了地球移动器距离(emd)来量化每只小鼠和肿瘤阶段的肺部cm之间转录差异的大小。这些结果说明，来自早期和中期小鼠复制品(比例为emd＝0.16)的cm比来自不同肿瘤阶段(比例为emd＝0.69)的cm更相似。
[0359]
multi
‑
seq是一种理想的样本多重方法，因为它具有可扩展性，通用性，并提高了scrna
‑
seq数据质量。multi
‑
seq具有可扩展性，因为它使用廉价的试剂，只需最少的样品处理，并且设计快速且模块化。多序列模块性使任意数量的样本可以与一对“锚”和“共同锚”lmo进行多重。此外，由于lmo可通过bsa淬灭，并且可以在蛋白水解解离过程中掺入，因此我们预期进一步的方法优化将有助于免洗样品的制备工作流程。当与自动液体处理集成时，这些功能将multi
‑
seq定位为一项强大的技术，可在多细胞系统(例如类器官，pbmc等)中实现“经测序筛选”应用(例如l1000，drug
‑
seq)。
[0360]
在这项研究中，我们利用multi
‑
seq可扩展性执行96路hmec扰动测定，揭示了未来scrna
‑
seq样品多重实验的值得注意的原理。具体而言，我们观察到对信号分子的反应不如与细胞组成有关的反应明显。例如，共培养的mep和lep参与相关单一培养物中不存在的tgf
‑
β信号传导。相比之下，尽管所有测试的信号分子在乳腺形态发生中已确立作用，mep和lep在这些数据中仅表现出对egfr配体areg和egf的明显转录反应。我们推测，用于扩增细胞的富培养基配方(例如此处使用的m87a培养基(
‑
egf))可能会缓冲细胞免受微环境干扰。因此，仔细考虑细胞类型组成和培养基配方对于准确解释未来的scrna
‑
seq实验至关重要。
[0361]
除了可扩展性之外，multi
‑
seq还通过两种不同的方式提高了scrna
‑
seq的数据质量。首先，multi
‑
seq将二重体识别为与多个样本索引关联的细胞。检测二重体的能力允许液滴微流控设备“超载”，从而使细胞通量提高约5倍。此外，与计算二重体预测方法不同，multi
‑
seq可检测同型二重体，并以最小的细胞类型复杂性对scrna
‑
seq数据表现良好。但是，由于计算二重体检测方法可检测到具有共享样本条形码的细胞形成的二重体，因此理想情况下，二重体检测应包含计算和分子方法的协同作用。
[0362]
其次，multi
‑
seq通过“营救”细胞，从而提高了scrna
‑
seq数据的质量，这些细胞否则将被利用rna umi阈值的质量控制工作流程所丢弃。此类工作流程系统地偏向具有低rna含量的细胞类型。multi
‑
seq分类为rna umi提供了一个正交指标，用于区分低rna和低质量细胞。我们利用此功能(最初由stoeckius等描述)来提高pdx数据集的质量，其中multi
‑
seq分类“拯救”>90％的测序中性粒细胞，同时避免了破碎细胞的错误分类。
[0363]
最后，multi
‑
seq普遍适用于任何样品，包括细胞或具有可触及质膜的细胞核。结
果，我们使用同一组multi
‑
seq试剂对小鼠和人类的15种不同细胞类型或细胞核进行多重。值得注意的是，cmo在包含bsa的核分离缓冲液中的表现优于lmo，因为bsa可以隔离lmo。此外，我们预计multi
‑
seq与样品保存策略(例如快速冷冻和固定)兼容。
[0364]
我们利用了这三个特征
–
可扩展性、通用性和数据质量改善
–
来在转移进展的不同阶段中，从pdx小鼠模型中分离出冷冻保存的原发肿瘤和肺。pdx样品多重需要对细胞进行条形码，所述细胞来自(i)多种物种，可(ii)下调通常通过基于抗体的多重技术(例如mhc
‑
1)靶向的表面表位，并且(iii)具有固有的低生存能力，需要最少的样品处理。multi
‑
seq成功地对每个样品进行了多路分离，揭示了新的和文献支持的免疫细胞对肺转移进展的反应。例如，虽然先前观察到中性粒细胞，肺泡巨噬细胞和cm比例与转移相关的转变，但据我们所知，我们描述了间质巨噬细胞，树突状细胞和非经典单核细胞的明显转变，据我们所知，这是新颖的，需要进一步的实验验证。
[0365]
此外，我们确定了可通过cd14表达和基因识别的cm子集，这些子集对转移进程具有多种影响。令人困惑的是，表达高转移基因thbs1的cd14高cm和表达抗转移基因s100a8/9和wfdc21的cd14低cm共存于转移的肺中。由于在这项研究中我们从整个肺中分离了免疫细胞，因此我们无法辨别cd14高和cd14低状态在空间上是否与转移部位相关。但是，可以使用multi
‑
seq对单个转移肺的不同区域进行空间条形码，从而可以直接询问cm空间异质性。
[0366]
总而言之，multi
‑
seq广泛地使用户能够将其他信息层整合到scrna
‑
seq实验中。在未来，我们预计将针对更多种类的信息，包括空间坐标，时间点，起源物种和亚细胞结构(例如，来自多核细胞的细胞核)。我们还预计，使用替代性寡核苷酸偶联物设计来增加lmo膜的停留时间可能使multi
‑
seq应用用于非遗传谱系追踪和/或细胞竞争测定。
[0367]
实施例4
‑
使用lmo的分离池条形码化和mrna捕获
[0368][0369]
单细胞rna测序从根本上要求捕获mrna分子被捕获，并用转录物特异性条形码和细胞特异性条形码标记。传统上，通过将单个细胞与结合到寡核苷酸上的水凝胶磁珠共封装来实现这一目标，其中(i)5'pcr柄，(ii)在所有与珠结合的寡核苷酸之间共享的细胞特异性条形码，(iii)分子标识符(umi)，以及(iv)寡聚dt poly
‑
a mrna捕获序列。但是，非常需要无珠的scrna
‑
seq应用。脂质修饰的寡核苷酸(lmo)在活细胞表面上形成稳定的dna支架，可用于构建条形码化的mrna捕获序列。通过拆分池方法生成特定于单元格的条形码。
[0370]
如前所述，样品的单细胞悬液用0.5
‑
5μm lmo和条形码寡核苷酸标记。然后将样品用2％bsa的pbs溶液洗涤，合并，混合并分配到许多(例如96或384)孔中。每个孔接收0.5
‑
5μm的第二条形码，其中包含5'磷酸酯和连接子寡核苷酸，该寡核苷酸与第一条形码和第二条形码杂交以将它们连接在一起。对于每个细胞，为了接收独特的一组条形码，该过程会重复多次，最终的条形码始终包含捕获序列(例如oligo
‑
dt)。条形码环化后，最后一次合并细胞，并稀释至每微升1000个细胞的浓度。将单细胞用缓冲液在微流体液滴中分离，所述缓冲液含有80mm tris
‑
hcl(ph8.0
‑
8.4)，2u/μl rnase抑制剂，20u/μl t4 dna连接酶和1x连接缓冲液，来自neb快速连接试剂盒，用于裂解的0.1
‑
0.5％igepal ca
‑
630洗涤剂，1.0mm dntp，1.5u/μl warmstart rtx逆转录酶(rt)(neb)。在单细胞分离和裂解后，将细胞在冰上
放置约30分钟，以使连接酶将每个条形码共价连接成一条单链。然后将混合物加热至55℃以使连接酶失活并激活rt酶。在55℃约1小时后，将乳液加热到80℃持续10分钟，然后冷却到室温。用1ml全氟辛醇破坏乳液。此时，可以通过任何数量的标准cdna扩增和下一代测序文库制备工作流程来采集样品。
[0371]
实施例5
–
组织或样本中的一般空间信息
[0372]
lmo还可以用于基于相对空间方向对细胞进行条形码编码。一般而言，有两种实现空间条形码的方法：(1)物理分离细胞/组织区域，然后进行如前所述的条形码处理；以及(2)向细胞中添加脂质修饰的寡核苷酸锚，然后添加空间定义的条形码寡核苷酸。在第一种情况下，可以通过解剖刀解剖，微孔隔离或激光捕获显微解剖，在一定范围的长度范围内实现物理隔离。分离细胞后，可以将条形码引入每个唯一的样品中，以指示该样品中细胞的相对位置。在第二种情况下，在添加条形码寡核苷酸之前，所有细胞均接受锚和共同锚。条形码是特定于一个位置的，并从引入位置扩散，通过与锚链的杂交而捕获到细胞上。单元格的相对位置由空间条形码的数量和相对比率确定。可以通过几种方法来实现空间条形码的引入，这些方法包括微阵列仪，喷墨打印机，声学液体处理器以及从固相支持物(例如阵列或珠)上裂解。
[0373]
发育中肠的空间条形码(实验和数据)
[0374]
为了将multi
‑
seq应用于scrna
‑
seq样本的中尺度空间条形码，我们首先通过手术从新鲜安乐死的小鼠或解剖的胚胎中切除了小肠。然后将小肠沿着表面拉伸，然后用手术刀除去结缔组织和脂肪。然后将小肠切成小块，然后用冰冷的pbs振摇洗涤4次。清洗后，将每个肠切成相等大小的段(即，成年肠沿近端
‑
远端轴长约1cm；发育中肠约2.5mm)。然后将片段在室温下在2ml解离介质中摇动解离20分钟(rpmi1640，含3％fbs，1％pen/strep，1％丙酮酸钠，1％mem非必需氨基酸，1％l
‑
谷氨酰胺，2.5％hepes，5mm edta和10mm dtt)。
[0375]
解离并用p1000移液器手动搅动后，将解离溶液通过100mm过滤器滤入冰上的15ml锥形瓶中。然后将残留在过滤器顶部的组织块转移到另一个装有4ml edta的15ml锥形瓶中，以进行进一步消化(例如，剧烈摇动30秒)，然后重新过滤。将该过程重复两次，产生粗滤的细胞悬液。然后将该粗滤过的悬浮液通过70mm过滤器过滤到新的15ml锥形瓶中，然后以1500rpm离心8分钟。
[0376]
然后将每种细胞悬液用10ml冰冷pbs洗涤一次，然后重悬于160ml冰冷pbs中的单细胞悬液。然后将单细胞悬液转移到48孔板的各个孔中，然后添加20ml与单个multi
‑
seq样品条形码预杂交的2.5mm锚lmo。然后手动搅拌细胞悬浮液，并在冰上孵育5分钟，然后添加20ml的2.5mm共锚lmo，随后在冰上孵育5分钟。multi
‑
seq标记后，将标记溶液用300ml含5％bsa的溶液稀释以淬灭周围的lmo，然后合并、抗体染色和facs富集活细胞。然后，使用液滴微流体对活细胞进行标准的10x genomics scrna
‑
seq工作流程。在每个实验中收集的示意图和数据显示在图26和图27中。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：Z
技术所有人：加利福尼亚大学董事会
我是此专利的发明人

上一篇：载荷检测器以及夹持单元的制作方法
上一篇：用于压实粉末材料的机器和方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
2、张老师：1.探索新型氧化还原酶结构-功能关系，电催化反应机制 2.酶电催化导向的酶分子改造 3.纳米材料、生物功能多肽对酶-电极体系的影响4. 生物电化学传感和生物电合成体系的设计与应用。
3、豆老师：1.环境纳米材料及挥发性有机化合物（VOCs） 2.CO污染物的催化氧化 3.低温等离子体 4.吸脱附等控制技术
4、赵老师：1.高分子材料改性及加工技术 2.微孔及过滤材料 3.环境友好高分子材料
5、邬老师：1.高分子材料的共混与复合 2.涉及材料功能化及结构与性能的研究；高分子热稳定剂的研发
如您是高校老师，可以点此联系我们加入专家库。