肠道息肉和结直肠癌评价中的基因标志物的制作方法

文档序号:25348688发布日期:2021-06-08 12:52阅读:151来源:国知局
肠道息肉和结直肠癌评价中的基因标志物的制作方法

1.本发明属于生物医药领域,涉及肠道息肉和结直肠癌评价中的基因标志物。


背景技术:

2.肠道息肉是指肠腔内黏膜表面的隆起病变,大多见于直肠和乙状结肠,其发病率随年龄增长而逐渐增高,而且也具有一定的恶变倾向。肠道息肉的危险因素包括饮食因素、炎症刺激、不良生活行为习惯以及遗传因素等。部分肠道息肉在危险因素的长期刺激下有一定的癌变倾向。腺瘤性息肉是一种癌前病变,特别是大于2cm的腺瘤性息肉发生癌变的几率很高;其它息肉,一般认为癌变几率很小。从良性的肠道息肉发展到恶性的结直肠癌是一个多因素影响、多步骤发生的过程。大约85%的结直肠癌被认为是从传统的腺瘤演变而来,在其发生发展的漫长过程中,经历正常黏膜

增生

腺瘤形成

腺瘤癌变的过程,一般需要5

10年的时间,这就为结直肠癌的预防提供了极有利的机会,如果能够在息肉腺瘤阶段就进行干预,就能有效防止结直肠癌的发生。
3.随着高通量技术的发展,越来越多的生物标志物被发现,以进行癌症的诊断和预测。研究表明应用不同生物标志物对结直肠癌发生发展提供了早期诊断和预后方向,研究与肠道息肉和结直肠癌相关的基因标志物,对于实现早期结直肠癌的诊断,预测肠道息肉向结直肠癌发展的风险,进而实现早干预早治疗提供了新的手段和方向。


技术实现要素:

4.为了弥补现有技术的不足,本发明的目的在于提供区分肠道息肉和结直肠癌或诊断早期结直肠癌的基因标志物,使用该基因标志物,可以评估受试者是否患有结直肠癌或者存在发展结直肠癌的风险。
5.为了实现上述目的,本发明采用如下技术方案:
6.本发明的第一方面提供了基因标志物在制备用于区分肠道息肉和结直肠癌/诊断早期结直肠癌/预测肠道息肉发展为结直肠癌的风险的产品中的应用,所述基因标志物选自cfap20或fam110a的一种或两种。
7.进一步,相比肠道息肉患者,cfap20或fam110a在结直肠癌患者中表达上调。
8.进一步,所述产品包括检测样本中cfap20和/或fam110a表达水平的试剂,其中,所述样本包括细胞、组织、脏器、体液(血液、淋巴液等)、消化液、咳痰、肺胞支气管清洗液、尿、粪便等。优选的,所述样本为组织、血液。在本发明的具体实施方式中,所述样本为组织。
9.进一步,所述试剂包括通过测序技术、核酸杂交技术、核酸扩增技术、蛋白免疫技术检测基因标志物水平的试剂。
10.进一步,核酸杂交技术包括原位杂交、微阵列、southern印记、northern印迹技术。
11.进一步,核酸杂交技术选自原位杂交、微阵列技术。
12.进一步,核酸扩增技术包括聚合酶链式反应、逆转录聚合酶链式反应、转录介导的扩增、连接酶链式反应、链置换扩增。
13.进一步,核酸扩增技术选自逆转录聚合酶链式反应。
14.进一步,所述蛋白免疫技术包括夹心免疫测定、放射免疫测定、酶联免疫吸附测定、酶免疫测定、荧光免疫测定、蛋白质印迹、免疫沉淀、基于颗粒的免疫测定技术。
15.进一步,所述基于颗粒的免疫测定技术包括金颗粒免疫测定、银颗粒免疫测定、乳胶颗粒免疫测定、磁性颗粒或量子点免疫测定技术。
16.本发明的第二方面提供了一种区分肠道息肉和结直肠癌/诊断早期结直肠癌/预测肠道息肉发展为结直肠癌的风险的产品,所述产品包括检测cfap20和/或fam110a的试剂。
17.进一步,所述试剂选自:
18.识别cfap20和/或fam110a的探针;或
19.扩增cfap20和/或fam110a的引物;或
20.结合cfap20和/或fam110a的蛋白的结合剂。
21.进一步,所述结合剂包括所述蛋白的受体、结合蛋白质的凝集素、针对蛋白质的抗体、针对蛋白质的肽抗体、双特异性双重结合剂或双特异性抗体。
22.进一步,所述结合剂为针对蛋白质的抗体。
23.进一步,所述产品包括制剂、核酸膜条、芯片或试剂盒。
24.进一步,所述试剂盒包括qpcr试剂盒、免疫印迹检测试剂盒、免疫层析检测试剂盒、流式细胞分析试剂盒、免疫组化检测试剂盒、elisa试剂盒和电化学发光检测试剂盒。
25.进一步,所述试剂盒还包括评估受试者是否患有或易患结直肠癌的说明书。
26.进一步,所述产品还包括处理样本的试剂。
27.本发明的第三方面提供了一种区分肠道息肉和结直肠癌/诊断早期结直肠癌/预测肠道息肉发展为结直肠癌的风险的系统,所述系统包括:
28.(1)结直肠癌评估装置,其包括控制单元和存储单元,用于评估受试者是否患有结直肠癌或者是否存在患结直肠癌的风险;和
29.(2)彼此通信地连接的信息通信终端装置,其提供关于来自受试者的样本中cfap20和/或fam110a的水平的数据;
30.其中,所述结直肠癌评估装置的控制单元包括:
31.1)数据接收单元,其接收从所述信息通信终端设备传输的关于所述样本的cfap20和/或fam110a的水平的数据;
32.2)判别值计算单元,其基于由所述数据接收单元接收的所述样本中cfap20和/或fam110a的水平以及具有存储在所述存储单元中的作为解释变量的所述cfap20和/或fam110a水平的判别来计算判别值;
33.3)判别值基准评价单元,其基于由所述判别值计算单元计算的判别值,对所述受试者中的结直肠癌的情况进行评价;以及
34.4)评估结果发送单元,其将由所述判别值基准评估单元获得的所述受试者的评估结果发送到所述信息通信终端装置。
35.本发明的第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明第三方面所述的系统。
36.本发明的第五方面提供了一种区分肠道息肉和结直肠癌/诊断早期结直肠癌的方
法,所述方法包括检测受试者中cfap20或fam110a的表达水平,当cfap20或fam110a显著上调时,说明受试者患有结直肠癌或者存在由肠道息肉发展为结直肠癌的风险。
37.本发明的优点和有益效果:
38.本发明选择cfap20或fam110a作为基因标志物,可以实现肠道息肉和结直肠癌的有效区分,进而判断受试者是否患有结直肠癌或者存在发展成为结直肠癌的风险,从而为受试者提供警示,实现早期干预。
附图说明
39.图1是不同分组差异表达基因统计图;
40.图2是差异基因的表达情况图,其中,图a是cfap20的差异表达情况图;图b是fam110a的差异表达情况图;
41.图3是差异基因的诊断效能图,其中,图a是cfap20的诊断效能图;图b是fam110a的诊断效能图。
42.具体的实施方式
43.本发明通过广泛而深入的研究,通过收集结直肠癌患者和肠道息肉患者以及正常的样本,综合分析样本的基因表达谱,筛选在不同样本中呈现显著性差异的基因,并进一步分析基因的诊断效能,从而发现适于区分肠道息肉和结直肠癌或者预测肠道息肉发展为结直肠癌风险的基因标志物。
44.基因标志物
[0045]“基因标志物”也称为“生物标志物”,是在组织或细胞中的表达水平与正常或健康细胞或组织的表达水平相比发生改变的任何基因或蛋白。
[0046]
基因标志物可以在任何水平上差异地存在,但是一般以如下的水平存在,所述水平增加了至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少100%、至少110%、至少120%、至少130%、至少140%、至少150%、或更多;或一般以如下的水平存在,所述水平减少了至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、或100%(即不存在)。
[0047]
优选地,基因标志物以具有统计显著性(即p值小于0.05和/或q值小于0.10,如使用韦尔奇氏t检验(welch's t

test)或wilcoxon秩和检验(wilcoxon's rank

sum test)所确定)的水平差异地存在。
[0048]
在本发明的具体实施方式中,所述基因标志物包括cfap20和/或fam110a。
[0049]
在本发明中,cfap20(基因id:29105)包括cfap20基因及其编码的蛋白及其同源物,突变,和同等型。该术语涵盖全长,未加工的cfap20,以及源自细胞中加工的任何形式的cfap20。该术语涵盖cfap20的天然发生变体(例如剪接变体或等位变体)。
[0050]
fam110a(基因id:83541)包括fam110a基因及其编码的蛋白及其同源物,突变,和同等型。该术语涵盖全长,未加工的fam110a,以及源自细胞中加工的任何形式的fam110a。该术语涵盖fam110a的天然发生变体(例如剪接变体或等位变体)。
[0051]
本文包含用于检测分子标志物表达的现有技术中任何可用方法。本发明分子标志物的表达可在核酸水平上被检测(如,rna转录物)或蛋白质水平。通过“检测表达”旨在确定rna转录物或其分子标志物基因的表达产物的数量或存在。因此,“检测表达”包含一分子标志物被确定不能被表达、不能被检测表达,表达在低水平、表达在正常水平或过表达的实例。
[0052]
检测方法
[0053]
本发明可以使用本领域普通技术人员已知的多种核酸以及蛋白技术进行检测,这些技术包括但不限于:核酸测序、核酸杂交、核酸扩增技术、蛋白免疫技术。
[0054]
本发明的核酸测序方法的示例性非限制性实例包括但不限于链终止子(sanger)测序和染料终止子测序。本领域的普通技术人员将认识到,由于rna在细胞中不太稳定并且在实验中更易受到核酸酶攻击,因此在测序前通常将rna逆转录成dna。
[0055]
本发明的核酸测序方法的另一示例性非限制性实例包括下一代测序(深度测序/高通量测序),高通量测序技术是一种基于单分子簇的边合成边测序技术,基于专有的可逆终止化学反应原理。测序时将基因组的dna的随机片段附着到光学透明的玻璃表面,这些dna片段经过延伸和桥式扩增后,在玻璃表面形成数以亿计的簇,每个簇是具有数千份相同模板的单分子簇,然后利用带荧光基团的四种特殊脱氧核糖核苷酸,通过可逆性的边合成边测序技术对待测的模板dna进行测序。
[0056]
本发明中的核酸杂交方法包括但不限于原位杂交(ish)、微阵列和southern或northern印迹。原位杂交(ish)是一种使用标记的互补dna或rna链作为探针以定位组织一部分或切片(原位)或者如果组织足够小则为整个组织(全组织包埋ish)中的特异性dna或rna序列的杂交。dna ish可用于确定染色体的结构。rna ish用于测量和定位组织切片或全组织包埋内的mrna和其他转录本(例如,ncrna)。通常对样本细胞和组织进行处理以原位固定靶转录本,并增加探针的进入。探针在高温下与靶序列杂交,然后将多余的探针洗掉。分别使用放射自显影、荧光显微术或免疫组织化学,对组织中用放射、荧光或抗原标记的碱基标记的探针进行定位和定量。ish也可使用两种或更多种通过放射性或其他非放射性标记物标记的探针,以同时检测两种或更多种转录本。
[0057]
将southern和northern印迹分别用于检测特异性dna或rna序列。使从样本中提取的dna或rna断裂,在基质凝胶上通过电泳分离,然后转移到膜滤器上。使滤器结合的dna或rna与和所关注的序列互补的标记探针杂交。检测结合到滤器的杂交探针。该程序的一种变化形式是反向northern印迹,其中固定到膜的底物核酸为分离的dna片段的集合,而探针是从组织提取并进行了标记的rna。
[0058]
本发明中的核酸扩增技术选自聚合酶链式反应(pcr)、逆转录聚合酶链式反应(rt

pcr)、转录介导的扩增(tma)、连接酶链式反应(lcr)、链置换扩增(sda)和基于核酸序列的扩增(nasba)。其中,pcr需要在扩增前将rna逆转录成dna(rt

pcr),tma和nasba直接扩增rna。
[0059]
通常,pcr使用变性、引物对与相反链的退火以及引物延伸的多个循环,以指数方式增加靶核酸序列的拷贝数;rt

pcr则将逆转录酶(rt)用于从mrna制备互补的dna(cdna),然后将cdna通过pcr扩增以产生dna的多个拷贝;tma在基本上恒定的温度、离子强度和ph的条件下自身催化地合成靶核酸序列的多个拷贝,其中靶序列的多个rna拷贝自身催化地生
成另外的拷贝,tma任选地包括使用阻断,部分、终止部分和其他修饰部分,以改善tma过程的灵敏度和准确度;lcr使用与靶核酸的相邻区域杂交的两组互补dna寡核苷酸。dna寡核苷酸在热变性、杂交和连接的重复多个循环中通过dna连接酶共价连接,以产生可检测的双链连接寡核苷酸产物;sda使用以下步骤的多个循环:引物序列对与靶序列的相反链进行退火,在存在dntpαs下进行引物延伸以产生双链半硫代磷酸化的(hemiphosphorothioated)引物延伸产物,半修饰的限制性内切酶识别位点进行的核酸内切酶介导的切刻,以及从切口3'端进行的聚合酶介导引的物延伸以置换现有链并产生供下一轮引物退火、切刻和链置换的链,从而引起产物的几何扩增。
[0060]
本发明的蛋白免疫方法包括夹心免疫测定,例如夹心elisa,其中使用识别生物标志物上不同表位的两种抗体进行该生物标志物的检测;放射免疫测定(ria)、直接、间接或对比酶联免疫吸附测定(elisa)、酶免疫测定(eia)、荧光免疫测定(fia)、蛋白质印迹法、免疫沉淀法和基于任何颗粒的免疫测定(如使用金颗粒、银颗粒或乳胶颗粒、磁性颗粒或量子点)。可例如在微量滴定板或条的形式中实施免疫法。
[0061]
本发明中非扩增或扩增的核酸可通过任何常规的手段检测。
[0062]
术语“样本”与“样品”在本文中可以互换使用,用于本文时指获得自或衍生自受试者(例如感兴趣的个体)的组合物,其包含有待根据例如物理,生化,化学和/或生理特点来表征和/或鉴定的细胞和/或其它分子实体。例如,短语“疾病样本”或其变体指得自感兴趣的受试者的任何样本,预计或已知其包含待表征的细胞和/或分子实体。样本包括但不限于,组织样本(例如肿瘤组织样本),原代或培养的细胞或细胞系,细胞上清,细胞裂解物,血小板,血清,血浆,玻璃体液,淋巴液,滑液,滤泡液,精液,羊水,乳,全血,血液衍生的细胞,尿液,脑脊髓液,唾液,痰,泪,汗液,粘液,肿瘤裂解物,和组织培养液,组织提取物如匀浆化的组织,肿瘤组织,细胞提取物,及其组合。
[0063]
作为优选的实施方式,所述样本选自血液、血清、血浆。
[0064]
作为另外一种优选的实施方式,所述样本选自组织。
[0065]
本发明提供了一种区分肠道息肉和结直肠癌/诊断早期结直肠癌的产品,所述产品包括检测样本中本发明所述的基因标志物的试剂。所述产品包括但不限于核酸膜条、芯片、试剂盒。
[0066]
在本发明中检测基因标志物的试剂包括检测基因转录水平的试剂、检测基因翻译水平的试剂。检测基因转录水平的试剂包括但不限于引物、探针,检测基因翻译水平的试剂包括蛋白的结合剂。
[0067]“引物”是指寡核苷酸,它与靶核酸中的序列(“引物结合位点”)杂交并且能够用作在适用于合成的条件下沿着核酸的互补链启动该合成的点
[0068]“探针”指能与另一分子的特定序列或亚序列或其它部分结合的分子。除非另有指出,术语“探针”通常指能通过互补碱基配对与另一多核苷酸(往往称为“靶多核苷酸”)结合的多核苷酸探针。根据杂交条件的严格性,探针能和与该探针缺乏完全序列互补性的靶多核苷酸结合。探针可作直接或间接的标记。杂交方式,包括,但不限于:溶液相、固相、混合相或原位杂交测定法。
[0069]
蛋白的结合剂是例如蛋白质的受体、结合蛋白质的凝集素、针对蛋白质的抗体、针对蛋白质的肽抗体(peptidebody)、双特异性双重结合剂或双特异性抗体形式。
[0070]
在本发明中,核酸膜条包括基底和固定于所述基底上的寡核苷酸探针;所述基底可以是任何适于固定寡核苷酸探针的基底,例如尼龙膜、硝酸纤维素膜、聚丙烯膜、玻璃片、硅胶晶片、微缩磁珠等。
[0071]
在本发明中,“芯片”也称为“阵列”,指包含连接的核酸或肽探针的固体支持物。阵列通常包含按照不同的已知位置连接至基底表面的多种不同的核酸或肽探针。这些阵列,也称为“微阵列”,通常可以利用机械合成方法或光引导合成方法来产生这些阵列,所述光引导合成方法合并了光刻方法和固相合成方法的组合。阵列可以包含平坦的表面,或者可以是珠子、凝胶、聚合物表面、诸如光纤的纤维、玻璃或任何其它合适的基底上的核酸或肽。可以以一定的方式来包装阵列,从而允许进行全功能装置的诊断或其它方式的操纵。
[0072]“微阵列”是杂交阵列原件有序排列在基质上,所述杂交阵列原件诸如聚核苷酸探针(例如寡核苷酸)或结合剂(例如抗体)。所述基质可以是固体基质,例如,玻璃或二氧化硅玻片、珠、纤维光学粘结剂或半固态基质,例如硝酸纤维素膜。核苷酸序列可以是dna、rna或其中的任何排列。
[0073]
当在实验室环境中处理样本时,可能获得最可靠的结果。例如,可在医生办公室中从受试者获取样本,然后将其发送到医院或商业医学实验室进行进一步测试。然而,在许多情况下,可能希望在临床医生的办公室提供即时结果或允许受试者在家中进行测试。在一些情况下,对于便携式、预包装、一次性的、可由受试者在无协助或指导等的情况下即可使用等等的测试的需求比高度准确度更为重要。在许多情况下,尤其是在有医师随访的情况下,进行初步测试,甚至灵敏度和/或特异度降低的测试也可能就足够了。因此,以产品形式提供的测定可涉及检测和测量相对少量的生物标志物,以降低测定的复杂性和成本。
[0074]
可使用本文所述的能够检测样本基因标志物的任何形式的样本测定。通常,所述测定将定量样本中生物标志物至一定的程度,例如它们的浓度或量是高于还是低于预定阈值。此类试剂盒可采取测试条、浸杆、盒、药筒、基于芯片或基于珠粒的阵列、多孔板或一系列容器等的形式。提供一种或多种试剂以检测所选样本生物标志物的存在和/或浓度和/或量。可将受试者的样本直接分配到测定中,或从存储的或先前获得的样品中间接分配到测定中。高于或低于预定阈值的生物标志物的存在或不存在可以例如通过发色、发荧光、电化学发光或其他输出(例如在酶免疫测定(eia),诸如酶联免疫测定(elisa)中)来显示。
[0075]
在一个实施方案中,产品可包含固体基片诸如芯片、载玻片、阵列等,其具有能够检测和/或定量固定在基片上的预定位置处的一种或多种样本生物标志物的试剂。作为说明性实例,可向芯片提供固定在离散的预定位置的试剂,以用于检测和定量样本中生物标志物的存在和/或浓度和/或量。如上所述,在患有结直肠癌的受试者的样本中发现所述生物标志物的水平降低或增加。芯片可被配置成使得仅当这些生物标志物中的一种或多种的浓度超过阈值时才提供可检测的输出(例如颜色变化),所述阈值被选择或区分指示对照受试者的生物标志物的浓度和/或量与指示患有或易患结直肠癌的患者的生物标志物的浓度和/或量。因此,可检测到的输出(诸如颜色变化)的存在立即表明样本中包含显著升高水平的生物标志物,表明受试者患有或易患结直肠癌。
[0076]
系统
[0077]
本公开内容提供了被编程为实现本公开内容的方法的系统。所述系统被编程或以其他方式配置为分析序列数据、构建基因的表达量矩阵。所述系统可以调控本公开内容的
序列分析的各个方面,诸如,例如将数据针对已知序列进行匹配。所述系统可以是用户的电子装置或相对于该电子装置远程定位的计算机系统。电子装置可以是移动电子装置。
[0078]
所述系统包括处理器,其可以是单核或多核处理器或用于并行处理的多于一个处理器。所述系统还包括存储器(例如,随机存取存储器、只读存储器、闪速存储器)、电子存储单元(例如,硬盘)、用于与一个或更多个其他系统进行通信的通信界面(例如,网络适配器)和外围装置,诸如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器、电子储存单元、通信界面和外围装置与处理器通过通信总线(实线),诸如主板通信。存储单元可以是用于存储数据的数据存储单元(或数据储存库)。所述系统可以借助于通信界面被可操作地耦合至计算机网络。网络可以是互联网、内联网和/或外联网、或与互联网通信的内联网和/或外联网。在一些情况下,网络为通信和/或数据网络。网络可以包括一个或更多个计算机服务器,这可以支持分布式计算,诸如云计算。在一些情况下,借助于系统,网络可以实现对等网络,其可以使耦合至系统的装置能够作为客户端或服务器运行。
[0079]
所述处理器可以执行一系列的机器可读指令,该机器可读指令可以以程序或软件来体现。指令可以被存储于存储器位置,诸如存储器中。指令可以被导向处理器,该指令可以随后编程或以其他方式配置处理器以实现本公开内容的方法。由处理器进行的操作的实例可以包括读取、解码、执行和写回。
[0080]
处理器可以是电路诸如集成电路的一部分,系统的一个或更多个其他组件可以被包含在电路中,在一些情况下,电路为专用集成电路。
[0081]
电子存储单元可以存储文件,诸如驱动程序、库和保存的程序。电子存储单元可以存储用户数据,例如,用户偏好和用户程序。在一些情况下,系统可以包括一个或更多个另外的数据存储单元,该数据存储单元在计算机系统的外部,诸如位于通过内联网或互联网而与系统通信的远程服务器上。
[0082]
系统可以与一个或更多个远程计算机系统通过网络进行通信。例如,系统可以与用户(例如,医师)的远程计算机系统进行通信。远程计算机系统的实例包括个人计算、板型或平板pc、电话、智能电话或个人数字助理。用户可经由网络访问系统。
[0083]
如本文描述的方法可以通过机器(例如,计算机处理器)可执行代码的方式实现,该机器可执行代码被存储在系统的电子存储位置,例如存储器或电子存储单元上。机器可执行代码或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器执行。在一些情况下,代码可以从电子存储单元检索并存储在存储器上,以用于由处理器即时访问。在一些情况下,可以排除电子存储单元,而将机器可执行指令存储于存储器中。
[0084]
代码可以被预编译并配置为用于与具有适于执行该代码的处理器的机器一起使用,或者可以在运行时间期间被编译。代码可以以编程语言的形式提供,该编程语言可以被选择使得代码能够以预编译的或按编译原样的方式被执行。
[0085]
本文提供的系统和方法的各方面,诸如系统,可以以编程来体现。技术的多个方面可以被认为是通常呈一种机器可读介质执行或体现的机器(或处理器)可执行代码和/或相关数据的形式的产品。机器可执行代码可以被存储于电子存储单元诸如存储器(例如,只读存储器、随机存取存储器、闪速存储器)或硬盘上。“存储”型介质可以包括计算机、处理器等的任何或所有有形存储器,或其相关模块,诸如多种半导体存储器、磁带驱动器、磁盘驱动器等,其可以在任何时间为软件编程提供非暂时性存储。软件的所有或部分有时可以通过
互联网或多种其他通信网络进行通信。例如,此类通信可以使得将软件从一个计算机或处理器加载到另一个计算机或处理器中,例如,从管理服务器或主机加载到应用服务器的计算机平台中。因此,能够携带软件元件的另一类型的介质包括诸如在本地装置之间的物理界面、通过有线和光纤陆线网络以及在多种空中链路上使用的光波、电波和电磁波。携带此类波的物理元件,诸如有线或无线链路、光链路等,也可被认为是携带软件的介质。如本文使用的,除非被限制为非暂时性的、有形的“存储”介质,否则术语诸如计算机或机器“可读介质”是指参与将指令提供至处理器用于执行的任何介质。
[0086]
因此,机器可读介质,诸如计算机可执行代码,可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如光盘或磁盘,诸如在任何计算机等中的任何存储设备,易失性存储介质包括动态存储器,诸如此类计算机平台的主存储器。有形的传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内的总线的导线。载波传输介质可以采取电信号或电磁信号或者声波或光波的形式,诸如在射频和红外数据通信期间生成的那些。因此,计算机可读介质的常见形式包括例如:软盘、软性磁盘、硬盘、磁带、任何其他磁介质、cd

rom、dvd或dvd

rom、任何其他光学介质、穿孔卡片纸带、具有孔模式的任何其他物理存储介质、ram、rom、prom和eprom、flash

eprom、任何其他存储器芯片或盒、传输数据或指令的载波、传输此类载波的缆线或链路,或者计算机可以从其读取编程代码和/或数据的任何其他介质。这些计算机可读介质的形式中的许多形式可以参与向处理器传送一个或更多个指令的一个或更多个序列以用于执行。
[0087]
所述系统可以包括电子显示器或与之通信,该电子显示器包括用户界面(ui),用于提供例如关于分析结果的信息。ui的实例包括但不限于图形用户界面(gui)和基于网络的用户界面。
[0088]
在一个方面,本文提供了包括计算机的系统,计算机包括处理器和计算机存储器,其中计算机与通信网络通信,并且其中计算机存储器包括代码,当代码由处理器执行时,通过通信网络将序列数据接收到计算机存储器中;使用本文所述的方法,判定序列数据是否与疾病相关以及与疾病的何种阶段相关,以及通过通信网络报告出该判定结果。
[0089]
通信网络可以是连接到互联网的任何可用网络。通信网络可以利用例如高速传输网络,包括但不限于电力线宽带、电缆调制解调器、数字用户线路、光纤、卫星和无线电。
[0090]
在一个方面,本文提供了一种系统,该系统包括:局域网;一个或更多个dna测序仪,包括被配置为存储dna序列数据的连接到局域网的计算机存储器;生物信息学计算机,包括计算机存储器和处理器,该计算机连接到局域网;其中所述计算机还包括代码,当所述代码被执行时,复制存储在dna测序仪上的dna序列数据、将复制的数据写入生物信息学计算机中的存储器、并进行如本文描述的步骤。
[0091]
本发明中系统可以通过一个或更多个算法来实现。算法可以在由处理器执行后通过软件来实现。
[0092]
在本发明中,程序和代码可以互换使用。
[0093]
诊断效能
[0094]
接受者操作曲线下面积(=auc)是诊断规程的性能或精确性的一项指标。诊断方法的精确性由它的接受者操作特征(roc)描述得最好。roc图是源自在观察的整个数据范围上连续改变决策阈的所有灵敏度/特异性对的线图。
[0095]
实验室测试的临床性能取决于它的诊断精确性,或将受试者正确分类入临床有关亚组的能力。诊断精确性测量测试正确辨别所调查的受试者的两种不同状况的能力。此类状况是例如健康和疾病或者疾病进展对无疾病进展。
[0096]
在每种情况中,roc线图通过对于决策阈的整个范围将灵敏度对1

特异性绘图来描绘两种分布之间的交叠。y轴上是灵敏度,或真阳性分数[定义为(真阳性测试结果的数目)/(真阳性的数目+假阴性测试结果的数目)]。这也称作疾病或状况的存在的阳性。它仅仅自受影响亚组来计算。x轴上是假阳性分数,或1

特异性[定义为(假阳性结果的数目)/(真阴性的数目+假阳性结果的数目)]。它是特异性的一项指标,而且完全自不受影响的亚组来计算。因为真和假阳性分数通过使用来自两个不同亚组的测试结果完全分开计算,所以roc线图不依赖于样品中疾病的流行程度。roc线图上的每个点代表一个对应于特定决策阈的灵敏度/1

特异性对。一项具有完美区分(两种结果分布没有交叠)的测试具有通过左上角的roc线图,那里真阳性分数为1.0,或100%(完美灵敏度),且假阳性分数为0(完美特异性)。一项不区分(两个组的结果分布相同)的测试的理论线图是从左下角到右上角的45
°
对角线。大多数线图落在这两种极端之间。(如果roc线图完全落在45
°
对角线以下,那么这容易通过将“阳性”的标准从“大于”颠倒成“小于”或反之来矫正。)定性地,线图越接近左上角,测试的整体精确性越高。
[0097]
量化实验室测试的诊断精确性的一项便利目标是通过单一数值来表述它的性能。最常见的全局度量是roc曲线下面积(auc)。常规地,此面积总是≥0.5(如果不是这样,那么可以颠倒决策规则来使之这样)。数值范围介于1.0(完美分开两个组的测试值)和0.5(两个组的测试值之间没有明显分布差异)之间。面积不仅取决于线图的特定部分诸如最接近对角线的点或90%特异性处的灵敏度,而且还取决于整个线图。这是roc线图如何接近完美者(面积=1.0)的一种定量、描述性表述。
[0098]
整体测定法灵敏度会取决于实施本文公开的方法要求的特异性。在某些优选设置中,特异性75%可能是充分的,而且统计方法和所得算法可以基于此特异性要求。在一个优选实施方案中,用于评估有结直肠癌风险的个体的方法基于特异性80%、85%、或还优选90%或95%。
[0099]
下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于说明本发明而不用于限制本发明的范围。实施例中未注明具体条件的实验方法,通常按照常规条件,或按照制造厂商所建议的条件。
[0100]
实施例1筛选与结直肠癌相关的差异表达基因
[0101]
1、样本来源
[0102]
从sra下载prjeb27536数据集的测序数据以及tcga下载结直肠癌基因表达量数据,样本量为正常组织:息肉组织:结直肠癌tnm1:tnm2:tnm3:tnm4=50:21:52:123:89:44。
[0103]
2、数据处理
[0104]
来自sra数据库的raw data使用fastq软件进行接头处理和质控,得到的cleandata使用icgc软件比对至人类参考基因组,版本为(grch38.d1.vd1),bam文件使用htseq软件进行定量。
[0105]
定量模式:intersection

nonempty;
[0106]
定量标准类型:gene_id;
[0107]
链特异性:非特异性。
[0108]
表达量文件按照基因id进行合并,构建m*n的基因表达量矩阵,基因表达量矩阵中的第i行第j列的数值表示第j个样本对应第i个基因的表达量count值,其中1≤i≤m,1≤j≤n;m表示检测基因的数量,n表示分析样本的数量。将表达量矩阵保存为.rdata对象文件。
[0109]
处理的到的count表达量矩阵和tcga的表达量矩阵进行合并,合并标准:gene id。
[0110]
3、差异表达分析
[0111]
将实验分为以下几组:组1:癌症vs正常(cancer vs normal);组2:癌症vs息肉(cancer vs polyps);组3:息肉vs正常(polyps vs normal);组4:癌症早期vs正常(tnm1+tnm2 vs normal);组5:癌症晚期vs正常(tnm4 vs normal)。
[0112]
按照实验分组设计,构建差异表达的分组矩阵,使用r软件中的“deseq2”包进行差异表达分析,差异基因的筛选标准为adj.p value<0.05,|log2fc|>1。
[0113]
筛选仅在组2中呈现显著性差异的基因。
[0114]
4、结果
[0115]
分析结果显示,组1中呈现显著性差异表达的基因有12070个,显著上调的差异表达基因有4820个,显著下调的差异表达基因有7250个;组2中呈现显著性差异表达的基因有11348个,显著上调的差异表达基因有4030个,显著下调的差异表达基因有7318个;组3中呈现显著性差异表达的基因有9721个,显著上调的差异表达基因有5712个,显著下调的差异表达基因有4009个。
[0116]
筛选仅在组2中呈现显著性差异的基因如图1所示,共1999个,其中,相比息肉,cfap20、fam110a在结直肠癌中表达上调,其表达情况分别如表1和图2所示,其中,fc表示的是结直肠癌vs息肉的差异倍数(fold change),使用(log2表达量)代表基因的表达量。
[0117]
表1基因的表达情况
[0118]
基因log2fclfcsestatp.valueadj.p.valcfap201.1271360.09081112.411882.25e

351.28e

33fam110a1.6022070.1666869.6121177.11e

221.77e

20
[0119]
实施例2诊断效能验证
[0120]
使用r包“proc”绘制受试者工作曲线(roc),分析auc值、敏感性和特异性,判断指标的诊断效能。使用基因的表达量(log2表达量)进行分析,选择最大的youden指数对应的点水平作为其cutoff值。
[0121]
cfap20、fam110a的诊断效能如图3所示,cfap20的auc值为0.951,敏感性为0.886,特异性为0.952,(图3a);fam110a的auc值为0.964,敏感性为0.909,特异性为0.952(图3b)。说明cfap20、fam110a应用于区分肠道息肉和结直肠癌或者预测肠道息肉发展为结直肠癌的风险具有较高的效能。
[0122]
上述实施例的说明只是用于理解本发明的方法及其核心思想。应当指出,对于本领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也将落入本发明权利要求的保护范围内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1