一种非小细胞肺癌检测试剂盒及其应用的制作方法

文档序号:16016667发布日期:2018-11-20 21:37阅读:557来源:国知局

本发明涉及生物医学领域中,一种非小细胞肺癌检测试剂盒及其应用。

背景技术

肺癌是临床上最常见的恶性肿瘤之一。肺癌主要分为小细胞肺癌和非小细胞肺癌。我国主要的肺癌类型为非小细胞肺癌,约占肺癌患者的80%,主要包括腺癌及鳞癌两大类型。及时早期发现肺癌患者,早期治疗,极有可能提高肺癌患者的生存率、降低死亡率。

目前,常用的肺癌的诊断主要依赖于影像学上发现肺内肿物,包括胸部x片、ct、核磁共振(mri)等影像学方法,同时结合血清中的肿瘤标志物如癌胚抗原等。但影像学检查在肿瘤早期诊断中还具有一定的局限性,例如很难发现体积小的肿瘤;ct等放射线检查方法对患者具有辐射伤害;mri等精密度高的仪器检查费用高,预约时间长,普及受限。特别是,影像学检查对操作者技术要求高,无经验的人员误诊率高。循环肿瘤生物标志物由于具有无创性,可动态监测等优点,在无症状人群肿瘤筛查方面极具应用前景。目前临床应用的循环肿瘤标志物大多为蛋白、多肽、激素、糖类等,癌胚抗原(cea)、细胞角蛋白19片段(cyfra21-1)是临床上辅助诊断肺癌的常用肿瘤标志物,对肺癌的辅助诊断具有一定参考价值,但对肺癌的诊断缺乏足够的敏感性和特异性。因此,发现新的肺癌的肿瘤标志物具有重要意义。

microrna(简写为mirna)是一类在转录后水平调节基因表达的长度约为22个核苷酸的真核生物内源性小分子单链rna。已有报道证明mirna的异常表达与肿瘤的发生、发展密切相关,mirna起到类似癌基因或抑癌基因一样的功能。许多研究表明,游离mirna的表达异常与多种肿瘤、炎症、感染性疾病有关,显示了其可作为潜在的疾病包括肿瘤的诊断标志物。研究证实循环mirna在肿瘤发生早期即发生明显的异常表达,可用于肿瘤早期诊断,循环mirna作为肿瘤诊断标志物,具有非侵入、可动态监测的优点,是对早期肿瘤患病诊断技术的良好补充。

目前已有研究报道循环mirna可作为非小细胞肺癌的标志物,诊断价值较高。但是,不同研究小组大多采用单一的参考mirna进行数据归一化,不同的非小细胞肺癌研究筛选的标志物差异较大,某些mirna的诊断价值在不同的研究报道中变化较大。此外,mirna与肿瘤蛋白标志物的互补性、对其他组织器官良恶性疾病的特异性等研究鲜有报道。



技术实现要素:

本发明所要解决的技术问题是如何诊断非小细胞肺癌。

为解决上述技术问题,本发明首先提供了检测9个mirna表达量的系统在制备诊断或辅助诊断非小细胞肺癌产品中的应用;

所述9个mirna为hsa-mir-20a、hsa-mir-25、hsa-mir-223、hsa-mir-320、hsa-mir-222、hsa-mir-146a、hsa-mir-191、hsa-mir-24和hsa-mir-130a。

上述应用中,所述表达量可为绝对表达量或相对表达量。所述相对表达量可为相对于ath-mir159a、hsa-mir1228和/或hsa-mir-16含量的相对表达量,也可为相对于ath-mir159a、hsa-mir1228和hsa-mir-16平均含量的相对表达量。所述表达量可为所述9个mirna在血浆和/或血清中的表达量。

上述应用中,所述检测9个mirna表达量的系统可包括利用定量pcr检测所述9个mirna的表达量的系统。

上述应用中,所述利用定量pcr检测所述9个mirna的表达量的系统可包括成套引物、成套探针、成套反转录引物和/或进行定量pcr所需的其他试剂和/或仪器;

所述成套引物为序列表中序列1-序列18所示的18条单链dna;所述成套探针的序列分别如序列表中序列19-序列27所示;所述成套反转录引物为序列表中序列28-36所示的9条单链dna。

所述进行定量pcr所需的其他试剂可为基因表达mastermix和/或成套反转录引物。mastermix具体可为abi公司产品,货号为4440046。所述成套反转录引物具体可为序列表中序列28-36所示的单链dna。所述进行定量pcr所需的其他试剂也可为反转录酶、dna聚合酶、缓冲液、dntp和/或所述成套反转录引物。所述进行定量pcr所需的仪器可为abi7900ht、abiviiatm7、abiquantstudiotm6flex和/或abiquantstudiotmdx实时荧光定量pcr仪等。所述数据处理装置可为软件和/或模块。

上述应用中,所述检测9个mirna表达量的系统还可包括数据处理装置,所述数据处理装置用于将来自待测对象的所述9个mirna表达量转换为所述待测对象的诊断结果。

上述应用中,所述数据处理装置能通过记载x1和x2的特征诊断非小细胞肺癌和非非小细胞肺癌;所述x1为至少50例非小细胞肺癌患者组成的非小细胞肺癌组的所述9个mirna表达量,所述x2为至少50例非非小细胞肺癌个体组成的非非小细胞肺癌组的所述9个mirna表达量。

可通过包括下述步骤的方法将所述x1和所述x2的特征记载在所述数据处理装置中:将所述x1和所述x2导入所述数据处理装置中,通过对所述x1和所述x2进行机器学习构建可用于诊断非小细胞肺癌的模型(将该模型命名为非小细胞肺癌诊断模型)。

所述通过对所述x1和所述x2进行机器学习构建可用于诊断非小细胞肺癌的模型可包括y1或y2;

y1、对在所述非小细胞肺癌组中随机选择出的部分非小细胞肺癌患者(如大于等于50%的非小细胞肺癌患者)的所述9个mirna表达量和在所述非小细胞肺癌组中随机选择出的部分非非小细胞肺癌个体的所述9个mirna表达量进行机器学习构建可用于诊断非小细胞肺癌的模型;

y2、将所述y1进行m次,得到m个可用于诊断非小细胞肺癌的模型;在所述m个可用于诊断非小细胞肺癌的模型中选择k个在所述非小细胞肺癌组和所述非非小细胞肺癌组中进行诊断的敏感性高(如大于等于0.5)和特异性高(如大于0.9)的模型,将这k个模型作为诊断非小细胞肺癌的模型(将其命名为c-rflmi模型);m≥1000;m≥k≥10。

利用所述c-rflmi模型对受试者进行诊断的方法包括:如所述c-rflmi模型中的所述k个可用于诊断非小细胞肺癌的模型中不少于50%的模型的结果为所述受试者为非小细胞肺癌患者,所述受试者为或候选为非小细胞肺癌患者;如所述c-rflmi模型中的所述k个可用于诊断非小细胞肺癌的模型中少于50%的模型的结果为所述受试者为非小细胞肺癌患者,所述受试者为或候选为非非小细胞肺癌个体。

上述应用中,所述数据处理装置可通过决策树算法处理数据。所述决策树算法具体可为随机森林决策树算法。

上述应用中,所述检测9个mirna表达量的系统可仅为所述利用定量pcr检测所述9个mirna的表达量的系统,也可由所述利用定量pcr检测所述9个mirna的表达量的系统与所述数据处理装置组成。

上述应用中,所述检测9个mirna表达量的系统也可仅为由所述成套引物、所述成套探针和/或所述进行定量pcr所需的其他试剂组成的试剂或试剂盒。

为解决上述技术问题,本发明还提供了以所述9个mirna作为非小细胞肺癌标志物的诊断或辅助诊断非小细胞肺癌的系统在制备诊断或辅助诊断非小细胞肺癌产品中的应用。

所述诊断或辅助诊断非小细胞肺癌的系统可为所述检测9个mirna表达量的系统。

为解决上述技术问题,本发明还提供了检测所述9个mirna表达量、cea含量以及cyfra21-1含量的系统在制备诊断或辅助诊断非小细胞肺癌产品中的应用。

上述应用中,所述检测所述9个mirna表达量、cea含量以及cyfra21-1含量的系统可由所述检测9个mirna表达量的系统、检测cea含量的系统以及检测cyfra21-1含量的系统组成。

在本发明的一个实施例中,所述检测cea含量的系统为癌胚抗原测定试剂盒(化学发光法),所述检测cyfra21-1含量的系统为细胞角蛋白19片段测定试剂盒(化学发光法)。

上述应用中,所述cea含量可为血清和/或血浆中cea含量。所述cyfra21-1含量可为血清和/或血浆中cyfra21-1含量。

上述应用中,所述系统还可包括数据处理装置,所述数据处理装置用于将来自待测对象的所述9个mirna表达量、cea含量以及cyfra21-1含量转换为所述待测对象的诊断结果。

上述应用中,所述数据处理装置能通过记载e1和e2的特征诊断非小细胞肺癌和非非小细胞肺癌;所述e1为至少50例非小细胞肺癌患者组成的非小细胞肺癌组的所述9个mirna表达量、cea含量以及cyfra21-1含量,还可为至少50例非小细胞肺癌患者组成的非小细胞肺癌组的所述9个mirna表达量、cea含量、cyfra21-1含量以及年龄特征;所述e2为至少50例非非小细胞肺癌个体组成的非非小细胞肺癌组的所述9个mirna表达量、cea含量以及cyfra21-1含量,还可为至少50例非非小细胞肺癌个体组成的非非小细胞肺癌组的所述9个mirna表达量、cea含量、cyfra21-1含量以及年龄特征。

可通过包括下述步骤的方法将所述e1和所述e2的特征记载在所述数据处理装置中:将所述e1和所述e2导入所述数据处理装置中,通过对所述e1和所述e2进行机器学习构建可用于诊断非小细胞肺癌的模型(将该模型命名为非小细胞肺癌诊断模型)。

所述通过对所述e1和所述e2进行机器学习构建可用于诊断非小细胞肺癌的模型可包括f1或f2;

f1、对在所述非小细胞肺癌组中随机选择出的部分非小细胞肺癌患者(如大于等于50%的非小细胞肺癌患者)的所述e1的特征和在所述非非小细胞肺癌组中随机选择出的部分非非小细胞肺癌个体的所述e2的特征进行机器学习构建可用于诊断非小细胞肺癌的模型;

f2、将所述f1进行n次,得到n个可用于诊断非小细胞肺癌的模型;在所述n个可用于诊断非小细胞肺癌的模型中选择l个在所述非小细胞肺癌组和所述非非小细胞肺癌组中进行诊断的敏感性高(如大于等于0.5)和特异性高(如大于0.9)的模型,将这l个模型作为诊断非小细胞肺癌的模型(将其命名为c-rflcb模型);n≥1000;n≥l≥10。

利用所述c-rflcb模型对受试者进行诊断的方法包括:如所述c-rflcb模型中的所述l个可用于诊断非小细胞肺癌的模型中不少于50%的模型的结果为所述受试者为非小细胞肺癌患者,所述受试者为或候选为非小细胞肺癌患者;如所述c-rflcb模型中的所述l个可用于诊断非小细胞肺癌的模型中少于50%的模型的结果为所述受试者为非小细胞肺癌患者,所述受试者为或候选为非非小细胞肺癌个体。

上述应用中,所述数据处理装置可通过决策树算法处理数据。所述决策树算法具体可为随机森林决策树算法。

为解决上述技术问题,本发明还提供了以所述9个mirna、cea与cyfra21-1作为非小细胞肺癌标志物的诊断或辅助诊断非小细胞肺癌的系统在制备诊断或辅助诊断非小细胞肺癌产品中的应用。

上述应用中,所述以所述9个mirna、cea与cyfra21-1作为非小细胞肺癌标志物的诊断或辅助诊断非小细胞肺癌的系统可为所述检测所述9个mirna表达量、cea含量以及cyfra21-1含量的系统。

为解决上述技术问题,本发明还提供了下述m1)或m2)的应用:

m1)以所述9个mirna作为非小细胞肺癌标志物在诊断或辅助诊断非小细胞肺癌中的应用;

m2)以所述9个mirna、cea与cyfra21-1作为非小细胞肺癌标志物在诊断或辅助诊断非小细胞肺癌中的应用。

为解决上述技术问题,本发明还提供了下述p1)或p2)的系统:

p1)所述检测9个mirna表达量的系统;

p2)所述检测9个mirna表达量、cea含量以及cyfra21-1含量的系统。

本发明中,所述系统均可为试剂盒。

本发明中,所述非小细胞肺癌均可为0期、ia期、ib期、ii期或iii期非小细胞肺癌。

实验证明,利用本发明的9个mirna—hsa-mir-20a、hsa-mir-25、hsa-mir-223、hsa-mir-320、hsa-mir-222、hsa-mir-146a、hsa-mir-191、hsa-mir-24和hsa-mir-130a在血浆中的表达量建立的模型能够很好地筛选非小细胞肺癌,敏感性高,特异性高,适于筛选早期非小细胞肺癌;将这9个mirna结合cea与cyfra21-1能够更好的筛选非小细胞肺癌,尤其是早期非小细胞肺癌。因此,可利用这9个mirna或将这9个mirna联合cea与cyfra21-1筛选非小细胞肺癌,可对人群的肺癌风险进行早期预警,提高早诊的比例,并且仅仅需要待测对象的血浆/血清而不需要任何其它组织,本发明通过定量pcr技术检测血浆mirna水平提高检测的灵敏度,丰富检测肺癌的手段,可以提高肺癌的早期发现比例。

具体实施方式

下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。下述实施例中的实验方法,如无特殊说明,均为常规方法。下述实施例中所用的材料、试剂、仪器等,如无特殊说明,均可从商业途径得到。

敏感性(真阳性率):实际有病而按试验标准被正确判断为有病的百分率,灵敏度越大越好,理想灵敏度为100%。

特异性(真阴性率):实际无病而按试验标准被正确判断为无病的百分率,特异度越大越好,理想特异度为100%。

实施例1、9种mirna可用于诊断非小细胞肺癌

一、样品的收集和样品资料的整理

本申请的发明人以标准操作程序(sop)采集符合标准的血浆样本,系统收集完整的人口学资料、临床资料等,通过对样品资料的整理,发明人从中选择了1375人的血浆样本作为mirna芯片检测和后续一系列qrt-pcr验证的实验样品,这1375人被分为以下四组:

非小细胞肺癌组:包括462例非小细胞肺癌患者,该组的入选标准为:经病理学明确诊断的初诊且未经治疗的肺腺癌或肺鳞癌患者,并且采血前未经过手术和放化疗且无手术前放化疗。

正常对照组:包括390例正常对照,该组的入选标准为:无肿瘤疾病史的正常对照人群。

肺良性疾病组:包括250例肺良性疾病患者,该组的入选标准为:患有肺炎、肺结核、肺大疱、支气管扩张、气胸和/或慢性阻塞性肺疾病等良性病变,或,肺囊肿、肺错构瘤、肺硬化性血管瘤、肺结核瘤等良性肿瘤中的至少一种的肺良性疾病的患者。

其他组织器官良恶性组:包括273例其他组织器官良恶性患者,该组的入选标准为:患有支气管源性囊肿、纵隔肿物、纵隔神经纤维瘤、胸腺囊肿、心包囊肿、食管炎、食管囊肿、食管憩室、胃炎、胃息肉、肝炎、肝囊肿、结直肠炎、结直肠息肉、结直肠腺瘤、阑尾炎等至少一种其他组织器官良性疾病,或,经病理学明确诊断的初诊且未经治疗的结直肠癌、食管癌、胃癌或胸腺癌患者,并且癌症患者在采血前未经过手术和放化疗且无手术前放化疗。

本研究共采用上述1375例符合标准的样本进行研究。

二、发现阶段

选取非小细胞肺癌组中的27例非小细胞肺癌病例(18例肺腺癌、9例肺鳞癌)和正常对照组中的27例性别年龄匹配的正常对照采用定制的tqmnadvmirnacardfrmt96a芯片(thermofisher,4449141,包含96种mirnas:hsa-let-7b、hsa-let-7c、hsa-let-7g、hsa-mir-101、hsa-mir-106a、hsa-mir-106b、hsa-mir-10b*、hsa-mir-125b、hsa-mir-126、hsa-mir-128a、hsa-mir-130a、hsa-mir-138、hsa-mir-139-3p、hsa-mir-140、hsa-mir-140-3p、hsa-mir-142-3p、hsa-mir-142-5p、hsa-mir-143、hsa-mir-144*、hsa-mir-144、hsa-mir-145、hsa-mir-146a、hsa-mir-146b、hsa-mir-150、hsa-mir-151-5p、hsa-mir-152、hsa-mir-155、hsa-mir-15a*、hsa-mir-15b、hsa-mir-16、hsa-mir-17、hsa-mir-181a、hsa-mir-186、hsa-mir-18a、hsa-mir-191、hsa-mir-194、hsa-mir-195、hsa-mir-199a、hsa-mir-19a、hsa-mir-19b、hsa-mir-20a、hsa-mir-20b、hsa-mir-21、hsa-mir-220、hsa-mir-221、hsa-mir-222、hsa-mir-223、hsa-mir-24、hsa-mir-25、hsa-mir-26a、hsa-mir-26b、hsa-mir-27a、hsa-mir-28、hsa-mir-296、hsa-mir-29a、hsa-mir-29c、hsa-mir-301、hsa-mir-31、hsa-mir-320、hsa-mir-324-5p、hsa-mir-340、hsa-mir-342-3p、hsa-mir-34a*、hsa-mir-374、hsa-mir-376a、hsa-mir-376c、hsa-mir-425*、hsa-mir-425-5p、hsa-mir-4298、hsa-mir-432、hsa-mir-4327、hsa-mir-4443、hsa-mir-451、hsa-mir-4634、hsa-mir-4763-3p、hsa-mir-484、hsa-mir-486-3p、hsa-mir-500、hsa-mir-502-3p、hsa-mir-505*、hsa-mir-532、hsa-mir-532-3p、hsa-mir-579、hsa-mir-590-5p、hsa-mir-625、hsa-mir-636、hsa-mir-638、hsa-mir-642、hsa-mir-652、hsa-mir-744、hsa-mir-886-5p、hsa-mir-92a、hsa-mir-93、hsa-mir-942、hsa-mir-99b、u6snrna)进行检测,具体步骤为:

(1)使用mirneasymini试剂盒(qiagen,217184)提取血浆总rna;

(2)将步骤(1)得到的总rna通过利用microrna反转录试剂盒(thermofisher,4366596)和反转录引物(thermofisher,4459661)进行反转录得到cdna;

(3)cdna样品进行预扩增反应:向步骤(2)得到的cdna中加入mastermix(abi,4391128)及预扩增引物(thermofisher,4459661)对芯片特异性的mirna进行预扩增以增加表达所需的cdna的量,得到预扩增产物;

(4)将步骤(3)得到的预扩增产物利用定制的taqmanmirna芯片检测,得到96个mirnas的表达谱;在customtaqmanarraymirnacard(thermofisher,4449141)上加入mastermix(thermofisher,4440049)进行定量pcr反应。利用abi7900ht荧光定量pcr仪,选择384-welltaqmanlowdensityarray特定的程序进行反应。

(5)数据分析与处理。根据芯片的结果,通过ct值在35及其以下在非小细胞肺癌组和正常对照组中检出率80%以上对96种mirna进行质控从而获得63种mirna。mirnas的不同表达水平以2^(-δct)表示,其中δct=ct样本-ct参照,以血浆中稳定表达的hsa-mir-16作为参照进行标准化来计算各mirna的相对表达量。根据上述tlda结果选择非小细胞肺癌组的表达为正常对照组的2倍及其以上且统计学差异小于0.05的mirnas,符合条件的mirnas如表1所示,得到的mirnas包括hsa-mir-223、hsa-mir-221、hsa-mir-191、hsa-mir-140、hsa-mir-24、hsa-mir-146a、hsa-mir-130a、hsa-mir-146b、hsa-mir-27a和hsa-mir-145。

表1、10个候选mirna在芯片中的表达结果

注:“倍数变化”是指mirna在非小细胞肺癌组中的表达水平与其在正常对照组中的表达水平的比值。

(6)结合文献调研将肺癌mirna标志物hsa-mir-152、hsa-mir-20a、hsa-mir-222、hsa-mir-25和hsa-mir-320也作为候选标志物进行下一步验证。

三、初步验证阶段

在初步验证阶段,采用实时荧光定量pcr方法在非小细胞肺癌组的104例非小细胞肺癌患者和正常对照组的102例正常对照中利用实时荧光定量pcr方法验证上文15个候选mirna在不同组别间的表达差异,具体步骤如下:

(1)提取血浆总rna:分别提取104例非小细胞肺癌患者和102例正常人血浆总rna,提取前在血浆中加入一定浓度的合成的ath-mir159a。

(2)向步骤(1)得到的总rna中加入反转录引物(表2)的混合物(该混合物中各反转录引物的摩尔数均相等),利用反转录试剂盒(thermofisher,4366596)进行反转录得到cdna。

表2、mirna序列及反转录引物序列

(3)步骤(2)完成后,利用基因表达mastermix(thermofisher,4440046)和扩增上下游引物及探针(表3)进行定量pcr反应,检测各组中各mirna的表达情况。仪器使用的是abi7900ht荧光定量pcr仪。

表3、qpcr引物及探针序列

表3中,探针的5'端标记有fam,3'标记有mgb。

(4)数据分析和处理:根据步骤(3)的qrt-pcr的结果,首先通过mirnas在总体样本中的表达水平进行质控,需满足在80%以上的样本中的ct值小于35,发现其中6种mirnas(hsa-mir-27a、hsa-mir-140、hsa-mir-145、hsa-mir-146b、hsa-mir-152、hsa-mir-221)在肺癌和对照中ct值小于35的检出率小于80%,不符合质控标准,后续不再参与检测与分析。

本发明的定量pcr验证实验中,除了目前常用的hsa-mir-16,还考虑了在血浆中较为稳定表达的hsa-mir-1228,同时加入了外源的拟南芥ath-mir159a。用内源mirna反映样本本身的内源差异,又能通过掺入的外源mirna调整rna提取、反转录和qrt-pcr等操作过程中的偏差,从而获得更为可靠的mirna的表达水平。通过相关性分析和normfinder方法评价这三种内参的性能。通过104例非小细胞肺癌和102例正常对照的定量pcr数据,相关性分析结果如表4所示,根据相关性分析,ath-mir159a与hsa-mir-16组合相关性最高;根据normfinder方法,hsa-mir-1228与hsa-mir-16结合波动性最小,最为稳定。因此采用以ath-mir159a作为外参,同时以hsa-mir-1228与hsa-mir-16作为内参,取三者的平均值,对待测mirna数据进行归一化处理。

表4、相关性分析和normfinder方法评价参照基因及其组合

在此阶段,两组样品血浆mirna的表达量比值可用方程2-δct表示,其中δct=ct样本-ct参照,以ath-mir159a、hsa-mir-1228和hsa-mir-16三者的表达量均值作为参考标准,计算相对表达量。9种mirna(hsa-mir-20a、hsa-mir-25、hsa-mir-223、hsa-mir-320、hsa-mir-222、hsa-mir-146a、hsa-mir-191、hsa-mir-24和hsa-mir-130a)的表达情况如表5所示,在非小细胞肺癌组和正常对照组中的表达差异较为明显,差异显著(p<0.001),因此共选定9种非小细胞肺癌mirna标志物,继续扩大临床样本检测。

表5、9种mirnas在qrt-pcr验证中的表达情况

注:“倍数变化”是指mirna在非小细胞肺癌组中的表达水平与其在正常对照组中的表达水平的比值。

四、训练阶段

训练阶段所用的训练集样本包括183例正常对照组样本、129例肺良性疾病组样本和186例非小细胞肺癌组早期非小细胞肺癌(0期、i期)样本。利用外掺入的拟南芥ath-mir159a和内源的hsa-mir-16、hsa-mir-1228作为参照基因对训练集各样本的9个肺癌mirna标志物(hsa-mir-20a、hsa-mir-25、hsa-mir-223、hsa-mir-320、hsa-mir-222、hsa-mir-146a、hsa-mir-191、hsa-mir-24和hsa-mir-130a)进行标准化获得dct值,通过优化的随机森林算法建立肺癌联合诊断模型。同时,将mirna标志物的组合和现有的临床应用的血清肿瘤标志物cea、cyfra21-1进行联合检测分析,以期提高早期诊断肺癌的检出率,获得较好的临床联检效果。cea和cyfra21-1含量分别通过癌胚抗原测定试剂盒(化学发光法)和细胞角蛋白19片段测定试剂盒(化学发光法)(重庆博奥新景医学科技有限公司)进行检测。因此采用肺癌9种mirnas标准化的dct值,cea和cyfra21-1检测值自然对数标准化后的数值(由于cea和cyfra21-1数据跨度太大,因此取其检测值的自然对数参与建模),同时引入年龄因素,通过优化的随机森林算法建立肺癌联合诊断模型。

随机森林由许多决策树组成,决策树的构建采用了属性与样本双随机的方法,因此也叫做随机决策树。在随机森林中,各个决策树之间是没有关联的。当测试数据进入随机森林时,由每一棵决策树进行分类,最后取所有决策树中分类结果最多的那类为最终的结果,即决策树“投票”的结果,换言之,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。本发明在传统随机森林算法的基础之上进行了优化,将样本随机抽样10000次,建立10000个模型,并从10000模型中选取优选模型。当对测试集样本进行测试的时候,用优选模型分别对其进行预测,根据优选模型的投票为阳性的模型数占总模型数的比值作为预测值。在训练阶段,采用优化的随机森林算法将样本通过优化的随机森林方法抽样10000次,建立10000个模型,选取10000个模型中敏感性大于0.5与特异性大于0.9的模型。从单独mirna建立的10000模型中挑选出了64个优选模型,采用64个模型联合组成一个“strongerlearner”模型作为非小细胞肺癌风险评估的分类器(c-rflmi模型)。而对于9种mirna、蛋白标志物和年龄联合建模的10000个模型中挑选出了104个模型,采用104个模型联合组成一个“strongerlearner”模型作为非小细胞肺癌风险评估的分类器(c-rflcb模型)。

具体的,当以未发现患有非小细胞肺癌的人为待测对象时,利用c-rflmi模型进行诊断,如c-rflmi模型的64个模型中大于等于50%的模型的结果为受试者为非小细胞肺癌患者,受试者为非小细胞肺癌患者;如c-rflmi模型的64个模型中小于50%的模型的结果为受试者为非小细胞肺癌患者,受试者不为非小细胞肺癌患者;利用c-rflcb模型进行诊断,如c-rflcb模型的104个模型中大于等于50%的模型的结果为受试者为非小细胞肺癌患者,受试者为非小细胞肺癌患者;如c-rflcb模型的104个模型中小于50%的模型的结果为受试者为非小细胞肺癌患者,受试者不为非小细胞肺癌患者。以此种方式评价c-rflmi模型中9种mirna标志物、c-rflcb模型中9种mirna与蛋白标志物及年龄因素对于测试集中非小细胞肺癌患者的早期诊断的诊断价值,具体的,即对每个样本只统计其是作为测试集样本的模型的投票值。c-rflmi模型对正常对照组的特异性为90.2%、肺良性疾病组的特异性为82.9%,非小细胞肺癌组的敏感性为52.2%(表6);根据tnm分期对其分组分析,c-rflmi模型对0或ia期非小细胞肺癌的敏感性为52.6%,ib期非小细胞肺癌的敏感性为50.0%。c-rflcb模型对正常对照组的特异性为87.4%、肺良性疾病组的特异性为81.4%,非小细胞肺癌组的敏感性为58.6%(表6);根据tnm分期对其分组分析,c-rflcb模型对0或ia期非小细胞肺癌的敏感性为57.1%,ib期非小细胞肺癌的敏感性为65.6%。从以上数据可以看出,两个模型特异性与敏感性都较高,其中单独mirna相对特异性高些,而联合模型相对敏感性高。

表6、mirna组合对测试集人群中的性能指标分析

五、进一步验证阶段

进一步的,发明人对9种mirna组合在独立的验证集(249例非小细胞肺癌组样本、180例正常对照组样本、121例肺良性疾病病组样本和273例其他组织器官良恶性组样本)中进一步的验证。

c-rflmi模型对验证集的非小细胞肺癌的敏感性为35.3%,正常对照的特异性为84.4%,肺良性疾病的特异性为86.0%,其他组织器官良性疾病(患有支气管源性囊肿、纵隔肿物、纵隔神经纤维瘤、胸腺囊肿、心包囊肿、食管炎、食管囊肿、食管憩室、胃炎、胃息肉、肝炎、肝囊肿、结直肠炎、结直肠息肉、结直肠腺瘤、阑尾炎等至少一种其他组织器官良性疾病)的特异性为83.3%,其他组织器官癌症(经病理学明确诊断的初诊且未经治疗的结直肠癌、食管癌、胃癌或胸腺癌患者,并且癌症患者在采血前未经过手术和放化疗且无手术前放化疗)的特异性为82.8%(表7)。对于非小细胞肺癌,c-rflmi模型对0期或ia期的敏感性为27.6%,ib期敏感性为29.0%。在验证过程中也进一步考察了中晚期非小细胞肺癌的敏感性,c-rflmi模型对ii期敏感性为54.8%,iii期敏感性为43.9%,iv期肺癌的敏感性为31.3%(表7)。c-rflcb模型对验证集的非小细胞肺癌的敏感性为45.4%,正常对照的特异性为85.0%,肺良性疾病的特异性为80.2%,其他组织器官良性疾病的特异性为81.7%,其他组织器官癌症的特异性为78.5%(表7)。对于非小细胞肺癌,c-rflcb模型对0期或ia期的敏感性为35.7%,ib期敏感性为35.5%。在验证过程中也进一步考察了中晚期以上非小细胞肺癌的敏感性,c-rflcb模型对ii期的敏感性为61.3%,iii期敏感性为56.1%,iv期肺癌敏感性为50.0%(表7)。从以上分期的数据可以看出,两模型对ii期以上的非小细胞肺癌样本的敏感性也较高,且高于早期非小细胞肺癌样本的敏感性。

此外,验证集肺癌样本的敏感性较测试集下降了一定比例,但可以注意到对于对照和肺部良性疾病的特异性保持或有所升高,而在样本扩大化的逐步验证过程中c-rflmi模型和c-rflcb模型对验证集的敏感性分别保持在35%和45%上下,较为稳定。另外在验证阶段,还引入了大样本量的273例其他组织组织器官良恶性疾病干扰,两种模型均保持高特异性,对于非小细胞肺癌和其他组织器官癌症或良性干扰的鉴别诊断也具有极为重要的意义。

表7、mirna组合对验证集人群中的性能指标分析

在对不同分组的性能比较中可以看出联合建模较单独mirna性能更好,因此对单独蛋白标志物、蛋白标志物联检(对受检样本,任一蛋白标志物检出为阳性则预测此样本为阳性)、c-rflmi与蛋白联检(对受检样本,任一标志物检出为阳性则预测此样本为阳性)及c-rflcb进行比较。如表8所示,利用单独的cea与cyfra21-1诊断非小细胞肺癌的特异性较高,但敏感性较低,特别是对于0&ia期样本检出率很低;而利用c-rflmi与cea、cyfra21-1三者联检非小细胞肺癌的特异性偏低;因此重点比较cea&cyfra21-1、c-rflmi及c-rflcb分类器。从表8可以看出cea&cyfra21-1、c-rflmi及c-rflcb三者对正常对照的特异性较高而且性能相近。cea&cyfra21-1、c-rflmi及c-rflcb三者对肺良性疾病和其他组织器官良性疾病特异性也较高,其中mirna对肺良性疾病特异性相对高些,而cea&cyfra21-1则对其他组织良性疾病的特异性相对高些。对其他组织器官癌症,cea&cyfra21-1的特异性稍低,这可能是因为cea、cyfra21-1在其他癌症中也有一定的检出率,因此对肺癌的特异性相对低些;而c-rflmi和c-rflcb对其他组织癌症的特异性较高。对整体非小细胞肺癌的检出,c-rflcb较c-rflmi敏感性要高的多,无论是对整体还是不同分期的非小细胞肺癌;cea&cyfra21-1较单独的9种mirna对非小细胞肺癌检出率稍高,但从不同分期来看,c-rflmi对早中期非小细胞肺癌的检出率相对高于cea&cyfra21-1联检,对晚期非小细胞肺癌的检出率则相对低于cea&cyfra21-1联检;而对于c-rflcb模型与cea&cyfra21-1比较,c-rflcb模型高于cea&cyfra21-1、特别是0&ia期检出率较cea&cyfra21-1提高2倍以上,ib期、ii期、iii期也较蛋白标志物提高,但对iv期肺癌的检出率不及cea&cyfra21-1。因此联检模型在非小细胞肺癌中晚期前的性能较蛋白标志物性能更佳,特别是0&ia期灵敏度远高于cea和cyfra21-1或两者联检,可以更有效的筛选出非小细胞肺癌的高危人群,对非小细胞肺癌的早期发现和早期诊断具有重要意义。

表8、验证集中mirna标志物与蛋白联检性能分析

序列表

<110>博奥生物集团有限公司、北京大学人民医院

<120>一种非小细胞肺癌检测试剂盒及其应用

<160>36

<170>siposequencelisting1.0

<210>1

<211>22

<212>dna

<213>人工序列()

<400>1

gcgggtgtcagtttgtcaaata22

<210>2

<211>16

<212>dna

<213>人工序列()

<400>2

gtgcagggtccgaggt16

<210>3

<211>19

<212>dna

<213>人工序列()

<400>3

gctgacaacggaatcccaa19

<210>4

<211>16

<212>dna

<213>人工序列()

<400>4

gtgcagggtccgaggt16

<210>5

<211>21

<212>dna

<213>人工序列()

<400>5

gctcagagtggctcagttcag21

<210>6

<211>16

<212>dna

<213>人工序列()

<400>6

gtgcagggtccgaggt16

<210>7

<211>19

<212>dna

<213>人工序列()

<400>7

ggcggctgagaactgaatt19

<210>8

<211>16

<212>dna

<213>人工序列()

<400>8

gtgcagggtccgaggt16

<210>9

<211>19

<212>dna

<213>人工序列()

<400>9

cgctgccagtgcaatgtta19

<210>10

<211>16

<212>dna

<213>人工序列()

<400>10

gtgcagggtccgaggt16

<210>11

<211>23

<212>dna

<213>人工序列()

<400>11

gcgtaaagtgcttatagtgcagg23

<210>12

<211>16

<212>dna

<213>人工序列()

<400>12

gtgcagggtccgaggt16

<210>13

<211>20

<212>dna

<213>人工序列()

<400>13

cgctgacagctacatctggc20

<210>14

<211>16

<212>dna

<213>人工序列()

<400>14

gtgcagggtccgaggt16

<210>15

<211>20

<212>dna

<213>人工序列()

<400>15

gagctggcattgcacttgtc20

<210>16

<211>16

<212>dna

<213>人工序列()

<400>16

gtgcagggtccgaggt16

<210>17

<211>20

<212>dna

<213>人工序列()

<400>17

gcactgaaaagctgggttga20

<210>18

<211>16

<212>dna

<213>人工序列()

<400>18

gtgcagggtccgaggt16

<210>19

<211>16

<212>dna

<213>人工序列()

<400>19

cactggatacgactgg16

<210>20

<211>17

<212>dna

<213>人工序列()

<400>20

cactggatacgaccagc17

<210>21

<211>17

<212>dna

<213>人工序列()

<400>21

ctggatacgacctgttc17

<210>22

<211>17

<212>dna

<213>人工序列()

<400>22

cactggatacgacatgc17

<210>23

<211>17

<212>dna

<213>人工序列()

<400>23

cactggatacgacatgc17

<210>24

<211>16

<212>dna

<213>人工序列()

<400>24

tggatacgacctacct16

<210>25

<211>17

<212>dna

<213>人工序列()

<400>25

tggatacgacacccagc17

<210>26

<211>19

<212>dna

<213>人工序列()

<400>26

ctggatacgactcagaccg19

<210>27

<211>15

<212>dna

<213>人工序列()

<400>27

acgactcgccctctc15

<210>28

<211>50

<212>dna

<213>人工序列()

<400>28

gtcgtatccagtgcagggtccgaggtattcgcactggatacgactggggt50

<210>29

<211>50

<212>dna

<213>人工序列()

<400>29

gtcgtatccagtgcagggtccgaggtattcgcactggatacgaccagctg50

<210>30

<211>50

<212>dna

<213>人工序列()

<400>30

gtcgtatccagtgcagggtccgaggtattcgcactggatacgacctgttc50

<210>31

<211>50

<212>dna

<213>人工序列()

<400>31

gtcgtatccagtgcagggtccgaggtattcgcactggatacgacaaccca50

<210>32

<211>50

<212>dna

<213>人工序列()

<400>32

gtcgtatccagtgcagggtccgaggtattcgcactggatacgacatgccc50

<210>33

<211>50

<212>dna

<213>人工序列()

<400>33

gtcgtatccagtgcagggtccgaggtattcgcactggatacgacctacct50

<210>34

<211>50

<212>dna

<213>人工序列()

<400>34

gtcgtatccagtgcagggtccgaggtattcgcactggatacgacacccag50

<210>35

<211>50

<212>dna

<213>人工序列()

<400>35

gtcgtatccagtgcagggtccgaggtattcgcactggatacgactcagac50

<210>36

<211>50

<212>dna

<213>人工序列()

<400>36

gtcgtatccagtgcagggtccgaggtattcgcactggatacgactcgccc50

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1