一种对ncRNA检测结果进行标准化的方法与流程

文档序号:11428832阅读:414来源:国知局
一种对ncRNA检测结果进行标准化的方法与流程

本发明属于生物检测方法领域,具体涉及一种对生物定量检测结果进行处理、分析的方法,更具体涉及一种基于比率对生物样本中ncrna的检测结果进行标准化的方法,特别涉及一种对肺腺癌相关ncrnas的检测结果进行标准化化处理以提高其逻辑真实性的方法。



背景技术:

肺癌是一种常见的疾病,其最具异质性,是男性癌症的头号杀手,此外肺癌极易发生区域性淋巴结和远处器官转移。每年世界上肺癌新发病例占所有新发癌症的17%,死亡人数占癌症死亡人数的23%。在中国肺癌是最常被检测到的的癌症也是癌症死亡的首要原因,在60-74岁男性中肺癌是新发病例最多且癌症死亡数最多的癌症。肺癌可以分为小细胞肺癌和非小细胞肺癌(non-smallcelllungcancer,nsclc),其中nsclc约占肺癌病例的85%是一种预后恶劣的高发恶性肿瘤。非小细胞肺癌有两种最常见的亚型:腺癌(约70%)和鳞状细胞肺癌(sqcc,约30%)。约三分之二的患者在诊断时已发生转移,所以早发现早治疗对于肺癌病人很关键,其中癌症早期阶段诊断死亡率可以降低10—50倍。低剂量螺旋ct(ldct)是目前非侵入性筛查早期肺癌的重要手段,但常产生假阳性的结果。因此,肺癌早期检测需发展一种微创方法如血浆分子生物标志物。

小分子非编码rna(ncrnas),尤其是小分子核糖核酸(mirnas),它们被发现在mrna转录后调节起着至关重要的作用。mirnas在细胞分化、增殖、凋亡中发挥关键作用,并且参与许多类型的疾病包括癌症,糖尿病,心脑血管和神经疾病。不同于mirnas,ncrnas在调节基因表达的很多层面中发挥重要作用,如染色质结构、转录、mrna稳定及翻译,ncrnas包括小snornas,piwi-相互作用rnas(pirnas),短干扰rnas(sirnas)及trnas,这些ncrnas在癌症和其他疾病中被扰乱。这些发现为循环ncrnas作为不同种类疾病的非侵入性诊断和预测生物标志物奠定了基础。

由于灵敏度高,特异性强和模板要求量少,目前大多数研究使用测量循环mirnas逆转录定量pcr(rt-qpcr)方法。因为体液中循环mirnas浓度非常低,准确地测量循环mirnas的表达是一个巨大挑战。此外,与基因表达相似,系统因素如原始材料数量的变化,样品收集,rna提取,反转录,pcr,这些都会影响最终结果并且引起偏差和定量误差。所以当前,标准化参考对照分子被用于标准化循环mirnapcr数据,目的是相对准确评估循环mirna的表达,目前参考对照分子包括内源和外源性对照。许多研究人员选择人工合成rna序列(如秀丽隐杆线虫mir-39和mir-54,或植物mirnas)的样本进行循环mirnaqpcr标准化分析。然而这些合成mirnas直接添加到血浆中会被迅速降解,因为它们没有免受内源性核糖核酸酶的保护能力。然而,循环内源性mirnas是相对稳定的,它们绑定到蛋白质或包含在核糖体内而受保护从而不被内源性核糖核酸酶降解。先前的研究已经筛选出相对合适的内参mirna(ecm),如mir-16,但是血清mir-16的水平提高与乳腺癌患者骨转移相关。此外如let-7d/g/i对于循环mirna数据的标准化是一个很好的内源参照,但是却被发现let-7d/g/i在某些样本中不能稳定表达。

目前基于比率的方法作为分子标记的研究已经在一些疾病中被应用,例如,ab42/ab40比率已经作为早老性痴呆(ad)的一个分子标记,apob/a1比率对于肥胖病人是一个很好的生物化学指示因子。此外目前mirnart-qpcr数据使用mirna比率已经在癌症分子标记研究中被报道。

使用比率作为分子标记已经被用于一些疾病中。然而,还没有特别的方法研究提到基于比率的方法应用于循环ncrna测序和rt-qpcr数据标准化。目前,关于循环ncrnas(mirnas)的论文大约99%仍然使用外源或内源参考对照分子来进行循环pcr数据的标准化。一些研究仍在极度寻求循环mirna数据标准化的更好参考对照。



技术实现要素:

近期有研究已经表明循环ncrna,如mirnas,是稳定的且可被作为分子标记用于人类疾病诊断与预后。然而,由于血液中的循环ncrnas浓度很低,使用新一代测序和定量实时rt-pcr进行血浆/血清ncrna实验中,数据标准化是一个挑战。目前标准化方法基于合成外源性标准对照或寻找内源性mirna对照是不合适的,因为他们没有稳定表达,从而没有找到可靠的差异表达显著的ncrnas。

针对上述现有技术的缺陷,本发明提供了一种基于比率的标准化方法,用于代替以单个ncrnas作为生物标志物,对相同的样本我们计算任意两个ncrnas的比率,并使用产生的比率作为生物标志。

对于循环ncrnas(如mirnas)标准化,目前还没有达成共识的外源或内源性因子,我们提出一个标准化方法,即通过分析循环ncrna值来看相同样本中不同ncrnas的比值。首先计算相同样本中任意2个ncrnas的比值,然后比较不同组别间比值表达水平,而不是比较单一ncrna的水平。因为2个ncrnas在相同样本中相同条件下同时测量,相同的条件包括相同采集方法,相同的贮存和相同的提取,pcr或测序程序,2个ncrnas比率的相对表达水平将反映比较的真实值。这种基于比率的方法是完全独立于任何内源或外源对照的。

一方面,本发明提供一种对生物样本中ncrna的检测结果进行标准化的方法,其特征在于在ncrna检测结果判断中使用两个ncrna的比值作为指标实现检测结果的标准化,并且所述方法不依赖于任何內源或外源对照的检测结果。

其中,本发明所述对生物样本中ncrna的检测结果标准化的方法不属于疾病的诊断方法,因为所述方法针对的是ncrna定量检测数值,而并非有生命的、临床上有待诊断的个体。

本发明所述对生物样本中ncrna的检测结果进行标准化的方法,包括:

(1)输入生物样本的至少两个ncrna的定量检测结果;

(2)将所述至少两个ncrna的定量检测结果两两相比,计算所有可能的ncrna对的比率;

(3)将每个ncrna对的比率,与肺腺癌样本组相应ncrna对的比率、正常样本组相应ncrna对的比率进行对比;

(4)根据比率的对比结果,对生物样本进行分类;确定或辅助确定该生物样本来源于肺癌个体还是正常个体;

其中,所述方法不包括采集生物样本、定量检测样本ncrna的步骤。

本发明所述对生物样本中ncrna的检测结果进行标准化的方法,其特征在于:所述ncrna的定量检测结果是反转录和定量pcr(rt-qpcr)检测结果;所述ncrna对的比率计算公式为2-δct,其中δct=ctncrna1–ctncrna2。

本发明所述对生物样本中ncrna的检测结果标准化的方法,其特征在于:所述至少两个ncrna的定量检测结果至少包括一对选自下组的ncrna对的定量检测结果;mir378a-3p/mir126-5p、sno-dr119/trna-thr-acg、sno-aca33/mir378a-3p、trna-thr-acg/sno-u57、trna-thr-acg/mir378a-3p。

本发明所述对生物样本中ncrna的检测结果进行标准化的方法可用于对生物样本进行分类,提高分类的准确性。

第二方面,本发明提供一种提高ncrna检测结果逻辑真实性的方法,其特征在于在ncrna检测结果判断中使用两个ncrna的比值作为指标实现检测结果的标准化,并且所述方法不依赖于任何內源或外源对照的检测结果。

本发明所述提高ncrna检测结果逻辑真实性的方法,包括:

(1)输入生物样本的至少两个ncrna的定量检测结果;

(2)将所述至少两个ncrna的定量检测结果两两相比,计算所有可能的ncrna对的比率;

(3)将每个ncrna对的比率,与肺腺癌样本组相应ncrna对的比率、正常样本组相应ncrna对的比率进行对比;

(4)根据对比结果,确定或辅助确定该生物样本来源于肺癌个体还是正常个体;

其中,所述方法不包括采集生物样本、定量检测样本ncrna的步骤。

本发明所述提高ncrna检测结果逻辑真实性的方法,其特征在于:所述ncrna的定量检测结果是反转录和定量pcr(rt-qpcr)检测结果。

本发明所述提高ncrna检测结果逻辑真实性的方法,其特征在于:所述至少两个ncrna的定量检测结果至少包括一对选自下组的ncrna对的定量检测结果;mir378a-3p/mir126-5p、sno-dr119/trna-thr-acg、sno-aca33/mir378a-3p、trna-thr-acg/sno-u57、trna-thr-acg/mir378a-3p。

第三方面,本发明提供一种选择肺腺癌相关ncrna对的方法,包括以下步骤

(1)确定生物样品中ncrnas的种类;

(2)确定生物样品中ncrnas的含量;

(3)计算每个生物样品中任意两种ncrna之间的比率;

(4)根据肺腺癌样本组和正常样本中每种ncrna的组平均值,计算任意两种ncrna组平均值之间的比率;

(5)采用支持向量机循环特性选择(svm-rfe)算法选择最佳ncrnas对;

(6)以步骤(5)选择获得的ncrnas对的比率作为诊断指标。

第四方面,本发明提供通过所述方法选择的肺腺癌相关ncrna对和/或其检测试剂在制备肺腺癌诊断试剂或诊断试剂盒中的应用。

本发明所述的肺腺癌相关ncrna对至少包括一对选自下组的ncrna对:mir378a-3p/mir126-5p、sno-dr119/trna-thr-acg、sno-aca33/mir378a-3p、trna-thr-acg/sno-u57、trna-thr-acg/mir378a-3p。

本发明所述诊断试剂或诊断试剂盒中不含有任何内源或外源性对照,所述内源或外源性对照用于对ncrna的检测结果进行标准化从而使得其具有分类或聚类意义。

本发明通过分析同一样本中任意两个循环ncrna的比值或者多个ncrna对比值的组合,而不是将单个目标ncrna水平进行比较,从而能区分肺癌病人与正常人。该种标准化方法着眼于同一样本mirnas的比率法,能够更加精确反映真实差异。

我们首先通过数学模型证明基于比率的标准化方法对于mirna数据修正在逻辑上是正确的,并且基于比率的方法优于任何基于内源或外源对照的标准化因子的方法。其次通过实验分析率先使用基于比率的方法进行整个基因组水平小分子ncrna测序数据分析。最终我们发现一个基于比率的标准化方法能够在不同疾病组中发现更重要的不同ncrna候选标记。

本发明所述将检测结果标准化的方法,方便快捷,成本低,而且反应体系简单,减少试验误差从而反应真实的mirna值,最大限度地简化了操作过程并避免操作失误。利用本发明提供的比率法分析方法能增加寻找有临床意义的稳定的生物标记物的机率,为临床医学上快速从血清或血浆检测肺腺癌、良性肺病以及正常对照提供了可靠的方法。

虽然根据本发明的原理,本发明所述对ncrna的检测结果进行标准化的方法具有巨大的临床应用价值;但这仅表明当以临床诊断目的应用本发明所述方法时可能涉及临床诊断方法,但本发明所述方法本质上并不包含检测方法或检测步骤,仅是对各种方法获得的数据进行加工处理、使得分类或聚类更真实的方法。

与现有技术相比,本发明取得了以下有益的技术效果:

(1)本发明提出的基于比率的标准化循环ncrna数据的方法,采用ncrnas的比率作为分类依据,相比于采用单一ncrna,ncrnas的比率数量更多、差异更显著、能更准确的反应真实值。例如对相同的样本,我们首先计算任意两个ncrnas的比率,然后比较不同组之间的比率表达水平而不是单个ncrna水平进行比较。因为2个ncrnas采用相同的样本,在同等条件下同时表达,2个ncrnas比值的相对表达水平将反映比较的真实值。

(2)本发明在数学逻辑上证明了基于比率的检测结果标准化方法,相对于基于內源对照和/或外源对照的检测结果标准化方法具有更高的真实性。本发明在数学上证明基于比率的标准化方法优于任何基于内源或外源对照的标准化方法。基于内源或外源对照的标准化方法有两个假设。首先,假设在相同样本中的待测mirna和内部控制受到相同的系统因子影响;第二,假设不同样本中真实内控值一样。而基于比率的方法仅仅假设相同样本中的不同mirnas有相同的系统因子,因此,从数学上清楚地证明了基于比率的标准化方法优于基于参考对照的标准化方法,因为很难了解第二个假设真实与否。

(3)基于比率的检测结果标准化方法,当与常规检测方法联合应用时能够作出更准确的聚类分析。本发明使用5个ncrna比率的组合,可使所有测量参数达到预测准确度100%,测量参数包括敏感性,特异性,阳性预测值(ppv),阴性预测值(npv)和roc曲线下面积(auc)。结果表明即使使用无监督的聚类分级(盲分),肺腺癌与正常样本可以区分且没有一个单一样本的错分。

附图说明

图1:正常样本和肺癌样本中代表性ncrna比率的表达值。adenocarcinoma:肺腺癌;normal:正常。

图2:肺腺癌与正常对照组血浆样本通过5个配对ncrna比率标记的区分。

基于5个配对标记的双向分级群聚被执行来展现群体聚类。50例肺腺癌样本(adeno)和29例正常健康对照(normal)被用来进行实时rt-qpcr。彩条表示标记的表达值。

具体实施方式

以下结合具体实施例,进一步阐述本发明。这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法,通常按照常规条件或按照制造厂商所建议的条件。除非另行定义,文中所使用的所有专业与科学用语与本领域熟练人员所熟悉的意义相同。此外,任何与所记载内容相似或均等的方法及材料皆可应用于本发明方法中。文中所述的较佳实施方法与材料仅作示范之用。

实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件,或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可通过正规渠道商购获得的常规产品。

实施例1

数据的收集和预处理

从北京大学人民医院获得50例已确诊的早期肺腺癌和29例正常人的ncrnas表达谱数据、及反转录实时pcr定量数据。计算任意两个ncrnas的测序和rt-qpcr数据比率。

对于rt-qpcr数据,2个小分子ncrna(ncrna1/ncrna2)比率的表达水平的计算采用比较ct法(2-δct),对相同的样本,δct=ctncrna1–ctncrna2。血浆ncrna浓度被log2转换后,我们采用spss20.0软件进行非配对t-检验,比较腺癌组,良性病人和正常对照组之间平均ncrna比率,显著p-值设置为0.05。用spss20.0软件进行卡方检验,比较训练和验证阶段样本性别,种族和癌症分期的分布,年龄用t-检验,显著p-值设置为0.05。采用支持向量机循环特性选择(svm-rfe)算法来选择最佳ncrnas。svm-rfe48是为特定学习目标选择特征子集的一种算法。它的基本算法是:(1)初始化数据集包含的特征,(2)训练数据集的svm,(3)根据ci=(wi)2排名特征,(4)剔除低等级特征的50%,(5)返回步骤2。在每个rfe步骤4,一些特征因svm分类模型的主动变量被舍弃。特征根据相关标准被消除,这一标准与它们支持判别函数相关,在每一步svm被再训练。根据特征选择算法选择的ncrna比率被用于使用支持向量机(svms)的分类。5倍十字交叉验证过程包括内部和外部验证。我们使用了预测性能指标,包括敏感性,特异性,阳性预测值(ppv),阴性预测值(npv)和roc曲线下面积(auc)来判断预测精度。

实施例2

基于比率的对循环ncrna剖面数据标准化的方法独立于任何内部或外部标准对照

因为外源和内源对照对循环ncrna剖面数据标准化都不可信,我们测试了一个基于比率的,用于循环ncrna剖面数据标准化的方法。首先,我们计算相同样本中任意两个ncrnas的比率,接着比较不同组别中表达水平比率而不是比较单一ncrna的表达水平。这保证了在相同样本中相同条件下同时测量,其中相同的条件包括相同采集方法,相同的贮存和相同的提取,pcr或测序程序。从而保证2个ncrnas比率的相对表达水平将直接反映比较的真实值。以mirna和内控(ic)举个例子(表1)。

表1基于归一化方法的率

*正值代表在癌症中上调,负值代表在癌症中下调。

如表1所示,mirna1的表达值在正常样本和癌症样本中分别是4和8,两组间倍数变化为2;内部对照1(ic1)的表达值在正常样本和癌症样本中分别是2和4。如果mirna1通过ic1标准化,正常样本和癌症样本之间的倍数改变是1;如果mirna1通过内控2(ic2)标准化,正常样本和癌症样本之间的倍数改变是-4(平均下调4倍)。可以看到,没有标准(行1)或使用不同的内控(ic1或ic2),正常样本和癌症样本之间的倍数改变不一样。与mirna2相似,我们得到不同的倍数改变结果(如行2,6和8)。如果我们首先通过ic1来标准化mirna1和mirna2,然后计算ic1标准化mirna1和mirna2的值的比率,正常样本的值为0.5,而癌症样本的值为2,倍数改变为4(行9)。有趣的是,如果我们通过ic2来标准化mirna2(行10)或不用任何对照(行11),然后计算相同样本同两个mirnas的比率,正常样本的比率值仍然为0.5(行10和11),而癌症样本的值也为2(行10和11),倍数改变仍为4(行10和11)。结果显示,不管我们用哪种内控方法,相同样本中任意两个mirnas的比率不变。所以,对于mirna剖面数据的标准化,我们只能计算相同样本中任意两个mirnas的比率(行11),这是完全独立于任何内源或外源对照的。

实施例3

基于比率的标准化方法对于mirna数据修正的数学逻辑证明,证实基于比率的数据标准化方法在数学逻辑上是真实的

为了从数学上证明在相同样本中2个ncrnas(如不同mirna)的比值能反映2个ncrnas的真实生物学价值。基于内源或外源对照的标准化方法的两个假设。即第一,假设在相同样本中的待测mirna和内部控制受到相同的系统因子影响;第二,假设不同样本中真实内控值一样。基于比率的方法仅仅假设相同样本中的不同mirnas有相同的系统因子。

在数学逻辑证明方面我们采用mirna作为一个例子,最终目标是试图发现生物学上真实mirna值(turemirna),然而,通常我们从实验中得到的观察mirna(obsmirna)值不是真值。事实上,obsmirna值是truemirna被嵌入不同的系统因子得到的结果。rt-qpcr实验中,系统因子可能包括rna提取(i),反转录(r),pcr(p),不同时间(t)等等。因此,在一个具体案例中如s1,设置如下:

(1)obsmirna1=truemirna1*is1*rs1*ps1*ts1

同理,我们假设在相同样本中对于mirna2的系统因子一样,在同一s1中的obsmirna2同样设置如下:

(2)obsmirna2=truemirna2*is1*rs1*ps1*ts1

因此,(3)obsmirna1/obsmirna2=truemirna1/truemirna2

从(3)行,我们可以清楚看到,在相同样本中,2个观察mirnas值的比率等于2个真实mirnas值的比率。因此,我们从数学上证明,在相同样本中,2个观察mirnas比值能够真实反映2个mirnas生物学价值,这个生物学价值是我们期望测量的。

(4)log2(obsmirna1/obsmirna2)=log2(2-ctmirna1/2-ctmirna2)=log2(2-ctmirna1/2-ctmirna2)=log2(2-ctmirna1+ctmirna2)=ctmirna2-ctmirna1

因为pcr值是ct值,ct值实际上是对数值。从公式(4),我们了解到,2个mirnas的对数比值实际上是2个mirnas的2个ct值的差值,这使得计算更简单并且使得临床上使用这些基于rt-qpcr的数据更方便。

实施例4

基于比率的进行整个基因组水平小分子mirna测序数据分析的验证为验证这些基于比率的可以区分肺癌与非肺癌样本的候选ncrnas,从测序数据中,首先选择大约20对配对明显的ncrna比率来比较正常组与癌症组,其中涉及29例正常样本,50例肺腺癌早期样本,这些肺腺癌样本在种族,性别和吸烟状况方面配对。筛选foldchanges>=2且adjustp-value<=0.05,发现了大量显著改变的成熟的mirna比率(mirna/mirna),其中正常与癌症对比组中有30,989个,正常与良性对比组中有12,701个,良性与癌症对比组中有7,044个。最终分析发现一个由5个ncrna比率的组合,可使所有测量参数达到预测准确度100%,测量参数包括敏感性,特异性,阳性预测值(ppv),阴性预测值(npv)和roc曲线下面积(auc)。图1描述的是即使使用无监督的聚类分级(即双盲聚类),肺腺癌与正常样本可以区分且没有一个单一样本的错分。

实施例5

利用循环ncrna对比率的组合预测区分肺腺癌样本与正常人样本的准确性

血浆中每一个个体ncrna采用实时定量rt-pcr被测量,相同样本中2个ncrnas的比率计算公式为2-δct,其中δct=ctncrna1–ctncrna2,所以-δct=log2(ncrna1/ncrna2)。分析发现mir378a-3p/mir126-5p、sno-dr119/trna-thr-acg、trna-thr-acg/sno-u57以及trna-thr-acg/mir378a-3p等ncrna对可以显著特异性区分肺腺癌与正常对照(图2)。

上述说明并非对本发明的限制,本发明也并不限于上述举例。本技术领域的普通技术人员在本发明的实质范围内,作出的变化、改型、添加或替换,也应属于本发明的保护范围,本发明的保护范围以权利要求书为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1