COVID-19感染的宿主标志物的应用的制作方法

文档序号:20499782发布日期:2020-04-21 22:40阅读:259来源:国知局
COVID-19感染的宿主标志物的应用的制作方法
本发明涉及基因检测
技术领域
,特别是涉及一种covid-19感染的宿主标志物的应用。
背景技术
:covid-19的传播方式是空气与接触传播,是易传播疾病,且covid-19感染肺炎症状为发热、干咳、乏力等,与普通肺炎相似,临床医生较难鉴别,所以准确鉴定是否为covid-19感染对临床诊断和治疗有重要的实际作用。常规的covid-19鉴定方式主要为rt-pcr等针对covid-19病毒核酸检测,但由于实验技术和rna病毒易变异的问题存在,核酸检测对covid-19感染的鉴定存在一定的假阴性,导致部分患者无法迅速确诊。技术实现要素:基于此,有必要针对上述问题,提供一种covid-19感染的宿主标志物,通过观察这些宿主标志物差异化的表达,辅助诊断宿主是否存在covid-19感染,提高对covid-19的诊断能力。一种宿主标志物在制备covid-19感染检测试剂或检测设备中的应用,所述宿主标志物包括rnr1,mfsd11,syne3和slc10a3基因中的至少一种。本发明人在工作中发现,目前对covid-19病毒的核酸检测,首先是经过前处理提取生物样本中的rna进行核酸检测,而此时得到的rna中,宿主rna(人基因组)含量远远高于病原rna,本发明通过对covid-19阳性肺炎组患者和covid-19阴性肺炎(即非covid-19感染的其它肺炎)组患者基因表达的差异进行分析,得到上述具有差异表达的基因作为宿主标志物,可用于辅助covid-19感染诊断,在一定程度上可以弥补病毒核酸检验假阴性的缺陷,提高对covid-19的诊断能力,当covid-19病毒核酸检测为阴性,而上述宿主标志物表达阳性(按照预设规则上调或下调),可提示进行复检等。在其中一个实施例中,所述宿主标志物中,以基因表达上调为标志的基因为:rnr1;以基因表达下调为标志的基因为:mfsd11、syne3、slc10a3。在其中一个实施例中,对所述宿主标志物的应用为:检测生物样本中所述宿主标志物基因的表达量,与预定的各基因表达预设判定值进行对比,得出检测结果。在其中一个实施例中,所述宿主标志物基因的表达量通过以下方法获得:以高通量测序获得人基因组测序数据,以外显子作为转录本最小区间,以比对到已知基因的序列数作为基因表达量。在其中一个实施例中,所述基因表达预设判定值通过以下方法得到:分别获取covid-19阳性肺炎组及covid-19阴性肺炎组样本数据,根据两组样本数据进行差异化分析,以各基因表达量差异倍数绝对值为1.5倍以上为预设判定值。在其中一个实施例中,所述差异化分析时,限定p-value<0.05,且fdr<0.1。在其中一个实施例中,所述检测试剂用于痰液、鼻咽拭子、咽拭子、肺泡灌洗液样本的检测。本发明还公开了一种covid-19感染辅助检测试剂盒,包括检测以下至少一个基因表达量的试剂:mfsd11、rnr1、syne3、slc10a3。可以理解的,上述检测试剂盒可以针对基于芯片的检测方法设计,也可以针对基于测序的检测方法设计、或者基于pcr的检测方法设计均可,仅需能够检测出上述宿主标志物基因的表达量即可。在其中一个实施例中,该试剂盒包括检测以下基因表达量的试剂:rnr1,mfsd11,syne3和slc10a3。与现有技术相比,本发明具有以下有益效果:本发明的一种宿主标志物在制备covid-19感染检测试剂或检测设备中的应用,是发明人通过对covid-19阳性肺炎组患者和covid-19阴性肺炎组患者基因表达的差异进行分析,得到上述具有差异表达的基因作为宿主标志物,可用于辅助covid-19感染诊断,提高对covid-19的诊断能力,在一定程度上可以弥补病毒核酸检验假阴性的缺陷。附图说明图1为实施例1中差异基因的功能富集气泡图;图2为实施例1中36个差异基因对新冠感染肺炎和非新冠感染肺炎区分的roc曲线;图3为实施例1与实施例2差异基因交集(候选基因集)对新冠感染肺炎和非新冠感染肺炎区分的roc曲线;图4为候选基因集在感染组和非感染组的表达稳定性箱型图;图5为优选基因集中单个标志基因对新冠感染肺炎和非新冠感染肺炎区分的roc曲线;图6-8为优选基因集中两个标志基因对新冠感染肺炎和非新冠感染肺炎区分的roc曲线;图9为优选基因集中三个标志基因对新冠感染肺炎和非新冠感染肺炎区分的roc曲线;图10为优选基因集中四个标志基因对新冠感染肺炎和非新冠感染肺炎区分的roc曲线。具体实施方式为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的
技术领域
的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。以下实施例中所用进行测序的检测试剂和检测方法,均为市售试剂和常规方法。实施例1一、样品采集。采集40例已确诊covid-19感染肺炎和40例非covid-19感染肺炎的鼻咽拭子样本和痰液样本作为训练集。二、高通量测序。按照常规通用方法,使用转录组测序方法,以高通量测序获得测序数据,使用常规市售试剂盒,按说明书具体步骤进行操作。步骤如下:1核酸提取与纯化2基因组dna去除3文库构建3.1rna片段化及人rrna去除。3.2cdna一链合成。3.3cdna二链合成。3.4接头连接及纯化。3.5pcr扩增及纯化。3.6文库质检。用qubit4.0fluorometer及qubitdsdnahsassaykit检测文库浓度。3.7文库混合与变性。4上机测序使用nextseq550dx测序仪进行测序。三、数据分析。1低质量序列过滤使用软件fastp对测序fastq数据进行低质量序列过滤,过滤规则包括:一条序列质量值小于q15的碱基的占比大于40%,序列n碱基个数大于1,序列长度小于35,序列复杂度小于30%均被过滤,复杂度的定义为非连续相同碱基数的占比,即如果一条序列里面,连续的相同碱基比例大于70%则被过滤。2去除人rrna在低质量过滤后的数据中还存在大量的rrna(核糖体),为了避免rrna的影响,需要去除rrna序列。使用bowtie2(版本号:2.3.5.1)比对到人rrna的核酸序列(来源:ncbi数据库)上,并去除能够匹配人rrna的这部分序列。3比对到宿主使用软件hisat2比对到智人参考基因组(来源:ncbi数据库,人grch38.p13版),获得比对结果sam文件。4样本表达定量使用软件featurecounts确定比对到人已知基因上的序列数,定量使用基因组注释gff文件(版本:ncbigrch38.p13),参数选择-texon-ggene,即使用外显子作为转录本最小区间,以基因名称为准作为一个基因的区间,以比对到已知基因的序列数作为基因表达量,得基因表达readcount矩阵。5基因表达差异分析使用r语言(版本号:3.6.1)中的deseq2进行统计学检验,分析有表达的已知基因,差异基因筛选标准为:p-value<0.05,且fdr<0.1且|foldchange|>1.5的基因。四、宿主标志物筛选。1、宿主标志物初筛。通过上述基因表达差异分析的筛选,获得36个covid-19感染和非covid-19感染的标志物的候选初筛基因,其中有6个上调基因,30个下调基因。具体如下表:表1.标志物候选初筛基因idp-valuefdrlog2(foldchange)方向il7r0.000810.07736-2.03342下调cd60.000940.07736-1.94928下调bcl20.000400.06780-1.86851下调syne30.001070.07736-1.84775下调zc3h12d0.002150.09847-1.82164下调nup2100.000500.07133-1.81585下调spock20.001660.09318-1.74198下调ets10.000890.07736-1.68552下调b3gat30.000300.06279-1.58194下调tmc60.000140.05316-1.57536下调hla-dpb10.001280.08298-1.47970下调ciita0.001050.07736-1.45844下调tubgcp60.000580.07338-1.43074下调sidt20.001990.09697-1.42095下调mob3b0.001780.09513-1.38904下调brat10.000430.06968-1.28266下调sh3tc10.000610.07460-1.26360下调nktr0.001310.08320-1.22115下调cited20.000950.07736-1.18496下调myo15b0.000980.07736-1.17774下调inf20.000340.06404-1.11141下调ap1b10.000150.05483-1.03972下调slc10a30.002010.09697-1.03427下调dph10.001100.07846-0.99796下调dync1h10.002070.09697-0.96452下调cdk130.001680.09318-0.94359下调huwe10.000460.07133-0.89748下调rapgef10.000650.07475-0.87745下调mfsd110.000520.07133-0.84530下调vcp0.002040.09697-0.77699下调trng0.000030.017832.25573上调hmgb30.000030.017832.28739上调bclaf30.000000.000023.00612上调emx10.000000.000003.97603上调rnr10.000000.000004.86827上调cntn30.000010.010656.25195上调2、差异基因功能富集分析使用kobas3.0对36个差异基因进行基因功能富集研究,结果如图1所示,其中有21个基因富集到通路中,其中有15个基因有显著富集(padj<0.05)通路,纵坐标为通路名称,横坐标为富集到该通路中的基因数与富集到kegg数据库中的所有基因数的比值,颜色越深富集越显著(padj越小),点的形状是不同的数据库来源,点越大富集到的基因个数越多。差异基因信号通路主要富集于与免疫相关的信号通路中,说明筛选的差异基因具备一定的可信度。五、候选基因roc分析。使用python语言中的sklearn模块中的elastic-netpenaltylogisticregression模型,计算候选基因对covid-19感染肺炎和非covid-19感染肺炎分类的预测值,并使用该预测值绘制roc(受试者工作特征)曲线,计算auc。roc曲线中,横坐标为假阳率(falsepositiverate,fpr),即预测为阳性,但实际为阴性的样本占所有阴性样本的比例;纵坐标为真阳率(truepositiverate,tpr),即预测为阳性且实际为阳性的样本占所有阳性样本的比例。因此,roc曲线越偏离45度对角线,表示区分灵敏度和特异性效果越好,即曲线下面积auc越接近1,效果越好。结果如图2所示,将上述候选基因整体进行模型计算,得到auc为0.75,说明候选基因对covid-19感染与否的分类有一定的可靠度。实施例2对实施例1得到的宿主标志物候选基因进行验证。一、样品采集。采集40例已确诊covid-19感染肺炎和40例非covid-19感染肺炎的鼻咽拭子样本和痰液样本作为验证集,对实施例1的训练结果进行验证。实验样本均有rt-pcr、mngs和临床诊断结果。二、测序。参照实施例1的高通量测序方法,检测80例样本并分析实验组和对照组的差异表达基因。三、宿主标志物验证。参照实施例1的差异分析和功能富集分析方法,获得验证集中有差异基因43个,其中显著富集(padj<0.05)通路23个基因,富集的基因功能主要与免疫相关,与训练集中富集的信号通路类似。取实施例1中训练集差异基因与本实施例验证集差异基因交集,且上下调方向一致的13个基因,作为最终的候选基因列表,见表2。表2.标志物候选基因训练验证交集列表基因iddync1h1、vcp、ap1b1、cdk13、trng、inf2、ets1、huwe1、cited2、mfsd11、rnr1、syne3、slc10a3四、宿主标志物roc分析。使用r语言中的proc程序包分析covid-19感染肺炎分类的预测值,并使用该预测值绘制roc曲线,计算roc曲线下面积auc。结果如图3所示,将上述候选基因整体进行模型计算,得到auc为0.86,说明训练集和验证集差异基因的交集作为候选基因集,可以提高候选基因对covid-19感染诊断的可靠度。五、标志物表达稳定性筛选使用r语言对13个基因在感染组与非感染组中的表达量以及表达的稳定性进行分析,如图4所示,发现其中4个基因(rnr1,mfsd11,syne3和slc10a3)在感染组与非感染组间存在稳定差异,并在组内的表达量稳定(如图4)。对4个基因的组间表达量差异进行roc分析,发现其auc值均大于0.9(如图5),可作为辅助判断covid-19感染的优选标志物。表3.宿主优选标志物roc分析基因集合aucslc10a30.904761905syne30.910256410rnr10.921245421mfsd110.936813187slc10a3+rnr10.915750916syne3+slc10a30.935897436mfsd11+slc10a30.936813187syne3+rnr10.937728938mfsd11+syne30.954212454mfsd11+rnr10.965201465mfsd11+syne3+slc10a30.957875458syne3+slc10a3+rnr10.957875458mfsd11+syne3+rnr10.970695971mfsd11+slc10a3+rnr10.970695971mfsd11+syne3+slc10a3+rnr10.985347985将上述基因进行组合后发现,不同的基因组合有不同auc值,组合的基因越多,auc值越高,covid-19的分两类越明显(图6-图10),说明以上述4个基因表达量差异整体作为biomarker使用,对covid-19感染与否的分类有较高的可靠度。实施例3对实施例1和2得到的宿主优选标志物基因集进行确认。一、样品采集。取10例临床诊断为疑似covid-19肺炎临床样本,4例样本类型为痰液,6例样本类型为鼻咽拭子。二、测序。参照实施例1的高通量测序方法,检测10例样本并分析rnr1,mfsd11,syne3和slc10a3基因的表达量,进行差异化分析时,将待测样本数据与实施例1和2中的阴性为对照组进行比较。采用市售covid-19rt-pcr和mngs检测试剂盒对样本进行检测,按照使用说明书对检测结果进行判断。三、分析按照实施例1的方法,对上述两组样本中rnr1,mfsd11,syne3和slc10a3基因的表达量进行分析,结果如下表所示。表4.痰液样本检测分析结果sample差异基因log2(foldchange)宿主标志物rt-pcrmngs样本21rnr15.39阳阴阳样本22rnr19.73阳阳阳样本23rnr1+mfsd1110.63、-7.63阳阴阳样本24rnr18.52阳阳阳表5.鼻咽拭子样本检测分析结果sample差异基因log2(foldchange)宿主标志物rt-pcrmngs样本25syne3-1.8阳阴阴样本26syne3+slc10a3-3.36、-2.99阳阴阳样本27rnr1+syne32.84、-2.81阳阴阳样本28rnr1+mfsd11+syne33.80、-1.84、-3.50阳阳阳样本29syne3-3.45阳阳阳样本30rnr1+mfsd11+syne33.31、-2.11、-12.31阳阳阳经上述验证,本发明的宿主标志物rnr1,mfsd11,syne3和slc10a3,可在一定程度上弥补病毒核酸检验假阴性的缺陷,提高对covid-19的诊断能力。以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1