技术简介:
本发明针对特发性肺纤维化缺乏有效生物标志物的问题,通过质谱分析与机器学习筛选出Serping1、Kng1、Fcn3、Ttr四种血浆蛋白标志物,其组合在正常人与患者间表达差异显著(AUC达0.8以上),变异系数低于0.5,可稳健准确预测疾病,为诊断提供新工具。
关键词:特发性肺纤维化,血浆蛋白标志物
1.本发明属于肺纤维化医学诊断标志物及工具技术领域,具体涉及一种特发性肺纤维化血浆蛋白标志物及其在制备检测试剂或诊断工具中的应用。
背景技术:2.肺纤维化是以成纤维细胞增殖及大量细胞外基质聚集并伴炎症损伤、组织结构破坏为特征的一大类肺疾病的终末期改变,也就是正常的肺泡组织被损坏后经过异常修复导致结构异常(疤痕形成)。肺纤维化的体征和症状包括:气短(呼吸困难)、干咳、疲劳、不明原因的体重减轻、肌肉和关节酸痛、手指或脚趾尖变宽和变圆(杵状指)。肺纤维化的进程以及症状的严重程度因人而异,有些人很快就会患上严重的疾病,其他人有中度症状,在几个月或几年内恶化得更慢,有些人的症状可能会迅速恶化(急性加重),例如严重的呼吸急促,可能会持续数天至数周。目前,尚无针对特发性肺纤维化疾病发生及转归的生物标志物。
技术实现要素:3.本发明解决的技术问题是提供了一种特发性肺纤维化血浆蛋白标志物及其在制备检测试剂或诊断工具中的应用,经研究发现丝氨酸蛋白酶抑制剂家族g1(serpin family g member 1,基因名称serping1)、激肽原1(kininogen 1,基因名称kng1)、纤维胶凝蛋白3(ficolin 3,基因名称fcn3)、甲状腺素运载蛋白(transthyretin,基因名称ttr)蛋白浓度在正常人和特发性肺纤维化患者血浆中均存在显著性差异,且变异系数均低于0.5,这就进一步确定了多种蛋白组合预测特发性肺纤维化疾病的准确性和稳健性。
4.本发明为解决上述技术问题采用如下技术方案,特发性肺纤维化血浆蛋白标志物,其特征在于:该特发性肺纤维化血浆蛋白标志物为丝氨酸蛋白酶抑制剂家族g1、激肽原1、纤维胶凝蛋白3或甲状腺素运载蛋白中的一种或多种,优选为丝氨酸蛋白酶抑制剂家族g1、激肽原1、纤维胶凝蛋白3和甲状腺素运载蛋白的组合。
5.特异性结合蛋白的抗体在制备特发性肺纤维化疾病检测试剂或诊断工具中的应用,其特征在于:所述蛋白为丝氨酸蛋白酶抑制剂家族g1、激肽原1、纤维胶凝蛋白3或甲状腺素运载蛋白中的一种或多种,优选为丝氨酸蛋白酶抑制剂家族g1、激肽原1、纤维胶凝蛋白3和甲状腺素运载蛋白的组合。
6.进一步限定,所述抗体为anti-serping1、anti-kng1、anti-fcn3或anti-ttr中的一种或多种。
7.特发性肺纤维化血浆蛋白标志物,其特征在于:该特发性肺纤维化血浆蛋白标志物为以下基因的表达产物,其中基因为serping1、kng1、fcn3或ttr中的一种或多种,优选为serping1、kng1、fcn3和ttr的组合。
8.抑制基因表达的制剂在制备特发性肺纤维化疾病检测试剂或诊断工具中的应用,其特征在于:所述基因为serping1、kng1、fcn3或ttr中的一种或多种,优选为serping1、
kng1、fcn3和ttr的组合。
9.抑制基因表达的制剂在制备新型冠状病毒疾病由轻症转重症的检测试剂或诊断工具中的应用,其特征在于:所述基因为serping1、kng1、fcn3或ttr中的一种或多种,优选为serping1、kng1、fcn3和ttr的组合。
10.进一步限定,所述制剂为serping1基因表达的抑制剂、kng1基因表达的抑制剂、fcn3基因表达的抑制剂或ttr基因表达的抑制剂中的一种或多种。
11.进一步限定,所述诊断工具为芯片、试纸条或试剂盒。
12.特发性肺纤维化疾病检测试剂,其特征在于包括特异性结合蛋白的抗体和/或抑制基因表达的制剂,其中蛋白为丝氨酸蛋白酶抑制剂家族g1、激肽原1、纤维胶凝蛋白3和甲状腺素运载蛋白的组合,基因为serping1、kng1、fcn3和ttr的组合。
13.特发性肺纤维化疾病诊断工具,其特征在于包括特异性结合蛋白的抗体和/或抑制基因表达的制剂,其中蛋白为丝氨酸蛋白酶抑制剂家族g1、激肽原1、纤维胶凝蛋白3和甲状腺素运载蛋白的组合,基因为serping1、kng1、fcn3和ttr的组合。
14.人类血浆蛋白的变化代表了各种原因导致的疾病条件下病理生理变化的指标。结合蛋白质组学与机器学习技术,可以分析正常人群和特发性肺纤维化患者的血浆蛋白表达差异,建立完整的蛋白质数据库,对疾病的蛋白质组表达变化进行分析比较,发现与疾病进程相关的特异性蛋白,以作为特发性肺纤维化疾病诊断潜在的生物标志物。
15.本发明提供了一组用于诊断特发性肺纤维化的血浆蛋白标志物,其包括丝氨酸蛋白酶抑制剂家族g1(serpin family g member 1,基因名称serping1)、激肽原1(kininogen 1,基因名称kng1)、纤维胶凝蛋白3(ficolin 3,基因名称fcn3)和甲状腺素运载蛋白(transthyretin,基因名称ttr)。结果表明,这四种蛋白组合预测特发性肺纤维化疾病的受试者工作特征曲线(roc)下面积(auc)值为0.799(队列1)和0.848(队列2)。在正常人群和肺纤维化患者中四种蛋白的表达量均存在显著差异,且变异系数均小于0.5,这就进一步确定了多种蛋白组合预测特发性肺纤维化疾病的稳健性和准确性。
附图说明
16.图1为验证数据集中正常组与肺纤维化组血浆蛋白质谱结果;图2为serping1、kng1、fcn3、ttr四种蛋白的血浆蛋白质谱结果;图3为混淆矩阵;图4为roc曲线分析;图5为验证数据集中正常组与肺纤维化组血浆蛋白质谱结果;图6为serping1、kng1、fcn3、ttr四种蛋白的血浆蛋白质谱结果;图7为混淆矩阵;图8为roc曲线分析。
具体实施方式
17.以下通过实施例对本发明的上述内容做进一步详细说明,但不应该将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明上述内容实现的技术均属于本发明的范围。
18.本发明提供的特发性肺纤维化血浆蛋白标志物及特发性肺纤维化检测试剂或诊断工具中所用原料及试剂均可由市场购得。
19.下面结合实施例,进一步阐述本发明:实施例1正常人群与肺纤维化患者血浆样品质谱分析1. 实验材料肺纤维化患者血浆样品,来源某医院,包括30位正常人群采集的全血以及30位肺纤维化患者采集的全血,共计60份全血样品。根据美国胸科学会(american thoracic society,ats)、欧洲呼吸学会(european respiratory society,ers)、日本呼吸学会(japanese respiratory society,jrs)、拉丁美州胸科学会(association of latin american thorax,alat)制定的2018年版ipf诊断的临床实用指南,主要从胸部高分辨率ct、肺活检组织病理学检查两方面实施诊断措施:(1)胸部ct:肺纤维化患者高分辨率ct特征包括蜂窝、牵张性支气管或细支气管扩张(主要出现在磨玻璃影、细网格影中),急性加重时高分辨率ct表现为纤维化基础上的双肺磨玻璃影或实变影。(2)肺组织活检病理表型:肺纤维化患者具体表现为低倍镜下见不均一分布的、致密的纤维化病灶,周围肺组织结构可相对正常,同时伴有肺结构重塑、蜂窝形成,急性加重患者组织病理表现为上述基础上合并弥漫性肺泡损伤,并可伴有透明膜形成。
20.2. 实验过程(1)以下(1)至(3)实验过程均在生物安全实验室开展。
21.(2)全血样品在37℃水浴锅中孵育1h,待血细胞完全凝结。
22.(3)将样品于4℃,3000rpm离心15min,吸取上层血浆。将血浆放置56℃水浴锅中完全灭活60min,并经过外部彻底消毒后备用。
23.(4)委托某平台,在对各组血浆蛋白进行标记并开展相对定量质谱分析,结果如图1所示。
24.实施例2机器学习筛选肺纤维化标志物1. 实验材料30份血浆样品(见实施例1)质谱数据2. 实验过程(1)筛选差异蛋白,筛选control组与ipf组中蛋白倍数变化(fc)绝对值大于1.5(|log2fc|》1.5),且差异显著性小于0.05(p《0.05)。
25.(2)从差异蛋白中随机选择不超过4个蛋白组成潜在的最优标志物组合(obc),每个蛋白的初始重量值设为1,并设置了1000种obc备选。
26.(3)对于每个候选obc,我们随机从原始数据集种划分出训练数据集和测试数据集,比率为4:1。测试数据集仅用于评估绩效,不用于训练。利用机器学习算法惩罚logistic回归(plr),使用最小绝对收缩和选择算子惩罚和岭回归(l2正则化)惩罚迭代优化所选蛋白质的权重值。
27.(4)通过比对,我们发现这四种蛋白组合:丝氨酸蛋白酶抑制剂家族g1(serpin family g member 1,基因名称serping1)、激肽原1(kininogen 1,基因名称kng1)、纤维胶
凝蛋白3(ficolin 3,基因名称fcn3)、甲状腺素运载蛋白(transthyretin,基因名称ttr)作为obc时,可以得到较好的预测结果。四种蛋白在质谱数据中的表达量如图2所示。利用质谱数据,计算鉴定出的obc中各蛋白质组合区分正常人群与肺纤维化患者可能性的真阳性(true positive,tp)、真阴性(true negative,tn)、假阳性(false positive,fp)和假阴性(false negative,fn)数。其tp、tn、fp、fn的混淆矩阵如图3所示。
28.(5)进行5倍交叉验证,根据sn和1-sp评分绘制了该obc受试者工作特性(roc)曲线,并计算了roc线下面积值(auc)值。roc曲线下的面积值auc在大于0.5的情况下,越接近于1,说明效果越好。结果如图4所示,该obc的auc值已接近0.8,具有较高的准确性,表明该组合具有极佳的区分非纤维化人群与纤维化患者的性能。
29.实施例3验证obc预测准确性(1)从公共数据库中获取肺纤维化血浆质谱数据集,包括19位正常人群和17位肺纤维化患者。
30.(2)血浆质谱结果如图5所示。
31.(3)作为obc组合的四种蛋白质:氨酸蛋白酶抑制剂家族g1(serpin family g member 1,基因名称serping1)、激肽原1(kininogen 1,基因名称kng1)、纤维胶凝蛋白3(ficolin 3,基因名称fcn3)、甲状腺素运载蛋白(transthyretin,基因名称ttr)在该质谱数据的表达量如图6所示。
32.(4)用上述四种蛋白serping1、kng1、fcn3、ttr构建好的logistic回归模型在该数据集上进行验证,得到其混淆矩阵以及受试者工作特性(roc)曲线,并计算其算了roc线下面积值(auc)值,结果分别如图7、图8所示。
33.(5)在验证数据集上该obc组合的auc也可以达到0.84以上,同样具有较高的准确性,也进一步确定该obc组合区分非纤维化人群与肺纤维化患者的准确性。
34.以上实施例描述了本发明的基本原理、主要特征及优点,本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明原理的范围下,本发明还会有各种变化和改进,这些变化和改进均落入本发明保护的范围内。