一种基于高通量测序数据的HLA基因综合分析方法与流程

文档序号:30584113发布日期:2022-06-29 15:21阅读:652来源:国知局
一种基于高通量测序数据的HLA基因综合分析方法与流程
一种基于高通量测序数据的hla基因综合分析方法
技术领域
1.本发明涉及生物信息领域,特别是一种基于高通量测序数据的hla基因综合分析方法。


背景技术:

2.人类白细胞抗原(human leukocyte antigen,后文均简称hla)是细胞内用于呈递抗原肽的一种蛋白分子,编码hla的基因称之为hla基因。在实际分析中通常主要研究两大类经典的hla基因,即hla-i型基因和hla-ii型基因,这两类基因均位于6号染色体上,根据其所在位置不同分别命名。在实际应用中,hla-i型基因主要研究hla-a基因、hla-b基因以及hla-c基因三种。他们的编码产物分布于几乎所有有核细胞表面(除神经细胞、成熟红细胞和滋养层细胞),主要参与内源性抗原的呈递。hla-ii型基因则通常主要研究hla-dr 基因、hla-dq基因及hla-dp基因,它们多分布于t淋巴细胞、巨噬细胞和树突状细胞等专职抗原呈递细胞表面,参与外源性抗原的呈递。
3.由于hla的作用是结合抗原,参与抗原呈递,因此抗原的高度多样性决定了hla本身及及hla基因的高度多样性,即每一类hla基因具有数量众多的基因型。为方便研究与应用,世界卫生组织下的nomenclature committee for factors of the hla system对hla基因型的命名做了详细规定,具体命名规则见附图5。
4.在生物学中,若细胞同时拥有多套遗传物质,则称之为多倍体,而两套遗传物质上完全相同位置上的基因则互相称为等位基因(allele)。人是二倍体生物,一套遗传物质来自母方,另一套来自父方。若某基因的一对等位基因基因型完全相同时,我们称该基因为纯合,反之则称之为杂合。为描述方便,在后文中我们将会将一个hla基因的两个等位基因分别称为等位基因1(allele1)和等位基因2(allele2)。
5.所谓hla基因分型,即通过技术手段确定受试者的hla基因的等位基因的基因型,同时了解每个hla基因的纯/杂合状态的过程与方法。进行hla基因分型的方法有多种,如血清学分型法、序列特异性寡核苷酸杂交(sequence specific oligonucleotide hybridization,sso) 法和毛细管测序(sanger法)、高通量测序(又名下一代测序,next generation sequencing,ngs) 法。不同方法在实验效率、样品要求、分型分辨率上均有所差异。而得益于ngs技术近年的高速发展,拥有更高实验效率、更高分辨率同时更低样本要求,的ngs法正在得到越来越广的应用。
6.针对高通量测序数据,分型算法很大程度上决定了分型结果的准确性与分辨率。不同的算法虽然都有类似的技术原理,即将测序得到的reads(即测序过程中随机打断核酸序列后测得的短碱基序列)与准备好的参考基因组进行比对(align),以粗略获取属于hla基因的reads,之后基于各自构建的算法,对比对(align)上的reads按hla基因型进行分配,最终根据分配结果确定受试者的每个hla等位基因的基因型,进而判定纯杂合情况,完成分型。但不同算法在参考基因组使用、分配算法构建以及纯杂合判定等关键步骤上的采取的策略都不尽相同,因此不同方法的最终的分型结果往往有所差异,同时同一方法在不同性
质的数据集上的准确性表现也会有所差异。
7.另外,在过去的临床与研究应用中,对hla基因的分析绝大部分仅限于hla分型,及定性分析,鲜有针对hla基因表达量的研究及应用,因此hla基因的定量方法目前存在较大的空白区域,本发明解决这些问题,为同时需要定性、定量两种结果的下游分析提供了能得到更准确、完善的数据支持的分析方法。


技术实现要素:

8.为解决现有技术的不足,本发明的目的在于提供一种基于高通量测序数据的hla基因综合分析方法,依据dna的测序数据确定受试者的hla基因分型,和rna的测序结果计算分型的表达量,提高了同时需要定性、定量两种结果的下游分析的数据的准确性和完善性。
9.为了实现上述目标,本发明采用如下的技术方案:
10.一种基于高通量测序数据的hla基因综合分析方法,包括如下内容:
11.步骤一,数据预处理:
12.将dna测序数据比对到参考基因组上,然后依据比对结果选择需要的部分序列形成文件,以作为下游分析的输入;
13.步骤二,多算法并行分型与结果整合:
14.1,多算法整合结果汇总:
15.a,将多算法的hla分型结果汇总,将所有分型结果统一标准化,再进行去重复处理;
16.b,将汇总的所有分型进行权重数值w计算:
17.权重数值由每一个支持该分型的算法的权重系数w加和得到,而该权重系数则基于算法在特定数据集中的表现得到,衡量该表现的指标为算法的分型准确率或算法结果与金标准结果的相关性;
18.c,确定等位基因1:
19.确定了所有分型的权重数值后,将所有分型按照权重数值由高到低排列;
20.若排名第一位的分型存在并列,则直接将并列的所有分型作为杂合结果;
21.若第一位不存在并列,则排名第一的分型即为等位基因1,其对应权重数值记为w1;
22.d,确定等位基因2与纯杂合:
23.确定等位基因1后,若有其他分型结果,则按照w大小继续选择第二大分型,其对应权重数值为w2,并将w2与已设定的权重阈值t
thr
比较;
24.若w2》t
thr
,则分型结果为杂合,对应分型为等位基因1、等位基因2;
25.若w2≤t
thr
,则分型结果为纯合,对应分型仅有等位基因1;
26.确定等位基因1后,若无其他结果,则分型结果为纯合,对应分型仅有等位基因1;
27.若并列第二的分型存在并且满足杂合阈值,则并列的分型都保留;
28.e,正常组织样本与肿瘤组织样本分型结果取交集;
29.2,ineo-hla-qual算法,定性分析:
30.a,分型read计数:
31.获取参考基因组和dna测序数据的比对结果,根据比对结果统计比对到对应hla分
型上的read数目n;
32.b,选择候选分型:
33.从所有分型的支持read数目中选择数值最大的计为n
max
,将其与设定的系数c(0.5~1 之间的小数)相乘,得到n的过滤阈值n
thr
,仅保留n》n
thr
的分型作为候选继续后续分析;
34.c,等位基因组合集:
35.将候选的hla分型依次作为等位基因1,其他分型构成等位基因2集合,获得所有hla 分型对应的【等位基因1-等位基因2集合】的组合集;
36.d,提取等位基因1-等位基因2集合:
37.从【等位基因1-等位基因2集合】组合集中提取一个等位基因1-等位基因2集合,获得等位基因1;
38.e,分型read重计数:
39.确定等位基因1后,将同时比对到剩余候选分型那个与等位基因1的read从剩余候选分型的计算结果中去除,得到重计数后read数目n’,对于一个分型hla-a*02:01,其支持read 数目计为n’a0201

40.若所有n’计算完成后,再次按照步骤二2b选择候选分型中的方式再一次对剩余分型进行筛选,通过筛选的分型作为新的等位基因2集合进入后续分析;
41.f,等位基因2确定与等位基因组合生成:
42.按n’大小依次取步骤二2e中得到的候选分型作为等位基因2,与步骤二2d中确定的等位基因1放在一起,构成一个等位基因组合,将所有的组合存放于集合c
allele
中;
43.g,重复产生组合:
44.回到步骤二2d提取等位基因1-等位基因2集合,提取新的等位基因1-等位基因2集合,然后重复步骤二2e-步骤二2f,确定的组合存放于c
allele
中,直到【等位基因1-等位基因2集合】组合集中所有的等位基因1-等位基因2集合都分析完;
45.h,计算组合分数:
46.对于每个属于c
allele
的分型组合c
allele1-allele2
将n
allele1
与n’allele2
相加作为该组合的分数s,计为s
allele1-allele2

47.i,分型结果确定:
48.从所有s中选出分数最大一个s
allele1-allele2
作为结果备选,根据确定好的杂合阈值t
heter
,确定最终结果;
49.若n’allele2
》t
heter
×nallele1
,则最终分型结果为杂合,分型分别为等位基因1和等位基因2;
50.若n’allele2
≤t
heter
×nallele1
则分型结果为纯合,分型为等位基因1;
51.步骤三,根据read计数计算hla分型表达量的定量分析方案ineo-hla-quant。
52.前述的一种基于高通量测序数据的hla基因综合分析方法,步骤一中的参考基因组为公开数据库中信息构建hla分型专用的预处理综合参考基因组,简称crp参考基因组,crp 参考基因组添加了公开数据库中已知的hla等位基因序列信息。
53.前述的一种基于高通量测序数据的hla基因综合分析方法,步骤一中的权重数值是由每一个支持该分型的算法的权重系数w加和得到;权重系数是基于算法在特定数据集中的表现得到,衡量该表现的指标为算法的分型准确率或算法结果与金标准结果的相关
性。
54.前述的一种基于高通量测序数据的hla基因综合分析方法,步骤二中的所有分型结果统一标准化为who nomenclature committee for factors of the hla system规定标准命名格式。
55.前述的一种基于高通量测序数据的hla基因综合分析方法,步骤二1e中所述的正常组织样本与肿瘤组织样本分型结果取交集的具体方法为只保留在两份数据间一致的分型结果;取交集的过程不考虑纯合与杂合之分,仅考虑同一分型是否在肿瘤组织与正常对照结果中都出现。
56.前述的一种基于高通量测序数据的hla基因综合分析方法,步骤三中根据read计数计算hla分型表达量的定量分析方案ineo-hla-quant的具体内容包括:
57.c,分型read计数:
58.获取rna测序数据参考基因组比对结果和hla分型结果,根据比对结果统计比对到 hla分型上的read数目n;
59.d,分型read计数修正:
60.对n进行的修正包括两方面:
61.一是将计数值修正为特异性read的计数值n’,特异性代表一条read只能比对到一个特定的分型,而不能比对到任何其他分型;
62.二是将n’针对等位基因长度进行标准化,消除基因长度带来的read数偏差。
63.前述的一种基于高通量测序数据的hla基因综合分析方法,步骤三b中将n’针对等位基因长度进行标准化,消除基因长度带来的read数偏差的具体做法是设定n”=n
’×
1000/l,其中l为特定hla等位基因在参考基因组中的参考基因序列长度,n”则为特定hla等位基因的表达量绝对值。
64.本发明的有益之处在于:
65.本发明使用公开数据库中信息构建hla分型专用的预处理综合参考基因组(crp),并基于该crp进行测序数据预处理,其构建时向基因组内添加了公开数据库中已知的hla等位基因序列信息,从而提升hla基因序列的总体比对准确性;
66.本发明将多算法在实际数据集中的表现进行加权整合,ineo_hlaboost定性模块的结果准确率高于单一算法,同时在hla-i型基因与hla-ii型基因的分型结果中表现较为稳定,证明本发明有助于提高hla分型的准确度,将各种算法在准确度上实现协同作用;
67.该方案可以依据dna的测序数据确定受试者的hla基因分型,同时依据rna的测序结果计算分型的表达量,给同时需要定性、定量两种结果的下游分析给出更准确、完善的数据支持;
68.分型检测结果表达量与hla等位基因的拷贝数显著相关。
附图说明
69.图1是本发明的hla整合分型及表达量评价分析方法整体流程;
70.图2是本发明的多算法分型结果整合方案即定性分析的流程图;
71.图3是本发明的ineo-hla-qual算法即定性分析的流程图;
72.图4是本发明的hla表达量计算方案ineo-hla-quant(定量分析)的流程图;
73.图5是本发明的who下的nomenclature committee for factors of the hla system对 hla基因型的命名规则;
74.图6是本发明实验三定量模块结果与hla-loh分析结果相关性图。图7是本发明定量模块结果与qpcr实验分析结果相关性图。
具体实施方式
75.以下结合附图和具体实施例对本发明作具体的介绍。
76.一种基于高通量测序数据的hla基因综合分析方法(ineo-hlaboost),如图1所示,步骤包括:
77.一、数据预处理:
78.数据预处理的主要工作是将dna测序数据比对到参考基因组上,然后依据比对结果选择需要的部分序列形成文件,以作为下游分析的输入。
79.作为一种优选,使用的参考基因组是为hla分型进行特殊处理的公开数据库中信息构建 hla分型专用的预处理综合参考基因组(comprehensive reference panel,后文均简称为crp)。其构建时向基因组内添加了公开数据库中已知的hla等位基因序列信息,从而提升hla基因序列的总体比对准确性。
80.二、多算法并行分型与结果整合:
81.2.1多算法分型结果整合方案
82.为降低hla分型算法本身的偏好性,提升总体分型结果准确率,本方案设计了如下的分型结果加权整合方案,如图2所示:
83.2.1.1.多算法结果汇总:
84.首先获取不同算法给出的hla分型结果,将所有分型结果统一标准化为whonomenclature committee for factors of the hla system规定标准命名格式(如hla-a*06:02) 后,进行去重复处理。
85.假设两种算法给出的分型结果分别为hla-a*02:06、hla-a*06:03、和hla-a*04:08、 hla-a*06:03,则汇总结果中只保留不重复的hla-a*02:06、hla-a*06:03及hla-a*04:08。
86.2.1.2.权重数值计算:
87.对步骤1中汇总的所有分型进行权重数值w计算。权重数值由每一个支持该分型的算法的权重系数w加和得到,而该权重系数则基于算法在特定数据集中的表现得到。衡量该表现的指标可以是算法的分型准确率或算法结果与金标准结果的相关性等。假设在一次分析中 hla-a*02:04被三种算法a、b、c支持,则该分型的权重数值w
a0204
=wa+wb+wc。
88.2.1.3.等位基因1确定:
89.确定了所有分型的权重数值后,将所有分型按照权重数值由高到低排列,如果排名第一位的分型存在并列,则直接将并列的所有分型作为杂合结果。如果第一位不存在并列,则排名第一的分型即为等位基因1,其对应权重数值记为w1。
90.2.1.4.等位基因2与纯杂合确定:
91.确定等位基因1后,如有其他分型结果,则按照w大小继续选择第二大分型,其对应权重数值为w2,并将w2与已设定的权重阈值t
thr
比较。如果w2》t
thr
,则分型结果为杂合,对应
分型为等位基因1、等位基因2,否则分型结果为纯合,对应分型仅有等位基因1。如果确定等位基因1后,无其他结果,则分型结果为纯合,对应分型仅有等位基因1。如果并列第二的分型存在并且满足杂合阈值,则并列的分型都保留。
92.例如在一个样本中,权重数值最大的分型为hla-a*02:02,hla-a*02:01、hla-a*02:06 的权重数值w
a0201
、w
a0206
均为1.23,并列第二,高于设定的t
thr
,则最后分型结果为 hla-a*02:02、hla-a*02:01、hla-a*02:06。
93.2.1.5.正常组织与肿瘤组织取交集:
94.当受试者同时存在正常组织数据及肿瘤数据可供使用时,对两种数据分别按照步骤1~步骤4确定分型结果,然后对两份结果取交集处理,即只保留在两份数据间一致的分型结果。取交集的过程不考虑纯合与杂合之分,仅考虑同一分型是否在肿瘤组织与正常对照结果中都出现。
95.例如,肿瘤组织分型结果为纯合hla-a*02:06,而正常组织结果为杂合hla-a*02:06、 hla-a*02:01,则取交集后的结果为hla-a*02:06。另外若出现取交集后无共同分型的情况,则分型结果记为缺失。
96.2.2ineo-hla-qual算法(定性分析)
97.在分型过程中,我们可能会纳入名为ineo-hla-qual的基于ngs测序数据的自研分型算法,因此对该算法的详细内容进行描述,如图3所示。以下的计算方法为单个locus内结果的确定方式,不同的locus均分别按照下述方法确定分型结果。
98.2.2.1.分型read计数:
99.获取参考基因组比对结果,根据比对结果统计比对到不同hla分型上的read数目n。对于一个分型hla-a*02:01,其支持read数目计为n
a0201

100.2.2.2.候选分型选择:
101.从所有分型的支持read数目中选择数值最大的计为n
max
,将其与设定的系数c(0.5~1 之间的小数)相乘,得到n的过滤阈值n
thr
。仅保留n》n
thr
的分型作为候选继续后续分析。
102.2.2.3等位基因组合集:
103.将候选的hla分型依次作为等位基因1,其他分型构成等位基因2集合,获得所有hla 分型对应的【等位基因1-等位基因2集合】的组合集。
104.2.2.4.提取等位基因1-等位基因2集合:
105.从【等位基因1-等位基因2集合】组合集中提取一个等位基因1-等位基因2集合。获得等位基因1。
106.2.2.5.分型read重计数:
107.确定等位基因1后,须对候选分型的read数目重新计算,具体是将同时比对到剩余候选分型那个与等位基因1的read从剩余候选分型的计算结果中去除,得到重计数后read数目n’,对于一个分型hla-a*02:01,其支持read数目计为n’a0201

108.例如,已确定的等位基因1为hla-a*02:02,其read数目n
a0202
为1024,剩余后的候选分型为hla-a*02:01、hla-a*02:03,它们的read数目n
a0201
、n
a0203
分别为512与256。 n
a0201
中有128条read可同时比对到hla-a*02:02,而n
a0203
中有64条read可同时比对到 hla-a*02:02,则n’a0201
=512-128=384,n’a0203
=256-64=192。所有n’计算完成后,再次按照步骤2.2.2.中的方式再一次对剩余分型进行筛选,通过筛选的分型作为新的等位基因2集合进
boost以及其他基于ngs的hla分型算法进行分型。pcr-sso法hla分型结果作为衡量准确性的金标准,比较本发明方案与其他算法的准确性。
133.将采集的9个样品分别进行pcr-sso法hla分型,同时采用本发明所述的 ineo-hla-boost定性分析模块以及包含本发明所属的ineo-qual及其他基于ngs的hla分型算法进行分型。pcr-sso法hla分型结果作为衡量准确性的金标准,比较本发明方案与其他算法的准确性。
134.pcr-sso法是一种基于特异性dna探针杂交实验的hla基因分型方法,该方法首选需要对待分型样品进行dna提取,获取dna后,使用特异性的pcr引物对hla-i型基因的 2号及3号外显子和hla-ii型基因的2号外显子进行扩增,扩增完成的样品加入到96孔杂交板后加入预先设计好的针对不同hla基因型的核苷酸序列设计的特异性探针进行杂交,最终依据杂交反应产生荧光的情况确定hla基因型。
135.本发明所述的ineo-hla-qual的具体过程见发明内容的步骤一步骤二部分。
136.其他基于hgs的hla分型方案出处及在本实验中使用的具体参数见下表1:
137.表1
[0138][0139]
在获取各分型结果和ineo-hla-boost定性分析模块的整合结果后,分别比较 ineo-hla-boost定性分析模块、ineo-qual、hla-prg、xhla、phalt、optitype分型结果与 pcr-sso法得到的hla分型结果的差异,并计算分型正确率。
[0140]
正确率的计算方式举例如下:
[0141]
假设ineo-hlaboost定性模块的分型结果与pcr-sso模块分型结果见下表2:
[0142]
表2
[0143]
[0144][0145]
可知两种方案在在hla-a基因和hla-b基因上各有一个等位基因的分型结果不一致,因此对于该样品,分型正确率为(6-2)/6=66.7%。
[0146]
所有9个样品的实验结果如表3、4所示:
[0147]
表3九样中不同算法的hla-i型基因分型结果对比
[0148][0149]
表4九样品中不同算法的hla-ii型基因分型结果对比
[0150]
[0151]
三、结果分析
[0152]
由表3、表4的结果可知:以pcr-sso结果作为金标准,ineo_hlaboost定性模块的结果准确率不低于单一算法,同时在hla-i型基因与hla-ii型基因的分型结果中表现较为稳定。证明本发明有助于提高hla分型的准确度,起到取长补短优势整合的作用。
[0153]
实验二:ineo-hlaboost的定性模块在hapmap数据集上的应用
[0154]
获取hapmap项目公开的东亚人群数据集,并从x等的研究中获取这部分数据集的 pcr-sso法得到的hla分型结果,按照实验一中描述的方式对数据集进行hla分型分析,并比较ineo-hlaboost定性模块与其他算法准确性的差异。
[0155]
实验结果如表5、6所示:
[0156]
表5
[0157][0158][0159]
表6
[0160][0161]
从表5、6的结果显示,使用本方案可以使得整体整合分型结果超过任意单一方案的分型结果。
[0162]
实验三,ineo-hlaboost的定量模块在临床受试者样品上的应用:
[0163]
一、分型结果表达量检测
[0164]
使用样品的rna-seq数据通过ineo-hlaboost的定量分析模块(ineo-quant)对20
份已知hla分型结果的数据进行分析,分别针对hla分型的比对情况进行标准化后,得到每个hla分型对应的表达量结果。
[0165]
之后将得到的表达量结果与anagnostou,v.et al.multimodal genomic features predictoutcome of immune checkpoint blockade in non-small-cell lung cancer.nature cancer 1,99

111 (2020).的研究中提到的lohhla(loss of heterozygosity in human leukocyte antigen,人类白细胞抗原杂合性缺失)分析方法获得的hla分型特异性拷贝数结果进行相关性分析。 lohhla基于hla基因的拷贝数变异情况分析hla基因的缺失情况,理论上hla基因缺失会导致该hla基因型的mrna水平明显下降,因此可以将lohhla结果与本发明的hla 表达量结果做相关性分析,从而证明本发明分析结果的正确性。
[0166]
另外选择10份已知hla分型且有rna样本的样品,针对其hla分型序列的特异性部分设计qpcr探针后,使用rna样品尽心qpcr实验,获取对应hla分型的表达量结果,将此表达量结果与ineo-hlaboost的定量分析模块(ineo-quant)分析得到的表达量结果进行相关性分析。
[0167]
二、实验结果如图6定量模块结果与hla-loh分析结果相关性图,和图7定量模块结果与 qpcr实验分析结果相关性图所示:
[0168]
图6的x轴为通过ineo-hlaboost的定量分析模块(ineo-quant)得到的hla分型表达量,y轴为通过lohhla分析方法得到的hla分型特异性拷贝数
[0169]
图7的x轴为通过ineo-hlaboost的定量分析模块(ineo-quant)得到的hla分型表达量, y轴为通过qpcr实验方法得到的hla分型表达量
[0170]
结果分析:由图6可知:lohhla结果与本发明的hla表达量结果相关性高,p值《0.001,显示我们的计算结果与hla等位基因的拷贝数显著相关。由图7可知:qpcr实验结果与本发明的hla表达量相关性高,p值《0.05,显示我们的计算结果与hla等位基因的拷贝数显著相关。
[0171]
综上三个实验可知:本发明的分析方法提高了同时需要定性、定量两种结果的下游分析的数据的准确性和完善性。
[0172]
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1