基于病例多组学变异特征的精准医学知识搜索系统及实现方法与流程

文档序号:11432449阅读:257来源:国知局

本发明属于医药卫生行业领域,一种精准医学知识搜索系统的实现方法,具体地说,是一种基于病例多组学变异特征的精准医学知识搜索系统的实现方法。



背景技术:

精准医疗依赖于生物标志物对疾病风险、预后和治疗响应的分类。组学技术的快速发展大大丰富了分子水平的生物标记物数量,为疾病诊断、判断疾病分期或评价新疗法在目标人群中的安全性与有效性提供了更加全面细致的判断依据。

当前“分子水平标记物或病理组学变异特征-干预响应(包括药物响应)”的关联信息主要可以从伴随诊断、细胞系水平的高通量药物筛选实验、精准医疗临床试验等几个渠道获得。伴随诊断提供的关联信息是在大样本人群即群体水平的观测下获得的,信息直接易获取。但细胞系药物筛选实验与精准医疗试验提供的关联信息需要对原始信息进行处理,通过对组学数据进行多组学变异特征提取才能建立分子水平的变异和干预响应之间的关联。因此不同来源和不同类型的关联信息混杂难分的现况增加了不少临床工作者对组学变异特征生理意义的解读和临床价值的利用的困难。

此外,组学数据的整合和临床转化还需要考虑到数据稳定性的问题,实验平台(如不同实验室或机构),观测尺度(如细胞系水平,组织水平,个体水平等),观测方式(如转录组层面,蛋白组层面,或基因组层面等),观测手段(如单核苷酸多态芯片,二代测序技术等)等因素都可能造成观测到的同一生物标记物行为的不稳定。因此如何最大程度地整合这些关联信息,让它们发挥出最大的作用仍亟待解决。



技术实现要素:

本发明的目的是利用可观察到的个体多组学变异特征,快速搜索知识库中和新病例匹配成功的多组学变异-干预响应关联模型,将所有匹配成功的模型对应的干预策略和是否成功响应的记录以一种易读和整合紧密的形式呈现给用户,本发明是通过以下技术方案来实现的:

本发明公开了一种基于病例多组学变异特征的精准医学知识搜索系统,系统包括:

一个精准医学知识库,用于收集多组学变异-干预响应关联模型,实现了对不同水平的“组学变异特征-干预响应”信息的收集整合;

可优化的匹配算法,用于判断病例与知识库中的模型是否匹配及匹配程度;

匹配算法的评估算法,用于通过评估匹配算法对知识库模型的聚类结果,与模型根据干预响应的标签分类得到的结果进行对比,可评估匹配算法的优劣,对算法不断进行优化;

搜索系统直接生成的包含了病例组学分析数据和系统搜索结果的报表,用于为医生提供组学数据的生理意义参考,辅助治疗方案的拟定。

作为进一步地改进,本发明所述不同水平包括群体水平、个体水平、组织水平和细胞系水平。

本发明还公开了一种基于病例多组学变异特征的精准医学知识搜索系统的实现方法,是通过如下步骤实现:

1)、建立基于多组学变异-干预响应关联模型的多精准医学知识库;

2)、当新病例出现时,提取新病例的多组学变异特征;

3)、建立新病例与模型(已知的多组学变异特征-干预响应关联)之间的匹配算法;

4)、产生病例匹配系统的分析报告;

5)、知识库的数据更新和匹配算法的自进化。

作为进一步地改进,本发明所述的步骤1)中,多组学变异信息包括转录活跃的基因组区域内单碱基突变(单核苷酸多态性和碱基插入缺失),染色体变异(如基因融合)和用来判断基因是否表达异常的基准基因表达量。

作为进一步地改进,本发明所述的步骤1)中,一个多组学变异-干预响应关联模型是一组有伴随诊断药物响应注释和多组学变异特征的“伴随诊断关联模型”,或是药物筛选实验中包含药物响应信息和多组学变异特征的“细胞系关联模型”,或是临床观察到的包含干预响应结果和多组学变异特征的“病例关联模型”,或是包含药物筛选结果信息和多组学变异特征的“个体化疾病模型关联模型”。所述的个体化模型包括但不限于pdx小鼠、pdo类器官模型。

作为进一步地改进,本发明所述的步骤2)中,所述的多组学变异特征包括转录活跃的基因组区域内单碱基突变、染色体结构变异、基因表达异常信息。

作为进一步地改进,本发明所述的步骤2)中,建立一套标准化的组学数据分析流程提取多组学变异,从样本采集、测序、数据分析,到知识库匹配全过程进行质控和质保。

作为进一步地改进,本发明所述的步骤3)中,搜索系统提供了一个起始匹配算法和针对匹配算法的评估方法,评估方法会根据使用不同匹配算法对知识库中关联模型的聚类表现来评估现有算法是否优于新算法,决定是否需要对算法升级优化。

作为进一步地改进,本发明所述的步骤4)中,所述的报告分为两部分:第一部分是对病例生理相关的多组学变异特征的统计信息展现,从单碱基突变、染色体变异和差异表达基因等方面给出病变组织的组学变异信息;第二部分是在完成对知识库的搜索后,依据系统中模型与病例的相似性从高到低排序展现模型的匹配证据和用药信息。

作为进一步地改进,本发明所述的步骤5)中,当病例完成步骤2)组学特征提取后,跟踪病例用药治疗效果,将病例数据作为一个病例类模型加入精准医学知识库,扩增知识库的覆盖范围和提高知识库的匹配精度;当知识库中没有搜索到可匹配的关联模型时,直接根据医生经验治疗,同时可发展病例建立个体化疾病模型,并跟踪病例治疗效果和个体化疾病模型的试药结果,构建对应的“病例关联模型”或“个体化疾病模型关联模型”加入精准医学知识库。

本发明的优点在于:

1)本发明搜索范围广,可检索不同观测尺度下的关联模型。本发明系统地整合了已知组学变异和干预响应之间的关联,通过定义了一个广义的多组学变异-干预响应关联模型类的框架,将不同水平和来源的干预响应和组学变异信息整合进了一个知识库。

2)本发明可用的匹配特征和匹配策略丰富。一方面,从单碱基变异、染色体变异、差异表达基因等多个方面对多组学变异特征协同匹配保证了匹配结果的可靠性,降低了单一变异类型与生理表型关联分析中的噪音。另一方面,本发明对知识库中不同尺度的干预响应模型分别提供了特异性的可优化的匹配策略,通过关联模型为病例-干预响应之间的关系提供了多角度的证据支持。

3)本发明具有自进化能力。该能力表现在两方面:一、精准医学知识库中模型数量将随着搜索系统的运行不断扩充。新病例进入后,系统会记录病例的多组学变异特征,结合病例的后续治疗方案和干预响应结果或病例的个体化疾病模型的用药结果,生成病例的关联模型加入多精准医学知识库。二、系统的匹配算法可以不断优化。本发明针对匹配算法建立了对应的评价方法。一旦更新匹配算法,可以使用新的匹配算法对知识库中的模型进行重新聚类,与基于干预响应标签的分类方式进行比较,通过评价新算法是否优于现有算法来决定是否需要更新系统。

4)本发明填补了组学变异信息提取环节和临床指导用药环节之间的空白,辅助了临床工作人员对组学变异生理意义的系统性解读和临床价值的挖掘。

附图说明

图1是本发明技术方案实现流程示意图。

具体实施方式

本发明建立了一种基于个体病例多组学变异协同匹配方法的精准医学知识搜索系统。本发明系统:一、包含一个精准医学知识库。知识库通过收集多组学变异-干预响应关联模型,实现了对不同水平(群体水平、个体水平、组织水平、细胞系水平等)的“组学变异特征-干预响应”信息的收集整合。进入系统的个体病例可被作为新模型,用于知识库的扩增;二、包含了可优化的匹配算法。系统提供的起始匹配算法并没有最大程度地发挥出丰富的组学变异的优势,但本发明提供了一个匹配算法的评估方法,通过评估匹配算法对知识库模型的聚类结果,与模型根据干预响应的标签分类得到的结果进行对比,可评估匹配算法的优劣,对算法不断进行优化;三、搜索系统直接生成一个易读的包含了病例组学分析数据和系统搜索结果的报表,可以为医生提供组学数据的生理意义参考,辅助治疗方案的拟定。

这一发明的基本模式是:一、建立基于多组学变异-干预响应关联模型的多精准医学知识库。多组学变异信息包括单碱基突变(单核苷酸多态性和碱基插入缺失),染色体变异(如基因融合)和用来判断基因是否表达异常的基准基因表达量三方面内容。一个多组学变异-干预响应关联模型可以是一组有伴随诊断药物响应注释和多组学变异特征的“伴随诊断关联模型”;也可以是药物筛选实验中包含药物响应信息和多组学变异特征的“细胞系关联模型”;也可以是临床观察到的包含干预响应结果和多组学变异特征的“病例关联模型”;也可以是包含药物筛选结果信息和多组学变异特征的“个体化疾病关联模型”(包括但不限于pdx小鼠、pdo类器官模型)。二、当新病例出现时,提取新病例的多组学变异特征(包括但不限于单碱基突变、染色体结构变异、基因表达谱信息)。建立一套标准化的组学数据分析流程提取多组学变异,从样本采集、测序、数据分析,到知识库匹配全过程进行质控和质保。三、建立新病例与关联模型之间的匹配算法。搜索系统提供了一个起始匹配算法和针对匹配算法的评估方法,评估方法会根据使用不同匹配算法对知识库中关联模型的聚类表现来评估现有算法是否优于新算法,决定是否需要对算法升级优化。四、生成病例的个性化报告。报告分为两部分:第一部分是对病例生理相关的多组学变异特征的统计信息展现,从单碱基突变、染色体变异和差异表达基因等方面给出病变组织的组学变异信息;第二部分是在完成对知识库的搜索后,依据系统中模型与病例的相似性从高到低排序展现模型的匹配证据和用药信息。五、如果病例没有匹配上现有模型,则直接依据医生经验用药,同时可发展基于该病例的个体化疾病治疗模型进行药物筛选,根据反馈结果对该病例构建“病例关联模型”和“个体化疾病关联模型”,加入知识库。

图1是本发明技术方案实现流程示意图,具体实现步骤如下:

1)构建基于多组学变异-干预响应关联模型的精准医学知识库:建立不同尺度(包括但不限于群体水平、个体水平、组织水平、细胞系水平)的干预响应模型,包括但不限于从“群体组学变异特征-干预响应”、“个体病例组学变异特征-干预响应”、“个体化疾病模型(如pdx小鼠和pdo模型等)组学变异特征-干预响应”、“细胞系组学变异特征-干预响应”几个角度,收集多组学变异特征与对应的干预及干预响应信息。本知识库中的数据通过网络爬虫抓取、公开数据库下载,以及本地数据导入(病例及个体化疾病模型)等方式获得。获得的数据需要经过分词,语义分析,正则匹配等技术提取核心关键词和数据后进行格式转化,将原始信息映射到具有临床干预设计参考价值的信息标准化接口,人工校正后加入数据库。数据库中同一类关联模型的数据有统一的信息储存格式;

2)搭建提取病例多组学变异特征的流程:搭建基于二代测序技术的生物信息学分析流程,从组学数据中提取与生理变化密切相关的单碱基突变、基因组结构突变以及转录水平表达异常的基因,作为病例的多组学变异特征,用于与多组学变异特征数据库中的模型进行匹配。病例的数据分析过程使用严格的质控,在正常对照样本可获得的情况下,利用正常样本和已知的疾病-组学变异信息对病例组学变异进行筛选,增加病例多组学变异特征与生理表型关联的可靠性;

3)实现病例-模型多组学变异协同匹配算法:精准医学知识库整合了多数据来源,多组学角度的关联模型的变异特征信息。当病例完成多组学变异特征的提取,进入病例匹配系统时,需要根据知识库中模型的类型,对病例与模型进行匹配。在与某一特定的关联模型进行匹配时,需要针对不同的组学变异特征,分别使用不同的方法对从病例中提取到的变异特征与模型的变异特征进行匹配打分,最后将不同变异特征的打分根据公式生成病例-药物响应模型的匹配总分,根据总分判断病例与模型是否能匹配上;

4)产生病例匹配系统的分析报告:报告分为两个层面:第一层:个体病例的组学信息报告。包括但不限于原始数据测序质量信息、数据分析流程介绍、多组学变异特征的统计信息;第二层:病例与精准医学知识库中模型的匹配结果。根据搜索结果,按系统中模型与病例的相似性从高到低排序展现模型的干预策略、响应结果以及匹配证据等信息。第二层提供了易读的“个体病例组学变异特征-模型组学变异特征-干预响应”信息,提供了病例的潜在干预响应信息来辅助医生解读组学变异特征的生理意义和挖掘组学数据的临床价值;

5)搜索系统的更新:系统的更新分为知识库的数据更新和匹配算法的自进化两个部分。

一、知识库的更新:当病例匹配上知识库中模型时,跟踪病例用药治疗效果,将病例数据作为一个病例类模型加入精准医学知识库,扩增知识库的覆盖范围和提高知识库的匹配精度。当知识库中没有搜索到可匹配的关联模型时,直接根据医生经验治疗,同时可发展病例建立个体化疾病模型(如pdx小鼠或pdo类器官模型等),并跟踪病例干预响应结果和个体疾病模型的试药结果,构建对应的病例关联模型或个体疾病关联模型加入精准医学知识库。

二、匹配算法的自进化:本系统建立了用于比较新旧匹配算法优劣的一个评估方法来优化系统匹配算法。本系统投入运转时,首先提供一个有待优化的起始匹配算法。随着新病例的扩充,精准医学知识库中的模型会不断增加,为优化匹配算法提供了资源。根据知识库中模型对干预的响应分类,本发明可随机选取m个关联模型,对选取的模型两两之间分别使用新旧匹配算法进行打分,得到由这些模型所组成的两个相似性打分矩阵。进一步对矩阵聚类,可获得分别用新旧匹配算法获得的模型分类情况,和真实的根据药物响应信息进行分类的结果进行比较,从而判断新算法是否表现更出众,能取代系统当前算法。

以下通过具体实施例对本发明的技术方案作进一步地说明:

实施例1:一个基于病例转录组变异特征的癌症病例快速匹配系统

本实施例由五大步骤组成:

1)多精准医学知识库的构建:知识库以关联模型为存储对象,从美国食品药品监督局(fda)批准的伴随诊断药物列表、mycancergenome提供的精准化癌症医学资讯、桑格研究所的gdsc数据库三个数据源收集药物响应信息所关联的多组学变异特征。伴随诊断药物和mycancergenome提供了群体水平的组学变异特征-药物响应信息,gdsc数据库提供了细胞系水平特异性的组学变异特征-药物响应信息。不同格式的数据,通过国际标准数据库提供的命名方式进行统一管理。在本实例中,不同来源的单碱基突变都映射到cosmic数据库中对应名称,以该数据库中的命名作为标准输出。同样地,基因名以ncbi的entrezid作为标准,疾病名以omimid作为标准。

2)病例多组学变异特征的提取:搭建基于转录组测序(rna-seq)数据的生物信息学分析流程,从转录组数据中提取与生理变化密切相关的单碱基突变、染色体结构突变以及转录水平表达异常的基因,作为病例的多组学变异特征,用于与多组学变异特征数据库中的模型进行匹配。

在本实例中,变异的提取流程可以被分为以下几个部分:rna-seq数据预处理,单碱基突变检测(单核苷酸多态性、小片段插入缺失),染色体结构变异检测(基因融合),基因表达和异常表达基因检测,结果可视化展示。

一、rna-seq数据预处理:

原始数据使用质量控制工具检查数据质量,通过检测的数据随后使用去接头软件对读段中的接头序列和头尾低质量碱基进行切除。清洗后的读段用于接下来的序列比对。在此处,本实例使用了快速短片段比对软件以及人类基因组作为参考基因组进行比对。

二、检测病例的单碱基突变:

本实例在这一步依照了gatk提供的rna-seq变异检测最佳实践流程(http://gatkforums.broadinstitute.org/gatk/discussion/3892/the-gatk-best-practices-for-variant-calling-on-rnaseq-in-full-detail)进行操作。首先对1.中比对得到的文件去除冗余的读段,再对读段进行裁尾处理,将读段按外显子区段拆开,执行碱基校正,对单核苷酸多态性和单核苷酸插入缺失进行检测,最后利用人类基因组变异数据库资源,使用变异注释软件对检测到的单碱基变异进行注释和过滤。

三、检测病例的染色体变异:

转录组测序数据所能检测到的结构变异主要为基因融合。在此处对1.中比对结果使用基因融合软件检测转录组上能看到的基因融合事件。

四、检测基因表达量:

这一步骤也使用了1.中的比对文件作为片段拼接组装软件的输入文件,用于转录本的拼接和表达量的计算。在该实施例中我们只考虑没有提供癌旁组织且公开的癌症转录组数据库中也没有癌旁组织的情况。

五、病例组学数据结果可视化展示:

个体病例的整体多组学变异特征用圈图展示。圈图由里向外由四部分组成,最里面显示了基因融合事件的发生位置,然后显示的是单碱基突变事件的发生位置,其次是基因在整个转录组的表达情况,最外层是带注释的染色体位置信息。

在分析过程中产生的各类统计图,如散点图、直方图、饼图等通过统计软件r实现可视化输出。

3)病例-模型多组学变异协同匹配算法的实现:多组学变异特征数据库整合了多数据来源,多组学角度的关联模型的变异特征信息。当病例完成多组学变异特征的提取,进入病例匹配系统时,需要根据数据库中模型的类型,提供病例-模型的匹配算法。

在本实例中,知识库提供了三类模型:1.伴随诊断关联模型;2.细胞系关联模型;3.病例关联模型。

群体水平的关联模型给出的干预结果通常是针对某一或某几个特定的组学变异特征在大群体样本中对药物响应的影响。因此实例对该模型采用的策略是,进行比对时如果病例和一个群体模型具有完全相同的组学变异特征,报告病例与该群体模型匹配成功,否则匹配失败。

细胞系水平的关联模型和个体水平的关联模型均提供了完整的单碱基突变、染色体结构突变和基因表达谱信息。因此本实例采用了一个综合了这三方面信息的相似性打分方法来度量病例和模型的相似性。其中使用细胞系水平的关联模型和个体水平的关联模型与病例进行匹配的区别在于最终决定是否匹配成功的阈值参数不同。以下为打分方法的实现步骤:

一、针对单碱基突变:本实例使用dann方法来度量病例和模型中单碱基突变的功能重要性,分别对病例和模型中每个基因上发生显著单碱基功能突变的位点的dann值进行求和,度量该基因上单碱基功能突变对生理的影响。病例与模型中该基因功能突变的相似性分值可通过公式1-|csnv-msnv|/max{csnv,msnv}获得,其中csnv为病例中某一基因的功能突变影响值,msnv为模型的功能突变影响值。该分值可以作为衡量病例和模型的基因功能相似性的一个指标v1。

二、针对染色体结构变异:目前还没有直接度量基因融合对生理影响程度的方法。考虑到通常结构变异对基因生理功能的影响非常严重,本实例用一个自定义的指标v2(0或1)来衡量病例和样本在基因融合事件上的相似性。若在病例和模型中,某一基因均发生了基因融合或均未发生基因融合,则v2值为1,否则v2值为0。

三、针对异常表达基因:本实例定义了一个指标v3来衡量基因表达量异常,公式为v3=1-|cexp-mexp|/max{cexp,mexp},其中cexp和mexp分别为表达谱经过标准化处理后病例和模型中某一基因的表达量。

在本实例中,考虑到基因表达异常反应了转录水平上的变异,单碱基突变或染色体结构变异反应了基因组上的变异,因此在整合这些指标时需要综合两者的效应。实例中病例与模型最终针对某一基因的相似性分值定义为v=min{v3*v1,v3*v2},其中v1,v2,v3为说明书上文中所提到的三个相似性指标。对某一特定基因,若相似性分值高于0.5,则认为该基因在病例和模型中表现一致。当病例中有超过半数的基因表现与它们在模型中的表现一致,则认为病例与模型匹配成功,否则认为匹配失败。

4)根据病例的匹配结果产生分析报告:

分析报告展示主要分为两个部分:个体病例信息和知识库搜索结果展示。

在本实例中个体病例信息展示包含:

1.测序样品基本信息(包含样品名,送样时间,测序时间,测序仪型号,样品标签,数据饱和度评估参数);

2.组学数据整体展示图,转录组测序数据统计信息(包含样品原始读段数,清洗后读段数,比对到参考基因组上的读段数,特异性比对上的读段数信息);

3.检测到表达的基因的表达分布直方图,差异表达基因的图表;

4.基因组上单碱基变异和结构变异的数量统计及变异文件格式解读;

5.原始数据qc报告位置,基因和转录本的表达文件位置,差异表达基因的文件位置,单碱基变异信息的文件位置,基因融合信息的文件位置。

知识库搜索结果展示包含:

1.匹配上的模型的基本信息(模型类型、原始数据来源、模型名称、疾病名称等);

2.支持病例匹配上模型的证据(模型和病例中匹配上的指标的类型、指标名称、指标的度量值等);

3.匹配上的模型的临床用药参考信息(药物名称、模型对药物是否响应等)

5)搜索系统的自进化:

一、精准医学知识库的更新:对进入知识库分析的病例进行跟踪,根据病例遵医治疗效果和长期结局,建立病例组学变异特征-干预响应关联模型,加入知识库。对初次进入知识库没有搜索到匹配模型的病例,考虑建立个体化疾病模型(pdx小鼠模型或pdo类器官模型),根据体外个体化疾病模型对不同药物的反应,建立个体化疾病模型组学变异特征-药物响应关联模型,加入知识库。

二、匹配算法的自进化:当搜索系统内知识库中某一类模型数量累积到一定值时,可以随机选择m个该类模型,依据它们对药物的响应进行分类,用于针对该类模型的匹配算法的评估。当实现了一个新的病例与该类模型的匹配算法的时候,可以比较新匹配算法和旧匹配算法的评估结果。如果新方法与根据药物的响应进行分类的一致性更高,说明新匹配算法在真实情景下的应用效果更佳,更新该匹配算法,否则说明原算法表现更好,放弃更新算法。

以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形,本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1