一种应用于基因突变解读的数据库及其构建方法与流程

文档序号:12916021阅读:1462来源:国知局

本发明涉及生物信息数据领域,具体涉及一种应用于基因突变解读的数据库及其构建方法。



背景技术:

随着人类基因组计划(hgp)、肿瘤基因组计划(tcga)的完成、基因测序技术的进步、基因测序成本的降低;随着中国精准医疗计划被列入国家“十三五”科技发展重大专项,精准医疗被逐渐上升到国家战略的层面。

基因检测行业作为精准医疗的前端,它不仅能够用于罕见遗传病的检测,也可用于预测肿瘤化疗药物的疗效和副反应,指导肿瘤靶向药物的选择,检测出耐药的分子机理,评估肿瘤免疫治疗,从而指导医生为病患提供个性化的精准治疗方案。而肿瘤的基因检测技术手段主要是高通量测序,以产生海量的数据,需要专业的数据分析能力为其显著的特征,整个产业链包括高通量检测实验操作、生物信息学分析、基因突变数据解读和临床注释三个主要环节。而测序的实验技术,测序数据的基因组比对技术已经非常成熟,形成了标准化的流程,但是在基因突变数据解读和临床注释环节还处于刚刚萌芽阶段,这对整个产业发展形成明显的掣肘。

目前,对于基因突变的意义解读多是对散在资料的查阅,难以流程化、规范化且不能保证查阅资料的齐全完备,极大的限制了对基因突变解读的准确性和完整性,因此构建基因突变解读数据库对精准医学显得尤为重要。但是目前已有的基因相关数据库非常之少且只能针对生物学功能、所属信号通路、突变有害性、突变频率、相关靶向药物、预后评估等其中的一个维度进行简单解读;更严重的缺陷是只能精确到基因,不能精确到具体位点,不能提供严格的可溯源的依据证据,这些问题使得目前对基因突变的意义解读不准确、繁琐、容易造成遗漏。



技术实现要素:

本发明的目的在于提供一种应用于基因突变解读的数据库及其构建方法,用以解决基因突变解读过程的不规范资料收集、解读不准确、程序繁琐、容易造成遗漏的缺陷,以及现有技术中的数据库信息单一、不能精确到具体位点,不能提供严格的可溯源的依据证据的问题。

本发明一方面提供了一种应用于基因突变解读的数据库的构建方法,包括:

检索步骤:人工全面检索国际上公认的一级数据库,从该一级数据库中获取相关数据资源;

数据提取步骤:对所述数据资源进行分析分解,提取与可干预基因及其位点的相关信息;

完善步骤:搜集相关科学文献,提取最新研究进展信息;

处理步骤:整合分析所述数据资源及最新研究进展信息,形成内容知识包;

库构建步骤:建立基因突变解读数据库,所述基因突变解读数据库包括基因代码、基因名称、基因生物学功能,基因所属信号通路,基因性质,突变类型,热点突变,突变所在癌种,相关药物,临床实验药物,临床意义及其干预机理阐述。

进一步的,所述以及数据库包括cosmic、ncbi、fda/cfda、clinicaltrials、nccn。

进一步的,所述数据提取步骤具体包括:从cosmic提取热点突变数据,从ncbi提取基因生物学功能数据,从fda/cfda提取相关药物数据,从clinicaltrials提取临床实验药物数据,从nccn提取临床意义数据。

进一步的,所述完善步骤具体包括:通过pubmed和google两种搜索工具,搜索关键词包括基因、突变位点、基因相关药物和治疗方案的相关科学文献,提取基因生物学功能、基因所属信号通路、基因性质、突变类型、热点突变、突变所在癌种、相关药物、临床实验药物、临床意义及其干预机理阐述等方面的最新研究进展信息。

进一步的,所述建立基因突变解读数据库包括:以web站点的方式,将html+bootstrap+css+js页面部署在基于python的轻量级web框架上,整个框架基于wsgi协议构建而成,对外提供统一的增删改查接口。

进一步的,所述基因突变解读数据库采用结构化存储,以便对数据集合进行分析,通过对某些特征集合做回归分类分析来获得隐藏在数据集后的规律。

本发明的另一方面提供一种应用于基因突变解读的数据库,包括:

检索模块:用于人工全面检索国际上公认的一级数据库,从该一级数据库中获取相关数据资源;

数据提取模块:用于对所述数据资源进行分析分解,提取与可干预基因及其位点的相关信息;

完善模块:用于搜集相关科学文献,提取最新研究进展信息;

处理模块:用于整合分析所述数据资源及最新研究进展信息,形成内容知识包;

库构建模块:用于建立基因突变解读数据库,所述基因突变解读数据库包括基因代码、基因名称、基因生物学功能,基因所属信号通路,基因性质,突变类型,热点突变,突变所在癌种,相关药物,临床实验药物,临床意义及其干预机理阐述。

采用上述本发明技术方案的有益效果是:

该数据库实现了基因检测结果的解读过程流程化、规范化,提高了解读结果的准确性和完整性,本发明构建了一种尽可能覆盖已知的可干预基因(clinicaltargetability)和意义较为明确的位点(actionablemutations)的基因突变数据库。该数据库针对基因代码/名称,基因生物学功能,基因所属信号通路,基因性质(抑癌基因/原癌基因),突变类型(体细胞突变/种系突变),热点突变(点突变/缺失/扩增/重排),突变所在癌种,相关药物,临床实验药物,临床意义及其干预机理阐述,依据证据的角度进行多维解读。

附图说明

图1为本发明数据库构建流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。

如图1所示,本发明实施例提供了一种应用于基因突变解读的数据库的构建方法,包括:

步骤s101,检索,人工全面检索国际上公认的一级数据库,从该一级数据库中获取相关数据资源;

步骤s102,数据提取,对所述数据资源进行分析分解,提取与可干预基因及其位点的相关信息;

步骤s103,完善数据,搜集相关科学文献,提取最新研究进展信息;

步骤s104,数据处理,整合分析所述数据资源及最新研究进展信息,形成内容知识包;

步骤s105,库构建,建立基因突变解读数据库,所述基因突变解读数据库包括基因代码、基因名称、基因生物学功能,基因所属信号通路,基因性质,突变类型,热点突变,突变所在癌种,相关药物,临床实验药物,临床意义及其干预机理阐述。

具体的,所述以及数据库包括cosmic、ncbi、fda/cfda、clinicaltrials、nccn。

具体的,所述数据提取步骤具体包括:从cosmic提取热点突变数据,从ncbi提取基因生物学功能数据,从fda/cfda提取相关药物数据,从clinicaltrials提取临床实验药物数据,从nccn提取临床意义数据。

具体的,所述完善步骤具体包括:通过pubmed和google两种搜索工具,搜索关键词包括基因、突变位点、基因相关药物和治疗方案的相关科学文献,提取基因生物学功能、基因所属信号通路、基因性质、突变类型、热点突变、突变所在癌种、相关药物、临床实验药物、临床意义及其干预机理阐述等方面的最新研究进展信息。

具体的,所述建立基因突变解读数据库包括:以web站点的方式,将html+bootstrap+css+js页面部署在基于python的轻量级web框架上,整个框架基于wsgi协议构建而成,对外提供统一的增删改查接口。

具体的,所述基因突变解读数据库采用结构化存储,以便对数据集合进行分析,通过对某些特征集合做回归分类分析来获得隐藏在数据集后的规律。

本发明该实施例构建了一种尽可能覆盖已知的可干预基因(clinicaltargetability)和意义较为明确的位点(actionablemutations)的基因突变数据库。该数据库针对基因代码/名称,基因生物学功能,基因所属信号通路,基因性质(抑癌基因/原癌基因),突变类型(体细胞突变/种系突变),热点突变(点突变/缺失/扩增/重排),突变所在癌种,相关药物,临床实验药物,临床意义及其干预机理阐述,依据证据的角度进行多维解读。

本发明的另一种实施例提供一种应用于基因突变解读的数据库,包括:

检索模块:用于人工全面检索国际上公认的一级数据库,从该一级数据库中获取相关数据资源;

数据提取模块:用于对所述数据资源进行分析分解,提取与可干预基因及其位点的相关信息;

完善模块:用于搜集相关科学文献,提取最新研究进展信息;

处理模块:用于整合分析所述数据资源及最新研究进展信息,形成内容知识包;

库构建模块:用于建立基因突变解读数据库,所述基因突变解读数据库包括基因代码、基因名称、基因生物学功能,基因所属信号通路,基因性质,突变类型,热点突变,突变所在癌种,相关药物,临床实验药物,临床意义及其干预机理阐述。

综上,该数据库解决了对基因突变意义解读的不规范资料收集、解读不准确、程序繁琐、容易造成遗漏的问题,该数据库可使对基因突变的解读过程流程化、规范化,使对解读结果具有准确性和完整性。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1