整合高通量基因分型与临床医学信息的生物医学本体集成方法与流程

文档序号:11323501阅读:371来源:国知局
整合高通量基因分型与临床医学信息的生物医学本体集成方法与流程

本发明涉及生物医学信息学技术领域,具体涉及一种整合高通量基因分型与临床医学信息的生物医学本体集成方法。



背景技术:

随着我国人口老龄化的加剧,慢性病已经成为我国面临的最大公众健康问题之一。近年来,以改善生活方式、疾病零级预防为目标的疾病管理和精准预防成为治疗慢性病的重要方法。

疾病精准预防的实施离不开多维数据的支撑,而大数据时代正在加快人们获得个人生物医学数据的能力。这些数据不仅局限于基于临床病例的电子医疗档案以及个人基础健康数据的电子健康档案,随着基因检测技术的快速发展,出现了以mircoarray为代表的高通量基因分型技术,使得个人基因检测数据的获取不再是难事。然而这些生物医学数据的多源、异构、非结构化特点导致难以形成全面、连续、动态的数据,这就对海量多源医疗健康数据的集成、自动化的健康评估提出了更高的要求。而本体技术为医疗信息资源的整合提供了有力的支持,以数据元、本体为核心的资源整合成为一个主要方向。

由于生物医学领域知识的复杂性,涉及到生物信息、医学信息筹多个方面不同类型的数据,因此需要一种方法把不同类型、不同途径获得的数据依据其生物学内涵集成起来,供研究者综合运用。而本体技术恰恰提供了这一可能。本体是共享概念模型的明确的形式化的规范说明。这包含了4层含义:概念模型、明确、形式化、共享。“概念模型”是指通过抽象出客观世界的一些现象的相关概念得到的模型,概念模型所表现出的含义独立于具体的环境状态。“明确”指所使用的概念及这些概念的约束都有明确的定义。“形式化”指本体是计算机可读的,即能被计算机处理。“共享”指本体中体现的是共同认可的知识,反应的是相关领域中公认的概念集,即本体针对的是团队而非个体的共识。

对于生物医学领域本体的构建已经有很多研究,例如美国国立医学图书馆著名的统一医学语言系统(umls)已经成为医学领域内的语言标准,为生物医学领域相关知识的应用提供了一个相对统一、可以共享的资源。而基因本体(geneontology,go)则为相关研究者提供了一个可具代表性的规范化的基因和基因产物特性的术语描绘或词义解释的工作平台,使生物信息研究者对基因和基因产物的数据能够进行统一的归纳、处理、解释和共享。此外生物信息数据库的建立也为分子生物学和生物信息学的研究提供重要基石,例如集成了主要dna和蛋白质的genbank生物信息数据库已经成为美国卫生部的国家生物技术信息中心(ncbi)在线系统的核心组成部分;而面向临床数据,疾病、表型数据,遗传信息和多态性数据,病毒和微生物基因组数据以及辅助药物开发的药物基因组数据在生物医学领域研究中发挥着关键作用。如在线人类孟德尔遗传(omim)、pkarmgkb等。

虽然目前生物医学领域有较多的本体数据库,但是应用于疾病管理的本体绝大多数都是基于临床数据、健康档案等医学信息,缺少生物信息数据的整合。人类的遗传和基因组学信息不仅隐含着基因和疾病的关系,同时也隐含着基因对药物代谢、营养吸收的影响。若人们能够深刻了解基因数据,那么对疾病易感性的预测将得以实现,也让精准用药成为可能。因此,通过结合生物信息数据、临床数据以及健康档案信息,构建生物医学本体库,将对个人生物医学数据的获取、疾病预测以及个性化的健康干预起着重要作用。



技术实现要素:

有鉴于此,本发明的目的在于提供一种整合高通量基因分型与临床医学信息的生物医学本体集成方法,整合健康档案、临床数据、生物信息数据以及疾病本体,从而形成完整的健康数据架构,为疾病预防和健康干预提供数据基础。

本发明的技术解决方案是,提供一种以下的整合高通量基因分型与临床医学信息的生物医学本体集成方法,包括以下步骤:

1)以疾病数据、个体的基础健康数据和基因疾病关联性特征为基础,得到生物医学领域本体中的重要概念,并可形成个人生物医学档案;

2)参考生物信息和医学信息领域已经存在的本体或数据库,查阅相关领域的文献,对其中的数据源进行数据结构、数据语义的分析,列出生物医学本体领域所有学术的清单;

3)采用中间扩展法,先从领域中获取部分概念和关系,建立一个本体雏形,然后从这个本体雏形开始,设置子节点,将领域中的其他概念不断扩充到该本体雏形中;

4)定义不同概念之间的关系、属性、及概念和属性的关系。

可选地,所述基因疾病关联性特征的重要概念包括生物标记、全基因组关联分析、分子机理研究和风险模型。其中生物标记侧重于单核苷酸多态性(snp)的高通量基因分型数据;全基因组关联分析则选择105个常见复杂疾病的科学研究;分子机理研究则选择1000多个孟德尔遗传病的分子机理研究;风险模型则建立在基因分型数据以及研究机制的基础之上,通过数据分析和模型构建,实现部分复杂疾病和孟德尔遗传病的风险预测。

可选地,所述的生物医学本体集成方法需要基于数据库实现,所述为数据库为mysql,在数据库中,基因疾病关联性特征由数据表采集得以体现,所述的数据表包括用户基因表、基因型人群占比、位点库、特质类位点结果表、用户基因数据表、用户基因临时表和用户评估分数表。

可选地,所述不同概念之间的关系、属性、及概念和属性的关系包括处于不同逻辑层次上概念之间的隶属关系、概念之间部分与整体的关系、概念的实例和概念之间的关系、概念之间的属性关系、概念之间的共享关系和疾病相关概念之间的关系。

采用本发明的方法,与现有技术相比,具有以下优点:通过本发明的方法,建立了整合高通量基因分型与临床医学信息的生物医学本体库,为用户提供更为全面的健康“画像”,为疾病管理、精准预防提供可靠的数据保障,健康管理师以此为根据提供更加精准、个性化的健康干预方案。

附图说明

图1为本发明生物医学本体的构建流程图;

图2为本发明中本体雏形概念框架图;

图3为生物医学本体顶层概念及关系图。

具体实施方式

以下结合附图对本发明的优选实施例进行详细描述,但本发明并不仅仅限于这些实施例。本发明涵盖任何在本发明的精神和范围上做的替代、修改、等效方法以及方案。

为了使公众对本发明有彻底的了解,在以下本发明优选实施例中详细说明了具体的细节,而对本领域技术人员来说没有这些细节的描述也可以完全理解本发明。

在下列段落中参照附图以举例方式更具体地描述本发明。需说明的是,附图均采用较为简化的形式且均使用非精准的比例,仅用以方便、明晰地辅助说明本发明实施例的目的。

本发明是一种整合高通量基因分型以及临床医学信息的生物医学本体数据库,包括生物信息和医学信息两方面。不同生物医学信息的整合所面临的主要问题在于信息语义的异构性和信息结构的异构性。语义异构性是指在生物学信息资源中语义的变化不一致,如同一个词在不同的医疗系统中具有不同的含义或者不同的词在不同的系统中可能表示同一个意思,这些不一致性将导致在信息整合时产生语义冲突,从而给生物医学信息的互操作带来困难。由于本体可以用来辨认和关联与以上相通的概念,因此在将不同形式的知识整合成统一知识对象时,经常作为其理论基础和应用方法。

参照图1所示,该本体构建方法包括以下步骤:

领域本体的确定:

构建本体的目的在于为用户提供全面完善的健康画像,为实现用户健康的精准评估提供数据基础,便于健康管理师设定个性化、精准化的健康干预方案。然而个人健康数据不再仅仅是生活习惯、病史信息、体检指标、临床症状,还包括潜在的遗传信息。随着近几年分子生物学的发展,已经确定部分基因与疾病的密切关联性,而基因检测技术的发展使得基于高通量基因分型技术检测疾病易感基因成为可能。因此为了实现生物信息、临床医学等多种数据的个体化整合,提出了基于高通量基因分型与临床医学信息的生物医学本体。

明确领域本体的重要概念:

生物信息领域涉及的知识十分庞杂,数据库也是多种多样。除了包括dna、rna的核苷酸序列以及蛋白序列信息库,还包括蛋白质和rna的分子结构数据库,包括代谢通路、蛋白质相互作用、酶反应等相关研究内容的数据库。此外,许多数据库还同时包含序列、结构、遗传相关信息(如snp位点)以及疾病相关信息等多种生物学注释。但是根据该本体的构建目的,仅考虑将基因疾病相关信息融合到临床医学信息中,故基因疾病相关信息的重要概念总结为:生物标记、全基因组关联分析、分子机理研究和风险模型。其中生物标记侧重于单核苷酸多态性(snp)的高通量基因分型数据;全基因组关联分析则选择105个常见复杂疾病的科学研究;分子机理研究则选择1000多个孟德尔遗传病的分子机理研究;风险模型则建立在基因分型数据以及研究机制的基础之上,通过数据分析和模型构建,实现部分复杂疾病和孟德尔遗传病的风险预测。

相比较生物信息领域,临床医学领域本体的构建更为成熟。通过参考已存在的医学领域本体并考虑本体构建目的,临床医学信息的本体概念主要集中在基础健康数据和疾病,基础健康数据子概念分为基本信息、病史信息、生活因素、环境因素、临床症状、检查化验;疾病概念主要分为疾病类型、临床症状、病因、治疗手段、检查化验和流行病学。通过核心概念的确定,可以形成生物医学信息本体的顶层本体框架模型。具体概念示意图见图2。

列出领域的重要术语

领域本体和重要概念确定之后,参考生物信息和医学信息领域已经存在本体或数据库,查阅相关领域的文献,对这些领域的数据源进行数据结构和数据语义的分析,列出领域中所有术语的清单。

对于生物信息领域,其数据来源主要有clinvar、gwascatalog、gad、omim、snp、1000genomesproject、pubmed。

clinvar:clinvar数据库是一个整合遗传变异数据、临床表型,实证数据以及功能注解与分析等四个方面信息,通过专家评审,逐步形成一个标准可信的遗传变异一临床表型相关的数据库。

gwascatalog:nhgri-ebigwascatalog是一个整合已发表的全基因组关联分析(gwas)的手稿、文献以及质量控制的数据库,该数据库包含至少100000个snp,且所有snp-性状关联性p值均小于1.0×10-5

gad(geneticassociationdatabase):是一个收录人类复杂疾病的遗传关联研究的数据库。区别于omim数据库,gad主要集中于常见的人类复杂疾病,而不是罕见的孟德尔遗传病。gad包含关于全基因组关联分析和候选基因研究的发表文章和数据总结。

omim(on-linemendelianinheritanceinman):孟德尔人类遗传数据库是一个收录关于人类基因和遗传紊乱的数据库。主要着眼于可遗传的或遗传性的基因疾病,数据库包括文本信息和相关参考信息、序列纪录、图谱和相关其他数据库。

snp:snp(单核苷酸多态性)数据库收录的是单核苷酸多态性信息,例如单个碱基的替换、缺失或插入信息。共收录有将近1800万条人类snp信息和3300万祭其它各物种的snp信息。dbsnp数据库还收录确认信息、种群特异性等位基因频率信息(population-specificallelefrequencies)和个体基因型信息。

1000genomesproject:千人基因组计划数据库包含世界各地不同人群的人类基因组数据,千名基因提供者来自欧洲、美洲、亚洲和非洲的14个国家和地区,27个族群。

pubmed:pubmed是一个免费的搜索引擎,提供生物医学方面的论文搜索及摘要。

对于医学信息领域,其数据信息来源主要有:mesh、pubmedhealth、umls、cumls等。

mesh(medicalsubjectheadings):医学主题词表是美国国立医学图书馆编制的权威性主题词表。它是一部规范化的可扩充的动态性叙词表。美国国立医学图书馆以它作为生物医学标引的依据。

pubmedhealth:pubmedhealth为消费者和临床医生提供关于疾病的预防和治疗的信息,专注临床医学和卫生保健。

umls(unifiedmedicallanguagesystem):umls是美国国立医学图书馆著名的统一医学语言系统,是医学领域内的语言表示标准,为生物医学领域相关知识的应用提供了一个相对统一、可以共享的信息资源。

cumls(chineseunifiedmedicallanguagesystem):是由中国医学科学院医学信息研究所仿造umls开发的医学语言系统,该系统由医学词表、语义网、构建工具和平台构成,形成中文医学概念词典及语义规范。

参考上述数据源进行领域术语的整理,其中部分重要术语如下:

生物信息方面:基因疾病相关性、生物标记、基因表达变化、基因组变化、转录后修饰、染色体重排、融合基因、遗传变异、罕见突变、拷贝数变异、snp(单核苷酸多态性)、易感基因突变、致病基因突变、修饰突变、非编码区snp、基因编码区snp、同义突变csnp、非同义突变csnp、错义突变、无义突变、插入缺失、碱基置换、等位基因、基因型、基因分型、基因芯片法;全基因组关联分析、遗传标记、疾病表型、研究人群、病例对照研究、关联分析、多重校验、or值、p值;终生患病风险、患病风险倍数、参考人群患病风险等。

基础健康数据方面:基本信息、姓名、年龄、bmi、吸烟状况、饮酒状况、睡眠状况、运动习惯、饮食习惯、家族病史、既往病史、现病史、用药史、过敏史、体格检查、血液生化检验、影像学检验、血糖、血脂、肝功能、肾功能、血常规、微量元素、肿瘤标志物、心肌酶、ct、彩超、x光、临床症状、头痛、胸闷、颈部疼痛、腰背疼、关节痛、眼睛疼痛、泛酸水、胃痛、便秘、腹泻、明显体重下降、经常耳鸣、发热、咳嗽、咳痰、心悸、胸闷、尿痛、多尿、鼻塞、流鼻血、流鼻涕、打喷嚏、扁桃体发炎、干咳、痰中带血、喉咙痛、声音嘶哑、咽部有异物感、耳痛、耳鸣等。

疾病方面:临床症状、检查化验、孟德尔遗传病、代谢缺陷病、智力发育障碍、血液遗传病、复杂疾病、肿瘤、内分泌系统、泌尿系统、肿瘤、乳腺癌、内分泌系统、泌尿系统、呼吸系统、神经系统、免疫系统、五官、消化系统、骨科、心血管、皮肤及附件系统、男性疾病、女性疾病、药物治疗、手术治疗、饮食生活、病因等。

建立本体概念层次:

采用中间扩展法,先从领域中获取部分概念和关系,建立一个本体雏形,本体雏形概念框架见图2。

1.基因疾病关联性子节点

生物标记:这里的生物标记重点指在疾病发病中发挥作用的某些基因、蛋白或遗传标志物。根据基因功能发挥的不同过程,生物标记又可细分为在基因

全基因组关联分析:总结全基因组关联分析的文献以及重要术语,发现构成全基因组关联分析的子节点包括遗传标记(snp)、研究的疾病表型、实验的研究人群、病例对照研究过程、数据分析的关联分析和多重校验。而在病例对照研究中则重点关注or值和p值显著性。本体选择的疾病表型以及snp关联性的p值均小于1.0×10-5

分子机理研究:侧重于盂德尔遗传病,因此囊括信息包括基因、蛋白质以及疾病之间的关系。

风险模型:风险模型建立在基因分型数据以及研究机制的基础之上,通过数据分析和模型构建,实现部分复杂疾病和孟德尔遗传病的风险预测。风险模型用的重要概念有snp、疾病表型、终生患病风险、患病风险倍数、参考人群患病风险。

2.基础健康信息子节点

基本信息:包括用户的姓名、性别、年龄、bmi、居住地、婚姻状况、工作状况等。

病史信息:病史信息包括用户既往的健康状况和过去曾患过的疾病,以及用户家族成员的患病史,尤其是一些可能遗传的疾病。

临床症状:这里将症状信息按照人体部位分为16个子类,分别为头部、颈部、胸部、腹部、腰部、男性生殖、女性生殖、全身、上肢、下肢、盆腔会阴部、背部、臀部、骨、心理、其他。

生活因素:生活因素主要纪录用户的生活习惯,包括吸烟状况、饮酒状况、睡眠状况、运动习惯和饮食习惯。

环境因素:纪录用户的生活环境,如季节、环境污染、气候环境等。

检查化验:可分为体格检查、血液生化检查和影像学检查。体格检查按照检查科室细分为内科、外科、眼科、耳鼻喉科;血液生化检查可分为血糖、血脂、肝功能、肾功能、血常规、微量元素、肿瘤标志物、心肌酶等;影像学检查包括ct、x光检查、彩色多普勒b超等。

3.疾病子节点

疾病类型:疾病类型包括常见复杂疾病和孟德尔遗传病。复杂疾病是由遗传因素和环境因素共同决定的疾病,且遗传因素往往由多个基因控制;而孟德尔遗传病则往往是由一对等位基因控制的疾病或病理性状,是一类只要单个基因发生突变就足以发病的一类遗传病。

临床症状:部分的临床症状同基础健康信息中的临床症状一致,属于概念共享关系。

病因:纪录某疾病发生的因素和条件。

治疗手段:治疗手段细致划分为手术治疗、药物治疗、生活饮食治疗,均属于治疗某项疾病的治疗方案。

检查化验:部分的检查化验同基础健康信息中的检查化验一致,属于概念共享关系。

设计本体模式:

本体模式的设置包括定义不同概念之间的关系、定义属性,定义概念和属性的关系。概念和概念之间的关系,以图3为例。整个本体构建共用到6种关系:

isa:表示处于不同逻辑层次上的概念之间的隶属关系,例如snp是一种遗传变异,基因芯片法是一种基因分型方法等。

partof:表示概念之间部分与整体的关系,其关系涵盖较广,包含了若干种整体与部分或位置、组成相关的关系。例如生活因素、检查化验、临床症状都是基础健康数据的一部分。

instanceof:概念的实例和概念之间的关系,例如年龄具体例子就是56岁。

attributeof:概念之间的属性关系,即某个概念是另一个概念的属性。例如snp的具体属性就包括snpid、基因、变异类型、变异区域、变异方式、等位基因、基因型、基因分型,这些属性共同构成了snp这个概念。

shareconcept:表示概念之间的共享关系。本体概念之间可能存在共享词汇,因此可以建立区域公共本体的共享词汇,通过语义识别、对应关系,构建语义的映射。例如全基因组关联分析和分子机理研究都是基于生物标记的snp数据,以此snp数据可作为一个区域公共本体,映射到包含snp数据的其他概念中。

diseaseassociation:表示疾病相关概念之间的关系,具体来说,是概括性描述疾病属性的关系或疾病状态与其他概念间的因果关系。例如本发明中基因与疾病相关性以及基础健康数据都可能是疾病发生的原因,这种关系不属于继承、包含、属性、实例和概念共享,无法使用上述结构关系来定义,因此归结于diseaseassociation。

定义实例:

上述5步定义好之后,对一些具有实例关系的概念定义具体实例,并完成本体的构建。

数据库的实现:

本发明数据库的实现采用mysql数据库,共包括42张数据表,不仅涵盖使用数据库的公司信息,还包括根据本体概况框架配置对应的数据表。

数据库中的基因疾病相关性数据表包括:用户基因表、基因型人群占比、位点库、特质类位点结果表、用户基因数据表、用户基因临时表、用户评估分数表。其中用户基因数据表涵盖与疾病相关的易感易感基因,位点库主要包括单核甘酸多态性(snp)的数据信息,基因型人群占比则包括中国。人snp不同基因型的人群占比,用户评估分数则包含风险模型的相关信息。

疾病数据表包括:项目表、项目分类字典表、项目文案、项目图表数据源、症状库,这些表中包括了疾病的分类、病因等具体的文字描述,以及治疗手段。

基本健康信息表包括:用户表、会员卡相关信息等用户的基本信息,用户相关当前体检数值表、体检相关项目库、用户相关体检历史数值表、用户上传体检报告图片等体检相关数据,用户患病史、用户家族病史等病史信息数据,用户症状表、用户症状历史表等临床症状信息数据,用户问题分组描述、用户评估表、问题分类表、评估问题库、标签表等用户基本健康数据。

由于数据库开发用于健康管理,故还包括专家建议具体内容表(运动、营养膳食结构)、专家建议具体内容表(医疗、生活建议),帮助健康管理师提供生活习惯、饮食运动相关的专家建议。

虽然以上将实施例分开说明和阐述,但涉及部分共通之技术,在本领域普通技术人员看来,可以在实施例之间进行替换和整合,涉及其中一个实施例未明确记载的内容,则可参考有记载的另一个实施例。

以上所述的实施方式,并不构成对该技术方案保护范围的限定。任何在上述实施方式的精神和原则之内所作的修改、等同替换和改进等,均应包含在该技术方案的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1