基因变异与药物关系数据库和数据库系统的制作方法_2

文档序号:9750821阅读:来源:国知局
有此基 因的变异信息,变异包括核苷酸变异,单核苷酸多态性,基因插入缺失,拷贝数变异,基因融 合这6种情况;(2)此种基因变异有对应的药物治疗或反应,药物包括靶向药物,化疗药物, 激素药物,抗体药物,放疗药物,疫苗等,在文章中的药物名称可为已命名的药物名,也可为 研发阶段的药物编号;(3)在文章中此项研究与某种癌症相关,包括肿瘤临床实验,肿瘤组 织回顾性研究,动物体内实验或体外细胞实验;(4)基因变异与药物有明确的作用关系,药 物关系包括:药物敏感,药物抗性,有反应,无反应等。从上述各种实施方式方法中,可以看 出根据本发明的这一方法构建的数据库包含基因变异类型多,构建的数据库收集的基因的 变异信息包含了目前DNA,RNA检测的多种变异类型,包括了核苷酸/氨基酸点突变,核苷酸 /氨基酸的插入缺失,基因的拷贝数变异,单核苷酸或基因的多态性,基因融合,基因表达量 的变异等。覆盖实验研究的全部基因的变异信息。不同基因变异还详细记录了变异程度,如 拷贝数变异的比率、表达量变异的程度。基于目前实验研究的有一些基因表达量的变化是 基于蛋白表达水平检测的,我们将这类数据也收录数据库,同时对检测方法信息也做了详 细记录。这些基因变异类型、检测类型及变异范围的信息在最大程度上反映了药物试验适 用范围,为个体化治疗检测的基因变异类型提供了全面信息支持,使用者参照此信息能做 出最合适的判断。也可以看出,根据本发明的这一实施方式构建的数据库包含的药物种类 全面,药物的信息包含了 Drugbank,Clinicaltrails,FDA已批准药物等多个数据来源,同 时通过治疗方法等词汇补充进行搜索,使数据库收集的药物涵盖了靶向、化疗、激素、疫苗、 放疗及代谢等多种类型。数据包括了 FDA批准药物,NCCN推荐药物,临床实验药物及还未 进入临床的实验药物的信息。数据库中的药物信息可以涵盖目前研究的所有药物类型。还 有,构建得的数据库适应癌症种类多,此数据库通过Clinicaltrials数据库,及NCBI MESH 的肿瘤词汇同义词,肿瘤词汇词库等多个肿瘤词汇的搜索能够收集目前所有癌症基因变异 与用药关系的信息,其中还包括一些罕见或是研究稀少的肿瘤信息。一旦有这些肿瘤信息 的发布,数据库自动化更新流程就能将这些研究数据收集起来。
[0019] 在本发明的一个【具体实施方式】中,在接收所述初始数据时,对所述初始数据进行 筛选和/或格式转换,所述筛选包括第一筛选和第二筛选。根据本发明的一个具体实施方 式,所述第一筛选为筛选出所述初始数据中的符合第一参数的数据,所述第一参数是通过 统计所述初始数据中包含的第一关键词组合中各关键词出现的次数N来设置的,所述第一 关键词组合包含以下四个预置词汇集中的每个预置词汇集中的至少一个词汇:预置的肿瘤 名称词汇集、预置的基因变异词汇集、预置的药物和治疗方法词汇集、以及预置的药效或治 疗效果词汇集。对未被所述第一筛选筛选出的初始数据进行第二筛选,从剩余的初始数据 中筛选出符合第二参数的数据,所述第二参数是通过统计所述初始数据中包含的第二关键 词组合中各关键词出现的次数Μ来设置的,所述第二关键词组合包含以下五个预置词汇集 中的每个预置词汇集中的至少一个词汇:预置的肿瘤名称词汇集、预置的基因变异词汇集、 预置的药物和治疗方法词汇集、预置的药效或治疗效果词汇集以及预置的期刊词汇集,所 述第二关键词组合包含所述第一关键词组合中的每个关键词,其中,Μ和Ν为两个自然数集 合,对于同一关键词i,Mi < Ni。在本发明中,第一参数也称为严格参数,第二参数也成为 宽松参数,通过严格参数筛选原始数据得到敏感度相对高的第一步结果,将未被第一筛选 筛选出的原始数据文献进行宽松筛选得到第二步结果。依据上述说的录入标准对经第一和 第二筛选筛选出的数据进行录入。
[0020] 在本发明的一个【具体实施方式】中,上述的各个预置词汇集是通过收集已知数据 库、文献中的名称,包括统称命名的、全称、简称、同义词及其它符号代码等书写方式,来获 得的。比如预置的肿瘤(癌症)名称词汇集:包括各种癌症的全称,简称及其他书写方 式。同时也包括肿瘤统称的各种命名。癌症参数的范围来自于收集文献中肿瘤、clinical trials, gov数据库中的肿瘤、PubMed MESH中的肿瘤等;预置的基因变异词汇集包括基因 碱基及氨基酸变异,单核苷酸或基因多态性,基因拷贝数,基因插入缺失,基因融合,基因表 达量相关的变异类型;药物及治疗方法:包括已批准的药物名称(含商品名),研发阶段的 药物名称或代号,一种抑制剂或拮抗剂的总称及肿瘤治疗方法;预置的药物和治疗方法词 汇集包括基因变异对应药物的药效,包括基因是否反应,细胞是否减少,药物敏感,药物抗 性,生存期等词汇;预置的期刊词汇集包含与肿瘤研究相关的专门期刊,包含肿瘤研究的大 型或综合期刊,期刊名称按PubMed数据库的期刊名整理。在本发明的一个【具体实施方式】 中,将初始数据,这边是指用少数关键词比如肿瘤名称、基因名称等在一个或多个数据库检 索收集的文献,将这些文献的标题,期刊,作者,摘要信息提出建立词频统计表,具体地,将 文献按NCBI PubMed下载模式重新整理成txt文档。将这些文献标题、摘要的内容建立词 汇频率表,词汇频率包括每个词汇总共出现的次数及出现文章的数目。审核词汇频率表中 出现的次数(至少要在一篇文章中出现),筛选出各个预置词汇集的词频参数范围。在本发 明的一个【具体实施方式】中,也同时统计clinicaltrials数据库内容,补充预置肿瘤名称词 汇集调整其参数范围。具体地,参考clinicaltrials.gov网站中"See Studies by Topic" 的 Cancers and Other Neoplasms Category 的肿瘤类型,和 / 或统计 PubMed MESH 查询 "tumor" "cancer"同类词汇,补充该预置肿瘤词汇集及调整其参数范围。在本发明的一个
【具体实施方式】中,预置的肿瘤名称词汇集第一参数范围是词频大于5且出现的文章的数目 大于2或者,词频大于5且在所参考的网站或数据库出现的次数大于1,第二参数范围是词 频大于1且出现的文章的数目大于1或者,词频大于5且在所参考的网站或数据库出现的 次数大于等于1。在本发明的一个【具体实施方式】中,统计Drugbank数据库抗肿瘤药物(不 包含治疗并发症药物),和/或clinicaltrials数据库,和/或FDA批准的抗肿瘤药物信 息,补充预置的药物及治疗方法词汇集及调整其参数范围。在本发明的一个【具体实施方式】 中,预置的药物及治疗方法词汇集的第一参数范围是词频大于5且出现的文章的数目大于 2或者,词频大于5且在所参考的网站或数据库出现的次数大于1,第二参数范围是词频大 于1且出现的文章的数目大于1或者,词频大于5且在所参考的网站或数据库出现的次数 大于等于1。
[0021] 在本发明的一个【具体实施方式】中,所说的格式转换为,以NCBI基因数据库中包含 的基因标识为标准转换所述初始数据中的基因名称,包括将核苷酸\氨基酸点突变或插入 缺失、表达量变异,拷贝数变异及基因融合变异信息内容统一规范化处理,比如以人类参考 基因组hgl9版本为标准转换所述初始数据中的变异的类型及位置信息,其中,基因组也可 根据需要选择不同版本,默认基因组版本为UCSC人类基因组的hgl9。上述格式转换过程 可通过编程自动化实现。在本发明的一个【具体实施方式】中,所说的数据格式转换还包括: 将录入的文献中的表达量变化信息转换为与信息分析结果对应的标准描述,比如表达量信 息分析结果为肿瘤细胞表达量与正常细胞表达量比值的l〇g2数值,即将文章中肿瘤细胞 中基因其达量数值统一换算成与正常细胞基因表达量比值的l〇g2的值;和/或将录入的 文献中的拷贝数变异信息转换为与信息分析结果对应的标准描述,比如,拷贝数变异的信 息分析结果为肿瘤细胞中基因拷贝数与正常细胞基因拷贝数的比值,可通过自动化流程或 脚本将文章中的肿瘤细胞基因拷贝数值统一换算为为肿瘤细胞与正常细胞基因拷贝数的 比值;和/或将录入文献中的基因变异用药效果的原文信息转换为与解读流程直接对应的 标准描述,比如文章中的描述通常为一段详细的描述,将具有"good outcome"(结果好), "long survival"(生存期长)/'good prognesis"(预后好)/'sensitive"(敏感)/'good response"(反应好)一类的信息转换成药效好的描述"变异阳性敏感"及其标识符号"S"; 将具有"bad outcome"(结果不好)/'short survival"(生存期短),"bad prognesis"(预 后不好),"resistant"(耐药),"toxicity"(具有毒性),"bad response"(反应不好) 一类的信息转换成用药效不好的描述"变异阳性耐药"及其标识符号"R"。解读流程通过 "S"和"R"来判断,给出对应的结果"变异阳性敏感"及"变异阳性耐药"。上述的各种格式 或标准化可以借助自然语言处理编写脚本实现,本领域技术人员可以理解,可将上述数据 格式转化过程的全部或部分过程通过程序/脚本来指令相关硬件完成,该程序可以存储于 一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。根 据本发明的这一方法的各种实施方式对数据库各类信息有统一规范的录入标准,可供各类 检测数据直接调用。此数据库通过原始检测的位置信息转换成统一基因组版本的标准位置 信息,及检测变异的标准描述信息。这些信息的转换有利于基于基因组检测的变异信息的 直接对应,减少中间环节的误差。对药效等其他描述性信息,则同时记录了原始信息及统一 标准的表述信息,这些标准化的描述信息则有利于信息的直接输出和调用。
[0022] 在本发明的一个【具体实施方式】中,将文献信息录入数据库,每种变异类型的条目 信息有对应编号及状态,录入时自动生成流水编号及状态。
当前第2页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1