基于语义和表型相似度的孟德尔遗传病预测方法及系统与流程

文档序号:36264880发布日期:2023-12-06 06:47阅读:35来源:国知局
基于语义和表型相似度的孟德尔遗传病预测方法及系统与流程

本发明涉及自然语言处理和疾病预测,具体来说,涉及基于语义和表型相似度的孟德尔遗传病预测方法及系统。


背景技术:

1、孟德尔遗传病是指遵循孟德尔遗传模式的疾病,它是由一对等位基因突变导致的疾病。由于孟德尔遗传病的种类繁多、症状多样性和遗传模式多样化,使得临床医生很难对所有的孟德尔遗传病都非常了解。传统的疾病预测方法主要基于医学专家经验和人工判断,往往耗时费力且易受主观因素影响。因此,开发一种快速高效、准确可靠的孟德尔遗传病预测方法是非常有必要的。

2、表型信息是指与疾病相关的特定临床表现或症状,现有的人类表型本体数据库(hpo)提供了人类疾病中遇到的表型异常的标准化词汇,并且合并了医学文献,orphanet,omim以及decipher等数据库的表型疾病信息,可以作为根据表型判断疾病的标准。为了提高疾病预测准确率,基于hpo的表型相似度计算在完成疾病预测过程中起着至关重要的作用。

3、然而,现有的一些基于hpo的疾病预测方法没有考虑表型的特异性和表型与表型之间的关系,或者没有考虑hpo的图形结构与层级结构。另一方面,在临床实践中,最先且较容易获得的是患者的临床信息,由于许多临床信息以不精确的方式描述患者表型,对于同一种指标、症状等往往会有许多种不同的写法,这就导致很难将临床描述信息与hpo的标准表型联系起来进行疾病预测。

4、针对相关技术中的问题,目前尚未提出有效的解决方案。


技术实现思路

1、针对相关技术中的问题,本发明提出基于语义和表型相似度的孟德尔遗传病预测方法及系统,以克服现有相关技术所存在的上述技术问题。

2、为此,本发明采用的具体技术方案如下:

3、根据本发明的一个方面,提供了基于语义和表型相似度的孟德尔遗传病预测方法,该方法包括以下步骤:

4、s1、获取表型数据及孟德尔遗传病数据,并基于表型数据及孟德尔遗传病数据构建表型与孟德尔遗传病的关系数据库;

5、s2、利用基于表型语义相似度算法计算人类表型本体数据库中任意两个表型之间的语义相似度,构建表型与表型的相似度网络数据库;

6、s3、获取患者的临床描述信息,并利用语义识别中的命名实体识别技术从患者的临床描述信息中提取表型数据;

7、s4、通过基于文本相似度的表型标准化技术对提取的表型数据进行文本相似度标准化处理,获得对应的中文表型本体论标准表型名,得到患者的标准表型集合;

8、s5、根据患者的标准表型集合利用基于表型相似度的疾病预测算法输出预测的孟德尔遗传病。

9、进一步的,所述表型与疾病的关系数据库中包括孟德尔遗传病的中文名、孟德尔遗传病的英文名、孟德尔遗传病的中文描述、孟德尔遗传病的表型列表及孟德尔遗传病的别名。

10、进一步的,所述基于表型语义相似度算法的计算公式为:

11、

12、式中,sim(p1,p2)表示表型p1和表型p2的相似度;

13、d表示所有表型注释的疾病的总数;

14、表示表型p1和表型p2最近公共祖先表型注释的疾病个数。

15、进一步的,所述患者的临床描述信息包括患者的临床症状、临床病历及临床检查数据。

16、进一步的,所述利用语义识别中的命名实体识别技术从患者的临床描述信息中提取表型数据包括以下步骤:

17、基于开源的中文通用信息抽取预训练模型uie,并使用人工标注的自建表型数据集进行微调再训练,得到用于提取孟德尔遗传病的表型的命名实体识别模型,然后使用训练后的命名实体识别模型对临床描述信息进行针对表型的实体识别;

18、利用正则匹配法判断提取到的表型在原临床描述信息的位置前是否存在否定词,若是,则过滤掉被否定词修饰的表型,若否,则保留该提取到的表型。

19、进一步的,所述通过基于文本相似度的表型标准化技术对提取的表型数据进行文本相似度标准化处理,获得对应的中文表型本体论标准表型名,得到患者的标准表型集合包括以下步骤:

20、s41、使用中文表型本体论中的所有表型标准中文名创建文本语料库,并使用bm25算法对该文本语料库构建索引;

21、s42、逐一计算文本语料库的索引与提取的患者的表型数据之间的相关性得分,并将相关性得分最高的索引对应的中文表型本体论标准表型名作为该表型的标准表型名,得到患者的标准表型名集合。

22、进一步的,所述根据患者的标准表型集合利用基于表型相似度的疾病预测算法输出预测的孟德尔遗传病包括以下步骤:

23、s51、根据表型与表型的相似度网络数据库计算患者的标准表型集合与疾病表型集合之间的相似度,并定义对称的患者标准表型集合与疾病表型集合之间的相似度模型;

24、s52、利用对称的患者标准表型集合与疾病表型集合之间的相似度模型计算表型与孟德尔遗传病的关系数据库中每个孟德尔遗传病的表型集合与患者表型集合之间的相似度,并根据相似度值由高至低进行排序,输出相似度最高的十种孟德尔遗传病作为预测结果。

25、进一步的,所述对称的患者标准表型集合与疾病表型集合之间的相似度模型的计算公式为:

26、simsym(ppt,pdis)=w×simset(ppt→pdis)+(1-w)×simset(pdis→ppt);

27、

28、

29、式中,simsym(ppt,pdis)表示患者标准表型集合ppt与疾病表型集合pdis的对称相似度;

30、simset(ppt→pdis)表示患者标准表型集合ppt到疾病表型集合pdis的相似度;

31、simset(pdis→ppt)表示疾病表型集合pdis到患者标准表型集合ppt的相似度;

32、w表示权重;

33、npt表示患者的表型个数;

34、ndis表示疾病的表型个数。

35、根据本发明的另一个方面,提供了基于语义和表型相似度的孟德尔遗传病预测系统,该系统包括数据库构建模块、表型数据提取模块、文本相似度标准化处理模块及孟德尔遗传病预测模块;

36、其中,所述数据库构建模块,用于构建表型与孟德尔遗传病的关系数据库及表型与表型的相似度网络数据库;

37、所述表型数据提取模块,用于获取患者的临床描述信息,并利用语义识别中的命名实体识别技术从患者的临床描述信息中提取表型数据;

38、所述文本相似度标准化处理模块,用于通过基于文本相似度的表型标准化技术对提取的表型数据进行文本相似度标准化处理,获得对应的中文表型本体论标准表型名,得到患者的标准表型集合;

39、所述孟德尔遗传病预测模块,用于根据患者的标准表型集合利用基于表型相似度的疾病预测算法输出预测的孟德尔遗传病。

40、进一步的,所述数据库构建模块包括表型与孟德尔遗传病的关系数据库构建模块及表型与表型的相似度网络数据库构建模块;

41、其中,所述表型与孟德尔遗传病的关系数据库构建模块,用于获取表型数据及孟德尔遗传病数据,并基于表型数据及孟德尔遗传病数据构建表型与孟德尔遗传病的关系数据库;

42、所述表型与表型的相似度网络数据库构建模块,用于利用基于表型语义相似度算法计算人类表型本体数据库中任意两个表型之间的语义相似度,构建表型与表型的相似度网络数据库。

43、本发明的有益效果为:

44、1)本发明通过对患者的临床描述信息进行自然语言处理获得患者的标准表型名,且本发明的表型命名实体识别模型经过了自建表型数据集的微调训练,并且进行了否定词校正,从临床描述信息中提取的表型更加精确。

45、2)本发明的表型标准化结果对标chpo数据库,表型-孟德尔遗传病数据库的构建依赖多个维度的数据库,结果更全面、可靠。

46、3)本发明构建的表型-表型相似度网络,基于表型语义相似度算法,综合考虑了表型的语义结构与特异性信息,加强了主要表型对疾病预测的权重,减轻了非主要表型对疾病预测的影响,以此网络预测疾病的结果更加准确,并且算法运行速度很快。

47、4)本发明提出的基于语义识别和表型相似度的孟德尔遗传病预测方法能够准确且快速地从一段患者的临床描述中直接得到可能的孟德尔遗传病预测,不依赖于其他信息。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1