基于医学信息本体数据库的疾病自我分析方法

文档序号:6640805阅读:176来源:国知局
基于医学信息本体数据库的疾病自我分析方法
【专利摘要】本发明提供一种基于医学信息数据库的疾病自我分析方法,包括如下步骤:建立医学信息本体(Medical Ontology)数据库,即MO数据库;根据病情描述,提取特征词汇;根据特征词汇在MO数据库中搜索并进行匹配;根据匹配得到的terms标号集合,计算病友对应的MO terms集合所患疾病的概率。通过本发明的方法,建立起基于疾病特征的医学信息本体数据库,并建立起一种基于医学信息数据库的疾病自我分析方法,使有效的数据与人体的实际状况相结合,使病患初期的病征得到更有效的甄别,最大可能的为帮助病患自诊提供准确有效的数据依据。
【专利说明】基于医学信息本体数据库的疾病自我分析方法

【技术领域】
[0001] 本发明属于计算机信息领域,特别是涉及到一种基于医学信息本体数据库的疾病 自我分析方法。

【背景技术】
[0002] 现阶段人们的生活节奏很快,生活压力也很大,这就为人们的身体健康带来了很 多隐忧。人们一旦身体健康出现问题,首选是去医院,但是医院里看病的人又似乎永远是非 常多,哪怕是一些小病征,整个看病的流程走下来会花费很多时间;而如果人们觉得耽误时 间,不愿意去医院,只是依据自己的经验买些药服用,这样又有可能错过最佳治疗时间,耽 误病情。
[0003] 基于这种现象,如果能够有一个帮助人们进行疾病自诊的信息平台,将会对人们 产生巨大的帮助,人们可以通过信息平台的内容,结合自身的状况,先对自己的病患进行初 期的判断,病征轻微的,可以根据信息平台的内容进行自我简单的治疗,病征有危险的发展 趋势时,再去医院治疗。
[0004] 要建立一个这样的帮助人们进行疾病自诊的信息平台,需要有一个完善的医学信 息数据库,才能保证自诊的准确性,既能帮助人们节省时间,又不会耽误疾病的最佳治疗时 间。
[0005] 在有了完善的医学信息数据库之后,还要有基于医学信息数据库的疾病自我分析 方法,才能准确的完成自诊。


【发明内容】

[0006] 本发明要解决的问题是设计一种基于医学信息数据库的疾病自我分析方法,为疾 病自诊信息平台提供完备的信息分析方法,为病患初期的自诊提供科学的依据。
[0007] 需要说明的是,本发明基于医学信息数据库的疾病自我分析方法,是信息学的一 种应用,并非属于疾病的诊断和治疗方法,因此不违反专利法第二十五条的相关规定。
[0008] 为了达到上述目的,本发明采取的技术方案为:一种基于医学信息数据库的疾病 自我分析方法,其特征在于,包括如下步骤:
[0009] (1)建立医学信息本体(MedicalOntology)数据库,即MO数据库;
[0010] ⑵根据病情描述,提取特征词汇;
[0011] (3)根据特征词汇在MO数据库中搜索并进行匹配;
[0012] (4)根据匹配得到的terms标号集合,计算病友对应的MOterms集合所患疾病的 概率。
[0013] 优选的,所述步骤(1)中,创建MO数据库的方法为:
[0014] a.将疾病及其特征用MOterms进行编号,每个MOterms代表一个顶点,两个 terms之间的关系用有向边表示,这样将疾病和病征表示在一个有向无环图中;
[0015] b.顶点之间的关联分成两种类型:is_a关系和part_of关系;is_a关系是一种简 单的包含关系;part_of关系表示一部分的包含关系,一种疾病往往有多种病征表现,病征 和疾病之间是part_of的关系,疾病和疾病之间是is_a的关系,病征和病征之间是is_a的 关系;
[0016] c.对于任两个terms之间的有向边,若是part_of的关系,则赋予权重;权重用关 联概率d表示;将父term与之关联的子terms之间进行关联度d分配(0〈d〈 = 1);其中关 联度d(terml,term2)表示父病征terml出现term2子病征的概率;
[0017] d.对于任两个terms之间的有向边,若是is_a的关系,则赋予权重;权重用关联 百分比表示;父term与子terms之间的关联百分比用该子term在父term所关联的所有子 terms中出现比率,所述子terms的关联百分比之和为1。
[0018] 优选的,所述步骤(2)中特征词汇的提取方法为:
[0019] (2. 1)将表示程度和是否的词汇一起提取。将频率词汇去除;
[0020] (2. 2)根据标点符号将病情描述的长字符串拆分成很多短字符串,对每个短字符 串按照2?4的长度依次进行遍历截取;
[0021] 优选的,所述步骤(3)中采用分治算法技术,对每个疾病下的症状进行并行计算 处理;
[0022] 优选的,所述步骤(3)中所述的匹配,需要特征词汇与MO数据库中的terms词汇 进行精确匹配;
[0023] 优选的,所述步骤(4)中所述的计算概率,运用广度优先搜索方法,得到对应病情 描述病症term集合It1,t2,..V··}和边权重集合Wj={wWw2j,…,Wij,…},然后计算得 该疾病的概率。
[0024] 进一步的,所述步骤(4)中根据概率大小排序,可以判断所患疾病的概率。然后按 照概率大小,推荐相应的科室和医生。
[0025] 本发明的有益效果为:通过本发明的方法,建立起基于疾病特征的医学信息本体 数据库,并建立起一种基于医学信息数据库的疾病自我分析方法,使有效的数据与人体的 实际状况相结合,使病患初期的病征得到更有效的甄别,最大可能的为帮助病患自诊提供 准确有效的数据依据,既为人们节省不必要的时间消耗,又不会耽误疾病的最佳治疗时间。

【专利附图】

【附图说明】
[0026] 图1是本发明的步骤示意图;
[0027] 图2是本发明中提取词汇方法示意图。

【具体实施方式】
[0028] 下面结合具体实施例对本发明做进一步说明。
[0029] 按照图1所示的步骤,
[0030] 首先,建立医学信息本体(MedicalOntology)数据库,即MO数据库;
[0031] (1)将疾病及其特征用MOterms进行编号,每个MOterms代表一个顶点,两个 terms之间的关系用有向边表示,这样将疾病和病征表示在一个有向无环图中;
[0032] (2)顶点之间的关联分成两种类型:is_a关系和part_of关系;is_a关系是一种 简单的包含关系;part_of关系表示一部分的包含关系,一种疾病往往有多种病征表现,病 征和疾病之间是part_of的关系,疾病和疾病之间是is_a的关系,病征和病征之间是is_a的关系;
[0033] (3)对于任两个terms之间的有向边,若是part_of的关系,则赋予权重;权重用 关联概率d表示;将父term与之关联的子terms之间进行关联度d分配(0〈d〈 = 1);其中 关联度d(terml,term2)表示父病征terml出现term2子病征的概率;
[0034] (4)对于任两个terms之间的有向边,若是is_a的关系,则赋予权重;权重用关联 百分比表示;父term与子terms之间的关联百分比用该子term在父term所关联的所有子 terms中出现比率,所述子terms的关联百分比之和为1。
[0035] 然后,基于MO数据库,进行疾病的自我分析方法为:
[0036] 第一步:根据病情描述,提取特征词汇,提取方法:
[0037] 注1 :将{:不,没,无,非常,有,存在,高于,低于,严重等表示程度和是否的 词汇一起提取。将{:可,可以,呈,呈现,常,经常,···..}等频率词汇去除。
[0038] 注2 :提取词汇方法:根据标点符号将病情描述的长字符串拆分成很多短字符串, 对每个短字符串按照2?4的长度依次进行遍历截取(汉字词汇一般为2到4长的文字组 成)。如图2所示。
[0039] 这样得到病情的特征词汇提取集合S= (S1,S2,…,Si,….sn}。
[0040] 注3 :搜索技术:因为在MO数据库对应关系(即有向无圈图中)中is_a关系与 part_of关系的分界点恰好是疾病名称与症状的分界点,根据有向无圈图的性质,可以采用 分治算法(divideandconqueralgorithm)技术,对每个疾病下的症状进行"分而治之", 分治算法能够减少搜索时间,并且分治下的每个疾病分支可以并行计算处理(parallel computing)〇
[0041] 注4 :进行匹配:医学信息本体(MedicalOntology)数据库中每个term都有对应 的定义和所有可能的同义词与相近意思或相关词(这些词组成一个词汇组T=Itpt2,… tn})。因为对病情描述的词汇进行了全部可能提取,所以的匹配需要与MO数据库中的terms 词汇进行精确匹配(一个特征词汇Si的一部分或全部完全匹配数据库中的某个term对应 的词汇组T中的一个完整词汇)。
[0042] 第二步:对于该病情描述得到的terms标号集合,计算病友对应的MOterms集合 所患疾病的概率。每个症状的MOterm&都可以通过一条有向路回溯到上层的疾病对应的 terms集合(运用广度优先搜索方法),并且记下离对应疾病term最近的有向边的权重w。 这样每个症状&就对应疾病term集合{dud2,…,dt}和对应的权重{wn,wi2,….,wit}。
[0043] 这样,每个疾病Wpd2,…,dt}也都得到了对应病情描述病症term集合 {?" 七2,· ·ti···}
[0044] 和边权重集合Wj={w$w2j,…,Wij,…},然后计算得该疾病的概率
[0045]

【权利要求】
1. 一种基于医学信息数据库的疾病自我分析方法,其特征在于,包括如下步骤: (1) 建立医学信息本体(Medical Ontology)数据库,即M0数据库; (2) 根据病情描述,提取特征词汇; (3) 根据特征词汇在M0数据库中搜索并进行匹配; (4) 根据匹配得到的terms标号集合,计算病友对应的MO terms集合所患疾病的概率。
2. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法,其特征在 于,所述步骤(1)中,创建M0数据库的方法为: a. 将疾病及其特征用MO terms进行编号,每个MO terms代表一个顶点,两个terms之 间的关系用有向边表示,这样将疾病和病征表示在一个有向无环图中; b. 顶点之间的关联分成两种类型:is_a关系和part_of关系;is_a*系是一种简单 的包含关系;part_of关系表示一部分的包含关系,一种疾病往往有多种病征表现,病征和 疾病之间是part_of的关系,疾病和疾病之间是is_a的关系,病征和病征之间是is_a的关 系; c. 对于任两个terms之间的有向边,若是part_of的关系,则赋予权重;权重用关联概 率d表示;将父term与之关联的子terms之间进行关联度d分配(0〈d〈 = 1);其中关联度 d(terml, term2)表示父病征terml出现term2子病征的概率; d. 对于任两个terms之间的有向边,若是is_a的关系,则赋予权重;权重用关联百 分比表示;父term与子terms之间的关联百分比用该子term在父term所关联的所有子 terms中出现比率,所述子terms的关联百分比之和为1。
3. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法,其特征在 于,所述步骤(2)中特征词汇的提取方法为: (2. 1)将表示程度和是否的词汇一起提取。将频率词汇去除; (2. 2)根据标点符号将病情描述的长字符串拆分成很多短字符串,对每个短字符串按 照2?4的长度依次进行遍历截取。
4. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法,其特征在 于,所述步骤(3)中采用分治算法技术,对每个疾病下的症状进行并行计算处理。
5. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法,其特征在 于,所述步骤(3)中所述的匹配,需要特征词汇与M0数据库中的terms词汇进行精确匹配。
6. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法,其特征在 于,所述步骤(4)中所述的计算概率,运用广度优先搜索方法,得到对应病情描述病症term 集合{ti, t2, . . V" }和边权重集合Wj= {w ij, w2j,…,Wij,…},然后计算得该疾病的概率。
7. 根据权利要求1所述的一种基于医学信息数据库的疾病自我分析方法,其特征在 于,所述步骤(4)中根据概率大小排序,可以判断所患疾病的概率。然后按照概率大小,推 荐相应的科室和医生。
【文档编号】G06F17/30GK104484845SQ201410848794
【公开日】2015年4月1日 申请日期:2014年12月30日 优先权日:2014年12月30日
【发明者】赵欣, 张少强 申请人:天津迈沃医药技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1