一种基于时间线的病历文本医学知识发现方法与流程

文档序号:12786693阅读:来源:国知局

技术特征:

1.一种基于时间线的病历文本医学知识发现方法,其特征包括以下步骤:

(1)构建病历样本库,用于存储电子病历中原始病历文本、词性标记后的文本、时间信息标记后的文本和知识发现后的文本,以XML格式存储;

(2)构建病历时间文本规则库,描述时间信息的使用正则表达式进行描述;

(3)构建相关医学知识库,本方法包括疾病知识、药品知识和药品不良反应库三种库;

(4)对病历样本库中的病历文本按句式进行拆分;其中,一个句子根据逗号拆分成若干个文本块。

(5)使用语义分析工具对拆分后的文本块进行分词和词性标注;

(6)词性标注后的各个词语进行时间规则的匹配,找出时间名词,存储时间名词;

(7)根据时间信息的先后,从句子的层次重新对文本的句子进行排序,构建基于时间线的XML文本结构;对于模糊的时间文本,进行确定时间的修正。

(8)依据医学知识库,从已经标注词性的文本中进行二次标注,将其中的药品、疾病知识和不良反应进一步标注出来;

(9)从文本块中取连续两个词、三个词或n个词,提取中其中的生理指标和事件信息。

2.根据权利要求(1)所述的构建医学知识库,疾病知识库采用基于ICD-10编码的国际疾病分类库,结合了每种疾病对应的详细信息。药品知识库包含西药、中成药和中草药三类信息。药品不良反应库采用《WHO药品不良反应术语集》。

3.根据权利要求(1)所述采用的语义分析工具是Stanford Natural Language Processing语义分析工具包进行实现,先进行中文分词,然后利用语义分析工具对其中词语进行词性标注。

4.根据权利要求(1)所述的步骤(6)使用的时间规则,包括计算具有年月日的绝对时间,如“2016年1月1日”,也包括识别如“几天后”的相对模糊的时间信息,根据最近的时间点,计算出该模糊时间的绝对时间。

5.根据权利要求(1)所述的步骤(8)中第一次标注的形式如(W,T),其中W表示词语,T表示W的词性。第二次使用医学知识库记性标注,采用(W,T,C)表达,其中,C表示与医学知识库的关联关系,表示该词属于哪个词库,哪种信息(疾病、不良反应、药品)。

6.根据权利要求(1)所述的步骤(9),在提取步骤(8)的内容后,对每一个文本块中的词语两两相近选择来匹配,进行文本规则挖掘,其中具体包括以下步骤:

(91)按两个相邻词(键,值)来匹配,匹配Key-Value的键值对文本。

(92)按照三个相邻词,匹配(时间、事件、描述)来寻找患者医学事件。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1