一种基于时间线的病历文本医学知识发现方法与流程

文档序号：12786693阅读：来源：国知局

技术特征：

1.一种基于时间线的病历文本医学知识发现方法，其特征包括以下步骤：

(1)构建病历样本库，用于存储电子病历中原始病历文本、词性标记后的文本、时间信息标记后的文本和知识发现后的文本，以XML格式存储；

(2)构建病历时间文本规则库，描述时间信息的使用正则表达式进行描述；

(3)构建相关医学知识库，本方法包括疾病知识、药品知识和药品不良反应库三种库；

(4)对病历样本库中的病历文本按句式进行拆分；其中，一个句子根据逗号拆分成若干个文本块。

(5)使用语义分析工具对拆分后的文本块进行分词和词性标注；

(6)词性标注后的各个词语进行时间规则的匹配，找出时间名词，存储时间名词；

(7)根据时间信息的先后，从句子的层次重新对文本的句子进行排序，构建基于时间线的XML文本结构；对于模糊的时间文本，进行确定时间的修正。

(8)依据医学知识库，从已经标注词性的文本中进行二次标注，将其中的药品、疾病知识和不良反应进一步标注出来；

(9)从文本块中取连续两个词、三个词或n个词，提取中其中的生理指标和事件信息。

2.根据权利要求(1)所述的构建医学知识库，疾病知识库采用基于ICD-10编码的国际疾病分类库，结合了每种疾病对应的详细信息。药品知识库包含西药、中成药和中草药三类信息。药品不良反应库采用《WHO药品不良反应术语集》。

3.根据权利要求(1)所述采用的语义分析工具是Stanford Natural Language Processing语义分析工具包进行实现，先进行中文分词，然后利用语义分析工具对其中词语进行词性标注。

4.根据权利要求(1)所述的步骤(6)使用的时间规则，包括计算具有年月日的绝对时间，如“2016年1月1日”，也包括识别如“几天后”的相对模糊的时间信息，根据最近的时间点，计算出该模糊时间的绝对时间。

5.根据权利要求(1)所述的步骤(8)中第一次标注的形式如(W,T)，其中W表示词语，T表示W的词性。第二次使用医学知识库记性标注，采用(W，T，C)表达，其中，C表示与医学知识库的关联关系，表示该词属于哪个词库，哪种信息(疾病、不良反应、药品)。

6.根据权利要求(1)所述的步骤(9)，在提取步骤(8)的内容后，对每一个文本块中的词语两两相近选择来匹配，进行文本规则挖掘，其中具体包括以下步骤：

(91)按两个相邻词(键，值)来匹配，匹配Key-Value的键值对文本。

(92)按照三个相邻词，匹配(时间、事件、描述)来寻找患者医学事件。

完整全部详细技术资料下载

当前第2页1 2 3