一种电子病历文本结构化方法

文档序号:10725038阅读:402来源:国知局
一种电子病历文本结构化方法
【专利摘要】本发明公开了一种电子病历文本结构化方法,包括以下步骤:S1、载入医学知识库;S2、读入电子病历文本;S3、利用正向最大匹配算法对短句进行分词,获取句子中的词语及其词性、相对位置关系;S4、判断短句中对疾病信息描述的语义正反;S5、提取疾病信息元素;S6、重复步骤S2至S5,直至获得电子病历中的全部感兴趣内容;S7、合并疾病信息元素的不同表达,根据医学同义词词库,将相同的疾病信息合并,去除冗余信息;S8、将疾病描述信息的元素以结构体/类的形式存储,完成结构化过程,能有效的从病历的描述性文本中提取疾病的相关信息,形成对疾病信息的结构化表达,从而对疾病的发病规律、确诊方式、治疗效果等进行深层探索。
【专利说明】
一种电子病历文本结构化方法
技术领域
[0001]本发明涉及一种自然语言文本结构化方法,尤其涉及一种电子病历文本结构化方法。
【背景技术】
[0002]电子病历是记录患者进入医院后进行诊断、治疗全过程的电子文档。医生在进行电子病历录入的时候,相关字段会存储到关系型数据库对应内的字段内;患者在进行电子病历打印时,再从数据库内调取所需字段,以一定的文档版式展现出来。
[0003]当前流行病学、巡诊医学的发展要求医学工作者不仅能够为患者提供有效的治疗,还需要对临床治疗、临床实验进行经验总结、规律探索。这就要求对电子病历进行深入的数据挖掘,从而发现疾病的新趋势、新疗法。
[0004]电子病历关系型数据库中除了年龄、性别等常见的结构化信息外,还存储有大量的描述性语句。这类语句通常作为一个单元直接存储在数据库内。例如:“病情摘要:患者老年女性,病史较长;反复右上腹痛30余年,伴腰背部痛,恶心呕吐及低热;既往曾有“高血压病、冠心病”病史;”。类似的描述性语句往往包含病人的既往史、入院时状态、确诊方式、治疗过程等记录,蕴含了大量的临床信息。充分挖掘这些描述性语句中对疾病症状、既往史等方面的信息,并以统计报表的形式呈现给医学研究人员,是探索疾病发病规律的一种重要方式。
[0005]由于信息的统计实质上是同性质数据的比较,因此国内外一致认为,对电子病历结构化是进行疾病信息统计规律探索的基础。当前,电子病历结构化存在两种思路:
[0006]1.病历的结构化录入
[0007]医生在进行电子病历录入时,病历录入系统会提供相应的病历录入模板,模板的关键字段会存储到关系型数据库对应内的字段内。对于医生的大段描述性语句或对病历的额外标注,一般会作为一个整体存储在数据库结构单元内。病历结构化录入后,患者可以将电子病历打印出来。这个过程系统需要从数据库内调取所需字段,并以一定的文档版式输出。
[0008]这种思路对于病历的规范录入具有显著的作用,通过提供结构化录入模板,让医生快速、准确的对病人的诊断治疗过程进行记录。这种思路的主要缺点在于,过密集的结构化录入节点会导致医生的使用体验急剧下降,而过稀疏的结构化录入节点则导致疾病描述信息结构化不彻底。
[0009]2.病历的后结构化
[0010]病历的结构化录入过程导致我们无法从病历数据库获取到完整的疾病信息,这就需要对病历数据库中的描述性语句进行结构化解析。国内外对此问题的研究均基于自然语言的处理方法,通过采用类似于日常自然语言处理的方法,提取疾病的描述信息。不同的是针对不同种类的语言采用不同的语言处理方式,针对医学术语采用不同的处理策略。
[0011]这种思路在无法访问病历数据库,或无法通过病历数据库获得完整疾病信息时具有极大价值,为挖掘病历数据所反映的临床信息提供了可靠的技术支撑。
[0012]当前,病历的结构化录入工作已较成熟,各大医疗软件公司已推出相关产品;由于自然语言表达方式的复杂性及医学术语的专业性,病历的后结构化工作存在任务量大、难度高的特点,国内相关研究开展较为迟滞,该发明对病历数据的深度挖掘具有重大推动作用。

【发明内容】

[0013]为解决【背景技术】中存在的技术问题,本发明提出一种电子病历文本结构化方法,该方法能有效的从病历的描述性文本中提取疾病的相关信息,形成对疾病信息的结构化表达,从而对疾病的发病规律、确诊方式、治疗效果等进行深层探索,包括以下步骤:
[0014]S1、载入医学知识库;
[0015]S2、读入电子病历文本,并依据医生病历书写的标点习惯进行断句,将病历文本划分为一系列短句;
[0016]S3、利用正向最大匹配算法对短句进行分词,获取句子中的词语及其词性、相对位置关系;
[0017]S4、判断短句中对疾病信息描述的语义正反:当短句中存在否定性修饰词且不存在否定性医学专业术语时,认为对疾病信息单元的描述是否定的;其他情况下,认为短句对疾病信息单元的描述是肯定的;
[0018]S5、提取疾病信息元素:根据短句分词的词性标注结果及正反语义判断,提取疾病的信息元素,否定性术语词汇作为一个整体进行提取;
[0019]S6、重复步骤S2至S5,直至获得电子病历中的全部感兴趣内容;
[0020]S7、合并疾病信息元素的不同表达,根据医学同义词词库,将相同的疾病信息合并,去除冗余?目息;
[0021]S8、将疾病描述信息的元素以结构体/类的形式存储,完成结构化过程。
[0022]优选的,所述步骤SI包括如下四个部分:
[0023](I)载入医学专业词库,该词库可由手工或算法整理得到,其中记录了大量医学专业术语及术语对应的词性及在病历中出现的词频;
[0024](2)载入医学同义词词库,该词库可由手工或算法整理得到,其中记录了包括大量医学专业术语的不同表述;
[0025](3)载入否定性专业术语词库,该词库可由手工或算法整理得到,其中记录了大量否定性专业术语及其词性标注;
[0026](4)载入否定性修饰词词库,该词库可由手工或算法整理得到,其中记录了大量否定性修饰词。
[0027]本发明提出的一种电子病历文本结构化方法,该方法能有效的从病历的描述性文本中提取疾病的相关信息,形成对疾病信息的结构化表达,从而对疾病的发病规律、确诊方式、治疗效果等进行深层探索。
【附图说明】
[0028]图1为本发明电子病历文本结构化方法流程图;
[0029]图2为本发明病历文本分词结果示例图;
[0030]图3为本发明病历文本结构化完成之后的疾病信息结构体示例图。
[0031 ]图4为本发明病历结构化及信息统计过程示意图。
【具体实施方式】
[0032]下面,通过具体实施例对本发明的技术方案进行详细说明。
[0033]实施例:
[0034]参照图1至图4,本发明为实现电子病历文本结构化,可采用如下的实现步骤:
[0035]收集整理医学知识库
[0036]医学知识库包含以下内容:
[0037]1.医学专业词库
[0038]该词库可由手工或算法整理得到,其中记录了大量医学专业术语及术语对应的词性及在病历中出现的词频。例如:“头晕zz 2000”。其中,“头晕”是一个医学术语,“zz”是该词的词性标注,表示“头晕”这个词描述的是症状,“2000”表示该词的词频。
[0039]2.医学同义词词库
[0040]该词库可由手工或算法整理得到,其中记录了包括大量医学专业术语的不同表述。例如:“I型糖尿病I型糖尿病”,“非胰岛素依耐性糖尿病“非胰岛素依耐型糖尿病”
[0041]3.否定性专业术语词库
[0042]该词库可由手工或算法整理得到,其中记录了大量否定性专业术语及其词性标注。例如:“无明显诱因fS_fx”,“不完全性肠梗阻fs_jb”、“无痛性甲状腺炎fs_jb”、“先天性卵圆孔未闭f S_ jb”等O
[0043]4.否定性修饰词词库
[0044]该词库可由手工或算法整理得到,其中记录了大量否定性修饰词。例如:“不存在FD”,“未闻及FD”,“否认FD”,“无FD”
[0045]以上词库可通过文本形式按指定格式保存,供实现电子病历文本结构化算法时载入调用。
[0046]实现电子病历文本结构化算法
[0047]依据前期准备的医学知识库,可采用下述流程实现电子病历文本结构化算法(算法流程参考图1):
[0048]1.载入医学知识库
[0049]分别载入医学专业词库、医学同义词词库、否定性专业术语词库及否定性修饰词词库。
[0050]2.读入电子病历文本
[0051]读病历文本,并依据医生病历书写的标点习惯进行断句(一般是句号、逗号、冒号和分号),将病历文本划分为一系列短句,顺序保存到内存中;
[0052]3.短句分词
[0053]利用正向最大匹配算法对短句进行逐句分词,划分句子中的词语及其对应词性。分词前后示例可参考图2。
[0054]4.判断语义正反
[0055]利用分词结果及词语间的相对位置关系,判断短句中对疾病信息描述的语义正反。判断语义正反的依据:当短句中存在否定性修饰词且不存在否定性医学专业术语时,认为对疾病信息单元的描述是否定的;其他情况下,认为短句对疾病信息单元的描述是肯定的。
[0056]5.提取疾病信息元素
[0057]根据短句分词的词性标注结果及正反语义判断,提取疾病的信息元素。将肯定信息元素与否定信息元素分开存储。其中,否定性术语词汇作为一个整体进行提取。至此,完成一个病历文本短句的信息元素提取。
[0058]6.重复2?5直至获得电子病历中的全部感兴趣内容
[0059]7.合并疾病信息元素的不同表达
[0060]根据医学同义词词库,将相同的疾病信息合并,去除冗余信息。至此,完成当前病历文本的结构化操作,结构化表达的病历数据逻辑结构示意图如图3所示。
[0061 ] 8.病历结构化信息存储
[0062]将疾病描述信息的元素以结构体/类的形式存储,完成结构化过程。由于病历结构化结果为一个结构化对象,常规关系型数据库不便对类似结构的信息进行存储、查询等操作。实现时可采用对象型数据库如MongoDB或Hbase进行病历结构化结果的存储,实现数据的持久化。
[0063]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【主权项】
1.一种电子病历文本结构化方法,其特征在于,包括以下步骤: 51、载入医学知识库; 52、读入电子病历文本,并依据医生病历书写的标点习惯进行断句,将病历文本划分为一系列短句; 53、利用正向最大匹配算法对短句进行分词,获取句子中的词语及其词性、相对位置关系; 54、判断短句中对疾病信息描述的语义正反:当短句中存在否定性修饰词且不存在否定性医学专业术语时,认为对疾病信息单元的描述是否定的;其他情况下,认为短句对疾病信息单元的描述是肯定的; 55、提取疾病信息元素:根据短句分词的词性标注结果及正反语义判断,提取疾病的信息元素,否定性术语词汇作为一个整体进行提取; 56、重复步骤S2至S5,直至获得电子病历中的全部感兴趣内容; 57、合并疾病信息元素的不同表达,根据医学同义词词库,将相同的疾病信息合并,去除冗余信息; 58、将疾病描述信息的元素以结构体/类的形式存储,完成结构化过程。2.如权利要求1所述的一种电子病历文本结构化方法,其特征在于,所述步骤SI包括如下四个部分: (1)载入医学专业词库,该词库可由手工或算法整理得到,其中记录了大量医学专业术语及术语对应的词性及在病历中出现的词频; (2)载入医学同义词词库,该词库可由手工或算法整理得到,其中记录了包括大量医学专业术语的不同表述; (3)载入否定性专业术语词库,该词库可由手工或算法整理得到,其中记录了大量否定性专业术语及其词性标注; (4)载入否定性修饰词词库,该词库可由手工或算法整理得到,其中记录了大量否定性修饰词。
【文档编号】G06F17/27GK106095913SQ201610405133
【公开日】2016年11月9日
【申请日】2016年6月8日
【发明人】冯前进, 蒋君, 庞树茂
【申请人】广州同构医疗科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1