一种电子病历查询语句的构造方法

文档序号:6623222阅读:442来源:国知局
一种电子病历查询语句的构造方法
【专利摘要】本发明公开了一种电子病历查询语句的构造方法,该方法包括电子病历语料预处理,医学术语抽取及筛选,医学术语权重计算,新查询语句构造四步骤;其中:电子病历语料预处理包括分词、词频统计、概率分布参数计算;医学术语抽取及筛选包括分词、医学术语抽取及去掉医学停用词;医学术语权重计算包括泊松分布拟合词分布、医学术语出现概率计算及医学术语自信息计算;新查询构造是将得到的带权重医学术语与原始查询语句,通过线性平滑参数结合,得到新查询语句。本发明应用到一个新的病历集合上,就可以在该病历集合上进行更加有效的查询,提高了电子病历检索的准确度。
【专利说明】-种电子病历查询语句的构造方法

【技术领域】
[0001] 本发明涉及信息检索、查询扩展、查询词加权、自然语言处理等【技术领域】,具体地 说是一种利用自信息来度量查询词权重,根据输入的原始查询语句,重新构造带权重的查 询语句的方法,用来提高电子病历检索的准确率和召回率。

【背景技术】
[0002] 随着医疗系统的信息化,电子病历(electronic medical records,简称EMR)被 广泛使用,正在以前所未有的速度增长。病历一般包括病人的临床诊断,以往病史,检查报 告,治疗药物等丰富的信息。把这些信息检索出来,进行统计分析,有利于临床医学研究,可 以更好地诊断、预防和治疗人类的疾病。显然,使用人工的方法处理这些信息是一件不可能 的任务。因此,电子病历检索给信息检索带来了新的挑战。
[0003] 电子病历的检索,更多的是涉及这样的查询:查询的目标是一个病人群体,附带的 查询条件是,这些病人患有的病,使用过的药物,进行过的检查,目前的康复情况等等。病 名,治疗药物,检查项目等,都是专门的医学术语。针对这样的查询语句,有必要提出一种新 的查询词权重设置方法。


【发明内容】

[0004] 本发明的目的是针对现有技术的不足而提供的一种电子病历查询语句的构造方 法,该方法利用医学术语抽取方法得到查询语句中的医学术语;随后通过分析整个电子病 历集合中这些医学术语的概率分布来得到医学术语的自信息;最后加入平滑参数构造了新 的带权重的查询语句。
[0005] 本发明的目的是这样实现的: 一种电子病历查询语句的构造方法,该方法包括以下具体步骤: a) 、电子病历语料预处理 对电子病历语料文本进行分词,去掉停用词之后,得到所有语料中出现的词;利用公式 (1)计算每个词t在每篇病历中的平均出现次数;

【权利要求】
1. 一种电子病历查询语句的构造方法,其特征在于该方法包括以下具体步骤: a) 、电子病历语料预处理 对电子病历语料文本进行分词,去掉停用词之后,得到语料中出现的所有词;利用公式 (1)计算每个词t在每篇病历中的平均出现次数;
其中,X表示词t的平均出现次数,n表示电子病历语料集合的大小,表示词t在第 i篇病历中出现的次数;通过计算得到每个词t对应的1 ; b) 、医学术语抽取及筛选 首先,抽取原始查询语句中出现的医学术语;再在抽取出的医学术语中去掉医学停用 词,剩下的医学术语的集合记为
,其中表示第i个医 学术语,每个医学术语有可能由多个词组成; c) 、医学术语权重计算 计算每个医学术语<$的权重Wt ,具体包括: i)、计算组成医学术语的词的出现概率P(X);使用泊松分布来拟合词t的概率分布; 那么使用公式(2)来计算;
其中,T表示词t的出现次数,1表示词t的平均出现次数,e表示自然常数; ii)、计算医学术语|^在电子病历语料中出现的概率pfPj;医学术语中每个词的 出现是相互独立事件使用公式(3)计算;
iii)、计算每个医学术语的权重,使用自信息的定义,即公式(4)计算;
d)、新查询语句构造 使用原始查询语句、¢1,,,.,?以及对应的Wi,W2,Wft构造新的查询语 句,具体包括: i )、对于原始查询语句,组成原始查询语句的词之间的权重平均分配,得到查询子句 1 ; ii )、对于医学术语内部,医学术语中每个词的权重平均分配; iii) 、对于医学术语之间,每个医学术语分配到的权重是
,得到查询 子句2 ; iv)、将查询子句1和查询子句2,按照[I: (1一的比例分配权重,得到新查询语 句,其中[1的取值范围是[〇,1]。
【文档编号】G06Q50/24GK104268144SQ201410394537
【公开日】2015年1月7日 申请日期:2014年8月12日 优先权日:2014年8月12日
【发明者】王文斌, 顾君忠 申请人:华东师范大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1