一种语素级临床汉语言解析的方法

文档序号:6426518阅读:210来源:国知局
专利名称:一种语素级临床汉语言解析的方法
技术领域
本发明涉及一种汉语言解析的方法,尤其涉及一种应用于电子病历的语素级临床汉语言解析的方法。
背景技术
电子病历文书的编辑是电子病历的重要内容。很多对电子病历软件的宣传时,重点在描述一个好的病历编辑器。如何输入,如何结构化,如何适应不同的格式,如何进行数据的存储等。把结构化作为电子病历的一个主要特点和要求。然而,目前电子病历的一个弊病就是结构化成本很高,以至于在实际应用中声称结构化的电子病历,多数并没有真正结构化。非结构化的电子病历弊病非常明显,但结构化成本太高,效果差的问题很少有人提起。比如点选模式的电子病历,需要书写“无明显诱因,饮酒后,受凉后,劳累时……”,医生需要进行多次选择并确认。这种方式存在的问题很明显,严重干扰医生思维,书写这样一份结构化的病历花费的时间太长,浪费最昂贵的医疗资源——医生的时间;以至于很多医务人员弃之不用。而且更重要的是,这种选择性输入的电子病历,并不能真正保证结构化, 因为这种方法,不能达到语义或素级的结构化水平,不能很好满足电子病历智能化的需求。对于电子病历是否结构化、如何结构化,解决之道各有不同。在美国和英国,因为结构化成本太高,解决之道是通过便宜的资源(转录员)代替医生录入病历;在法国,干脆就规定少写病历;在我国,基本上是采用成本最高的选择性输入方法,来解决电子病历结构化的问题。电子病历的结构化是智能化的基础。只有实现了电子病历的真正结构化,才能实现电子病历的智能化。如何解决这个难题。是否能考虑医生用自然语言输入电子病历,把复杂的结构化过程交给计算机完成,通过计算机的语义或素级解析实现电子病历的结构化、 智能化。这是很多人都在思考或研究的问题。但这种方法的难度太大。因为语言的灵活、 多变,给语义或素的解析造成了巨大障碍。我国的汉语言的多样性和灵活性更在其它语言之上。与英语等西方言的以词组句不同,汉语言是以字组词、句,更为复杂,更难实现汉语言计算机语义或素级的解析。对于汉语言的解析研究和计算机软件开发,国内比较多。但是该软件实际上只有对词法的解析(动词,名词等)方面比较成熟。由于侧重点不同,该软件对词法的解析中, 并未对词的具体逻辑含义进行解析。而语义或语素的解析算法更加复杂,还未真正实现。

发明内容
针对上述现有技术,本发明要解决的技术问题是提供一种应用于电子病历中的语素级临床汉语言解析的方法。为了解决上述技术问题,本发明采用如下技术方案一种语素级临床汉语言解析的方法,包括以下步骤
(1)分句分节将语言文本按语言规范,利用文字中分句级的符号和分节级的符号将语言文本分成若干句和节;(2)处理引号内文字将语言文本中引号内的文字进行标记,标记其不可分割性;(3)匹配词条将词库中的词条和语言文本中的内容进行匹配,获得各词条;(4)处理部位前后缀对语言文本中部位性的词条再获得前后缀;(5)处理时间将语言文本中未匹配上的文字进行时间格式相似运算,获得文字中的时间;(6)叠代匹配语言组成结构根据语言的组成匹配出多个组合的语言,并用组合好的语言集合再作为一个整体向上进行递归叠代匹配;(7)精简语言将以上运算未处理的文字或叠代失败的文字作为描述性语言进行删除或合并。作为优选,所述分句级的符号包括句号、分号,分节级的符号为逗号。作为优选,所述部位性词条的前后缀包括上、下、左、右、双。作为优选,所述语言组成结构包括部位+症状的结构。与现有技术相比,本发明具有以下优点通过对临床汉语言的语素级解析方法的研究,并应用于电子病历系统,能够对汉语言电子病历进行后台语素级的解析,随电子病历一起保存,实现电子病历的结构化,为实现电子病历的智能化利用奠定基础。


图1为本发明的执行流程图。
具体实施例方式下面将结合附图及实施例对本发明作进一步的描述。参见图1,一种语素级临床汉语言解析的方法,包括以下步骤(1)分句分节将语言文本按语言规范,利用文字中的句号、分号等分句级的符号和逗号等分节级的符号将语言文本分成若干句和节;(2)处理引号内文字将语言文本中引号内的文字进行标记,标记其不可分割性;(3)匹配词条将词库中的词条和语言文本中的内容进行匹配,获得各词条;(4)处理部位前后缀对语言文本中部位性的词条再获得前后缀,如上、下、左、 右、双等;(5)处理时间将语言文本中未匹配上的文字进行时间格式相似运算,获得文字中的时间;(6)叠代匹配语言组成结构根据语言的组成匹配出多个组合的语言,并用组合好的语言集合再作为一个整体向上进行递归叠代匹配,所述语言组成结构包括部位+症状的结构,如肢体活动不能;(7)精简语言将以上运算未处理的文字或叠代失败的文字作为描述性语言进行删除或合并。输入范例,语言文本“入院前2小时于晨起穿衣时突然出现左侧肢体活动不能, 无法自行穿衣,言语欠清晰,无头昏、头痛,经头颅CT 颅内未见明显异常。”
首先说明输出结果中节点的语言类型分句(Cl),分节(C2),时间(SJ),部位 (Bff),症状(含体征)(ZZ),否定症状(NZZ),实验室结果指标(ZB),检查征象(ZX),量度 (LD),检查(JC),属性(SX),描述性语言(MS),标准时间段(SJ. 5),部位内容(BW. 1),否定症状内容(NZZ. 1);解析过程中XML节点属性说明如下=Dicbm 语素唯一码;OriText 标准同近义词;解析过程中出现的名称以EJ开始的节点是中间节点,是一个计算过程用到的节点ο1.先划分出句和节,分句分节和处理引号内文字后结果(Cl 分句;C2 分节)
<C1>入院前2小时于晨起穿衣时突然出现左侧肢体活动不能,无法自行穿衣,言语欠清晰,无头昏、头痛,经头颅CT:颅内未见明显异常。<C2〉入院前 2小时于晨起穿衣时突然出现左侧肢体活动不能,〈MS>入院前2小时于晨起穿衣时突然出现左侧肢体活动不能,</MS> </C2>
<C2>无法自行穿衣,〈MS>无法自行穿衣,</MS> </C2>
<C2>言语欠清晰,<MS>言语欠清晰,〈/MS> </C2>
<C2>无头昏、头痛,<MS>无头昏、头痛,</MS> </C2>
<C2>经头颅CT:颅内未见明显异常。<MS>经头颅CT:颅内未见明显异
常。〈/MS>
</C2> </Cl>2.匹配词条后结果<C1>入院前2小时于晨起穿衣时突然出现左侧肢体活动不能,无法自行穿衣,言语欠清晰,无头昏、头痛,经头颅CT:颅内未见明显异常。<C2>入院前2 小时于晨起穿衣时突然出现左侧肢体活动不能,<MS>入院前2小时于晨起穿衣时突然出现</MS>
<EJ09 Dicbm=〃09000018〃>左侧</EJ09> <BW Dicbm="BW100136〃>肢体</BW> <ZZ Dicbm=〃ZZ025216〃>活动不能</ZZ> <MS>, </MS> </C2>
<C2>无法自行穿衣,<MS〉无法自行穿衣,</MS> </C2>
<C2>言语欠清晰,<ZZ Dicbm=〃ZZ025227〃 OriText="言语欠清〃〉语言
不清</ZZ>
〈MS>晰,</MS> </C2>
<C2>无头昏、头痛,<MS>无</MS> <ZZ Dicbm=1Z001037">头昏</ZZ> <MS>、 </MS>
<ZZ Dicbm="ZZ001027〃>头痛</ZZ> <MS>, </MS> </C2><C2>经头颅CT:颅内未见明显异常。<MS>经</MS> <BW Dicbm=〃BW020003〃>头颅</BW> <JC Dicbm="JC000207">CT</JC> <MS>颅</MS>
<EJ09 Dicbm二〃09000032〃〉内</EJ09> <MS> 未见 </MS>
<EJ05 Dicbm=〃05111019〃〉明显</EJ05> <ZZ Dicbm=〃ZZ0SB008〃>异常</ZZ> <MS>o </MS> </C2> </Cl>3.叠代匹配语言组成结构后结果
<C1 C1ID="1">入院前2小时于晨起穿衣时突然出现左侧肢体活动不能, 无法自行穿衣,言语欠清晰,无头昏、头痛,经头颅CT:颅内未见明显异常。 <EJ09/>
<ZZ>
<11. 1> 活动不能 </ZZ. 1>
<SJ TYPE="1〃>入院前 2 小时<SJ. 5>0. 120</SJ. 5>
</SJ>
<BW>
<BW. 1 Fix=〃左侧〃〉肢体</BW. 1> </BW></zz>
<ZZ OriText="言语欠清〃〉 <11. 1> 语言不清 </ZZ. 1> </ZZ> <NZZ>
<NZZ. 1>头昏</NZZ. 1> <NZZ. 1> 头痛 </NZZ. 1> </NZZ> <JC>
<JC. 1>CT〈/JC. 1> <NZZ>
<NZZ. 1> 异常〈/NZZ. 1> <BW>
<BW. 1> 头颅 </BW. 1> <SX>
<N05> 明显 </N05> </SX> </BW> </NZZ> </JC> </Cl> 从以上解析出来的结构可见,除包括“头痛”、“头昏”等语素外,“入院前2小时”、 “左侧肢体”等类似的语言也被语素化了。形成了语素级解析的结构化电子病历。如果要通过点选模式输入,达到这样的解析程度,是难以实现的。
语素级临床汉语言解析方法构成的语素级临床汉语言解析引擎,也考虑到对各种语言的适应性。在解析算法上只需要做词库扩展和语言算法逻辑重组(不需要修改核心算法,不修改引擎代码),就可以解析表意文字。对核心算法进行部分修改,则可以解析拼音文字(藏文,蒙文,英文等)。从这种意义上讲,语素级临床汉语言解析引擎是解决电子病历结构化和智能化具有革命性意义的解决方案。根据分词引擎介绍的国际惯例,语素级临床汉语言解析引擎的关键技术指标如下指标一每秒钟10000个汉字解析速度(特别的技术保证词库膨胀20倍,速度为每秒钟5000个汉字速度,完全可以满足实时输入处理);指标二 96%以上有效语素的匹配度;指标三98. 5%以上有效语素的匹配正确性。将语素级临床汉语言解析引擎嵌入电子病历中。可以对入院记录,病程记录,会诊文书,死亡文书,检查报告等各方面文档进行解析,为医生提供更加精、准的语素级病历检索。医生可以检索咳嗽大于5年并且没有咳痰的病人,甚至可以检索咳粉红色痰的病人。 可以实现对电子病历更加准确的病历质量监控管理,实现带逻辑分析功能的病历质量控制管理,严格区别有无某症状的逻辑。例如,可以分析出男病人的电子病历中有痛经这样逻辑错误。由于该引擎在设计上具有独立性,可以不依赖数据库运行,嵌入模式上可以只是一个 COM或是一个TOB服务。在有条件的医院(可联入互联网),还可以提供云服务,时刻保持最新的引擎版本和词库,实现^aS云服务。对于保存了的数据的电子病历,该云服务中还可以提供语素级的检索和科研统计分析功能等等,进行电子病历数据的深入挖掘。由于语素级临床汉语言解析引擎有后台结构化的巨大优势,还可以将过去的WORD文档、TXT文档病历处理成为结构化的病历;把大量的纸质病历扫描识别为电子文档后,处理成为结构化的病历。为病历资料增加巨大的财富。在语素级临床汉语言解析引擎技术支撑下,还可以进行以下研究新药新疗法疗效分析,各种专病专家系统,全方位的疾病对比分析(同病对比等),智能化的病情变化的分析,疾病分析(不同年龄,不同时期症状等),电子病历科研辅助支持分析等高端电子病历应用,将复杂的工作交给计算机,将医生还给病人。
权利要求
1.一种语素级临床汉语言解析的方法,其特征在于,包括以下步骤(1)分句分节将语言文本按语言规范,利用文字中分句级的符号和分节级的符号将语言文本分成若干句和节;(2)处理引号内文字将语言文本中引号内的文字进行标记,标记其不可分割性;(3)匹配词条将词库中的词条和语言文本中的内容进行匹配,获得各词条;(4)处理部位前后缀对语言文本中部位性的词条再获得前后缀;(5)处理时间将语言文本中未匹配上的文字进行时间格式相似运算,获得文字中的时间;(6)叠代匹配语言组成结构根据语言的组成匹配出多个组合的语言,并用组合好的语言集合再作为一个整体向上进行递归叠代匹配;(7)精简语言将以上运算未处理的文字或叠代失败的文字作为描述性语言进行删除或合并。
2.根据权利要求1所述的一种语素级临床汉语言解析的方法,其特征在于所述分句级的符号包括句号、分号,分节级的符号为逗号。
3.根据权利要求1所述的一种语素级临床汉语言解析的方法,其特征在于所述部位性词条的前后缀包括上、下、左、右、双。
4.根据权利要求1所述的一种语素级临床汉语言解析的方法,其特征在于所述语言组成结构包括部位+症状的结构。
全文摘要
本发明公开了一种语素级临床汉语言解析的方法,包括步骤1、将输入的语言文本分句分节;2、将语言文本中引号内的文字进行标记,标记其不可分割性;3、将词库中词条和语言文本中的内容进行匹配,获得各词条;4、对部位性词条再获得前后缀;5、将未匹配上的文字进行时间格式相似运算,获得文字中时间;6、根据语言组成匹配出多个组合的语言,并用组合好的语言集合再作为一个整体向上进行递归叠代匹配;7、将以上运算未处理的文字或叠代失败的文字作为描述性语言进行删除或合并。将临床汉语言的语素级解析方法应用于电子病历系统,能够对汉语言电子病历进行后台语素级的解析,实现电子病历的结构化,为实现电子病历的智能化利用奠定基础。
文档编号G06F17/27GK102184170SQ20111016350
公开日2011年9月14日 申请日期2011年6月17日 优先权日2011年6月17日
发明者廖定鑫, 廖邦富, 胡安邦 申请人:成都成电医星数字健康软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1