一种医疗文本数据的命名实体识别方法与流程

文档序号:11250864阅读:1129来源:国知局
一种医疗文本数据的命名实体识别方法与流程

本发明涉及信息抽取技术领域,特别涉及一种医疗文本数据的命名实体识别方法。



背景技术:

在目前大力发展信息化的时代背景下,许多医疗机构正在建设或已完成医疗信息系统。伴随着医疗信息系统的发展与完善,其不断积累下的医疗数据将会为医学及信息科学未来的研究发展提供可靠的数据支撑。近年来,对统计数据的数学研究已经相对成熟,针对海量医疗统计数据的大数据研究也已开展地如火如荼,对预测及防控都起到了良好的作用。

大量文本数据例如文本病历、医学文献、卫生信息标准等,尽管也蕴含着许多有研究价值的信息,但却因为具有非结构化、专业化等特点,难以对其进行数据深度利用。若要对上述文本数据进行深度利用,首先需要克服的就是针对医学特有命名实体进行识别。然而,中文自然语言处理的复杂性和上述提到的医疗文本数据的独特性导致了进行医学命名实体识别是一个难点问题。因此,进行纵向的病种命名实体识别研究,归纳总结出能够快速并且在人工干预较少的情况下提取出准确信息的方法具有重要意义。



技术实现要素:

本发明的目的是提供一种医疗文本数据的命名实体识别方法,能够快速且在人工干预较少的情况下提取出准确信息。

一种医疗文本数据的命名实体识别方法:

i)通过隐马尔可夫模型对原始医学文本进行序列标注,得到预测分词结果;

ii)对预测分词结果进行过滤与校准。

优选的,所述步骤ii)通过半监督学习过程进行迭代自学习,对预测分词结果进行过滤与校准。

优选的,所述半监督学习过程包括以下步骤:

1)去除预测分词结果中与停用词集中重合的部分;

2)将去除停用词后的分词结果做预处理,统计所有分词结果的频次,并以降序方式排列;

3)将频次高的词加入种子词集;

4)再次对原始医学文本进行分词处理,种子词集中出现的种子词优先成词;

5)重复上述步骤1)至4),直至种子词集不再有增量;

6)人工对种子词集进行审查,若种子词集中有干扰分词正确的词,进行人工修正。

优选的,所述步骤3)中,所述频次高的词是频次最高的前10个词。

优选的,所述步骤5)对步骤1)至4)的迭代次数为2至3次。

本发明提供了一种基于隐马尔可夫模型分词与半监督学习方法结合对原始医学文本进行分词处理和识别的方法,不仅提高了信息提取和识别的效率,而且降低了人工干预程度。

附图说明

图1是具体实施方式中的半监督学习流程图。

图2是具体实施方式中的半监督学习改进效果对比图。

图3是具体实施方式中的半监督学习改进效果。

具体实施方式

下面通过具体实施例对本发明进行说明,但本发明并不局限于此。

实施例

本实施例采用隐马尔可夫模型(hiddenmarkovmodel,hmm),对原始医学文本进行序列标注,得到预测分词结果。在预测分词处理结束后,利用半监督学习方法对分词结果进行迭代自学习,以得到准确的分词及命名实体识别结果。本实施例通过比对各类监督学习方法的优缺点及结合半监督学习方法纠错,对纵向的病种命名实体识别研究。旨在总结出能够快速且在人工干预较少的情况下提取出准确信息的方法。

利用hmm解决命名实体识别标注,即给定一个观察值的序列(1):

p(y|x)=p(x1,n),x={x1,x2,...xn}(1)

要寻找一个最优的标记序列(2),使得条件概率p(y|x)最大:

y={y1,y2,...yn}(2);

根据贝叶斯公式可得(3):

在ne识别问题中,x是给定的句子,观察值为词性或词,则上式中p(x)对所有的类别都是一样的,因此可以忽略不考虑。则上面的公式可以转化为下面的形式(4),即实质是求解一个联合概率:

p(y|x)=p(y)p(x|y)=p(x,y)(4)

观察到的事件是状态的随机函数,该模型是含有隐藏序列和可观察序列的随机过程,其中模型的状态转换过程是不可观察的。可观察的事件的随机过程是隐藏的状态转换过程的随机函数。形式化的描述为一个五元组:

∑iπi=1,hmm=<s,o,a,b,π>(5)

s表示模型中的状态,n是模型的状态数。

所有独立的状态定义为(6):

s={s1,s2,...sn}(6)

用qt来表示t时刻的状态。o表示每个状态的观察值,m表示每个状态上对应的可能的观察值的数目。观察值对应于模型系统的实际输出,观察值记为(7):

w={w1,w2,...wn}(7)

状态转移概率矩阵(8):

a={aij}(8)

其中aij=p(qt+1=sj|qt=st),1≤i,j≤n,aij表示从状态i转移到状态j的概率,aij满足:

输出观察值概率分布矩阵(9):

b={bj(k)}(9)

其中bj(k)表示在sj状态下,t时刻出现wk的概率,即

bj(k)=p(在t时刻出现wk|qt=sj),1≤j≤n,1≤k≤m(10)

bj(k)满足:

初始状态分布向量:

∏={πi},其中πi=p(qi=si),1≤i≤n(12);

即在t=1时刻处于状态si的概率,πi满足:

∑iπi=1(13)。

本实施例先以人民日报标注语料作为模型训练数据。由于通用语料训练出的模型,无论是crf模型还是hmm,都无法对医学文本数据的命名实体识别任务得出高准确率的结果,故本实施例采用训练过程更加简单、复杂度较低的hmm。在本实施例的实践中,采用了基于汉字组词能力的hmm,使用维特比算法对序列解码,将原始临床病历语料进行预测分词处理。基于前述原因,该预测分词处理的准确率不高,需加入半监督学习方法对分词结果进行再处理。通过此方法,实验结果表明能够快速有效的在无有效标注医学语料的前提下,借助少量人工修正得到较为准确的分词及命名实体识别结果。

由于其训练数据来自于人民日报标注语料,故直接对医学文本数据应用此模型得到的分词效果并不会太理想,所以在hmm预测分词后,需要对预测分词结果进行过滤与校准。本实施例采用了半监督学习的方法。

在半监督学习过程中,需要在迭代自学习时设置评价标准,进而将符合标准的分词结果作为种子词。在通过观察所使用的临床病历数据特点后,发现这些临床病历数据在病种描述中,往往采用重复率相当高的句子,体现在预测分词结果中的,将是高频次的相同词语。故在自学习过程中,本实施例着重于词语频次这个特点。详细半监督学习过程如下:

1)去除预测分词结果中与停用词表中重合的部分。

2)将去除停用词后的分词结果做预处理,统计所有分词结果的频次,并以降序方式排列。

3)将频次最高的前10个词加入种子词集。

4)再次对原始临床病历数据进行分词处理,种子词集中出现的种子词优先成词。

5)重复上述1至4步,直至种子词集不会有增量。

如图1所示,半监督学习过程旨在通过词频找出种子词,而种子词会作为分词识别标准,对下一次的分词过程进行修正。此外,当该半监督学习过程结束后,会人工对种子词表进行审查,若种子词表中有严重干扰分词正确的词,将会人工进行修正。

种子词对分词过程修正的算法,采用了修改统计模型发射矩阵值的方式。考虑到统计模型解码的过程实际是对最大概率路径查找的过程,根据路径概率的定义可知:

在hmm模型解码过程中,采用的维特比算法将会逐步迭代搜索,避免了穷举对资源带来的巨大消耗,其计算过程中以(15)记录当前最优状态:

基于此,本文将得到的种子词与hmm的发射矩阵进行交叉对比,修改发射矩阵的概率值,确保种子词在标注后序列中成词。

在实验中,本实施例将单纯依靠hmm预测分词的结果与加入半监督学习过程后的分词结果进行了对比。在通过对近3000例临床肺病文本病历进行实验后,本实施例挑选出重复率最高的几例进行对比。如下图2所示,左侧为加入半监督学习后的分词结果,右侧为单纯使用hmm预测分词的结果。

仅仅依靠由人民日报语料训练的hmm,在进行预测分词时,对病历中许多医学术语的分词效果并不理想。如图2所示“iii期压疮”切分成“iii期压疮”、“窦性心动过缓”切分成“窦性心动过缓”、“极高危组”切分成“极高危组”、“频发性室性期前收缩”切分成“频发性室性期前收缩”、“左肺上叶炎性病变”切分成“左肺上叶炎性病变”。其中“期压”、“动过”、“危组”、“性室”、“性期”、“叶炎”等均不是期待的分词结果,但再经过半监督学习过程的校准处理后,上述例子中的分词结果都更加准确了,效果如图3所示。

图3通过对分词结果进行统计对比得出,单hmm将原始病历文本切分成81386个词,有1435种词。加入半监督学习后,切分词语个数减少为80997,有1402种词。在hmm切分结果中,但不在加入半监督学习切分结果中的词有42个。这42个词中,除去单字成词未能确定是否标准的,其余37个双字或多字成词都为错误结果,并在加入半监督学习后进行了自动修正,修正正确率达88.1%。而在加入半监督学习后的切分结果中,出现的7个词,都均为学习时总结的种子词。表明种子词的出现,对切分结果的提升效果明显。

在半监督学习过程中,种子词集在迭代过程中发生变化,实验对比了初始有无种子词在半监督学习过程中的表现。在实验中,发现迭代过程基本都在2~3次后结束,说明该方法能够快速收敛。由于分词结果中,会出现频次较高的各种英文缩写,这些英文缩写作为种子词不会对分词结果带来帮助。所以,若每次迭代增加种子词过少,会导致英文缩写的引入使得迭代立刻终止。若每次迭代增加种子词过多,又会在迭代后几步引入词频较低的词语,使得破坏正确的分词结果。基于上述原因,选择每次迭代最多增加10个词,既可以保证很高的分词正确率,又能避免提早终止半监督自学习过程。

可以理解的是,以上是为了阐述本发明的原理和可实施性的示例,本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1