基于互信息和条件随机场模型的中文领域术语识别方法

文档序号:6576113阅读:260来源:国知局
专利名称:基于互信息和条件随机场模型的中文领域术语识别方法
技术领域
本发明涉及的是一种基于互信息和条件随机场模型的中文领域术语识别方法,属于信息技术领域。
背景技术
国家标准GB/T15237. 1-2000《术语工作词汇》的定义,术语是特定专业领域中一般概念的词语指称,是在一个学科领域内使用、表示该学科领域内的概念或关系的词或词组。术语可以分为日常生活中使用的一般性术语和特定领域中使用的领域术语。一般性术语多是按人们的生活和工作习惯形成的,不要求它在概念的表达上严格准确,其含义往往比较模糊;领域术语是对一个专业概念的系统性、概括性的描述,不允许模棱两可,每一个专业术语表达的概念都必须准确无误,不能因使用人的不同而不同。领域术语识别是指从特定的科学或技术领域的语料库中抽出专业领域术语。领域术语自动识别作为信息抽取的重要内容,在自然语言处理领域有着广泛的应用,对于提高领域文本索引与检索、文本挖掘、本体构建、文本分类和聚类、潜在语义分析等的处理精度有着重要的意义。现有的中文文本信息中的领域术语识别方法主要有
(I)基于统计方法的中文领域术语识别方法,主要思想是利用领域术语内部各组成成分之间较高的关联程度以及术语的领域特征信息来抽取领域术语。基于统计的方法一般流程是首先利用统计学或信息论中的方法,建立起各种统计信息,并根据统计结果,确定比较准确的种子词;然后在此基础上不断扩展,获取最终的领域术语。词语频率、均值和方差是比较常用的统计方法,更多的学者使用假设检验的方法,主要有T检验、卡方检验、对数似然比、点互信息等。用统计方法识别领域术语,不需要句法、语义上的信息,不局限于某一专门领域,也不依赖任何资源,通用性较强。其中,基于统计的互信息算法应用最为广泛。例如有文章报道,其题目为“基于互信息的中文术语抽取系统”(该文作者是张锋许云侯艳樊孝忠,发表于2005年出版的《计算机应用研究》第22卷第5期第72-73,77页),该文公开了一种中文术语自动抽取系统,该系统首先基于互信息计算字串的内部结合强度,从而得到术语候选集;接着从术语候选集中去除基本词,并利用普通词语搭配前缀、后缀信息进一步过滤;最后对术语候选进行词法分析,利用术语的词性构成规则进行判别,得到最终的术语抽取结果。实验结果表明,利用互信息算法对术语抽取的准确率为72. 19%,召回率为77. 98%,F测量值为74.97%。例如有文献报道,“C值和互信息相结合的术语抽取”(作者是梁颖红张文静张有承,发表于2010年出版的《计算机应用与软件》第27卷第4期第108-110页),该文公开了一种将C值和互信息相结合的术语抽取方法,该方法提出综合C-value参数在长术语抽取方面具有优势,实验结果表明,该方法对长术语抽取的准确率为75. 7%,召回率为68.4%,F测量值为71. 9%,高于相同语料下的其他方法。但是该算法性能直接依赖于语料库的规模和候选领域术语的词频,针对有些低频率候选术语也可能是合法术语的数据稀疏问题难以解决,所以单纯利用互信息算法对领域术语进行识别,识别的准确率、召回率以及F测量值均难以达到80%以上,很难获得理想的识别效果;
(2)基于机器学习的中文领域术语识别方法的主要步骤为采用手工或半自动方式构建训练语料,根据某种机器学习算法对训练语料学习生成模型,然后再利用模型对测试语料进行领域术语抽取实验,以验证本算法的有效性。目前已用于中文领域术语识别的机器学习理论主要包括决策树、支持向量机、隐马尔科夫模型、最大熵模型、最大熵马尔科夫模型和条件随机场算法等。基于机器学习的术语识别方法无需专家的领域知识和语言知识,实现可行性大,在考虑多种术语特征的情况下可以得到较好的识别或抽取效果。目前,基于机器学习的中文领域术语识别方法中条件随机场模型应用最为广泛。例如有文献报道,“一种中医名词术语自动抽取方法”(作者是张五辈白宇王裴岩张桂平,发表于2011年出版的《沈阳航空航天大学学报》第28卷第I期第72-75页),该文公开了一种针对中医领域的基于条件随机场的术语抽取方法,该方法将中医领域术语抽取看作一个序列标注问题,将中医领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语模型,然后利用该模型进行术语抽取。选择《名医类案》作为中医领域文本进行术语抽取实验,准确率达到83. 11%,召回率达到81.04%,F测量值达到82. 06%。以及文章“采用CRF技术的军事情报术语自动抽取研究”(作者是贾美英杨炳儒郑德权杨靖,发表于2009年出版的《计算机工程与应用》第45卷第32期第126-129页),该文公开了一种针对军事情报领域的基于条件随机场的术语抽取方法,该方法将领域术语识别看作一个序列标注问题,将领域术语分布的特征量化作为训练的特征,利用CRF工具包训练出一个领域术语特征模板,然后利用该模板进行领域术语抽取。实验表明,该方法对军事情报领域术语的识别结果良好,准确率可达到73. 24%,召回率达到69. 57%,F测量值达到71. 36%。利用条件随机场算法进行领域术语识别时,训练语料基本上都为手动和半自动标注的,人为参与度都高,工作量大,导致普遍识别量不大,制约了该算法的识别精度和应用。同时,需要先利用通用的分词工具对语料进行分词,然后再对分词后的语料进行条件随机场训练和测试,最终才能实现术语的识别。所以利用条件随机场算法进行领域术语识别的前提是,假设现有的通用分词工具可以对该领域的词汇进行准确地分词,并认为领域术语比分词工具所分的词粒度大。但是,由于专业领域术语与普通词汇存在差距,用一般性分词工具很难实现对专业领域语料的准确分词。因此,目前互信息和条件随机场方法在领域术语识别过程中自动识别程度较低,且识别精度不高。

发明内容
鉴于以上所述现有技术存在的问题,本发明的目的是提供一种基于互信息和条件随机场模型的中文领域术语识别方法,该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。为了达到上述目的,本发明采用下述技术方案
本发明的基于互信息和条件随机场模型的中文领域术语识别方法,具体步骤如下
(I )、收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;
(2)、设置字串F,计算字串τ的互信息值;(3)、计算字串Ir左右信息熵;
(4)、定义字串W评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串"力词,依次比较该字串〖F中前一字,的评价函数值与后一字Ip1评价函数值相比较,得到各字串Ir中对应的比值,其比值再与评价函数阈值比较,逐一对字义字串w分词;
(5)、以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。上述步骤(2)中所述的(2)设置字串Ir,计算字串Ir的互信息值,其计算公式如下
假设一个领域术语是由η个字组成,如果字串Ir为一个领域术语,那么字串,由巧、X2、巧… 个字组成,字串W的互信息值计算公式如下
权利要求
1.一种基于互信息和条件随机场模型的中文领域术语识别方法,具体步骤如下 (I )、收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记; (2)、设置字串W,计算字串T的互信息值; (3)、计算字串JT左右信息熵; (4)、定义字串W评价函数,设置评价函数《 料,)阈值,计算各字串的评价函数值,确定字串IT力词,依次比较该字串W中前一字的评价函数值与后一字评价函数值相比较,得到各字串『中对应的比值,其比值再与评价函数-4,)阈值比较,逐一对字义字串,分词; (5)、以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。
2.根据权利要求1所述的基于互信息和条件随机场模型的中文领域术语识别方法,其特征在于,上述步骤(2)中所述的设置字串『,计算字串JT的互信息值,其计算公式如下 假设一个领域术语是由n个字组成,如果字串T力一个领域术语,那么字串fT由珥、&、A......A个字组成,字串W的互信息值计算公式如下
3.根据权利要求1所述的基于互信息和条件随机场模型的中文领域术语识别方法,其特征在于,上述步骤(3)中所述的计算左右信息熵,其计算公式如下
4.根据权利要求1所述的基于互信息和条件随机场模型的中文领域术语识别方法,其特征在于,上述步骤(4)中所述的定义字串W评价函数,并利用评价函数对语料进行分词,是指利用步骤(2)和步骤(3)计算得到的互信息和左右信息熵值,对语料中的字串n力词的可信度进行评价,判断该字串是否为词,其中,字串W评价函数计算公式如下
5.根据权利要求1所述的基于互信息和条件随机场模型的中文领域术语识别方法,其特征在于,上述步骤(5)中所述的以词、词性、词的出现频率的随机场的训练特征,利用条件随机场方法训练出一个领域术语条件随机场模型,利用该模型对进行领域术语识别,其操作步骤如下 (51 )、以词本身、词性、词的出现频率在语料中进行标注; (52)、利用CRF++0. 53工具包对已标注的特征序列训练,获取条件随机场参数,该条件随机场参数为该领域术语识别的条件随机场模型; (53)、用领域术语识别的的条件随机场模型对测试已标注的特征序列的领域术语识别。
全文摘要
本发明公开了一种基于互信息和条件随机场模型的中文领域术语识别方法,其步骤如下(1)收集领域文本语料,对语料中所有的标点符号、空格、数字、ASCII字符以及汉字以外字符进行标记;(2)设置字串,计算字串的互信息值;(3)计算字串左右信息熵;(4)定义字串评价函数,设置评价函数阈值,计算各字串的评价函数值,确定字串为词,依次比较该字串中前一字的评价函数值与后一字评价函数值相比较,逐一对字义字串分词;(5)利用条件随机场训练出一个领域术语条件随机场模型,用该模型对进行领域术语识别。该方法在术语识别时,不仅能克服合法术语的数据稀疏,降低了条件随机场算法的运算量,而且能够提高中文领域术语识别精度。
文档编号G06F17/30GK103049501SQ20121052873
公开日2013年4月17日 申请日期2012年12月11日 优先权日2012年12月11日
发明者彭琳, 刘宗田, 杨林楠, 张立敏 申请人:上海大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1