基于条件随机场的旅游领域命名实体识别方法

文档序号:6575698阅读:232来源:国知局

专利名称::基于条件随机场的旅游领域命名实体识别方法
技术领域
:本发明涉及一种基于条件随机场的旅游领域命名实体识别方法,属人工智能领域。
背景技术
:目前在命名实体识别领域,主要使用一些规则方法和统计方法。基于规则的方法由于规则种类繁多,要总结出统一的能够对所有种类进行识别的规则,代价太高,而且规则无法覆盖所有领域,因而基本上是不可行的。中科院计算所提出了一种基于隐马尔可夫模型的角色标注识别实体的统计方法。但由于隐马尔可夫模型是一种产生式模型,它存在一些固有缺陷与不足:首先、为保证推导的正确性,需要作出严格的独立性假设。事实上,大多数序列数据都不能被表示成一系列独立的元素,而且部分序列存在长距离依赖。其次、隐马尔可夫模型完全依靠词性作为观察值,不能借助任何语义或是标志词信息,大大制约了系统识别的性能。最大熵模型也是一种广泛应用于自然语言处理中的概率统计方法,它可以综合地利用各种相关或不相关的概率知识,肯有较强的知识表达能力,并在命名实体识别领域取得了较好的结果,但最大熵模型存在"标注偏见"问题。例如,在词性标记任务中,有一个位置的词总^t应于某^H寺定的词性标记。当某个句子中该词的词性是其很少使用的一种词性时,由于标记偏见问题,该词将被标注为更为常用的那个标记,而关不考虑余下句子中的上下文信息。标注偏见问题会对自然语言处理的结果产生不良影响。针对这个问题,我们提出并实现了一种新的基于条件随机场(CRFs)的概率图模型,它具有表达元素长距离依赖性和交叠性特征的能力,育^方便地在模型中包含多种特征,而且能够避免最大熵模型的标注偏置问题等优点。该方法将识别过程分为两层,低层模型采用字一级进行建模,识别地点及简单景点、特产小吃,然后将4识别结果传递到高层模型,在高层采用词一级进行建模,识别嵌套的景点、f寺产小吃。并在云南旅游领域进行了实验验证,结果表明,该方法取得了良好的效果。
发明内容本发明的目的在于发明一种基于条件随机场的旅游领域命名实体识别方法。该方法将识别过程分为两层,低层模型釆用字一级进行建模,识别地点及简单景点、特产小吃,然后将识别结果传递到高层模型,在高层采用词一级进行建模,识别嵌套的景点、特产小吃。本发明一基于条件随机场的旅游领域命名实体识别方纟去包括-(1)人工收集旅游领域文本作为训练语料和测试语料;(2)通过网络下载及人工收集景点常用后缀、组织机构常用后缀、地名常用后缀、风味小吃常用后缀并编撰其词典;(3)文本的一次处理包括使用步骤(2)收集的词典,将语料以字为单位,进行标注;(4)制定符合简单命名实体识另啲特征模板,并将经过步骤(3)处理后的文本进行训练,得到低层条件随机场识别模型,用来识别简单景点、组织机构、地名及风味小吃的识别;(5)将原始语料进行分词,并将在第一层条件随机场识别出的实体标注为相对应的类型;(6)利用简单特征模板与复合特征模板,采用迭代梯度算法,即根据一定的规则迭代地更新模型参数,逐步精化f^或条件模型分布的方法。训练高层条件随机场模型,并在云南旅游领域进行命名实体识别实验验证。步骤(1)中收集整理了训练和测试需用领域文本。步骤(2)中收集整理的常用景点后缀、常用组织机构后缀、地名常用后缀、风味小吃常用后缀编撰为词典。'5步骤(3)中的语料标注转换方法。步骤(4)中的简单实体识别特征模板的选取。提到的特征模板选取方法,其特征在于提出了符合简单旅游领域命名实体识别的特征模板,并经过验证实验;提出了符合复合旅游领域命名实体识别的特征模板,并经过验证实验。本发明具体过程为(1)实验语料收集实验采用从网络随机搜索的云南旅游领域文档2000篇作为训练文本,其中包含各种命名实体共10087个。(2)文本预处理将文本以字为单位,依次对字进行特征标注,特征为5维,当前字为第一维。标注的方法是,如果当前字是景点常用字,那么将当前字的第二维为标为Y,不是则标为N,如果当前字是组织机构常用后缀,则当前字的第三维标为Y,不是则标为N。其它类推。(3)简单命名实体的识别应用^f牛随机场工具包CRF++,对经过步骤b处理过的语料进行训练,作为低层模型。对输入的未知标注语句进行模型测试,识别出其中简单的景点、地名、机构等命名实体。在识别简单旅游命名实体模型中,经过反复实验^i正,采用了如表l所示的特征模板。(4)文本的二次处理将原始文本进行分词,对其中的经过步骤(3)识别出的命名实体进行标注转6表l景点识别原邻征模板1Cur—Char当前字2Cur一Char一State当前字的状态标注3Cur一Char—FirstLeft—State当前字的前面第一个字的状态标注4Cur—Char—SecondLeft—State当前字的前面第二个字的状态标注5Cur—Char—FirstRight一State当前字的后面第一个字的状态标注6Cur—Char—SecondRight一State当前字的后面第二个字的状态标注7Cur—Char—Attractions—table当前字是否出现在旅游景点常用字表中8Cur—Char一AfterTwo—SuffixTable当前字及下2个窗口中是否为存在景点常用后缀9Cur一Char—S"Lmple一Att"ractions当前字及上下2个窗口中是否为存在简单景点10Cur—Char—Left—Two—Boundary当前字及上2个窗口中是否为存在景点左指界词11Cur一Char—Right—Two—Boundary当前字及下2个窗口中是否为存在景点右指界词12Cur—Char_Punctuation当前字是否为标点(5)复合命名实体识别应用^(牛随机场工具包0^++,对经过步骤(4)处理过的语料进行训练,作为低层模型。对输入的未知标注语句进行模型测试,识别出其中复杂的景点、机构等命名实体。基于字的原子特征模板也适合于复合命名实体模型,但由于本模型的切分料度是词,所以要将上述特征模板的字改为词。同时因为:^莫型中加入了词性特征,而且识另啲是嵌套的实体,所以还要制定一些复^tt征模板。下面列出需增加的原子模板及复合特征模板。原子特征模板如表2所示,复合特征如表3所示。这些特征模板也需要进行一2、一1、1、2等四个位置的偏移。经过反复实验验证,最终选取了如表2、表3所示的特征模板。7表2新增原邻征微13Cur—word—Pos当前词的词性14Cur—word一FirstLeft—Pos当前词的前面第一个词15Cur—word—SecondLeft—Pos当前词的前面第一个词的词性16Cur一wrod一FirstRight_Pos当前词的后面第一个词17Cur一word一SecondRight—Pos当前词的后面第一个词的词性表3复辦征模板1Cur—Char—Pos&Cur—Char_State&Cur—Char—FirstLeft—Pos2Cur—Char—Pos&Cur—Char—FirstLeft—Pos&Cur—Char—FirstLeft_State3Cur一Char一Pos&Cur—Char_FirstRight_Pos&Cur—Char—FirstRight一State4Cur—word_Pos&Cur_Char—Left—Two—Boundary5Cur—word—Pos&Cur—Char—AfterTwo_SuffixTable6Cur—Char&Cur—Char—Right_Two_Boundary本发明的方法采用人工标注的2000篇旅游文档作为模型构建资源,Sii文本预处理模块形成了模型训练文件,结合制定的简单特征模板及复合特征模板,并使用0^++工具包,构建了基于条件随机场的旅游领域命名实体识别模型。本发明方法在开放测试中,层叠割牛随机场模型相比于单层模型,F值提高了8个百分点。相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。图1是本发明提出的基于割牛随机场的旅游领域命名实体识别方法的流程图。8具体实ltt"式本实施例以云南旅游训练和测试领域为文本,收集整理。针对提出的以上方法在云南旅游领i或进行了实验验证,具体步骤如图1所示。步骤al、人工收集了云南旅游文档语料2000篇。其中800篇为训练语料,1200篇为开放测试语料。从800篇训练文档中随机抽取600篇作为封闭测试语料。所谓训练语料,就是指提供给CRF^0.49工具包,以便从中提取上下文特征的文本。训练模型是指从训练语料中提取的上下文特征的集合。测试语料就是指用于验证训练模型性能的语料。也就是指未标注的文本。开放测试指的是训练语料和测试语料不重复。封闭测试是指测试语料是训练语料的一部分。步骤a2、人工收集了景点常用后缀,风味小吃常用后缀,地名常用后缀等特征词典。如景点常用后缀词公园、塔、谷、湖、风景区、洞等。地名后缀特征词广场、县、州、市、小区、研究所等。风味小吃后缀特征词茶、酒、粥、鱼、烤等。步骤a3、利用步骤a2的词典,以字为单位,构造CRFw工具包需要的训练数据格式。并进行训练。得至lj低层条件随机场训练模型。如对句子"距离蒙自县城约16公里。",应该标注为距NNNNNO离NNNNNO蒙YNYNNSB白匪YYNSM县NNYYNSM城NNY丽SE约NNNNNO16NNNNNO公NNNNNO9里NNNNNO。NNNNYO假设通过语料转换后的文件名为tmin.txt,特征模板文件为tempkte.txt,则具体的训练过程为A:切换到Dos状态下,使用01++0.49工具包下的01>3111.&1行训练。B:训练命令为erf—leam.txttemplate.txttrain.txtmodel.txt,其中train.txt为训练文件,template加为模板文件,model.txt为模型特征文件。C:模型特征文件其实就是一些特征函数的集合,在条件随机场模型中,特征函数的形式定义为//^,乂,W),它是状态特征函数和转移特征函数的统一形式表示。特征函数都是二值函数,取值要么为i要么为o。在定义特征函数的时候,我们首先构建观察值上的真实特征6(x,f)的集合,这个集合既体现了训练数据的经验分布,同时也反映了模型分布。特征函数可以表示成观察值上的真实特征HW),在当前状态(对应于状态函数瞎况)或是前一状态与当前状态(对应于转移函数情况)有特定取值时,每^#征函数取值为一个观察特征^,0。例如.-f、—^0m')(/x—t=幼x=SA/表示如果当前字的前一字的状态为sb,当前字状态为sm,则特征为l其中6(X,!')表示真实观察值,当某种情况出现时值为i,否则为o。,,.、flz/i位置的观察值为"北"只要我们能够获得所有i时刻的观察值的真实特征6(x力,结合其对应的标注结果,就可以获得模型的特征函数集。D:测试时同样是先切换到Dos状态下,使用crf—test.exe命令进行测试。具体命令格式为crfjestext,mmodel.txttesttxt。其中mo4el.txt文件为步^B形成的模型文件,test.txt与训练文件格式相同,仅仅因为是观赋文件,所以测试文件的最后一列状态都标为O。10步骤a4、将原始语料进行分词,将分词后的语句中相应的在歩骤a3中实别出来的实体进行标注。如对句子"距离蒙自县城约16公里。"分词后的语句为"距离/n蒙/v自/p县城/n约/d16/m公里/q。/w",因为在歩骤a3中已经识别出蒙自为一个地名,所以在此需要修改上述分词结果,将"蒙/v自/p"改为"蒙自/ns",其它不变。步骤a5、利用步骤a4中的语料,构造CRF++0.49工具包需要的训练数据格式,并进行训练,得到高层条件随机场训练模型。具体构造过程同步骤a3。实验结果如表4、表5所示。表4层叠条件随机场与单层模型的实验结果比较<table>tableseeoriginaldocumentpage11</column></row><table>表5层叠条件随机场与HMM模型的景点识别实验结果比较<table>tableseeoriginaldocumentpage11</column></row><table>从实验结果可以看出,层叠条件随机场模型的识别效果相对于单层模型,正确率、召回率、F值都有所提高。其中在封闭测试中,F值提高了将近6个百分点,在开放测试中,F值提高了8个百分点。这说明层叠条件随机场模型的识别效果相对于单层模型有较大的改进,改进的效果主要体现在以嵌套地名和景点开头的景点识别和嵌套其它词的特产风味小吃识别中。如景点名"帽天山中国国家地质公园"、"仙人洞彝族文化生态村"、"思茅茶马古道遗址"、"苗族小黑药炖鸡"、"德宏小猪耳朵"等。在单层模型中就无法识别出来。在旅游景点识别实验中,层叠条件随机场模型也显然高于HMM模型。其中开放测试中,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。原因是在HMM模型屮,由于训练时只考虑了词性序列,这就使得训练得到的参数更利于使某个出现的词性标注为它的常见状态。例如,3输入语句包含"丽江/ns古城/n"时,因为训练语料中词性/ns被标为独立地名/SB的概率更大,所以经HMM识别后的结果"丽江/ns/SB古城/n/0",这就产生的错误。而且,HMM仅用词性作为观察值也使模型无法利用丰富的词汇信息,比如,景点后缀特征词"洞"、"公园"、"湖"等,特产风味后缀特征词"酒"、"面"、"茶"等。这些因素使得HMM不能很好的描述实体的内部结构,导致复杂实体的召回率较低。而层叠斜牛随机场CRF模型不仅克服了这些问题。而且又弓l入了许多外部特征。4吏得识别效果明显高于HMM模型。1权利要求1.一种基于条件随机场的旅游领域命名实体识别方法,其特征在于该方法包括下列步骤(1)人工收集旅游领域文本作为训练语料和测试语料;(2)通过网络下载及人工收集景点常用后缀、组织机构常用后缀、地名常用后缀、风味小吃常用后缀并编撰其词典;(3)文本的一次处理包括使用步骤(2)收集的词典,将语料以字为单位,进行标注;(4)制定符合简单命名实体识别的特征模板,并将经过步骤(3)处理后的文本进行训练,得到低层条件随机场识别模型,用来识别简单景点、组织机构、地名及风味小吃的识别;(5)将原始语料进行分词,并将在第一层条件随机场识别出的实体标注为相对应的类型;(6)利用简单特征模板与复合特征模板,采用迭代梯度算法,即根据一定的规则迭代地更新模型参数,逐步精化联合或条件模型分布的方法。训练高层条件随机场模型,并在云南旅游领域进行命名实体识别实验验证。2.根据权利要求1所述的基于割牛随机场的旅游领域命名实体识别方法,其特征在于,步骤(1)中收集整理了训练和测试需用领域文本。3.根据权利要求1或2所述的基于条件随机场的旅游领域命名实体识别方法,其特征在于,步骤(2)中收集整理的常用景点后缀、常用组织机构后缀、地名常用后缀、风味小吃常用后缀编撰为词典。4.根据权利要求1或2所述的基于条件随机场的旅游领域命名实体识别方法,其特征在于,步骤(3)中的语料标注转换方法。5.根据权利要求1或2所述的基于条件随机场的旅游领域命名实体识别方法,其特征在于,步骤(4)中的简单实体识别特征模板的选取。6.根据要求5所述的基于剝牛随机场的旅游领域命名实体识别方法,其特征是提到的特征模板选取,提出了符合简单旅游领域命名实体识别的特征模板,并经过验证实验。7.根据权利要求1或2所述的基于条件随机场的旅游领域命名实体识别方法,其特征是提出符合复合旅游领域命名实体识别的特征模板,并经过验证实验。全文摘要本发明涉及一种旅游领域命名实体识别方法,属人工智能领域。公开了人工进行了语料的收集、标注及文本预处理。在此基础上,提出了一种基于层叠条件随机场模型的旅游领域命名实体识别方法,该方法包含两层,在低层条件随机场中以字为切分粒度,结合旅游景点常用字表、景点常用后缀表、地名常用字表等特征词典,并通过制定有效的特征模板,实现简单旅游命名实体的识别;其识别结果传递到高层模型,在高层以词为切分粒度,结合复杂特征模板,实现嵌套景点、特产风味、地点的识别。在开放测试中,层叠条件随机场模型相比于单层模型,F值提高了8个百分点。相比于HMM模型,正确率提高了8个百分点,召回率提高了22个百分点,F值提高了15个百分点。文档编号G06F17/27GK101477518SQ200910094029公开日2009年7月8日申请日期2009年1月9日优先权日2009年1月9日发明者舟万,余正涛,张志坤,毛存礼,薛征山,郭剑毅申请人:昆明理工大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1