一种基于混合模型的命名实体识别方法与流程

文档序号:11155020阅读:435来源:国知局
一种基于混合模型的命名实体识别方法与制造工艺

本发明属于自然语言处理技术领域,具体涉及一种基于混合模型的命名实体识别方法。



背景技术:

伴随着互联网、云计算、移动媒体和物联网等新兴网络的应用,催生了大量用户创造内容的Web2.0技术,使Web应用进入大数据时代,搜索引擎、电子商务、社交网站等一系列互联网衍生业务迅速发展。现时代的大数据具有4个特点,分别为数据量大,数据结构多样性,数据产生的快,具有很高的商业价值。针对大量数据,并不是所有信息都是有用的数据。这就导致大量无效数据与有价值的数据并存的现象出现。因此,在大数据时代如何从庞大的数据集合中找寻出有价值的数据成为目前信息技术的主要挑战。信息抽取技术正是在这个背景下产生的。

信息抽取技术的起源可以追溯到上个世纪70年代,第一个商用信息抽取系统JASPER应用于路透社公司,可以为金融交易员提供实时财经新闻。20世纪80年代末开始,消息理解系列会议的召开使得信息抽取研究迅速发展,使得信息抽取技术从特定领域走向了开放领域,从特定格式的数据类型到无结构化的文本数据类型,从新闻、邮件、论文到所有普通的网页中信息,从手工建模到利用机器学习等统计方法建模。现在信息抽取已经融入到了我们的生活当中,而在信息抽取中,最重要的部分之一就是命名实体识别。

在实际的命名实体识别工作中,由于实体大部分都不在分词系统词典收录的词中,所以识别命名实体的困难主要在于:(1)命名实体数量巨大,同时在文字的创造中,新的名称不断出现,命名实体不可能全部都在收录的词典中;(2)在不同场景和领域下,命名实体的意义有所不同;(3)某些类型的实体名称不断变化,并且没有严格的规律可以遵循,其中以机构名最为复杂;(4)命名实体总有缩写形式出现;(5)实体类型存在歧义性;(6)命名实体表达形式多样;(7)实体名和普通名词之间存在歧义性等。对上述难点进行了优化、解决后,可将成熟的实体识别技术带到学术领域、商品搜索领域等。

对于很多命名实体来说,命名实体本身并不是孤立的,命名实体间存在着互相嵌套的特点。例如:地名中嵌套着一些名人的人名,人名中嵌套着地名,特别是在机构名中嵌套着大量的人名、地名和机构名等。这种命名实体中相互嵌套的现象极大的提升了识别复杂命名实体的难度。



技术实现要素:

本发明提出的一种基于混合模型的命名实体识别方法,在人名实体、地名实体和机构名实体识别准确率和识别召回率方面都有显著的提高。

本发明的技术方案如下:

一种基于混合模型的命名实体识别方法,包括以下步骤:

步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;

步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;

步骤2-1:利用隐马尔科夫模型对训练语料进行训练,得到隐马尔科夫模型的参数库,即确定了隐马尔科夫模型;利用条件随机场模型对训练语料进行训练,得到条件随机场模型的参数库,即确定了条件随机场模型;

步骤2-2:采用数理统计中的系统抽样调查方法,对不重叠测试语料进行抽样;

步骤2-3:利用步骤2-1中确定的隐马尔科夫模型和条件随机场模型,分别对步骤2-2中抽样得到的不重叠测试语料进行测试,得到隐马尔科夫模型的测试结果和条件随机场模型的测试结果,针对隐马尔科夫模型的测试结果和条件随机场模型的测试结果分别计算F值;

步骤2-4:根据步骤2-3中的隐马尔科夫模型的测试结果的F值和条件随机场模型的测试结果的F值,自适应地在隐马尔科夫模型和条件随机场模型中选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行基于自适应的统计识别模型的命名实体识别,得到基于自适应的统计识别模型的初步的命名实体识别结果。

步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;

步骤3-1:构建用于命名实体识别的知识库,知识库包括人名知识库、地名知识库和机构名知识库,分别存储了常用的人名、地名和机构名;在知识库的基础上制定识别规则,识别规则即知识库中的人名、地名和机构名与对预处理后的已识别语料进行识别后的初步的命名实体识别结果之间的对应关系,由这些识别规则构成识别规则库,识别规则库包括人名识别规则库、地名识别规则库和机构名识别规则库,由知识库和识别规则库构成基础词典;

步骤3-2:利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,得到二次识别结果;

步骤3-3:计算二次识别结果的F值,若二次识别结果的F值没有达到设定的要求,则提出新的识别规则或者修改原有的识别规则,添加到基础词典中,对基础词典进行更新,并返回步骤3-1进行再次识别;若二次识别结果的F值达到了设定的要求,则保存基础词典。

步骤4:构建基于基础词典和自适应的统计识别模型的混合模型,在混合模型中,利用基础词典,采用自适应的统计识别模型,对预处理后的待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别出的识别结果补充到基础词典的知识库中,更新基础词典,供下一次识别使用。

本发明的有益效果如下:

本发明是一种基于混合模型的命名实体识别方法。在相同的训练集下,基于本发明方法的人名实体、地名实体和机构名实体识别结果与基于目前原有的识别方法的识别结果,即基于前人提出的规则与隐马尔科夫模型相结合的模型的识别结果、规则与条件随机场相结合的模型的识别结果、基于层叠的隐马尔科夫识别模型识别的识别结果等方面,在识别准确率和识别召回率方面都有显著的提高。

附图说明

图1为本发明具体实施方式中的基于混合模型的命名实体识别方法的流程图;

图2为本发明具体实施方式中的预处理过程示意图,(a)为已识别语料预处理过程示意图,(b)为待识别语料预处理过程示意图;

图3为本发明具体实施方式中的初步的命名实体识别过程示意图;

图4为本发明具体实施方式中的基础词典的构建过程图;

图5为本发明具体实施方式中的以人名实体识别过程为例的混合模型识别过程图。

具体实施方式

下面结合附图对本发明的具体实施方式做详细说明。

本发明提出的一种基于混合模型的命名实体识别方法,在人名实体、地名实体和机构名实体识别准确率和识别召回率方面都有显著的提高。

识别准确率和识别召回率是用来评价命名实体识别结果的质量的,识别准确率是指检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;识别召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率;F值是识别准确率和识别召回率的加权调和平均值,即

由此可知,F值是综合了识别准确率和识别召回率的结果,当F值较高时,则说明试验方法比较有效。

一种基于混合模型的命名实体识别方法,如图1所示,包括以下步骤:

步骤1:预处理:对已识别语料和待识别语料均进行分词和词性标注处理,并将已识别语料分为训练语料和不重叠测试语料;如图2所示,其中图2(a)为已识别语料预处理过程示意图,图2(b)为待识别语料预处理过程示意图,在分词和词性标注过程中可以利用目前现有的自然语言处理工具,如:中科院ICTCLAS分词软件等。

步骤2:利用自适应的选择方式,在隐马尔科夫模型和条件随机场模型中,选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行初步的命名实体识别,得到初步的命名实体识别结果;如图3所示,步骤2具体包括如下步骤:

步骤2-1:利用隐马尔科夫模型对训练语料进行训练,得到隐马尔科夫模型的参数库,即确定了隐马尔科夫模型;利用条件随机场模型对训练语料进行训练,得到条件随机场模型的参数库,即确定了条件随机场模型;

步骤2-2:采用数理统计中的系统抽样调查方法,对不重叠测试语料进行抽样;

步骤2-3:利用步骤2-1中确定的隐马尔科夫模型和条件随机场模型,分别对步骤2-2中抽样得到的不重叠测试语料进行测试,得到隐马尔科夫模型的测试结果和条件随机场模型的测试结果,针对隐马尔科夫模型的测试结果和条件随机场模型的测试结果分别计算F值;

步骤2-4:根据步骤2-3中的隐马尔科夫模型的测试结果的F值和条件随机场模型的测试结果的F值,自适应地在隐马尔科夫模型和条件随机场模型中选择出F值较高的作为自适应的统计识别模型,对预处理后的已识别语料进行基于自适应的统计识别模型的命名实体识别,得到基于自适应的统计识别模型的初步的命名实体识别结果。

步骤3:构建用于命名实体识别的知识库,在知识库的基础上制定识别规则,并构成识别规则库,由知识库和识别规则库构成基础词典;利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,分析得到的二次识别结果的F值,并更新基础词典;如图4所示,步骤3具体包括以下步骤:

步骤3-1:构建用于命名实体识别的知识库,知识库包括人名知识库、地名知识库和机构名知识库,分别存储了常用的人名、地名和机构名;在知识库的基础上制定识别规则,识别规则即知识库中的人名、地名和机构名与对预处理后的已识别语料进行识别后的初步的命名实体识别结果之间的对应关系,由这些识别规则构成识别规则库,识别规则库包括人名识别规则库、地名识别规则库和机构名识别规则库,由知识库和识别规则库构成基础词典;

步骤3-2:利用构建的基础词典,采用自适应的统计识别模型,对初步的命名实体识别结果进行二次识别,得到二次识别结果;

步骤3-3:计算二次识别结果的F值,若二次识别结果的F值没有达到设定的要求,则提出新的识别规则或者修改原有的识别规则,添加到基础词典中,对基础词典进行更新,并返回步骤3-1进行再次识别;若二次识别结果的F值达到了设定的要求,则保存基础词典。

步骤4:构建基于基础词典和自适应的统计识别模型的混合模型,在混合模型中,利用基础词典,采用自适应的统计识别模型,对预处理后的待识别语料进行识别,得到待识别语料中的人名实体、地名实体和机构名实体,将识别出的识别结果补充到基础词典的知识库中,更新基础词典,供下一次识别使用。以人名实体识别过程为例的混合模型识别过程图如图5所示,在人名实体识别过程中,利用基础词典,采用自适应的统计识别模型,对预处理后的待识别语料进行识别,得到人名实体,将识别出来的人名实体补充到基础词典的人名知识库中,更新基础词典,作为下一次识别的基础词典。

虽然以上描述了本发明的具体实施方式,但是本领域内的熟练的技术人员应当理解,这些仅是举例说明,本发明是一种基于混合模型的命名实体识别方法,因此举例说明仅仅是为了说明识别机制的核心思想。在之后的研究中可以对这些实施方式做出多种变更或者修改,而不背离本发明的原理和实质。本发明的范围仅由所附权利要求书限定。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1