基于统计模型的智能地名识别技术的制作方法

文档序号:6622522阅读:288来源:国知局
基于统计模型的智能地名识别技术的制作方法
【专利摘要】本发明涉及地名识别技术,旨在提供基于统计模型的智能地名识别技术。该基于统计模型的智能地名识别技术,首先通过统计概率模型和词典的方式获取基本的分词序列和对地名标注,然后通过独立地名识别先确定一部分地名,然后对于可能的地名,采取上下级地名识别,地名统计模型上下文识别,人名中地名消岐等信息对地名质量执行筛选,最后全文对识别到的地名进行统计分析进一步过滤错误地名。本发明充分利用中文对于地名描述的各种灵活方式,对地名识别提供实用级别的更高准确率,为文章根据地理归属地划分,机构识别提供有力的帮助。
【专利说明】基于统计模型的智能地名识别技术

【技术领域】
[0001]本发明是关于地名识别【技术领域】,特别涉及基于统计模型的智能地名识别技术。

【背景技术】
[0002]当前的地名识别技术,主要是地名关键字匹配的方式。但因中文地名灵活描述等各种原因,造成地名识别中不能识别出本来是地名的名称,或错误识别非地名等情况。对地名技术的局限性为文章区域划分带来了极大的困难。
[0003]人脑识别地名通常有三种手段:匹配已知地名,基于内部构成猜测未知地名,基于上下文只是猜测未知地名。在以往的研究中,这三种手段常常以不同的组合方式集成到统计和规则系统中。根据人脑识别的作用机制,应用于地名识别技术中,目前主要有下述现有技术:1、沈达阳的中文地名的自动识别,采用统计模型,利用属性矩阵和频级进行筛选,达到了较高的召回率,但精确率偏低;2、刘开瑛的中文文本自动分词和标注,采取基于语料库的方法,根据地名词典统计分析地名用字的信息以及这些字在真实文本中使用程序信息进行地名识别,对地名识别取得了一定的效果,但是还有下述不足:对地名灵活的描述方式检测不全面;地名文本中干扰的信息不能准确区分(如人名中的地名);3、Tan Hong YeResearch on Method of Automatic Recognit1n of Chinese Place Named Based onTransformat1n,该现有技术在技术2的基础上,提出了一种基于交换的地名识别方法,得到地名上下文的规律,对规律在进行筛选,这种方法有效提高了系统的精确率,但是还有下述不足:识别的质量要依赖于已知的上下文规律;添加新的上下文规律过程比较复杂。


【发明内容】

[0004]本发明的主要目的在于克服现有技术中的不足,提供一种能适应中文地名描述中种种灵活的描述,并可以根据地名的各种应用场景,自我学习的地名识别技术。为解决上述技术问题,本发明的解决方案是:
[0005]提供基于统计模型的智能地名识别技术,具体包括下述步骤:
[0006]步骤一:将所需地名识别的文本,采用基于统计概率模型的基础分词算法进行分词,得到分词结果,分词结果中标注出地名信息(比如新疆)、民族名称(比如维吾尔族)和行政单位名称(比如自治区);
[0007]步骤二:根据步骤一中的分词结果,基于地名基本知识库,对所需地名识别的文本进行地名归类识别:
[0008]A、独立地名识别:将所需地名识别的文本中包括地名信息(如杭州)和行政单位名称(如市),或者包括地名信息(如杭州)和出现在地名信息前面或后面有意义的词组(如政府,公安局)的分词结果,记录为独立地名,并将分词结果中的地名信息识别为该所需地名识别文本的地名;
[0009]B、可能地名识别:将所需地名识别的文本中包括地名信息,但是不包括行政单位名称的分词结果或者出现在地名信息前后有意义的词组,记录为可能地名;
[0010]步骤三:对步骤二中记录的可能地名,基于地名基本知识库,进行分类地名识别:
[0011]a、如果记录的可能地名属于步骤A中识别出的独立地名的下级单位,则将可能地名记录为独立地名,并将独立地名的下级单位识别为该所需地名识别文本的地名;
[0012]b、对被记录为可能地名的文本,根据地名基本知识库中人工标注的关键词进行上下文标注,如果文本中能识别出地名基本知识库中对应的地名+政府,则将该对应地名识别为所需地名识别文本的地名;
[0013]C、对被记录为可能地名的文本,根据步骤一中的分词结果,利用中文人名的识别算法,判断上下文和可能地名是否构成中文的人名,若构成中文的人名,则将该可能地名标记为不可能地名;
[0014]所述中文人名的识别算法主要采用对在只出现地名信息(如只出现杭州)的文本进行判断,利用常用姓名知识库,将地名信息和地名信息前面或者后面的一个或者两个词组合进行判断是否构成姓名(如张杭州,杭州前面一个词张属于姓的常用字,所以张杭州中的杭州不属于地名);
[0015]d、对被记录为可能地名的文本,标记出文本中所有的辅助词(如路名,标志性建筑等),如果文本中至少出现一次可能地名地区的辅助词,则将该地区的地名识别为所需地名识别文本的地名;
[0016]步骤四:根据辅助词词典,标记出所需地名识别的文本中所有的辅助词,如果文本中至少出现两次同一个地名地区的辅助词,则将该地名记录为独立地名,并该地名识别为该所需地名识别文本的地名;
[0017]步骤五:重复步骤a,判断可能地名中是否存在独立地名中的下级地名,如果是,则将该可能地名标注为关注的地名;
[0018]步骤六:输出该所需地名识别的文本中识别出的所有地名,并标注出地名出现的文本位置。
[0019]在本发明中,所述步骤一中的基于统计概率模型的基础分词算法,具体是指:采取自定的上下文特征,对基本词典和概率模型交叉分析词组分界线的算法。
[0020]在本发明中,所述地名基本知识库的建立具体包括下述步骤:
[0021](I)收集整理各种类型文章中出现的地名信息和关键词,并进行人工标注,所述关键词是指出现在地名前面或后面有意义的词组,包括机构名称(如政府、公安局)、标志性地点(如西湖);
[0022](2)整理地名基本知识库,地名基本知识库包括全国省、市、县、区的地名名称、简称、别称、上下级关系、行政区域代码;
[0023](3)整理步骤一采取的基于统计概率模型的基础分词算法的所需知识库的基础,包括整理和训练用以分词的基于统计概率的分词模型,分词模型基于字进行标注,且采取B(词的开头)和E(不是词的开头)两种标注,最后用最大熵训练模型,得到最终模型;
[0024](4)将步骤(2)的地名基本知识库中的所有的词,作为补充词典添加到步骤(3)的分词模型中;
[0025](5)建立单个地名质量知识库,用于对只出现地名信息的可能地名,判断是否能识别为独立地名(如只出现杭州是否可以判断为杭州市);
[0026](6)收集常用姓、常用名,建立常用姓名知识库;
[0027](7)建立辅助词词典,辅助词包括(重要)城市(主要)的街道名称、标志性建筑、学校、医院,并对辅助词之间的干扰和消岐进行整理。
[0028]在本发明中,所述智能地名识别技术中还设有学习模块,用于将识别过程中未确定的地名列表、上下文信息、未识别的类型和已确定地名信息进行记录,并转换成可以供索引的文件,最后收录入地名质量库中进入存储和索引;且每隔一段时间,人工对常见的情况进行归纳和总结,并且定期更新地名质量库。
[0029]本发明的工作原理:首先通过统计概率模型和词典的方式获取基本的分词序列和对地名标注,然后通过独立地名识别先确定一部分地名;然后对于可能的地名,采取上下级地名识别,地名统计模型上下文识别,人名中地名消岐等信息对地名质量执行筛选,最后全文对识别到的地名进行统计分析进一步过滤错误地名。
[0030]与现有技术相比,本发明的有益效果是:
[0031]本发明充分利用中文对于地名描述的各种灵活方式,对地名识别提供实用级别的更高准确率,为文章根据地理归属地划分,机构识别提供有力的帮助。
[0032]本发明基于工业应用的考虑,继承了统计模型和语料库的优点,并在此基础上添加了可以自我学习和补充的框架,从而实现不断提供准确率的目标。

【专利附图】

【附图说明】
[0033]图1为本发明的工作原理图。

【具体实施方式】
[0034]首先需要说明的是,本发明涉及信息处理技术,是计算机技术在备案领域的一种应用。在本发明的实现过程中,会涉及到多个软件功能模块的应用。 申请人:认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本发明。前述软件功能模块包括但不限于:地名统计模型上下文识别算法、人名中地名消除歧义算法、学习模块等,凡本发明申请文件提及的均属此范畴, 申请人:不再一一列举。
[0035]下面结合附图与【具体实施方式】对本发明作进一步详细描述:
[0036]首先为地名基本知识库的准备:
[0037](I)收集整理各种类型文章中出现的地名信息和关键词,并进行人工标注,所述关键词是指出现在地名前面或后面有意义的词组;
[0038](2)整理地名基本知识库,地名基本知识库包括全国省、市、县、区的地名名称、简称、别称、上下级关系、行政区域代码;
[0039](3)整理基于统计概率模型的基础分词算法的所需知识库的基础,包括整理和训练用以分词的基于统计概率的分词模型,分词模型基于字进行标注,且采取B (词的开头)和E(不是词的开头)两种标注,最后用最大熵训练模型;重点在于分词统计模型特征的选择和最终1?型;
[0040](4)将步骤(2)的地名基本知识库中的所有的词,作为补充词典添加到步骤(3)的分词模型中;
[0041](5)建立单个地名质量知识库,用于对只出现地名信息的可能地名,判断是否能识另Ij为独立地名,如只出现杭州是否可以判断为杭州市;
[0042](6)收集常用姓、常用名,建立常用姓名知识库;
[0043](7)建立辅助词词典,辅助词包括(重要)城市(主要)的街道名称、标志性建筑、学校、医院,并对辅助词之间的干扰和消岐进行整理。
[0044]其次为地名识别技术,如图1所示,基于统计模型的智能地名识别技术,具体包括下述步骤:
[0045]步骤一:将所需地名识别的文本,采用基于统计概率模型的基础分词算法进行分词,得到分词结果,分词结果中标注出地名信息(比如新疆)、民族名称(比如维吾尔族)和行政单位名称(比如自治区)。
[0046]步骤二:根据步骤一中的分词结果,基于地名基本知识库,对所需地名识别的文本进行地名归类识别:
[0047]A、独立地名识别:将所需地名识别的文本中包括地名信息(如杭州)、行政单位名称(如市)、出现在地名前面或后面(有意义)的词组(如政府,公安局)的分词结果,对于地名名称+行政单位组合(如杭州市)或者地名名称+前面或后面(有意义)的词组(如杭州政府)中的地名记录为独立地名,并将分词结果中的地名信息识别为该所需地名识别文本的地名;
[0048]B、可能地名识别:将所需地名识别的文本中包括地名信息,但是不包括行政单位名称的分词结果,记录为可能地名。
[0049]步骤三:对步骤二中记录的可能地名,基于地名基本知识库,进行分类地名识别:
[0050]a、如果记录的可能地名属于步骤A中识别出的独立地名的下级单位,则将可能地名记录为独立地名,并将独立地名的下级单位识别为该所需地名识别文本的地名;
[0051]b、对被记录为可能地名的文本,根据地名基本知识库中人工标注的关键词进行上下文标注,如果文本中能识别出地名基本知识库中对应的地名+政府,则将该对应地名识别为所需地名识别文本的地名;
[0052]C、对被记录为可能地名的文本,根据步骤一中的分词结果,利用中文人名的识别算法,判断上下文和可能地名是否构成中文的人名,若构成中文的人名,则将该可能地名标记为不可能地名;
[0053]d、对被记录为可能地名的文本,标记出文本中所有的辅助词(如路名,标志性建筑等),如果文本中至少出现一次可能地名地区的辅助词,则将该地区的地名识别为所需地名识别文本的地名。
[0054]步骤四:根据辅助词词典,标记出所需地名识别的文本中所有的辅助词,如果文本中至少出现两次同一个地名地区的辅助词,则将该地名记录为独立地名,并该地名识别为该所需地名识别文本的地名。
[0055]步骤五:重复步骤a,判断可能地名中是否存在独立地名中的下级地名,如果是,则将该可能地名标注为关注的地名。
[0056]步骤六:智能地名识别技术中还设有学习模块,用于将识别过程中未确定的地名列表、上下文信息、未识别的类型和已确定地名信息进行记录,并转换成可以供索引的文件,最后收录入地名质量库中进入存储和索引;且每隔一段时间,人工对常见的情况进行归纳和总结,并且定期更新地名质量库。
[0057]步骤七:输出该所需地名识别的文本中识别出的所有地名,并标注出地名出现的文本位置。
[0058]最后,需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。
【权利要求】
1.基于统计模型的智能地名识别技术,其特征在于,具体包括下述步骤: 步骤一:将所需地名识别的文本,采用基于统计概率模型的基础分词算法进行分词,得到分词结果,分词结果中标注出地名信息、民族名称和行政单位名称; 步骤二:根据步骤一中的分词结果,基于地名基本知识库,对所需地名识别的文本进行地名归类识别: A、独立地名识别:将所需地名识别的文本中包括地名信息和行政单位名称,或者包括地名信息和出现在地名信息前面或后面有意义的词组的分词结果,记录为独立地名,并将分词结果中的地名信息识别为该所需地名识别文本的地名; B、可能地名识别:将所需地名识别的文本中包括地名信息,但是不包括行政单位名称的分词结果或者出现在地名信息前后有意义的词组,记录为可能地名; 步骤三:对步骤二中记录的可能地名,基于地名基本知识库,进行分类地名识别: a、如果记录的可能地名属于步骤A中识别出的独立地名的下级单位,则将可能地名记录为独立地名,并将独立地名的下级单位识别为该所需地名识别文本的地名; b、对被记录为可能地名的文本,根据地名基本知识库中人工标注的关键词进行上下文标注,如果文本中能识别出地名基本知识库中对应的地名+政府,则将该对应地名识别为所需地名识别文本的地名; C、对被记录为可能地名的文本,根据步骤一中的分词结果,利用中文人名的识别算法,判断上下文和可能地名是否构成中文的人名,若构成中文的人名,则将该可能地名标记为不可能地名; 所述中文人名的识别算法主要采用对在只出现地名信息的文本进行判断,利用常用姓名知识库,将地名信息和地名信息前面或者后面的一个或者两个词组合进行判断是否构成姓名; d、对被记录为可能地名的文本,标记出文本中所有的辅助词,如果文本中至少出现一次可能地名地区的辅助词,则将该地区的地名识别为所需地名识别文本的地名; 步骤四:根据辅助词词典,标记出所需地名识别的文本中所有的辅助词,如果文本中至少出现两次同一个地名地区的辅助词,则将该地名记录为独立地名,并该地名识别为该所需地名识别文本的地名; 步骤五:重复步骤a,判断可能地名中是否存在独立地名中的下级地名,如果是,则将该可能地名标注为关注的地名; 步骤六:输出该所需地名识别的文本中识别出的所有地名,并标注出地名出现的文本位置。
2.根据权利要求1所述的基于统计模型的智能地名识别技术,其特征在于,所述步骤一中的基于统计概率模型的基础分词算法,具体是指:采取自定的上下文特征,对基本词典和概率模型交叉分析词组分界线的算法。
3.根据权利要求1所述的基于统计模型的智能地名识别技术,其特征在于,所述地名基本知识库的建立具体包括下述步骤: (1)收集整理各种类型文章中出现的地名信息和关键词,并进行人工标注,所述关键词是指出现在地名前面或后面有意义的词组,包括机构名称、标志性地点; (2)整理地名基本知识库,地名基本知识库包括全国省、市、县、区的地名名称、简称、别称、上下级关系、行政区域代码; (3)整理步骤一采取的基于统计概率模型的基础分词算法的所需知识库的基础,包括整理和训练用以分词的基于统计概率的分词模型,分词模型基于字进行标注,且采取B (词的开头)和E(不是词的开头)两种标注,最后用最大熵训练模型,得到最终模型; (4)将步骤(2)的地名基本知识库中的所有的词,作为补充词典添加到步骤(3)的分词丰吴型中; (5)建立单个地名质量知识库,用于对只出现地名信息的可能地名,判断是否能识别为独立地名; (6)收集常用姓、常用名,建立常用姓名知识库; (7)建立辅助词词典,辅助词包括城市的街道名称、标志性建筑、学校、医院,并对辅助词之间的干扰和消岐进行整理。
4.根据权利要求3所述的基于统计模型的智能地名识别技术,其特征在于,所述智能地名识别技术中还设有学习模块,用于将识别过程中未确定的地名列表、上下文信息、未识别的类型和已确定地名信息进行记录,并转换成可以供索引的文件,最后收录入地名质量库中进入存储和索引;且每隔一段时间,人工对常见的情况进行归纳和总结,并且定期更新地名质量库。
【文档编号】G06F17/27GK104199840SQ201410381574
【公开日】2014年12月10日 申请日期:2014年8月5日 优先权日:2014年8月5日
【发明者】陈则润, 吴鸣旦, 范渊 申请人:杭州安恒信息技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1