中文地名行政区划归属识别方法与流程

文档序号:12124416阅读:2872来源:国知局

本发明涉及文字信息处理领域,具体涉及一种中文地名行政区划归属识别方法。



背景技术:

在对互联网资讯新闻等文本语义分析中,完成地名命名实体识别后,准确地标定每一个地名的行政区划归属,可以应用于文章的地区新闻分类,文章事件抽取的事件发生地确定等方面;同时做为地名命名实体识别的增强技术,也可以广泛应用信息抽取、信息检索、自动问答、机器翻译等领域中。行政区划在世界各国划分标准不尽相同,这里主要针对中国国内的地名和行政区划进行处理。我国的行政区划主要有以下层级:国家、省和直辖市、市和地区、区和县、乡和镇、行政村和自然村。在资讯文章中,地名的行政区划层级有大有小,尤其是小层级的地名,重名现象非常普遍;同时,地名也包含非直接行政区划地名,比如:景点、道路、水域、自然区域等;利用上下文语境和背景知识,准确确定每一个地名在文章中语义表达的行政区划归属,是一个较为复杂的语义分析难题,给文本挖掘相关应用带来很大困扰。



技术实现要素:

本发明的目的是针对现有的技术存在的不足,提出了一种工作效率高的中文地名行政区划归属识别方法。

本发明所解决的技术问题采用以下技术方案来实现一种中文地名行政区划归属识别方法,包括以下步骤:建立行政区划知识库,知识库包括行政区划层级关系词集,常见地名行政区划归属词集;扫描一篇文章文本,对文本进行地名识别;对获取的地名集合进行知识查询匹配,获取每一个地名的行政区划归属背景知识,同一地名可能有多个行政区划归属知识;按照行政区划层级的高低,依次根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其他高层级的行政区划归属进行排歧;对于无行政区划归属知识的地名,则根据上下文位置,使用左边上文紧邻的地名设定其行政区划归属。

本发明的有益效果为:提出了一种中文地名行政区划归属识别方法,具有更准确的地名行政区归属效果,更快的处理速度。

具体实施方式

参照附图,一种中文地名行政区划归属识别方法,包括以下步骤:建立行政区划知识库,知识库包括行政区划层级关系词集,常见地名行政区划归属词集;扫描一篇文章文本,对文本进行地名识别;对获取的地名集合进行知识查询匹配,获取每一个地名的行政区划归属背景知识,同一地名可能有多个行政区划归属知识;按照行政区划层级的高低,依次根据背景知识确定行政区划归属;对于同一地名多个归属知识的情况根据文章内其他高层级的行政区划归属进行排歧;对于无行政区划归属知识的地名,则根据上下文位置,使用左边上文紧邻的地名设定其行政区划归属。

本发明提出了一种中文地名行政区划归属识别方法,包括以下步骤:

A、建立行政区划知识库,知识库中包括行政区划层级归属关系知识集、常见地名行政区划归属知识集、禁止词集;

B、扫描文本,对文本进行分词和地名识别;

C、获取文章完整的地名识别结果集合,包括每一个地名的位置信息,如果文章区分标题和正文等字段,则将地名出现的字段名也标记在地名识别结果中;

D、根据地名的字段和位置,先标题后正文,位置是从文本开始到结束,逐个地名查询知识库,获得每一个地名的行政区划背景知识;对于同名的情况,则保留多个行政区划层级路径,对于未出现在背景知识库中的地名,则暂不处理;

E、统计全部有行政区划知识的地名结果,汇总出各个行政区划层级路径的频率权重,对出现在标题中的行政区划层级路径进行适当增权处理,然后按出现频率权重由高到低对行政区划层级路径进行排序;

F、遍历扫描地名结果,处理同一地名多个行政区划路径的情况,根据步骤E统计的行政区划层级路径频率权重,优先选择频率权重高的行政区划路径做为同名地名的最终行政区划归属;

G、再次遍历扫描地名结果,处理无行政区划背景知识的地名,遍历扫描顺序仍然是按先标题后正文,文本位置从开始到结束,遇到第一个无行政区划背景知识的地名,则将其上一个地名的行政区划层级归属赋予当前地名,如果当前地名是文章最开始的一个地名且无行政区划背景知识,则直接将步骤E统计到的文章最高频率权重行政区划层级做为当前地名的行政区划归属。

经过上述步骤后,文章的每一个地名都完成了其行政区划归属识别;识别的效果除流程设计外,对文章内地名的数量,以及行政区划背景知识库的完善度有着较高的依赖,知识库约完善,则识别效果越好。

此外,对于上述流程步骤,还可以进一步优化完善,比如步骤G的行政区划归属识别,可以再根据文章整体行政区划层级统计情况,进行层级进一步细化,而不是单纯的依赖前一个地名的结果。

所属领域的普通技术人员应当理解:以上,所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1