地名地址提取方法及装置的制造方法

文档序号：9349923阅读：402来源：国知局

地名地址提取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息技术领域，具体而言，涉及地名地址提取方法及装置。
【背景技术】
[0002] 随着互联网技术与计算机技术的发展，海量互联网信息已经涉及到用户的方方面面，用户可以从互联网中获取发生的新闻、报道、军事、生活等信息，并且可以从网页文本中发现这些信息发生的时间、地点。随着互联网信息内容的增加，越来越多的地名地址通过网络新闻等信息表现出来，这些互联网新闻信息更新及时、数据量大、信息丰富，成为地名地址表达的重要方式。同时，地理信息产业对地理信息数据的现势性要求越来越高，海量网页文本中提取出的地名地址不仅可以丰富地理信息的内容，还可以为政府关注各类事件的分析、研究和决策提供支撑，逐步成为一种地理信息数据获取的重要数据源。因此，如何从网络文本中获取准确的地名地址数据提取成为了地理信息数据获取与更新的重要且亟待解决的问题。目前，传统的地名地址提取方法主要是基于字典、统计、规则以及机器学习等方法展开，这些方法对传统地名地址库的要求高，对于模糊地名地址或者未登录的地名地址识别难度大。

【发明内容】

[0003] 本发明的目的在于提供地名地址提取方法及装置，以改善从海量网页文本中获取地名地址难度较大的问题。
[0004] 第一方面，本发明实施例提供了一种地名地址提取方法，包括：对目标文本分词，得到待匹配词组；利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，并根据所述文字匹配的结果获取候选地名地址；提取所述候选地名地址中的筛选特征词，依据所述筛选特征词对所述候选地名地址进行过滤筛选。
[0005] 结合第一方面，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述对目标文本分词前还包括：采用网络爬虫技术，抓取目标网页中的网页文本，并将抓取的所述网页文本作为目标文本。
[0006] 结合第一方面，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述方法还包括：对含有地名地址的语料文本库中的地名地址文本数据分别进行前缀特征词及后缀特征词的提取；利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口。
[0007] 结合第一方面，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口，包括：对从所述语料文本库中提取的所述前缀特征词及所述后缀特征词进行频率统计，并根据所述频率统计的结果对所述前后缀识别窗口中的前缀特征词及后缀特征词赋予权重；按照所述前缀特征词及所述后缀特征词的权重大小，确定所述前后缀识别窗口中前缀特征词及后缀特征词的匹配顺序。
[0008] 结合第一方面，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，包括：按照所述前后缀识别窗口中确定出的前缀特征词及后缀特征词的匹配顺序对所述待匹配词组的前缀及后缀进行文字匹配。
[0009] 结合第一方面，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，包括：利用前后缀识别窗口中的前缀特征词对所述待匹配词组的前缀进行匹配；当所述前缀匹配一致后，利用所述前后缀识别窗口中的后缀特征词对所述待匹配词组的后缀进行匹配。
[0010] 结合第一方面，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述提取所述候选地名地址中的筛选特征词，依据所述筛选特征词对所述候选地名地址进行过滤筛选，包括：当从所述候选地名地址中提取的所述筛选特征词中至少包括行政区划要素、专有地名名词、经炜度信息及企事业单位特征词中的一项时，确定所述候选地名地址为符合地名地址规则的地名地址；当从所述候选地名地址中提取的所述筛选特征词中同时包括姓氏及人物描述时，或，同时包括人物代词及人物描述时，剔除所述候选地名地址。
[0011] 第二方面，本发明实施例还提供了一种地名地址提取装置，包括：分词模块，用于对目标文本分词，得到待匹配词组；前后缀匹配模块，用于利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配，并根据所述文字匹配的结果获取候选地名地址；过滤筛选模块，用于提取所述候选地名地址中的筛选特征词，依据所述筛选特征词对所述候选地名地址进行过滤筛选。
[0012] 结合第二方面，本发明实施例提供了第二方面的第一种可能的实施方式，其中，上述装置还包括：文本抓取模块，用于对目标文本分词前，采用网络爬虫技术，抓取目标网页中的网页文本，并将抓取的所述网页文本作为目标文本。
[0013] 结合第二方面，本发明实施例提供了第二方面的第二种可能的实施方式，其中，上述装置还包括：特征词提取模块，用于对含有地名地址的语料文本库中的地名地址文本数据分别进行前缀特征词及后缀特征词的提取；识别窗口组成模块，用于利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口。
[0014] 本发明实施例的地名地址提取方法及装置中，对网页中的目标文本进行分词，将目标文本划分成独立的词语或者单词，之后利用前后缀识别窗口对切分后的文本数据以此匹配，得到候选地名地址，最后根据候选地名地址中的特征词对候选地名地址进行过滤筛选得到最终的地名地址，利用该方法能够较为简便地从海量网页文本中提取地名地址，从而改善现有技术中从海量网页文本中提取地名地址较为困难的问题。
[0015] 为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
【附图说明】
[0016] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。
[0017] 图1示出了本发明实施例中地名地址提取方法的一种流程图；
[0018] 图2示出了本发明实施例中前后缀识别窗口的一种结构示意图；
[0019] 图3示出了本发明实施例中地名地址提取方法的另一种流程图；
[0020] 图4不出了本发明实施例中如后缀识别窗口的另一种结构不意图；
[0021] 图5示出了本发明实施例中地名地址提取装置的一种结构示意图。
【具体实施方式】
[0022] 下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0023] 为了实现对网页中地名地址的提取，本发明实施例提供了一种地名地址提取方法，如图1所示，主要处理步骤包括：
[0024] 步骤SI1 :对目标文本分词，得到待匹配词组。
[0025] 本发明中，对目标文本分词主要是对中文文本分词，中文分词是利用分词算法对中文网页文本数据切分成独立的词语或者汉字，比英文分词方法相对要复杂。本步骤在对目标文本分词时，采用比较成熟与流行的中文分词算法，并对分词的结果进行分析验证，减少中文分词中出现的错误。
[0026] 步骤S12 :利用前后缀识别窗口中的前缀特征词及后

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘纪平;罗安;王勇;王克永;
技术所有人：中国测绘科学研究院;
我是此专利的发明人

上一篇：一种面向机器翻译的多策略英文长句分割方法及装置的制造方法
上一篇：多维度和多粒度情感分析方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。