地名地址提取方法及装置的制造方法

文档序号:9349923阅读:402来源:国知局
地名地址提取方法及装置的制造方法
【技术领域】
[0001] 本发明涉及信息技术领域,具体而言,涉及地名地址提取方法及装置。
【背景技术】
[0002] 随着互联网技术与计算机技术的发展,海量互联网信息已经涉及到用户的方方面 面,用户可以从互联网中获取发生的新闻、报道、军事、生活等信息,并且可以从网页文本中 发现这些信息发生的时间、地点。随着互联网信息内容的增加,越来越多的地名地址通过网 络新闻等信息表现出来,这些互联网新闻信息更新及时、数据量大、信息丰富,成为地名地 址表达的重要方式。同时,地理信息产业对地理信息数据的现势性要求越来越高,海量网页 文本中提取出的地名地址不仅可以丰富地理信息的内容,还可以为政府关注各类事件的分 析、研究和决策提供支撑,逐步成为一种地理信息数据获取的重要数据源。因此,如何从网 络文本中获取准确的地名地址数据提取成为了地理信息数据获取与更新的重要且亟待解 决的问题。目前,传统的地名地址提取方法主要是基于字典、统计、规则以及机器学习等方 法展开,这些方法对传统地名地址库的要求高,对于模糊地名地址或者未登录的地名地址 识别难度大。

【发明内容】

[0003] 本发明的目的在于提供地名地址提取方法及装置,以改善从海量网页文本中获取 地名地址难度较大的问题。
[0004] 第一方面,本发明实施例提供了一种地名地址提取方法,包括:对目标文本分词, 得到待匹配词组;利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词 组的前缀及后缀进行文字匹配,并根据所述文字匹配的结果获取候选地名地址;提取所述 候选地名地址中的筛选特征词,依据所述筛选特征词对所述候选地名地址进行过滤筛选。
[0005] 结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所 述对目标文本分词前还包括:采用网络爬虫技术,抓取目标网页中的网页文本,并将抓取的 所述网页文本作为目标文本。
[0006] 结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所 述方法还包括:对含有地名地址的语料文本库中的地名地址文本数据分别进行前缀特征词 及后缀特征词的提取;利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别 窗口。
[0007] 结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所 述利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口,包括:对从所 述语料文本库中提取的所述前缀特征词及所述后缀特征词进行频率统计,并根据所述频率 统计的结果对所述前后缀识别窗口中的前缀特征词及后缀特征词赋予权重;按照所述前缀 特征词及所述后缀特征词的权重大小,确定所述前后缀识别窗口中前缀特征词及后缀特征 词的匹配顺序。
[0008] 结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所 述利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后 缀进行文字匹配,包括:按照所述前后缀识别窗口中确定出的前缀特征词及后缀特征词的 匹配顺序对所述待匹配词组的前缀及后缀进行文字匹配。
[0009] 结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所 述利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后 缀进行文字匹配,包括:利用前后缀识别窗口中的前缀特征词对所述待匹配词组的前缀进 行匹配;当所述前缀匹配一致后,利用所述前后缀识别窗口中的后缀特征词对所述待匹配 词组的后缀进行匹配。
[0010] 结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所 述提取所述候选地名地址中的筛选特征词,依据所述筛选特征词对所述候选地名地址进行 过滤筛选,包括:当从所述候选地名地址中提取的所述筛选特征词中至少包括行政区划要 素、专有地名名词、经炜度信息及企事业单位特征词中的一项时,确定所述候选地名地址为 符合地名地址规则的地名地址;当从所述候选地名地址中提取的所述筛选特征词中同时包 括姓氏及人物描述时,或,同时包括人物代词及人物描述时,剔除所述候选地名地址。
[0011] 第二方面,本发明实施例还提供了一种地名地址提取装置,包括:分词模块,用于 对目标文本分词,得到待匹配词组;前后缀匹配模块,用于利用前后缀识别窗口中的前缀特 征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配,并根据所述文字匹 配的结果获取候选地名地址;过滤筛选模块,用于提取所述候选地名地址中的筛选特征词, 依据所述筛选特征词对所述候选地名地址进行过滤筛选。
[0012] 结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,上 述装置还包括:文本抓取模块,用于对目标文本分词前,采用网络爬虫技术,抓取目标网页 中的网页文本,并将抓取的所述网页文本作为目标文本。
[0013] 结合第二方面,本发明实施例提供了第二方面的第二种可能的实施方式,其中,上 述装置还包括:特征词提取模块,用于对含有地名地址的语料文本库中的地名地址文本数 据分别进行前缀特征词及后缀特征词的提取;识别窗口组成模块,用于利用提取的所述前 缀特征词及所述后缀特征词组成所述前后缀识别窗口。
[0014] 本发明实施例的地名地址提取方法及装置中,对网页中的目标文本进行分词,将 目标文本划分成独立的词语或者单词,之后利用前后缀识别窗口对切分后的文本数据以此 匹配,得到候选地名地址,最后根据候选地名地址中的特征词对候选地名地址进行过滤筛 选得到最终的地名地址,利用该方法能够较为简便地从海量网页文本中提取地名地址,从 而改善现有技术中从海量网页文本中提取地名地址较为困难的问题。
[0015] 为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合 所附附图,作详细说明如下。
【附图说明】
[0016] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附 图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对 范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他相关的附图。
[0017] 图1示出了本发明实施例中地名地址提取方法的一种流程图;
[0018] 图2示出了本发明实施例中前后缀识别窗口的一种结构示意图;
[0019] 图3示出了本发明实施例中地名地址提取方法的另一种流程图;
[0020] 图4不出了本发明实施例中如后缀识别窗口的另一种结构不意图;
[0021] 图5示出了本发明实施例中地名地址提取装置的一种结构示意图。
【具体实施方式】
[0022] 下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在 此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因 此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的 范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做 出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0023] 为了实现对网页中地名地址的提取,本发明实施例提供了一种地名地址提取方 法,如图1所示,主要处理步骤包括:
[0024] 步骤SI1 :对目标文本分词,得到待匹配词组。
[0025] 本发明中,对目标文本分词主要是对中文文本分词,中文分词是利用分词算法对 中文网页文本数据切分成独立的词语或者汉字,比英文分词方法相对要复杂。本步骤在对 目标文本分词时,采用比较成熟与流行的中文分词算法,并对分词的结果进行分析验证,减 少中文分词中出现的错误。
[0026] 步骤S12 :利用前后缀识别窗口中的前缀特征词及后
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1