地名地址提取方法及装置的制造方法_3

文档序号:9349923阅读:来源:国知局
含有人物代词也含有人物描述后缀词的被判断为非地 名地址:.[i]eLoc.(黎毯it)最&FigttmHgt. .[iJ.eLc^Cwait) Pronlist :人物代词集合,如:"你们、我们、他…"。
[0069] 对应上述地名地址提取方法,本发明实施例还提供了一种地名地址提取装置,如 图5所示包括:分词模块41、前后缀匹配模块42及过滤筛选模块43 ;其中,分词模块41,用 于对目标文本分词,得到待匹配词组;前后缀匹配模块42,用于利用前后缀识别窗口中的 前缀特征词及后缀特征词分别对待匹配词组的前缀及后缀进行文字匹配,并根据文字匹配 的结果获取候选地名地址;过滤筛选模块43,用于提取候选地名地址中的筛选特征词,依 据筛选特征词对候选地名地址进行过滤筛选。
[0070] 在对目标文本分词之前,首先获取目标文本,获取的方法为通过网络爬虫技术抓 取网页文本,为了实现网页上述装置还包括:文本抓取模块,用于对目标文本分词前,采用 网络爬虫技术,抓取目标网页中的网页文本,并将抓取的网页文本作为目标文本。
[0071] 上述装置,还包括:特征词提取模块,用于对含有地名地址的语料文本库中的地名 地址文本数据分别进行前缀特征词及后缀特征词的提取;识别窗口组成模块,用于利用提 取的前缀特征词及后缀特征词组成前后缀识别窗口。
[0072] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、 装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0073] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以 通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分, 仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可 以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨 论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接 耦合或通信连接,可以是电性,机械或其它的形式。
[0074] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显 示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个 网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目 的。
[0075] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以 是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0076] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以 存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说 对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计 算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个 人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。 而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取 存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0077] 以上所述,仅为本发明的【具体实施方式】,但本发明的保护范围并不局限于此,任何 熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵 盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
【主权项】
1. 一种地名地址提取方法,其特征在于,包括: 对目标文本分词,得到待匹配词组; 利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及 后缀进行文字匹配,并根据所述文字匹配的结果获取候选地名地址; 提取所述候选地名地址中的筛选特征词,依据所述筛选特征词对所述候选地名地址进 行过滤筛选。2. 根据权利要求1所述的方法,其特征在于,所述对目标文本分词前还包括:采用网络 爬虫技术,抓取目标网页中的网页文本,并将抓取的所述网页文本作为目标文本。3. 根据权利要求1所述的方法,其特征在于,所述方法还包括:对含有地名地址的语料 文本库中的地名地址文本数据分别进行前缀特征词及后缀特征词的提取; 利用提取的所述前缀特征词及所述后缀特征词组成所述前后缀识别窗口。4. 根据权利要求3所述的方法,其特征在于,所述利用提取的所述前缀特征词及所述 后缀特征词组成所述前后缀识别窗口,包括: 对从所述语料文本库中提取的所述前缀特征词及所述后缀特征词进行频率统计,并根 据所述频率统计的结果对所述前后缀识别窗口中的前缀特征词及后缀特征词赋予权重; 按照所述前缀特征词及所述后缀特征词的权重大小,确定所述前后缀识别窗口中前缀 特征词及后缀特征词的匹配顺序。5. 根据权利要求4所述的方法,其特征在于,所述利用前后缀识别窗口中的前缀特征 词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配,包括: 按照所述前后缀识别窗口中确定出的前缀特征词及后缀特征词的匹配顺序对所述待 匹配词组的前缀及后缀进行文字匹配。6. 根据权利要求5所述的方法,其特征在于,所述利用前后缀识别窗口中的前缀特征 词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配,包括: 利用前后缀识别窗口中的前缀特征词对所述待匹配词组的前缀进行匹配; 当所述前缀匹配一致后,利用所述前后缀识别窗口中的后缀特征词对所述待匹配词组 的后缀进行匹配。7. 根据权利要求1所述的方法,其特征在于,所述提取所述候选地名地址中的筛选特 征词,依据所述筛选特征词对所述候选地名地址进行过滤筛选,包括: 当从所述候选地名地址中提取的所述筛选特征词中至少包括行政区划要素、专有地名 名词、经炜度信息及企事业单位特征词中的一项时,确定所述候选地名地址为符合地名地 址规则的地名地址; 当从所述候选地名地址中提取的所述筛选特征词中同时包括姓氏及人物描述时,或, 同时包括人物代词及人物描述时,剔除所述候选地名地址。8. -种地名地址提取装置,其特征在于,包括: 分词模块,用于对目标文本分词,得到待匹配词组; 前后缀匹配模块,用于利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述 待匹配词组的前缀及后缀进行文字匹配,并根据所述文字匹配的结果获取候选地名地址; 过滤筛选模块,用于提取所述候选地名地址中的筛选特征词,依据所述筛选特征词对 所述候选地名地址进行过滤筛选。9. 根据权利要求8所述的装置,其特征在于,还包括:文本抓取模块,用于对目标文本 分词前,采用网络爬虫技术,抓取目标网页中的网页文本,并将抓取的所述网页文本作为目 标文本。10. 根据权利要求8所述的装置,其特征在于,还包括: 特征词提取模块,用于对含有地名地址的语料文本库中的地名地址文本数据分别进行 前缀特征词及后缀特征词的提取; 识别窗口组成模块,用于利用提取的所述前缀特征词及所述后缀特征词组成所述前后 缀识别窗口。
【专利摘要】本发明涉及信息技术领域,尤其涉及地名地址提取方法及装置。一种地名地址提取方法,包括:对目标文本分词,得到待匹配词组;利用前后缀识别窗口中的前缀特征词及后缀特征词分别对所述待匹配词组的前缀及后缀进行文字匹配,并根据所述文字匹配的结果获取候选地名地址;提取所述候选地名地址中的筛选特征词,依据所述筛选特征词对所述候选地名地址进行过滤筛选。本发明的地名地址提取方法及装置,能够改善从海量网页文本中获取地名地址难度较大的问题。
【IPC分类】G06F17/30, G06F17/27
【公开号】CN105068989
【申请号】CN201510437893
【发明人】刘纪平, 罗安, 王勇, 王克永
【申请人】中国测绘科学研究院
【公开日】2015年11月18日
【申请日】2015年7月23日
当前第3页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1