一种自然语言地址描述的自动识别方法与流程

文档序号:15492359发布日期:2018-09-21 20:52阅读:412来源:国知局

本发明涉及自然语言地址描述的识别技术领域和有限状态机技术领域、构造切词分图技术,尤其涉及一种自然语言地址的自动识别方法。



背景技术:

自然语言是人们进行通信和交流的主要工具,在互联网与大数据时代,存在海量易获取的中文自然语言地址描述数据。它们体现了公众描述空间位置的语言和认知习惯,蕴含着丰富的空间信息。利用文本挖掘技术,自动识别自然语言地址描述中的词语、句法及语义信息,从而提炼出现频率较高的地名和常用的描述模式,对于城市地标的选取、意象地图的构建和空间位置的交际等都具有重要的研究意义和实用价值。

目前,随着自然语言的处理越来越趋向于实用化和工程化,我们必须提供一种高效准确的方法来识别自然语言。

因此,提出了一种基于模式匹配的自然语言处理方法和分词构造法。在模式匹配不能识别自然语言地址描述时,为了自动识别这种情况的自然语言地址描述数据,提供能表示常见地址描述模式的基于词性的有限状态机模型,并利用有限状态机匹配和识别地址描述语句的句法结构。



技术实现要素:

本发明要解决的技术问题是,提供一种为了自动识别这种情况的自然语言地址描述数据,提供能表示常见地址描述模式的基于词性的有限状态机模型,并利用有限状态机匹配和识别地址描述语句的句法结构的自然语言地址描述的方法。

为了解决上述技术问题,本发明采用的技术方案是:该自然语言地址的自动识别方法,包括以下步骤:

(1)开始检索识别,加载自然语言处理引擎,获取自然语言地址描述的句子或词语,句法或词的语言模式提取;然后对提取的语言模进行匹配识别,看是否有模式可以匹配识别该地址描述;

(2)如有能匹配识别该地址描述的模式,则进行模式识别,并输出结果;

(3)如果没有能匹配识别该地址描述的模式则通过建立切词分图来识别;建立切图分词,根据有限状态机模型,识别句法结构,进行地址描述的识别,并输出结果。采用上述技术方案,采集地址描述语句输入到自然语言地址描述自动识别系统中,系统对输入的地址描述进行分析,通过模式匹配和切词分图对地址描述进行判断,输出自动识别后的地址描述到前端;通过提取模式来识别地址描述语句,如果模式识别中没有匹配的,则再通过切词分图来识别,两种方式相互辅助,识别率高,识别速度快;对于单句,以及复杂句的识别非常精确;不依赖于地名词典中的中文地址统计分词算法,能够完成地址描述语句的自动分词和词性标注,方便用户找到具体地点,节约了社会大众的出行时间;方便提取出更有价值的空间信息,比如城市中地标性建筑、城市的意象化表达和空间位置描述等。

本发明进一步改进在于,所述步骤(3)中通过建立切词分图来识别的步骤具体包括如下步骤:

1)建立切词分图:把候选词中的每个字串当作节点,把每个字串前后次序当作弧段,建立切词分图;

2)搜索最优路径:从地址描述切词分图中搜索最优路径,选取总弧段最小的路径就是地址语句最佳的切分模式;即根据指定的模型从微观序列中快速有效地选择最优的状态序列,从而进行地址描述的识别,并输出结果。

本发明进一步改进在于,所述步骤1)中弧段的大小根据弧段大小公式来计算切词分图中的弧段的大小,其中wa、bw表示弧段连接的左右字符串,a表示左字串最右侧的字,b表示右字串最左侧的字,mi’表示切分词图中的互信息,e′l表示切分词图中的左熵,e′r表示切分词图中的右熵;

本发明进一步改进在于,述步骤(1)中的语言模式的提取是从自然语言地址描述的语法中提取一部分,或者可以是几种成分部分的交融,作为模式;其中首先分析自然语言的语法、语义规则,并从中提取出不同的语言模式。

本发明进一步改进在于,所述步骤1)建立切词分图中采用将地名当作专有名词或者通用名词,其余词语归纳为指示词和限定词两类。将地名当作专有名词或者通用名词,其他词语可以被归纳为指示词和限定词两类。指示词用来说明目标位置与单个或者多个地名的距离关系(“近”,“旁”)、拓扑关系(“内”,“外”)或者方位关系(“向西”,“路北”)等。限定词在地址描述文本中对名词、指示词或者其他的限定词起到连接的作用(如“与”,“和”)、补充的作用(如“约”,“附”)、特指的作用(如“号”,“层”)、数量说明(如“米”)等作用,其中“号”、“层”、“约”、“米”等字通常和各种数字或者字母共同出现,形成一种限定词模式;表1列举了一些常用的指示词和限定词:

表1常用的指示词和限定词

本发明进一步改进在于,所述步骤2)搜索最优路径中是基于有限状态机的句法结构来识别,每个有限状态机都有一个开始状态、一个终止状态以及若干个中间状态;每条弧段可以表示一个状态转移到下一个状态的条件;利用有限状态机识别地址描述语句的句法结构是一个词类匹配的遍历过程。

本发明还要解决的技术问题是,提供一种为了自动识别这种情况的自然语言地址描述数据,提供能表示常见地址描述模式的基于词性的有限状态机模型,并利用有限状态机匹配和识别地址描述语句的句法结构的自然语言地址描述的系统。

为了解决上述技术问题,本发明采用的技术方案是:自然语言地址描述的自动识别系统,包括控制模块、数据收发模块、数据管理模块和数据分析模块,所述数据收发模块、数据管理模块和数据分析模块均与所述控制模块形成双向传输连接;所述数据收发模块负责接收采集地址描述数据,以及发出系统自动识别后的地址描述;所述数据管理模块用于提供匹配的模式查询、修改、增加以及常用指示词和限定词查询、修改、增加;所述数据分析模块用于提取语言模式并根据匹配的模式和切词分图来识别地址描述语句。

本发明进一步改进在于,所述数据分析模块包括提取模块、分析匹配模块和确定模块;所述提取模块用于自然语言地址描述的句子或词语的语言模式提取;所述分析匹配模块用于根据匹配的模式或切词分图来识别自然地址描述;所述确定模块用于确定匹配结果;所述数据管理模块包括搜索模块、停止语言识别模块和矫正模块,所述搜索模块用于启动自然语言处理引擎,提供搜索栏;所述停止语言识别模块用于暂停识别;所述矫正模块用于矫正自然语言地址描述。

现有技术相比,本发明具有的有益效果是:

1)通过提取模式来识别地址描述语句,识别率高,识别速度快。对于单句,以及复杂句的识别非常精确;

2)不依赖于地名词典中的中文地址统计分词算法,能够完成地址描述语句的自动分词和词性标注,方便用户找到具体地点,节约了社会大众的出行时间;

3)方便提取出更有价值的空间信息,比如城市中地标性建筑、城市的意象化表达和空间位置描述等。

附图说明

下面结合附图进一步描述本发明的技术方案:

图1是本发明的自然语言地址描述的自动识别方法的流程示意图;

图2是本发明的自然语言地址描述的自动识别方法的地址描述切词分图;

图3是本发明的自然语言地址描述的自动识别方法的自定义脱密规则的流程图;

图4是本发明的实施例2的自然语言地址描述的自动识别系统的框架图;

图5是本发明的实施例3的自然语言地址描述的自动识别系统的框架图。

具体实施方式

为了加深对本发明的理解,下面将结合附图和实施例对本发明做进一步详细描述,该实施例仅用于解释本发明,并不对本发明的保护范围构成限定。

实施例1:如图1-2所示,该自然语言地址描述的自动识别方法,包括以下步骤:

(1)开始检索识别,加载自然语言处理引擎,获取自然语言地址描述的句子或词语,句法或词的语言模式提取;然后对提取的语言模进行匹配识别,看是否有模式可以匹配识别该地址描述;

(2)如有能匹配识别该地址描述的模式,则进行模式识别,并输出结果;

(3)如果没有能匹配识别该地址描述的模式则通过建立切词分图来识别;建立切图分词,根据有限状态机模型,识别句法结构,进行地址描述的识别,并输出结果;所述步骤(3)中通过建立切词分图来识别的步骤具体包括如下步骤:

1)建立切词分图:把候选词中的每个字串当作节点,把每个字串前后次序当作弧段,建立切词分图;

2)搜索最优路径:从地址描述切词分图中搜索最优路径,选取总弧段最小的路径就是地址语句最佳的切分模式;即根据指定的模型从微观序列中快速有效地选择最优的状态序列,从而进行地址描述的识别,并输出结果;所述步骤1)中弧段的大小根据弧段大小公式来计算切词分图中的弧段的大小,其中wa、bw表示弧段连接的左右字符串,a表示左字串最右侧的字,b表示右字串最左侧的字,mi’表示切分词图中的互信息,表示切分词图中的左熵,表示切分词图中的右熵;所述步骤(1)中的语言模式的提取是从自然语言地址描述的语法中提取一部分,或者可以是几种成分部分的交融,作为模式;其中首先分析自然语言的语法、语义规则,并从中提取出不同的语言模式;所述步骤1)建立切词分图中采用将地名当作专有名词或者通用名词,其余词语归纳为指示词和限定词两类。将地名当作专有名词或者通用名词,其他词语可以被归纳为指示词和限定词两类。指示词用来说明目标位置与单个或者多个地名的距离关系(“近”,“旁”)、拓扑关系(“内”,“外”)或者方位关系(“向西”,“路北”)等。限定词在地址描述文本中对名词、指示词或者其他的限定词起到连接的作用(如“与”,“和”)、补充的作用(如“约”,“附”)、特指的作用(如“号”,“层”)、数量说明(如“米”)等作用,其中“号”、“层”、“约”、“米”等字通常和各种数字或者字母共同出现,形成一种限定词模式;所述步骤2)搜索最优路径中是基于有限状态机的句法结构来识别,每个有限状态机都有一个开始状态、一个终止状态以及若干个中间状态;每条弧段可以表示一个状态转移到下一个状态的条件;利用有限状态机识别地址描述语句的句法结构是一个词类匹配的遍历过程;如图3所示,一个句子,从句首开始判定和划分名词还是限定词还是指示词到句尾结束,句首作为有限状态机的开始状态,句尾作为有限状态机的终止状态,中间的作为中间状态,每条弧段可以表示一个状态转移到下一个状态的条件,从而通过有限状态机识别地址描述语句的句法结构。

实施例2:如图4所示,自然语言地址描述的自动识别系统,采用c#语言开发,包括控制模块、数据收发模块、数据管理模块和数据分析模块,所述数据收发模块、数据管理模块和数据分析模块均与所述控制模块形成双向传输连接;所述数据收发模块负责接收采集地址描述数据,以及发出系统自动识别后的地址描述;所述数据管理模块用于提供匹配的模式查询、修改、增加以及常用指示词和限定词查询、修改、增加;所述数据分析模块用于提取语言模式并根据匹配的模式和切词分图来识别地址描述语句。

实施例3:如图5所示,自然语言地址描述的自动识别系统,采用c#语言开发,包括控制模块、数据收发模块、数据管理模块和数据分析模块,所述数据收发模块、数据管理模块和数据分析模块均与所述控制模块形成双向传输连接;所述数据收发模块负责接收采集地址描述数据,以及发出系统自动识别后的地址描述;所述数据管理模块用于提供匹配的模式查询、修改、增加以及常用指示词和限定词查询、修改、增加;所述数据分析模块用于提取语言模式并根据匹配的模式和切词分图来识别地址描述语句;所述数据分析模块包括提取模块、分析匹配模块和确定模块;所述提取模块用于自然语言地址描述的句子或词语的语言模式提取;所述分析匹配模块用于根据匹配的模式或切词分图来识别自然地址描述;所述确定模块用于确定匹配结果;所述数据管理模块包括搜索模块、停止语言识别模块和矫正模块,所述搜索模块用于启动自然语言处理引擎,提供搜索栏;所述停止语言识别模块用于暂停识别;所述矫正模块用于矫正自然语言地址描述。

对于本领域的普通技术人员而言,具体实施例只是对本发明进行了示例性描述,显然本发明具体实现并不受上述方式的限制,只要采用了本发明的方法构思和技术方案进行的各种非实质性的改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1