地址切分识别方法与流程

文档序号:12837109阅读:336来源:国知局
地址切分识别方法与流程

本申请涉及地址识别技术领域,具体涉及一种地址切分识别方法。



背景技术:

目前常用的分词识别方法主要包括三种类型:1、基于基础数据的匹配方法;2、基于语法的切分方法;3、基于统计数据的切分方法。

而对于地址识别而言,通常采用的是上述的第一类方法和第三类方法,而很少采用上述的第二类方法,因为地址字段通常全部由名词组成,并不构成一句正常语法的中文语句。

然而上述几类方法在特殊情境或特殊模式中对于地址字段的切分并不奏效,例如在一个虚拟现实的场景中:在一个青山绿水的山谷场景中,产生了一个回声型的地址字段“阿阿阿里里里山山山山山……”,地址字段中的叠字是由于虚拟的山谷场景较为空旷形成了回声而产生的。此时,对于该回声型的地址字段,现有的分词识别方法是无法识别出“阿里山”的,由于回声型字段中叠字出现的次数可能是不确定的,不可能将所有的可能情况都配置成为基础匹配数据。因此,对于上述类型的回声型字段,需要采用一种新的方法来进行识别。

此外,对于上述回声型字段,还有可能出现类似于“阿阿里里阿里阿山里山山山山……”这样的重复穿插型的字段,现有的分词识别方法同样无法对其进行正确的识别。



技术实现要素:

鉴于现有技术中的上述缺陷或不足,期望提供一种能正确识别包括回声型字段的地址字段的地址切分识别方法。

本发明提供一种地址切分识别方法,所述方法包括:

检测到输入的地址字段中包括回声型字段;

对所述地址字段进行识别切分以获取所述回声型字段;

调用与所述回声型字段对应的确定有穷自动机(deterministicfiniteautomaton,简称dfa)模型对所述回声型字段进行识别,得到第一识别结果;

综合所述第一识别结果和所述地址字段识别切分所获取的其它字段进行识别得到的第二识别结果,得到所述地址字段的完整识别结果。

本发明诸多实施例提供的地址切分识别方法通过调用与回声型字段对应的确定有穷自动机模型对回声型字段进行识别,实现了对包括回声型字段的地址字段的正确识别;

本发明一些实施例提供的地址切分识别方法进一步通过在调用dfa模型进行识别之前或之后生成与回声型字段对应的确定有穷自动机模型,有效地提高了系统的识别效率;

本发明一些实施例提供的地址切分识别方法进一步通过对用于生成确定有穷自动机模型的地名按照地域范围进行分类,提高了识别的效率;

本发明一些实施例提供的地址切分识别方法进一步通过根据正常字段的识别结果对地域范围进行排序,提高了识别的效率;

本发明一些实施例提供的地址切分识别方法进一步通过根据预存的地址库判断回声型字段是否被误判的正常字段,节省了系统的计算资源,从而提升了识别的效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1为本发明一实施例中地址切分识别方法的流程图。

图2为本发明一优选实施例中地址切分识别方法的流程图。

图3为图2所示的地址切分识别方法中步骤s50的流程图。

图4为图3所示的步骤s57中根据正则表达式g1和g2生成的语法树的示意图。

图5为图4所示语法树所转化的确定有穷自动机模型。

图6为图3所示步骤s50的一种优选实施方式的流程图。

图7为图3所示步骤s50的另一种优选实施方式的流程图。

图8为图7所示步骤s54的优选实施方式的流程图。

图9为本发明一优选实施例中地址切分识别方法的流程图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1为本发明一实施例中地址切分识别方法的流程图。

如图1所示,在本实施例中,本发明提供的地址切分识别方法包括:

s10:检测到输入的地址字段中包括回声型字段;

s30:对所述地址字段进行识别切分以获取所述回声型字段;

s70:调用与所述回声型字段对应的确定有穷自动机(deterministicfiniteautomaton,简称dfa)模型对所述回声型字段进行识别,得到第一识别结果;

s90:综合所述第一识别结果和所述地址字段识别切分所获取的其它字段进行识别得到的第二识别结果,得到所述地址字段的完整识别结果。

具体地,在本实施例中,所述回声型字段指对于表示地址的名词通过类似于回声的形式所形成的包括叠字型和/或重复穿插型的字段。例如对于名词“广东”所形成的包括叠字型的字段“广广广东东”等,包括重复穿插型的字段“广东广东”、“东广东”等,或同时包括叠字型和重复穿插型的字段“广广东东广东东东”等。在更多实施例中,可以根据实际需求,将所述回声型字段定义为至少包括两组叠字,或 至少包括三个叠字等具有针对性的限定范围,只要该字段包括叠字型和/或重复穿插型的字段,即可实现同样的技术效果。

以输入字段“广广广东东省州广州市xx区xx路xx号”为例:

在步骤s10中,检测到输入的地址字段中同时包括了叠字型的回声型字段和重复穿插型的回声型字段。

在步骤s30中,对上述地址字段进行识别切分,得到了叠字型的回声型字段“广广广东东”和重复穿插型的回声型字段“州广州”。

在步骤s70中,调用“广”字开头的dfa模型对字段“广广广东东”进行识别,得到识别结果“广东”;调用“州”字开头的dfa模型对字段“州广州”进行识别,未得到识别结果,再调用“广”字开头的dfa模型对字段“州广州”进行识别,得到识别结果“广州”。

具体地,在本实施例中,所调用的各dfa模型已根据系统的地址库预生成并预存在系统中。在更多实施例中,所调用的各dfa模型可以根据实际需求存储在云服务器中、远程服务器中,或实时根据系统的地址库或云服务器等处的地址库实时生成。

在步骤s90中,综合上述识别结果“广东”、“广州”,和对字段“xx区xx路xx号”进行识别得到的识别结果,得到对于地址字段“广广广东东省州广州市xx区xx路xx号”的完整识别结果。

上述实施例通过调用与回声型字段对应的确定有穷自动机模型对回声型字段进行识别,实现了对包括回声型字段的地址字段的正确识别。

图2为本发明一优选实施例中地址切分识别方法的流程图。

如图2所示,在一优选实施例中,步骤s70之前或之后还包括:

s50:生成与所述回声型字段对应的确定有穷自动机模型。

具体地,在本实施例的一种实施方式中,系统或云服务器中不存储任何dfa模型,当步骤s30通过对所述地址字段进行识别切分获得回声型字段后,通过步骤s50实时生成对应的dfa模型。

在本实施例的另一种实施方式中,系统或云服务器中存储常用的dfa模型,当步骤s70调用所存储的常用的dfa模型对所述回声型字段所进行的识别失败时,通过步骤s50根据系统或云服务器等处存 储的地址库实时生成与所述回声型字段对应的dfa模型,再返回步骤s70调用实时生成的dfa模型进行识别。

上述实施例进一步通过在调用dfa模型进行识别之前或之后生成与回声型字段对应的确定有穷自动机模型,有效地提高了系统的识别效率。

图3为图2所示的地址切分识别方法中步骤s50的流程图。

如图3所示,在一优选实施例中,步骤s50包括:

s51:分析所述回声型字段,获取关键字;

s53:根据所述关键字调用与所述关键字相关的若干地名;

s55:分别根据所述若干地名生成若干正则表达式;

s57:根据所述若干正则表达式生成至少一个语法树;

s59:将所述语法树转化为确定有穷自动机模型。

具体地,以字段“广广广东东”为例:

步骤s51中,分析上述字段,获取关键字“广”和“东”;

步骤s53中,分别根据“广”和“东”调用相关的若干地名。以“广”为例,可调用“广东”、“广州”、“广安门”、“广渠门”等。

在步骤s55中,根据所调用的地名分别生成正则表达式,此处以“广东”和“广州”为例进行说明,分别生成正则表达式:

g1:(广*东*)*

g2:(广*州*)*

图4为图3所示的步骤s57中根据正则表达式g1和g2生成的语法树的示意图。

如图4所示,在步骤s57中,根据g1和g2生成图4所示的语法树。

图5为图4所示语法树所转化的确定有穷自动机模型。

如图5所示,在步骤s59中,将图4所示的语法树转化为图5所示的dfa模型。显然,图5所示的dfa模型可以识别任何由“广”、“州”、“东”字所组成的字段,包括由“广”和“州”字所组成的任何字段。

图6为图3所示步骤s50的一种优选实施方式的流程图。

如图6所示,在一优选实施例中,步骤s57具体包括:

s571:根据每个所述关键字的各相关地名生成的各正则表达式生成一个语法树。

具体地,以上述例子中的关键字“广”和“东”为例,在步骤s571中,根据所调用的所有“广”字开头的地名所生产的各正则表达式生产一个语法树,根据所调用的所有“东”字开头的地名所生产的各正则表达式生产一个语法树,即语法树与关键字一一对应,对于每个关键字只生成一个语法树。

图7为图3所示步骤s50的另一种优选实施方式的流程图。

如图7所示,在一优选实施例中,步骤s53之后还包括:

s54:对每个所述关键字相关的若干地名根据地域范围进行分类。

步骤s57具体包括:

s572:分别根据每个所述关键字的每一类地域范围的若干地名对应的若干正则表达式生成一个语法树。

具体地,以上述例子中的关键字“广”为例,所调用的地址中包括广东省的“广东”、“广州”,北京市的“广安门”、“广渠门”等,在步骤s54中,根据地域范围对各地名进行分类。在步骤s572中,根据广东省的所有“广”字开头的地名生成一个语法树,根据北京市的所有“广”字开头的地名生成另一个语法树,依此类推。

在本实施例中,地域范围分类以省、直辖市、自治区为单位,在更多实施例中,地域范围分类可根据实际需求采用不同的单位,具有同样的技术效果。

上述实施例进一步通过对用于生成确定有穷自动机模型的地名按照地域范围进行分类,提高了识别的效率。

图8为图7所示步骤s54的优选实施方式的流程图。

如图8所示,在一优选实施例中,步骤s54包括:

s541:对每个所述关键字相关的若干地名根据地域范围进行分类;

s543:根据所述第二识别结果对所述地域范围进行筛选或排序。

具体地,以上述例子中的广东省和北京市等地域范围分类为例,例如第二识别结果获得了“荔湾区”,可以确定其隶属于广东省广州市。

在本实施例的一种实施方式中,在步骤s543中对所述地域范围进行筛选,仅保留广东省广州市范围内的地名;

在本实施例的另一种实施方式中,在步骤s543中,对所述地域范围进行排序,将广东省和广州市排在地域范围分类的首位。

上述实施例进一步通过根据正常字段的识别结果对地域范围进行排序,提高了识别的效率。

图9为本发明一优选实施例中地址切分识别方法的流程图。

如图9所示,在一优选实施例中,步骤s30之后还包括:

s40:根据预存的地址库判断所述回声型字段是否被误判为回声型字段的正常字段:

若是被误判为回声型字段的正常字段,则采用常规识别方法识别所述地址字段。

具体地,以字段“北京北站”为例,显然该字段属于正常字段,当然通过本发明提供的地址切分识别方法也能对其进行正确的识别,但需要耗费系统更多的计算资源,在本实施例中,步骤s40中若识别出该字段属于被误判为回声型字段的正常字段,则无需再执行后续步骤,采用现有的常规分词识别方法进行识别即可。

上述实施例进一步通过根据预存的地址库判断回声型字段是否被误判的正常字段,节省了系统的计算资源,从而提升了识别的效率。

附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以通过执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以通过专用硬件与计算机指令的组合来实现。

作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的公式输入方法。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1