一种解析组织机构名的方法和装置的制造方法

文档序号:8922581阅读:532来源:国知局
一种解析组织机构名的方法和装置的制造方法
【专利说明】
【技术领域】
[0001]本发明涉及计算机应用技术领域,特别涉及一种解析组织机构名的方法和装置。【【背景技术】】
[0002]随着大数据时代的来临,越来越多的企业面临海量数据的利用,其中对于诸如电子商务、物流等类型企业累积了大量的组织机构库资源,但组织机构库中存在的海量数据因其来源的不同往往存在对同一组织机构名的不同表达,这就需要对组织机构名进行判重的处理,或者组织机构库中存在大量错误的组织机构名,这就需要对组织机构名进行错误识别的处理,等等。但无论在对组织机构名进行判重和错误识别等处理,都需要对组织机构名进行拆分,拆分为地区部分和机构名部分。

【发明内容】

[0003]有鉴于此,本发明提供了一种解析组织机构名的方法和装置,以便于自动将组织机构名拆分为地区部分和机构名部分。
[0004]具体技术方案如下:
[0005]本发明提供了一种解析组织机构名的方法,针对组织机构名执行:
[0006]S1、提取前NI个字符,所述NI为预设的正整数;
[0007]S2、将当前提取的字符与预先建立的地址MAP中的key进行匹配,如果存在匹配的key,则执行S3 ;如果不存在匹配的key,则执行S4 ;
[0008]S3、记录所述MAP中匹配到的key所对应的value中的地区名称,将该地区名称从所述组织机构名中删除后,针对剩余的字符串转至执行所述SI ;
[0009]S4、将当前已记录的所述组织机构名中的地区名称构成所述组织机构名的地区部分,所述组织机构名的其他部分作为机构名部分;
[0010]其中,所述MAP中的key是从地址库中地区名称提取的前NI个字符,value包含对应key所来源的地区名称。
[0011]根据本发明一优选实施方式,预先建立所述MAP的过程包括对地址库中的各地区名称分别执行:
[0012]清除地区名称中的地区公共关键词;
[0013]提取剩余的字符的前NI个字符作为key,将该地区名称包含在该key对应的value 中 ο
[0014]根据本发明一优选实施方式,预先建立所述MAP的过程包括对地址库中的各地区名称分别执行:
[0015]清除地区名称中的地区公共关键词;
[0016]若该地区名称中剩余的字符个数小于或等于所述NI,则直接将该剩余的字符作为key,将该地区名称包含在该key对应的value中;
[0017]若该地区名称中剩余的字符个数大于所述NI,则提取该剩余的字符的前N2个字符作为key,将该地区名称包含在该key对应的value中,所述N2为预设的正整数且大于所述NI。
[0018]根据本发明一优选实施方式,在所述SI中提取前NI个字符之前还包括:
[0019]提取前N2个字符,将当前提取的字符与所述MAP中的key进行匹配,如果存在匹配的key,则转至执行所述S3,如果不存在匹配的key,则继续执行所述提取前NI个字符。
[0020]根据本发明一优选实施方式,所述NI为2,所述N2为3。
[0021]根据本发明一优选实施方式,在所述S4中还包括:若所述地区部分中包含两个以上的地区名称,则按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系,如果是,则确定所述地区部分正确。
[0022]根据本发明一优选实施方式,所述MAP的value中还包含对应key所来源的地区ID和上一级地区ID ;
[0023]所述按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系包括:若所述相邻两个地区名称中后记录的地区名称在value中的上一级地区ID与先记录的地区名称在value中的地区ID —致,则确定符合正确的上下级关系。
[0024]根据本发明一优选实施方式,如果所述相邻两个地区名称不符合正确的上下级关系,则若所述相邻两个地区名称中后记录的地区名称不包含地区公共关键词,则确定该后记录的地区名称不属于地区部分,而属于机构名部分。
[0025]根据本发明一优选实施方式,该方法进一步包括:
[0026]将机构名部分末尾的字符串与组织形式库匹配,将匹配的字符串确定为组织形式部分,将机构名部分中的其他字符串确定为商号经营范围部分。
[0027]本发明还提供了一种解析组织机构名的装置,该装置包括:
[0028]提取单元,用于针对输入的字符串提取前NI个字符,将所述NI个字符提供给匹配单元;所述NI为预设的正整数,所述输入的字符串初始为组织机构名;
[0029]匹配单元,用于将所述提取单元提供的字符与预先建立的地址MAP中的key进行匹配;
[0030]记录单元,用于如果所述匹配单元匹配到key,则记录所述MAP中匹配到的key所对应的value中的地区名称,将该地区名称从所述组织机构名中删除后,将剩余的字符串输入给所述提取单元;
[0031]确定单元,用于如果所述匹配单元未匹配到key,则将所述记录单元当前已记录的所述组织机构名中的地区名称构成所述组织机构名的地区部分,所述组织机构名的其他部分作为机构名部分;
[0032]其中,所述MAP中的key是从地址库中地区名称提取的前NI个字符,value包含对应key所来源的地区名称。
[0033]根据本发明一优选实施方式,该装置还包括:第一 MAP建立单元,用于对地址库中的各地区名称分别执行以下操作以建立所述MAP:
[0034]清除地区名称中的地区公共关键词;
[0035]提取剩余的字符的前NI个字符作为key,将该地区名称包含在该key对应的value 中 ο
[0036]根据本发明一优选实施方式,该装置还包括:第二 MAP建立单元,用于对地址库中的各地区名称分别执行以下操作以建立所述MAP:
[0037]清除地区名称中的地区公共关键词;
[0038]若该地区名称中剩余的字符个数小于或等于所述NI,则直接将该剩余的字符作为key,将该地区名称包含在该key对应的value中;
[0039]若该地区名称中剩余的字符个数大于所述NI,则提取该剩余的字符的前N2个字符作为key,将该地区名称包含在该key对应的value中,所述N2为预设的正整数且大于所述NI。
[0040]根据本发明一优选实施方式,所述提取单元具体包括:第一提取子单元、匹配子单元和第二提取子单元;
[0041]所述第一提取子单元,用于针对输入的字符串提取前N2个字符,将所述N2个字符提供给所述匹配子单元,所述输入的字符串初始为组织机构名;
[0042]所述匹配子单元,用于将所述第一提取单元提供的字符与所述MAP中的key进行匹配;
[0043]所述记录单元,还用于如果所述匹配子单元匹配到key,则记录所述MAP中匹配到的key所对应的value中的地区名称,将该地区名称从所述组织机构名中删除后,将剩余的字符串输入给所述第一提取子单元;
[0044]所述第二提取子单元,用于如果所述匹配子单元未匹配到key,则针对输入所述第一提取子单元的字符串提取前NI个字符,将所述NI个字符提供给所述匹配单元。
[0045]根据本发明一优选实施方式,所述NI为2,所述N2为3。
[0046]根据本发明一优选实施方式,该装置还包括:
[0047]正确性判断单元,用于若所述地区部分中包含两个以上的地区名称,则按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系,如果是,则确定所述地区部分正确。
[0048]根据本发明一优选实施方式,所述MAP的value中还包含对应key所来源的地区ID和上一级地区ID ;
[0049]所述正确性判断单元在按照记录顺序依次判断相邻两个地区名称是否符合正确的上下级关系时,具体用于若所述相邻两个地区名称中后记录的地区名称在value中的上一级地区ID与先记录的地区名称在value中的地区ID —致,则确定符合正确的上下级关系O
[0050]根据本发明一优选实施方式,所述正确性判断单元,还用于如果所述相邻两个地区名称不符合正确的上下级关系,则若所述相邻两个地区名称中后记录的地区名称不包含地区公共关键词,则确定该后记录的地区名称不属于地区部分,而属于机构名部分。
[0051]根据本发明一优选实施方式,所述确定单元,还用于将机构名部分末尾的字符串与组织形式库匹配,将匹配的字符串确定为组织形式部分,将机构名部分中的其他字符串确定为商号经营范围部分。
[0052]由以上技术方案可以看出,本发明通过将组织机构名的字符从前至后进行提取,与预先建立的MAP中的key进行匹配并记录MAP中匹配的key所对应的value中的地区名称,循环该匹配过程直至匹配不到任何key,最终利用已记录的地区名称构成组织机构名的地区部分,其他部分构成机构名部分,从而实现了自动将组织机构名拆分为地区部分和机构名部分。
【【附图说明】】
[0053]图1为本发明实施例一提供的建立MAP的流程图;
[0054]图2为本发明实施例二提供的解析组织机构名的方法流程图;
[0055]图3为本发明实施例三提供的解析组织机构名的装置结构图;
[0056]图4为本发明实施例四提供的解析组织机构名的装置结构图。
【【具体实施方式】】
[0057]为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
[0058]本发明中所涉及的组织机构名可以包括但不限于:企业机构名、行政机关名、社会团体名等。其中企业机构名诸如:浙江奉贤贸易有限公司、浙江省杭州市胜利五金厂等;行政机构名诸如杭州地
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1