中文地址层级化解析与规范处理方法和系统与流程

文档序号:16582356发布日期:2019-01-14 18:04阅读:201来源:国知局
中文地址层级化解析与规范处理方法和系统与流程

本发明涉及电力系统客户用电地址数据结构化与规范化技术领域,尤其是涉及中文地址层级化解析与规范处理方法和系统。



背景技术:

在城市建设日新月异的今天,众多街道、社区被重新规划与建设,这种现象造成电力营销系统中越来越多客户用电地址数据与现实地址不一致。除此之外,由于一些历史原因导致现有的客户用电地址数据存在大量的错误、名称混乱、信息不完整等现象,如将表号作为地址、小区、楼栋等没有标准称谓等。同时,由于存量的客户用电地址数据不是结构化的数据,存在不同小区的客户地址填写的规律不一致,甚至同一小区不同开发期、不同楼栋之间的地址填写规律都不一致问题。这些问题严重影响了客户服务工作、应急检修工作的质量,对基于地址数据开展的各类分析与决策支持系统建设也产生了严重的影响。

综上所述,现有技术的客观缺点在于缺少一种有效的中文地址层级化解析与规范处理方法。



技术实现要素:

有鉴于此,本发明的目的在于提供中文地址层级化解析与规范处理方法和系统,促进客户用电地址数据结构化与规范化,提高客户用电地址完整性与准确率。

第一方面,本发明实施例提供了中文地址层级化解析与规范处理方法,包括:

获取用电原始地址数据,并对所述用电原始地址数据进行初始化处理得到第一客户用电地址数据;

利用文本特征的分词方法对所述第一客户用电地址数据进行层级化解析得到第二客户用电地址数据;

将所述第二客户用电地址数据与基础地址字典库进行清理循环得到清理成果;

对所述清理成果进行综合评估以谨慎确认所述清理成果的准确性和有效性。

结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,所述文本特征的分词方法通过在应用频率df的基础上进行算法扩展得到,包括信息增益ig方法、互信息方法、x2统计chi方法和期望交叉熵ce方法。

结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,所述将所述第二客户用电地址数据与基础地址字典库进行清理循环得到清理成果包括:

将所有所述第二客户用电地址数据均与基础地址字典库进行匹配;

判断所述第二客户用电地址数据匹配度是否满足预设匹配度要求;

将匹配度满足预设匹配度要求的所述第二客户用电地址数据作为所述清理成果;

将匹配度不满足所述预设匹配度要求的所述第二客户用电地址数据放入下一个所述清理循环中,直至利用所述清理循环不能再获得满足所述预设匹配度要求的所述第二客户用电地址数据。

结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,所述对所述清理成果进行综合评估以谨慎确认所述清理成果的准确性和有效性包括:

利用综合聚类算法、k邻近算法和cart分类树回归算法构建相似度与一致性评估算法;

根据所述相似度与一致性评估算法对所述清理成果进行所述综合评估。

结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,所述应用频率df为包含特征项的所述第一客户用电地址数据的频率。

结合第一方面的第四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,所述信息增益ig方法为通过统计所述特征项在所述第一客户用电地址数据中出现或不出现的次数,预测所述第一客户用电地址数据的类别的方法。

结合第一方面的第五种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,所述互信息方法和所述x2统计chi方法是通过计算所述特征项和所述类别间的相关性来提取互信息值的方法。

结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,所述cart分类树回归算法用于检验所述第二客户用电地址数据的基尼不纯度,所述基尼不纯度计算了一个被随机选中的所述第二客户用电地址数据在子集中被分错的可能性。

结合第一方面的第三种可能的实施方式,本发明实施例提供了第一方面的第八种可能的实施方式,其中,所述k邻近算法利用闵可夫斯基距离公式计算距离函数。

第二方面,本发明实施例提供了中文地址层级化解析与规范处理系统,包括:

获取单元,用于获取用电原始地址数据,并对所述用电原始地址数据进行初始化处理得到第一客户用电地址数据;

层级化解析单元,用于利用文本特征的分词方法对所述第一客户用电地址数据进行层级化解析得到第二客户用电地址数据;

清理循环单元,用于将所述第二客户用电地址数据与基础地址字典库进行清理循环得到清理成果;

综合评估单元,用于对所述清理成果进行综合评估以谨慎确认所述清理成果的准确性和有效性。

本发明提供了中文地址层级化解析与规范处理方法和系统,包括:获取用电原始地址数据,并对用电原始地址数据进行初始化处理得到第一客户用电地址数据;利用文本特征的分词方法对第一客户用电地址数据进行层级化解析得到第二客户用电地址数据;将第二客户用电地址数据与基础地址字典库进行清理循环得到清理成果;对清理成果进行综合评估以谨慎确认清理成果的准确性和有效性。本发明促进了客户用电地址数据结构化与规范化,提高客户用电地址完整性与准确率。

本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的中文地址层级化解析与规范处理方法流程图;

图2为本发明实施例提供的另一中文地址层级化解析与规范处理方法示意图;

图3为本发明实施例提供的步骤s103的方法流程图;

图4为本发明实施例提供的中文地址层级化解析与规范处理系统示意图;

图5为本发明实施例提供的实施案例效果图。

图标:

10-获取单元;20-层级化解析单元;30-清理循环单元;40-综合评估单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在城市建设日新月异的今天,众多街道、社区被重新规划与建设,这种现象造成电力营销系统中越来越多客户用电地址数据与现实地址不一致。除此之外,由于一些历史原因导致现有的客户用电地址数据存在大量的错误、名称混乱、信息不完整等现象,如将表号作为地址、小区、楼栋等没有标准称谓等。同时,由于存量的客户用电地址数据不是结构化的数据,存在不同小区的客户地址填写的规律不一致,甚至同一小区不同开发期、不同楼栋之间的地址填写规律都不一致问题。这些问题严重影响了客户服务工作、应急检修工作的质量,对基于地址数据开展的各类分析与决策支持系统建设也产生了严重的影响。

综上所述,现有技术的客观缺点在于缺少一种有效的中文地址层级化解析与规范处理方法。基于此,本发明实施例提供的中文地址层级化解析与规范处理方法和系统,能将所有客户用电地址进行结构化与规范化的处理,实现行政区域、街道办、小区的命名统一,即将客户用电地址统一处理并表述为:市+镇+街道+小区+楼栋+门牌号的形式(没有小区的可采用道路+道路号形式),有效提高了客户用电地址完整性与准确率;在提高用户报障地址判断的准确度、提高应急检修的响应速度、为受停电影响的区域用户发送消息提醒、掌握区域性的用电负荷需求等方面都发挥了非常重要的作用。

为便于对本实施例进行理解,首先对本发明实施例所公开的中文地址层级化解析与规范处理方法进行详细介绍。

实施例一:

参照图1,中文地址层级化解析与规范处理方法,包括:

步骤s101,获取用电原始地址数据,并对用电原始地址数据进行初始化处理得到第一客户用电地址数据;

步骤s102,利用文本特征的分词方法对第一客户用电地址数据进行层级化解析得到第二客户用电地址数据;

步骤s103,将第二客户用电地址数据与基础地址字典库进行清理循环得到清理成果;

步骤s104,对清理成果进行综合评估以谨慎确认清理成果的准确性和有效性。

具体地,文本特征的分词方法通过在应用频率df的基础上进行算法扩展得到,包括信息增益ig方法、互信息方法、x2统计chi方法和期望交叉熵ce方法。

根据本发明的示例性实施例,参照图3,步骤s103包括:

步骤s1031,将所有第二客户用电地址数据均与基础地址字典库进行匹配;

步骤s1032,判断第二客户用电地址数据匹配度是否满足预设要求;

如果满足预设匹配度要求,则执行步骤s1033,将匹配度满足预设匹配度要求的第二客户用电地址数据作为清理成果;

如果不满足预设匹配度要求,则执行步骤s1034,将匹配度不满足预设匹配度要求的第二客户用电地址数据放入下一个清理循环中,直至利用清理循环不能再获得满足所述预设匹配度要求的第二客户用电地址数据。

根据本发明的示例性实施例,步骤s104包括:

利用综合聚类算法、k邻近算法和cart分类树回归算法构建相似度与一致性评估算法;

根据相似度与一致性评估算法对清理成果进行综合评估。

根据本发明的示例性实施例,应用频率df为包含特征项的第一客户用电地址数据的频率。

根据本发明的示例性实施例,信息增益ig方法为通过统计特征项在第一客户用电地址数据中出现或不出现的次数,预测第一客户用电地址数据的类别的方法。

根据本发明的示例性实施例,互信息方法和x2统计chi方法是通过计算特征项和类别间的相关性来提取互信息值的方法。

根据本发明的示例性实施例,cart分类树回归算法用于检验第二客户用电地址数据的基尼不纯度,基尼不纯度计算了一个被随机选中的第二客户用电地址数据在子集中被分错的可能性。

根据本发明的示例性实施例,k邻近算法利用闵可夫斯基距离公式计算距离函数。

如图5所示为本发明实施例的实施效果图,本发明实施例促进了客户用电地址数据结构化与规范化,提高客户用电地址完整性与准确率。

实施例二:

本发明实施例提供基于基础地址字典库的中文地址层级化解析与规范化的处理方法,促进客户用电地址数据结构化与规范化,提高客户用电地址完整性与准确率。

如图2所示,为实现上述目的提供了以下技术方案:

步骤s1:获取供电企业存量客户用电原始地址数据,并进行初始化处理。

步骤s2:在对“基于统计的分词方法”理解基础上,进行算法扩展,在应用频率(df)之外,增加了信息增益(ig)、互信息、x2统计(chi)、期望交叉熵(ce)四种方法,由传统的分词方法改进成为基于文本特征的分词方法,从而实现对供电企业存量客户用电原始地址数据进行层次化解析。

具体解析方法设计说明如下:

df(documentfrequency):此处可表述为用电地址频率.df表示在训练集中包含某个特征项t的用电地址数。这种衡量特征想重要程度的方法基于这样一个假设:df较小的特征项对分类结果的影响较小;这种方法优先取df较大的特征项,而df较小的特征项将被剔除。

信息增益(ig):ig通过统计某个特征项在用电地址中出现或不出现的次数来预测用电地址的类别。ig的计算公式如下:

信息增益g(t)反映了特征t对分类混乱程度的降低,也就是对分类的信息量。在实现中通过根据各个特征的信息赢取值排序,并根据设置的阈值选择出合适规模的特征子集。

互信息ml(mutualinformation):互信息值,它通过计算特征t和类别c间的相关性来完成提取。如果t和c不相关,则i(t,c)值为0。如果有m个类,于是对于每个t会有m个值,取它们的平均,就可得到特征选取所需的一个线性序。大的i平均值的特征被选取的可能性大。

x2统计(chi):chi方法有和ml方法基本相似的思想,同样通过计算特征t和类别c间的依赖程度来完成提取。如果特征项t和类别c反相关,就说明含有特征项t的用电地址不属于c的概率要大一些,这对于判断用电地址是否不属于类别也是很有指导意义的。为克服这个缺陷,chi使用公式计算特征项t和类别c的相关性。计算公式可表达为:

期望交叉熵(ce):期望交叉熵(ce)的定义如下:

其中,pr(ci|t)和pr(ci)的意义同信息增益。如果词条和用电地址类别强相关,也就是pr(ci|t)大,且相应的类别出现概率小,则说明词条对分类的影响大,相应的ce值就大,就很可能被选中作为特征项。期望交叉熵反映了文本类别的概率分布和在出现了某个特定词的条件下文本类别的概率分布之间的距离。词条t的期望交叉熵越大,对文本类别分布的影响也越大。

步骤s3:层级化解析的地址数据与基础地址字典库进行匹配,匹配度满足要求的层级化解析的地址数据作为清理成果;

步骤s4:匹配度不满足要求的数据放入下一个清理循环中,直至某个清理循环不能再获得满足匹配度要求的地址数据为止;

步骤s5:综合聚类算法、k近邻算法、cart分类树回归算法,构建相似度与一致性评估的算法,并对清理成果进行综合评估;

具体方法说明如下:

聚类算法:一般情况下同类的用电地址相似度较大,而不同类的用电地址相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文本手工标注类别,因此具有一定的灵活性和较高的自动化处理能力。

一个用电地址表现为一个由字、词和数字组成,可采用最出名的信息检索方面的向量空间模型(vectorspacemodel,vsm),将用电地址表示为加权特征向量d=d(t1,w1;t2,w2;…;tn,wn),然后,通过计算用电地址相似度的方法来确定待分样本的类别。当用电地址被表示为空间向量模型的时候,用电地址的相似度就可以借助特征向量之间的内积来表示。最简单来说一个用电地址可以看成是由若干个单词组成的,每个单词转化成权值以后,每个权值可以看成向量中的一个分量,那么一个用电地址可以看成是n维空间中的一个向量,这就是向量空间模型的由来。单词对应的权值可以通过tf-idf加权技术计算出来。

cart分类回归树:是一种决策树分类方法,采用基于最小距离的基尼指数估计函数,用来决定由该子数据集生成的决策树的拓展形。在本方法中,关键在于检验某个地址样本集的分类回归树的基尼不纯度。基尼不纯度表示一个随机选中的地址样本在子集中被分错的可能性(如一个客户用电地址被分配到一个错误的小区)。基尼不纯度为这个样本被选中的概率乘以它被分错的概率。当一个节点中所有样本都是一个类时,基尼不纯度为零。

k近邻算法:其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。应用k近邻算法在评估一个地址样本子集的一致性时的关键因素在于其距离函数。在本方法中应用了闵可夫斯基距离公式:

实施本发明实施例,具有如下应用效果:为供电企业提供一种基于基础地址字典库的中文地址层级化解析与规范化的处理方法,实现行政区域、街道办、小区的命名统一,有效提高了客户用电地址完整性与准确率;在提高用户报障地址判断的准确度、提高应急检修的响应速度、为受停电影响的区域用户发送消息提醒、掌握区域性的用电负荷需求等方面都发挥了非常重要的作用。

实施例三:

参照图4,中文地址层级化解析与规范处理系统包括:

获取单元10,用于获取用电原始地址数据,并对用电原始地址数据进行初始化处理得到第一客户用电地址数据;

层级化解析单元20,用于利用文本特征的分词方法对第一客户用电地址数据进行层级化解析得到第二客户用电地址数据;

清理循环单元30,用于将第二客户用电地址数据与基础地址字典库进行清理循环得到清理成果;

综合评估单元40,用于对清理成果进行综合评估以谨慎确认所述清理成果的准确性和有效性。

本发明实施例提供的中文地址层级化解析与规范处理系统,与上述实施例提供的中文地址层级化解析与规范处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。

本发明实施例所提供的中文地址层级化解析与规范处理方法以及系统的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。

最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1