基于电力调度通用数据对象的重复对象模糊检验优化算法的制作方法

文档序号:14250106阅读:264来源:国知局

本发明属于电力系统调度自动化技术领域,特别是涉及基于电力调度通用数据对象的重复对象模糊检验的优化算法。



背景技术:

随着特高压交直流电网建设的全面提速、新能源的快速发展、电力市场化改革的深入推进,电网调度运行正在步入一个新时期、新阶段。现阶段,电网一体化特征已更加明显,对电网实施集中决策、分散控制的要求更加迫切。

为更好的支撑调控业务发展,需要加强平台支撑能力建设,一是深化d5000平台成熟技术及机制的应用;二是吸纳互联网新技术,云计算、大数据等理念对架构进行升级,提高系统架构的稳定性、数据处理能力和并发访问能力;三是开展数据标准化设计工作,做好基础数据规范化工作。

电力调度通用数据对象结构化设计目的是明确电力通用数据对象的范围,规范数据对象的结构化设计方法及内容,以元数据管理方法构建一个完整的、科学的、可持续的数据管理体系。是横纵向应用数据共享的基础。电力调度通用数据对象是指与电力调度生产运行密切相关的各种电力容器、电器设备、通信设备等。结构化建模范围包括电力调度中涉及的一、二次设备(dev)及设备所在的电力容器(con),拓扑连接关系(top),以及电力容器公用环境信息(com),组织机构人员信息(org)等对象。另外,对具体数据记录维护中所需的标准化选项建立数据字典(dic)。

质量低劣的数据对象数据已经成为影响电网调度相关部门正确决策的关键因素,成为制约信息服务的瓶颈。因此,如何高效的管理数据,提高数据质量,使其成为决策部门的有效依据,是具有较高研究价值和实际意义的问题。



技术实现要素:

本发明由此背景出发,根据不同类型的数据错误,采用相应检测方法,并通过实现具体程序,验证方法的有效性。基于电力调度通用数据对象的重复对象模糊检验,对存在歧义的特征属性进行模糊校验,计算相似度,并由维护人员确定是否为同一数据对象。以电力调度通用数据对象为模型,由数字编号差异、全称简称混用、特殊符号差异等方面来对重复对象模糊检验。

本发明要解决的技术问题如下:

1、数字、中文编号匹配;

2、全角、半角匹配;

3、全称、简称匹配;

4、特殊符号匹配;

由于模型数据命名不规范,存在阿拉伯数字和中文数字同时对对象命名、全角和半角同时命名、全称和简称同时命名、特殊符号命名的情况,由此给用户查询及数据匹配造成极大的干扰和不确定性,需提供对应算法进行重复对象模糊检验。

为实现上述目的,本发明提出如下技术方案:

一种基于电力调度通用数据对象的重复对象模糊检验的优化算法,其特征在于,所述算法在对电力调度通用数据对象的重复对象模糊检验时,采取数字中文编号匹配、全角半角匹配、全称简称匹配和特殊符号匹配4类算法,具体包括:

(1)数字、中文编号匹配算法;

(2)全角、半角匹配算法;

(3)全称简称匹配算法;

(4)特殊符号匹配算法;

所述数字、中文编号匹配算法具体为:

匹配1个数字算法为:^\d$;

匹配连续的多个数字算法为:^\d+$;

匹配0个或多个数字算法为:^\d*$;

匹配0个或1个数字算法为:^\d?$;

所述全角、半角匹配算法为:[\uff10-\uff19];

所述全称简称匹配算法具体为:

匹配所有空格算法为:\\s+;

全、简称匹配算法为:like‘%%’;

所述特殊符号匹配算法为:((?=[\x21-\x7e]+)[^a-za-z0-9])。

本发明的有益效果在于:

1、合理匹配阿拉伯、中文数字、全角、半角、全称、简称、特殊符号。满足查询对象含有阿拉伯、中文数字、全角、半角、全称、简称、特殊符号的匹配要求,精度达到95%以上。

2、避免数据错误。经过系统的校对核查,极大的提升数据质量,避免重复数据的同时减少用户因数据干扰导致的失误。

3、增强用户体验。通过系统的校验核对,减少用户手动查找数据校对数据的工作量,将工作变被动为主动,极大提高用户工作效率,增强了用户的体验。

具体实施方式

本发明提供了一种基于电力调度通用数据对象的重复对象模糊检验的优化算法,在对电力调度通用数据对象的重复对象模糊检验时,采取数字中文编号匹配、全角半角匹配、全称简称匹配和特殊符号匹配4类算法,具体包括:

(1)数字、中文编号匹配算法

匹配1个数字算法^\d$;

匹配连续的多个数字算法^\d+$;

匹配0个或多个数字算法^\d*$;

匹配0个或1个数字算法^\d?$;

(2)全角、半角匹配算法

全角指一个字符占用两个标准字符位置。汉字字符和规定了全角的英文字符及国标gb2312-80中的图形符号和特殊字符都是全角字符。半角指一字符占用一个标准的字符位置。通常的英文字母、数字键、符号键都是半角的,半角的显示内码都是一个字节。

算法:[\uff10-\uff19];

(3)全称简称匹配算法

匹配所有空格算法:\\s+;

全、简匹配算法:like‘%%’;

(4)特殊符号匹配算法

匹配所有键盘上可见的非字母和数字的特殊符号

算法:((?=[\x21-\x7e]+)[^a-za-z0-9])。

本发明重点给出了异常数据和相似重复记录的检测方法。充分考虑数据内部之间的联系,采用基于关联规则的思想对异常数据进行检测。将数据集中的数据进行转换,使其满足关联规则挖掘的条件;然后在训练集中找出所有的频繁项集,由频繁项集生成关联规则,并将其放入规则库;最后将测试集中的记录与规则库中的规则进行比对,以此判断记录是否异常。通过实验证明此方法检测异常数据效果良好。

采用基于权值分组的方法来检测相似重复记录。根据识别事物的能力给不同的属性分配相应的权值,以此提高检测精度;根据关键字段将大数据集分割成不相交的小数据集,再在小数据集中检测相似重复记录,以减少匹配次数;采用位置编码方法计算字段相似度,解决了英文缩写问题和中文字符匹配问题;使用多趟查找技术克服了字符敏感问题。系统证明此方法能够快速准确的检测相似重复记录。

现有的主流商业信息检索系统大部分采用基于关键词精确匹配的检索技术,取得了一定的成果。但是在实际应用中,用户的查询输入与检索系统数据库的构建都不可能完全正确。用户对于搜索主题所处的领域不了解,采用不合适的查询词,会导致查询词的覆盖范围大大缩小;在中文信息检索系统中,用户还常会输入同音或近音的错别字。模糊检索根据用户输入的模糊特征来检索匹配内容,可处理精确的关键词匹配所无法解决的这些问题。

正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。

基于正则表达式,我们发明数字中文编号匹配、全角半角匹配、全称简称匹配和特殊符号匹配4类算法。基于这4种算法实现对电力调度通用数据对象的重复对象模糊校验。

基于这4种算法实现对电力调度通用数据对象的重复对象模糊校验,减少用户手动查找数据校对数据的工作量,将工作变被动为主动,极大提高用户工作效率,增强了用户的体验。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1