一种电力通信网络数据质量监控方法

文档序号:10471604阅读:275来源:国知局
一种电力通信网络数据质量监控方法
【专利摘要】本发明的目的在于需要一种电力通信网络数据质量监控方法,在数据获取的过程中,不断循环验证数据准确性,确保最终数据提取时获得的数据准确无误。为了解决上述技术问题,本发明至少包括所述步骤:步骤1:确定信息来源;步骤2:分析;步骤3:进行属性缺失校验;步骤4:由数据质量监控系统进行数据匹配度校验;步骤5:当数据分层校验事件被触发后,修正后重新进入步骤3。与现有技术相比,本发明首先确保了数据的可靠性,避免了现有技术中在修正过程中将正确的数值改错的可能。通过不断完善形成具有指导意义的一种有效的电力通信网络数据质量监控机制。
【专利说明】
_种电力通信网络数据质量监控方法
技术领域
[0001]本发明涉及电力系统领域,尤其涉及一种电力通信网络数据质量监控方法。
【背景技术】
[0002]目前,在电力通信行业尚未形成系统化的数据质量评估指标,数据质量评估往往只零散地针对系统中比较重要的质量指标,如一致性问题、复杂性问题、完整性问题等来进行。在数据质量评估领域已经得到使用的产品,如CRG的完整度分析器IA(IntegrityAnalyzer),可以实现对数据完整性的严格检查,这里的完整性包括实体完整性、引用完整性、域完整性以及用户自定义的完整性。
[0003]数据质量的描述通常可以分为不同的层次,不过到目前为止,还没有形成专门用于表示这种层次性的统一术语,例如,有的用类和域表示这种层次,而IS0/TC211则用数据质量元素及子元素来表达。不同的应用领域对数据质量的描述也是不同的,因此,建立反映应用领域特点的数据质量框架,是数据质量评估所要解决的首要问题。
[0004]数据质量评估是面向应用的,同样的数据在不同的应用背景下的接受度是不同的,例如对于数据挖掘,同样的数据在一个挖掘主题下表现良好,而在另一个挖掘主题下却得不到有意义的结果。因此,需求分析实际上是维度选择的过程,数据质量评估从一个或几个维度出发,以动态或静态的方式审视数据。
[0005]所谓动态的评估方式,是指从数据产生机制上对数据质量进行评估,而静态方式只考虑数据本身。虽然动态的评估方式能够更彻底全面地对数据质量做出评价,但在很多的应用背景下,如数据挖掘,往往受条件限制,无法得知数据产生机制的信息。
[0006]现有技术中专利号为“201410258757.0”的发明专利中就公开了一种《用于数据质量监控的系统和方法》该发明公开了用于数据质量监控的系统和方法。数据质量监控指的是相对于预定数据质量度量来测量加载的数据的数据质量。通过把在质量规则中定义的逻辑演算应用于加载的数据来测量数据质量。但是现有技术均利用以下至少之一来进行数据质量测量:加载的数据的增量变化和质量规则的增量变化。面向数据挖掘的数据质量评估DM-DQA(Data Mining Oriented Data Quality Assessment)是具有实际意义的,因为数据挖掘常常是一个庞大的工程,需要投入较多的时间,人力和物力,所以在数据挖掘工程真正开始之前,对数据挖掘的可行性分析显得尤为重要,而为数据挖掘可行性提供指导正是数据质量评估的意义所在。
[0007]电力通信网络各业务管理系统在数据质量上存在大量问题,这些“脏”数据无法有效支持通信分析工作的有效开展。根据各业务管理系统的应用总结,其数据质量问题按照来源和具体原因,可以分为信息、技术、流程和管理四个问题域。其中,信息类问题是由于对数据本身的描述、理解及其度量标准偏差而造成的数据质量问题;技术类问题是指由于具体数据处理的各技术环节异常而造成的数据质量问题,它产生的直接原因是技术实现上的某种缺陷;流程类问题是指由于系统作业流程和人工操作流程设置不当造成的数据质量问题;管理类问题是指由于人员素质及管理机制方面的原因造成的数据质量问题。

【发明内容】

[0008]本发明的目的在于需要一种电力通信网络数据质量监控方法,在数据获取的过程中,不断循环验证数据准确性,确保最终数据提取时获得的数据准确无误。
[0009]为了解决上述技术问题,本发明是通过以下技术方案实现的:
[0010]一种电力通信网络数据质量监控方法,至少包括所述步骤:
[0011 ]步骤I:确定需要获取信息的网络来源;
[0012]步骤2:分析步骤I所得的网络性质,针对网络性质采用不同的数据获取方法获取数据;所述数据获取方法至少包括从设备获取和设备网管获取中的一种;
[0013]步骤3:进行属性缺失校验,根据设备出厂ID提取不同来源的数据,形成单个设备的完整数据链,通过数据链校验各系统数据关键属性是否填写完整;对于预设关键属性缺失的,发出属性缺失告警,记录其来源系统和缺失情况,在补充关键属性完成前不再继续进行下一步校验;
[0014]步骤4:由数据质量监控系统进行数据匹配度校验;如果多个数据来源属性一致、或相似度高时则将数据标记为准确数据;如果出现多个数据来源的属性不一致时,触发数据分层校验事件;
[0015]步骤5:当数据分层校验事件被触发后,不同来源的数据由数据质量监控系统预先设置的重要程度进行可信度分级,分级后对错误信息数据来源进行控制,修正后重新进入步骤3。
[0016]优选的,所述步骤I中的网络来源包括SDH传输网、OTN传输网、数据网、数字同步网、交换网。数据可以从不同网络中的设备上获取,也从各个管理这些设备的数据库中获取。并且相互印证数据可靠性。
[0017]优选的,所述步骤3中提取的数据包括设备的配置信息、告警信息、性能信息、业务信息、运维信息。这些是基本信息,针对额外功能的设备也会在提取时设置额外的参数需求。
[0018]优选的,所述步骤4中相似度计算采用以下方式进行:
[0019]S=((Pl+P2+---+Pn)/n)*100%
[0020]设S为相似度指标,P为单条数据某规则段相似度结果,多个规则段相似度的结果相加除以规则段数量,即为相似度平均指标;其中:
[0021]P(A,B)=sqrt(A*B)/( A X |B| )
[0022]A为字符串I,B为字符串2,将A、B转换成相同维度的向量,然后计算其相似度。通过这样的方式获得相似度参数,给后续步骤一个参考指标。
[0023]优选的,所述步骤5中的可信度分级为:专业网管〉资源管理系统〉运行管理系统。当数据发生冲突时,首先通过这样的形式进行适配更改,但是如果多个低可信度数据统一而和高可信度数据不统一时,则进入控制和修正的步骤。
[0024]优选的,整个监控自动重复实施,每次实施间隔为固定期限N,如果被警告系统连续在三个固定期限内没有修改数据并通过下一次质量监控规则审核,则该系统将被扣除本月数据质量评分,涉及跨月时计入下一月评分。
[0025]与现有技术相比,本发明首先确保了数据的可靠性,避免了现有技术中在修正过程中将正确的数值改错的可能。通过具有一定量前导的挖掘结果的积累,从而理出数据质量评估得分向量与挖掘结果的对应关系,然后指定挖掘结果的容忍值,该容忍值所对应的评估得分向量即为评估得分向量的参照值,根据该参照值可以对评估结果做出解释,即数据集是否适合挖掘,适合挖掘的程度是多少。通过不断完善形成具有指导意义的一种有效的电力通信网络数据质量监控机制。
【具体实施方式】
[0026]电力系统通信业务根据其功能、特点主要分为电网运行和企业管理业务。电网运行类业务又分为运行控制业务和运行信息业务;企业管理类业务又分为信息业务和办公业务。这些业务都依赖通信网络的支撑,但对通信的要求又不尽一致。运行控制业务作为电网控制的一个环节,直接关系到电网安全,由于此类业务对通信传输时延、通道可靠性要求极高,目前主要使用电力通信专网即光缆传输网。该类业务主要有线路保护业务、安稳业务、调度自动化业务、调度电话业务、视频会议业务、行政电话业务、信息业务7大类是电力通信网络的核心业务,承载这些业务的设备即为核心设备,其重要程度高于承载其他业务的设备(如承载电视电话会议、行政电话等业务)。某设备不涉及核心业务时,单独归类为其他业务设备评估。
[0027]本发明就是基于电力系统通信业务的特点,提供一种针对电力通信传输网络的数据质量监控机制,通常包括以下步骤:
[0028]001、数据采集针对设备网管、资源管理系统、运行管理系统进行数据采集。专业网管负责提供设备的配置数据,如设备ID、槽位、板卡、端口信息等,该数据一般是由设备网管提供;资源管理系统负责提供设备的维护数据,如所属网络、承载业务信息等,该数据既有从设备采集的数据,也有运行人员手工维护的数据;运行管理系统负责提供设备的运维数据,如检修情况、故障情况信息等,由运行人员手工录入;而多个来源的数据中又有部分相同的数据,如槽位、板卡、端口的占用情况、设备运行状态信息等。上述数据统一纳入数据质量监控系统数据库进行存储,此外,还存储数据来源、采集时间等关键信息。此外,系统还会从网络中定期收集设备自带的信息,避免设备更换后,网管没有及时收集信息。
[0029]002、由数据质量监控系统进行属性缺失校验,根据设备出厂ID提取不同来源的数据,形成单个设备的完整数据链,包括设备的配置信息、告警信息、性能信息、业务信息、运维信息等。在此期间,校验各系统数据关键属性是否填写完整,对于预设关键属性缺失的,发出属性缺失告警,记录其来源系统和缺失情况,并不再继续进行下一步校验。
[0030]003、进一步的,由数据质量监控系统进行数据匹配度校验,根据本发明配置的校验属性,对设备的数据链信息进行逐一比对。数据匹配完全一致、相似度较高时不扣分,如果出现多个数据来源的属性不一致时,触发数据分层校验事件。
[0031]004、当数据分层校验事件被触发后,不同来源的数据由数据质量监控系统预先设置的重要程度进行可信度分级,如专业网管〉资源管理系统〉运行管理系统。例如运行管理系统数据无法与资源管理管理系统数据匹配,而专业网管与运行管理系统数据一致,则可判定为资源管理系统数据出现问题,系统发出资源管理系统数据不准确告警。例如,在专业网管系统中,某系统名称为:国网/京沪光传输系统,在资源管理系统中,同一系统名称为:国网/京沪光传送网。如要比较二者的数据相似度,首先将其按照规则”/”符号分为2段,分别带入公式进行计算,则结果为:S=((P1(1)+P2(0.3081))/2)*100%=65%。
[0032]字符串l:abed
[0033]字符串2:ab d e
[0034]将上面2个字符串转换为2个向量集合进行对比:
[0035]11110 0
[0036]110 0 11
[0037]贝丨JP= sqrt (2)/ (sqrt(4)*sqrt(4) )=0.3535。
[0038]由此看出,该结果并未达到系统内置的95%以上的相似度规则,则系统发出警告并由资源管理系统进行修改。
[0039]综上,本发明通过对不同来源的数据进行综合分析、比对,能够实现对数据产生、使用、运维的全程评估,可判断出现问题的数据源头,并提供应由什么系统、什么动作进行数据完善的建议。
[0040]以上列举的仅是本发明的几个具体实施例。显然,本发明不限于以上实施例,还可以有许多应用,本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有应用,均应认为是本发明的保护范围。
【主权项】
1.一种电力通信网络数据质量监控方法,其特征在于,至少包括所述步骤: 步骤I:确定需要获取信息的网络来源; 步骤2:分析步骤I所得的网络性质,针对网络性质采用不同的数据获取方法获取数据;所述数据获取方法至少包括从设备获取和设备网管获取中的一种; 步骤3:进行属性缺失校验,根据设备出厂ID提取不同来源的数据,形成单个设备的完整数据链,通过数据链校验各系统数据关键属性是否填写完整;对于预设关键属性缺失的,发出属性缺失告警,记录其来源系统和缺失情况,在补充关键属性完成前不再继续进行下一步校验; 步骤4:由数据质量监控系统进行数据匹配度校验;如果多个数据来源属性一致、或相似度高时则将数据标记为准确数据;如果出现多个数据来源的属性不一致时,触发数据分层校验事件; 步骤5:当数据分层校验事件被触发后,不同来源的数据由数据质量监控系统预先设置的重要程度进行可信度分级,分级后对错误信息数据来源进行控制,修正后重新进入步骤3。2.如权利要求1所述的一种电力通信网络数据质量监控方法,其特征在于,所述步骤I中的网络来源包括SDH传输网、OTN传输网、数据网、数字同步网、交换网。3.如权利要求1所述的一种电力通信网络数据质量监控方法,其特征在于,所述步骤3中提取的数据包括设备的配置信息、告警信息、性能信息、业务信息、运维信息。4.如权利要求1所述的一种电力通信网络数据质量监控方法,其特征在于,所述步骤4中相似度计算采用以下方式进行: S=((Pi+P2+---+Pn)/n)*100% 设S为相似度指标,P为单条数据某规则段相似度结果,多个规则段相似度的结果相加除以规则段数量,即为相似度平均指标;其中:P(A,B) = sqrt(A*B)/( |A| X |B| ) A为字符串I,B为字符串2,将A、B转换成相同维度的向量,然后计算其相似度。5.如权利要求1所述的一种电力通信网络数据质量监控方法,其特征在于,所述步骤5中的可信度分级为:专业网管〉资源管理系统〉运行管理系统。6.如权利要求1所述的一种电力通信网络数据质量监控方法,其特征在于,整个监控自动重复实施,每次实施间隔为固定期限N,如果被警告系统连续在三个固定期限内没有修改数据并通过下一次质量监控规则审核,则该系统将被扣除本月数据质量评分,涉及跨月时计入下一月评分。
【文档编号】G06Q50/06GK105825318SQ201610133088
【公开日】2016年8月3日
【申请日】2016年3月9日
【发明人】王彦波, 吴秋晗, 黄红兵, 张利军, 刘俊毅, 柴谦益, 俞红生, 章毅, 贺琛, 彭瑶
【申请人】国家电网公司, 国网浙江省电力公司, 国网浙江省电力公司信息通信分公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1