电网的机器学习的制作方法

文档序号:6361765阅读:277来源:国知局
专利名称:电网的机器学习的制作方法
电网的机器学习本申请要求在2010年7月16日提交的N0.61/364,988的美国临时申请的权益,该文献在此全篇地援弓I包含于此。
背景技术
美国能源部“电网2030”战略的主要发现之一是“美洲电力系统一20世纪的最高工程设计成就——是老化的、低效的、拥堵的,无法满足未来能源需求的……”。可靠性将是贯穿之后几十年的作为电网转换的关键课题,并且电网维护将变得比当前更为关键。由NERC作出的2007调查宣布,“老化的基础设施和受限制的新建设”是调查所关注的所有挑战中对电网可靠性的最大挑战。智能电网将带来更多在线的操作和维护——使产业从反应性操作趋向至前摄性(proactive)操作。电力公司保留关于设备和过往故障的历史数据记录,但那些记录一般不会最大程度地用于预测性维护和辅助电网可靠性。美国城市内的大多数电网(例如东北部和其它成熟城市中的电网)已在最近的120年被逐步地构建。这意味着电气设备(变压器、电缆、接头、终接器以及关联的开关、网络保护器、继电器等)随年龄而变化,例如在曼哈顿至少5%的低电压电缆是在1930年之前安装的,而在纽约市仍在使用少数一部分托马斯.爱迪生时代安装的原始高电压馈电线(feeder)部分。在纽约市存在94000英里的高电压地下配电电缆,其长度足以缠绕地球三周半。波士顿具有3000英里的地下电缆,并且许多其它城市具有相似的大型地下电力系统。维护新、老构件混合的大型电网比管理新电网(例如已在中国的某些部分敷设的)更为困难。美国电网一般比许多欧洲电网还要老,这些欧洲电网是在二战后更换的,并且比由于自然灾害必须不断补充基础设施的地方(例如日本常有地震,强制补充电力系统)的电网更老。智能电网将无法整夜地运行。例如,根据布莱托集团的调查,2030年更新电网的成本可高达1.5万亿美元。 智能电网的主要构件将(例如在很长的时间段内)与当前电网的主要构件相同,并且新的智能量表必须与现有设备一起工作。向智能电网的转变已被比喻成“对飞行中的波音747更换用旧的部件”。为了构筑未来的智能电网,人们必须考虑目前存在的电网而工作。随着逐渐更换电网部件并增设智能构件,老的构件(包括电缆、开关、传感器等)将仍然需要被维护。此外,老的构件的状态应当规定新的智能开关和传感器的增设的优先级,尤其是在二次网络中。使智能电网构件有效的关键点在于,给定当前系统,分析在哪里更新最有益。考虑到与医疗专业中的患者的类似性,最初研发和测试了许多机器学习算法的学科和用于智能电网的技术。尽管每个患者由相同种类的构件(类似于馈电线、变压器、检修孔和接头)构成,他们具有不同的穿着和年龄,具有不同的历史压力和遗传因子(类似于不同的过时产品(vintage)、负载、制造商),由此每个患者必须作为唯一的个体进行治疗。然而,将个体编组入具有相对类似特性的家族、街道和人群(类似于馈电线、网络、辖区O)。必须在帮助电网构件(患者)改善其健康的基础上建立智能电网,由此网络(街道)改善其寿命预期,而人群(辖区)更足以支撑地生存。为了电网可靠性,需要前摄预测性维护程序。也需要利用现有的数据资源,包括不是一开始获得的或为预测目的设计的数据资源(例如维护记录或维护请求)。

发明内容
当前公开的主题事项提供了电网可靠性的前摄预测性维护程序的方法和系统,包括但不仅限于需要处理构件更新的强健、成熟的都市电网(例如新纽约市电网)。例如,本申请的方法和系统,经由机器学习,基于改善的机器学习技术和利用在常见电网管理过程中获得的数据(它不是为预测目的设计的)提供电网中二次构件的前摄预测性维护。当前公开的主题事项的一个方面提供一种用于对电网中相似构件的经过滤的故障趋势量度集合进行评级的机器学习系统,该系统包括:(a)原始数据组件,用以提供表征电网中的相似构件的原始数据;(b)数据处理器,其可操作地耦合于原始数据组件以经由一种或多种数据处理技术将原始数据转换成更统一的数据;(C)数据库,其可操作地耦合于数据处理器以存储更统一的数据;(d)机器学习引擎,其可操作地耦合至数据库以提供相似构件的故障趋势量度的集合;(e)评估引擎,其可操作地耦合至机器学习引擎以从故障趋势量度的集合中检测和移除不相符的量度并提供经过滤的故障趋势量度的集合;以及
(f)决策支持应用,其可操作地耦合至评估引擎并被配置成显示电网中的相似构件的经过滤的故障趋势量度的集合的评级。在一个实施例中,表征相似构件的原始数据至少部分地从对于这些类似构件中的至少一个构件的维护记录或维护请求中获得。数据处理技术可包括推论加入、图案匹配、信息提取、文本规范化、查询重叠数据以寻找不一致以及来自关联或复制记录的推论中的一个或多个。 在一个实施例中,基于AUC、加权AUC和预定义的百分比故障排除中的一个或多个来检测不相符的量度。评估引擎可进一步包括用于存储断电(outage)衍生的数据集(ODDS)的断电衍生的数据库,该断电衍生的数据集捕捉表征相似构件中的至少一者的故障数据的动态先兆。在一个实施例中,故障数据的动态先兆是从故障时或恰好在故障前结束并在故障前预选时间开始的时移时域中获得的。在一个实施例中,相似的构件是从电缆、接头、终接器、锤头(hammerhead)、检修孔和变压器中选取的二次网络构件。在一个实施例中,相似构件是检修孔。在一个实施例中,故障趋势量度可从故障间平均时间(MTBF)和平均故障时间(MTTF)中选取。在一个实施例中,评估引擎包括:数据历史家,用以记录在第一时间段内的经过滤的故障趋势量度的集合以及在第二时间段内的经过滤的故障趋势量度的集合;以及数据分析器,用以确定在第一时间段内的经过滤的故障趋势量度的集合是否在统计上比在第二时间段内的经过滤的故障趋势量度的集合有所改善。当前公开的主题事项的另一方面提供一种经由机器学习对电网中相似构件的经过滤的故障趋势量度的集合进行评级的方法,该方法包括:(a)提供原始数据组件,以提供表征电网中的相似构件的原始数据;(b)处理原始数据以经由一种或多种数据处理技术将原始数据转换成更统一的数据;(C)在数据库中存储更统一数据;(d)将更统一的数据发送至机器学习引擎以提供相似构件的故障趋势量度的集合;(e)对评估引擎中的故障趋势量度的集合进行评估以从故障趋势量度的集合中检测和移除不相符的量度并提供经过滤的故障趋势量度的集合;以及(f)对从评估引擎获得的经过滤的故障趋势量度的集合进行评级并将评级显示在决策支持应用上。关于本方法的附加细节将从对应系统的描述中得以理解。关于本系统的附加细节将从对应方法的描述中得以理解。


图1是城市环境中的典型电网的描述(来源:联合爱迪生)。图2是2006-2007年期间纽约市每日的馈线断电次数。断电计数(下方曲线、条形图)在左侧具有X轴,而归一化峰值电气负载(上方虚线图)在右侧具有轴。图3是来自纽约市的样本冒烟检修孔(SMH)事故单的摘录。事故单是维护记录的一个例子。图4是浴盆曲线(来源:维基百科)。图5是经由机器学习对电网内的相似构件的经过滤的故障趋势量度的集合进行评级的方法和系统的流程图。图6是罕见事件预测的样本时间线。图7示出一例子,该例子示出断电衍生的数据集(ODDS)中的训练和测试时间窗。在该例中,取当前时间为2008年8月13日,并且训练的故障数据取自2007年7月30日至2007年8月27日以及2008年7月30日至2008年8月13日。图8是包含机器学习和ODDS的示例性系统和方法例的流程图。图9是包含为评级检修孔故障趋势(即检修孔事件评级)的事故单的示例性系统和方法例的流程图。图10示出事故单的处理。图11是对昆斯区内的33条馈电线的PILC电缆的SVCR预测结果的描述。每一行代表一馈电线,并且水平轴是以年计算的存活时间。该比例指示被预测在每个分析元内的样本数。图12是特定构件在其故障时间的机器学习评级的m次盲检中对于ROC曲线的曲线下面积的描述。图13是2008年5月至2009年I月的冠高馈(Crown Height)电线的ROC曲线的一个例子。图14绘出在预测每次故障时敏感性级别的最差的15% (左侧)和最好的25%(右侧)中的馈电线故障的百分比时的机器学习性能的改善。系统例如从2005年的最差15%中的20%故障改善至2008年的高于60%。图15是对数秩(Mantel-Cox)测试的图示。2002年和2009年之间的累积百分比MTBF (用虚线)被图示,其作为2002年夏的对照组MTBF性能(实线)的函数。测试结果表明,跨联合爱迪生的所有网络,从最差(左侧)表现至最佳(右侧)表现的网络,有99.8%的概率2009年试验组比2002年对照组有改善。图16是描述如何使用线性回归来确定从2002年至2009年MTBF的改善(顶部)以及联合爱迪生系统中的每个地下网络中的最初2002年对照和2009年MTBF之间的差异(底部),在水平轴上从最差网络可靠性指数(左侧)至最佳(右侧)地排列。图17是对于所有类型的计划外断电的SVM预测断电率相对于实际断电率的标绘。对角线表示完美模型。这基于3年的断电数据。对于低断电率馈电线,由于在标绘图的左下方的三年观察窗内没有故障因此存在所谓的右删截效果(right-censoring effect)。也存在夭折(infant mortality)过程,这导致对坏劣馈电线的实际故障的低估(尤其在图表的右上方可观察到)。图18描绘检修孔对严重事件(着火和爆炸)的脆弱性的机器学习评级的2009Bronx盲检的ROC曲线。图19是2008年夏季的第四次意外事故事件中意外事故分析工具(CAP)的截屏,其中最有风险下次出故障的下一个最可能的馈电线用红色高亮示出。故障时的ODDS评级在中央以放大的ROC标绘图示出。意外事故分析工具是决策支持应用的一个例子。图20是资本资产优先级工具(CAPT)用户界面的截屏。该截屏是来自对MTBF改善的机器学习分析的预测的评估(从140天至192天),如果要在布鲁克林区的馈电线上更换34个最有风险的纸绝缘引线覆盖(PTLC)区段,估算成本是$650,000。资本资产优先级工具是决策支持应用的一个例子。图21绘出来自对于由机器学习系统分析出的特定具有风险构件的可行更换策略的成本利益分析的一个例子的输出。实线逼近证券管理理论中的“效率限界”。典型的维护计划要么试图更好地平衡系统中的馈电线负载,要么以具有风险的区段、接头、变压器和二次构件的更换为目标。CAPT依赖于面向维护工作的区段的ODDS敏感性模型,以及用于判断不同更换策略的相对值的MTBF估计模型。图22绘出来自检修孔事件图形化工具的图像。顶部:地理编码的事故单标签,按事故类型上色。黄色指示严重事件类型,紫色指示潜在的先兆。如果用户点击一标签,则显示完整的标签文本。底部:同一地点内的检修孔和主电缆。注意,交叉点处的标签不一定对应于最接近的检修孔。图23示出高可能性的预防性维护程序中的过度治疗是使用与对照组的性能的统计比较识别的,并且以修正的和A/C高电位测试形式出现的补救是由公用事业促成的。
具体实施例方式电力公司可从用于预防性维护的知识探索方法和统计机器学习的使用中极大地受益。提供方法和系统以将历史电网数据转换成可由电力公司直接使用的预测模型。这种处理的专门版本可用来产生例如:(I)馈电线故障评级,⑵电缆、接头、终接器和变压器评级,(3)馈电线和构件MTBF(故障间平均时间)估算以及(4)检修孔事件脆弱性评级。这些方法和系统可应付多样的、有噪声的源,这些源是历史的(静态的)、半实时的或实时的;包含目前发展水平的用于优先级的机器学习算法(管理的评级或MTBF);并包括经由互相证实和盲检的结果评估。远于评级的列表和MTBF估算的是商业管理界面,它允许直接将预测能力纳入公司计划和决策支持;该界面依赖于我们的常规建模方法的若干重要特征:机器学习特征对本领域专家来说是有意义的,数据处理是透明的,并且预测结果足够准确以支持理想的决策制定。对历史电网数据进行处理的挑战在于它不是为预测性目的设计的,并且现在讨论如何解决这些挑战。该数据的“原始性”与可从该处理中获得的统计预测模型的准确性形成对照;根据一个具体示例性实施例,这些模型足够准确地用于计划纽约市电网的维护。单纯为了方便,结合纽约市电网对当前公开的方法和系统进行描述。然而要理解,当前公开的主题事项可移植至世界范围的电网。在一个非限定实施例中,该方法和系统提供对二次电网构件的故障趋势量度。如本文中使用的,二次电网构件指位于主网络馈电线电缆下游的构件。例如,如图1所示,电网可归纳为包括发电级(10)(例如来自核电站的核电)、终止在变电站(30)的传输级
(20)。从变电站开始,电力经由主网络传输,该主网络终止在馈电线电缆(40)(例如27000伏的馈电线并包括“配电馈电线”和“传输馈电线”)。馈电线下游的网络被视为二次网络
(50)。位于主网络馈电线电缆下游的构件被视为二次网络电网构件,并包括但不限于变压器(60)以及接头、终接器、锤头和检修孔(未示出)。从技术角度看,二次网络构件与主网络构件相差巨大的电压量,并且归因于二次网络经由具有内建冗余的“网状”结构被连接。这些技术在本文中公开以处理故障预测的形式维护智能电网,该故障预测可针对各种应用而专门化。当前公开的主题事项提供数据处理(清洗、图案匹配、统计、整合)、数据库成形、机器学习(时间集中、特征和标签的成形、评级方法)以及评估(盲检、图形化)。已研发出这种处理的专门版本,在某些实施例中,用于:(1)对配电馈电线的馈电线故障评级;(2)对配电馈电线的电缆、接头、终接器和变压器的评级;(3)对配电馈电线的馈电线和构件MTBF(故障间平均时间)估算以及(4)检修孔脆弱性评级。每个处理可应付具有特定特征的数据。在其最普遍形式中,该处理可应付多样的、有噪声的源,这些源是历史的(静态的)、半实时的或实时的;包含用于优先级的机器学习算法(管理的评级或MTBF);并包括经由对过往数据的互相证实和通过盲法评估对结果的评估。可对作为对未来信息给出真实障碍的未揭露事件产生的数据进行盲法评估。由机器学习算法使用的数据可包括过往事件(故障、更换、修理、测试、加负载、电力质量事件等)和资产特征(设备类型、环境条件、制造商、规格、与之连接的构件、其安装在的辖区、具体网络、安装日期、修理或测试等)。超出了评级列表和MTBF估算,图形用户界面已被设计成能由管理者和工程师使用以作出计划和决策支持。已基于我们的模型构建的成功纽约市电网决策支持应用包括,但不限于,修理优先级、检查优先级、过度治疗校正、更换计划产生以及系统保护行动优先级。这些界面的实用性可至少部分地从底层模型的预测准确性获得,并且也基于模型结果的解释。当前公开的方法和系统的手法的一种重要性质是,机器学习特征对本领域专家是有意义的,并且负责这些预测的数据处理和起因设计是透明的。数据的透明使用是为了若干目的:它允许本领域专家对模型进行故障查找或建议延期,它允许使用者找到造成故障的根源之下潜在的因素,并允许管理者理解并因此相信(非黑匣子)模型以作出决策。当前公开的主题事项展示了,可经由机器学习对预测维护程序前摄地使用由电气公用事业采集的数据,这提供有效的预测和决策支持应用。下面的详细说明的组织如下:公开了电网维护任务,包括关于构件的评级、预测或(使这些构件良好或坏劣的)底层属性,或故障的根本原因。然后,披露籍此转换原始数据以满足这些目的的处理。然后,披露用于知识发现过程的专门机器学习方法。还披露了这些处理针对四种预测任务的专门化。披露了结果的评估以及对纽约市电网的样本结果。披露了为使结果可用并协助知识探索而研发出的管理软件。还披露了从这些系统在纽约市电网上的实现获得的示例的非限定性系统和课程。前摄性维护任务电力公司正在开始从反应性维护计划(当某事变坏时予以修理)转变至前摄性维护计划(在潜在问题发生前予以修理)。其优势在于:允许故障发生的反应性计划会导致危险的情况,例如着火和连锁性故障,并需要高成本的紧急维修。然而,确定有限资源应当分配在哪里以最有效地维修潜在的脆弱构件可不是一项简单的任务。在大型电力系统中,从源头至消费者的电力通过传输线流至变电站,随后至主馈电线电缆(“馈电线”)以及相关联的段、接头和锤头,通过变压器,并去往其余的二次(低电压)配电电网。存在两种馈电线,即“配电馈电线”和“传输馈电线”。单纯为了方便,当前披露的主题是结合配电馈电线予以讨论的,该配电馈电线是形成树状结构的大型高电压电缆(13或27kV),在叶片处具有向二次网络馈电的变压器。 当前披露的系统和方法不仅限于配电馈电线,而是也涵盖例如传输馈电线。在一些城市,这些变压器为建筑或少量消费者提供服务,并且馈电线故障导致对所有下游消费者的服务中断。相反,许多城市中二次电缆形成网状或格子状结构,该网状或格子状结构通过高压馈电线馈电,其目的是即使一条或多条馈电线故障也能持续服务。在这些构件中的任何一个中可能存在弱点:馈电线可能停止服务,电缆、接头和锤头可能故障,变压器可能故障,并且二次电网中电缆的绝缘击穿可能造成故障。下面讨论数据驱动的先制维护策略如何对这些故障的防止产生帮助。馈电线评级主配电馈电线电缆是大型电缆;在纽约市它们工作在13600伏或27000伏下。它们一般沿主要街道或大道架设并从变电站至二次电网配电。(参见图1)。馈电线可能由于沿馈电线某处的缺陷或由于蓄意的电路切断(由此进行维护)而经历断电。如果例如馈电线之类的一个构件出故障或停止服务,这种故障被称为“第一意外事故”,并且如果同一网络中的两个构件出故障,则它被称为“第二意外事故”,依此类推。少量的馈电线损耗因为系统中广泛内建的冗余而一般不会导致消费者电力服务的中断。(例如,地下电网系统可被设计成在第二意外事故下工作,如前所述)。然而,一旦网络中的一条或多条馈电线停止服务,其余馈电线及其关联的变压器必须“捡起”断开的馈电线的负载,这使这些其余馈电线处于高风险中。这种增加的负载提高了其余馈电线和变压器的故障风险,并横跨某些点,网络将经历将经历连锁性故障,在这种情形下剩余的配电资产无法承载网络的负载,并且整个网络必须被切断直到系统被修复为止。每条馈电线电缆可由许多电缆段(“区段”)构成,例如在纽约市每条馈电线的平均段数为大约150。每个段在两个检修孔之间行进,并在每端具有“接头”。这些段经常由三条分束电缆构成,每条分束电缆对应于每个电压相。接头可附连两个单电缆段,或可分成两路或更多路。最终,在变压器侧的馈电线段将电压降压至二次系统所需的120或240伏。馈电线段经由不同的连接器(锤头)连接于变压器。馈电线故障通常发生在接头或电缆段内。地下馈电线故障到目前为止在夏天最频繁,尤其是在热浪期间。这一小节讨论了预测给定馈电线是否具有故障的问题(包括其子构件:区段、接头、锤头)。下面的章节讨论在各个电缆、接头和锤头上的故障预测。一种类型的接头,即“隔离接头(stop joint)”,可以是不当数量故障的来源。隔离接头通过固体电介质将老的“PILC”连接于现代电缆。PILC代表纸绝缘引线包鞘电缆,从1906年至大约1960年代在多数市中心使用的一种老式技术。PILC段是浸油的,由此隔离接头必须不仅具有良好的电连接和绝缘(就像所有接头那样)也必须封住油以防油漏出。即使所有公用事业都积极地将引线电缆从它们的系统中去除,在工作完成前也会有很长的时间。例如,在纽约市,公共服务委员会已命令在2020年之前更换所有30000条残留的PILC段。然而要注意,某些PILC段已工作很长时间而没有任何问题,并且实际和重要的是通过首先更换最不可靠的区段以对有限的维护预算作出最好的利用。下面描述的馈电线故障评级应用将馈电线按从最具风险至最不具风险进行排序。馈电线评级任务的数据可由每条馈电线的300个特征连同其断电历史构成。假设这些数据相当地完整并且不太有噪声。数据包括:投入服务的日期;之前的OA(馈电器故障)、排定的工作、测试和日期;%PILC ;功率质量事件等。许多概括特征可从原始数据中计算出,例如在数据采集时间段内每条馈电线的总OA数。模型建设阶段使用过去两年的数据以预测一年测试阶段内的故障。如图2中可以看出的那样,少量馈电线故障每日地发生,如整年在典型电网中观察到的那样。在温热天气,故障率显著增加。空调单元对系统施加了显著的负载,使夏季期间的电力使用增加大约50%。就是在这些时间系统最有危险。可使用馈电线故障评级列表来为公共事业提供春季更换计划的指导,即一年内发起维修的时间。在每年的早春,大量馈电线因为去除PILC段、改变馈电线的拓朴布局以更好地平衡负载或支持对新大楼的电力改变需求而得以改善。负载在春季很轻,因此可低风险地使馈电线停止服务以更新。确定馈电线的优先级是重要的:每个段的排定更换花费大约$18,000,并且如果该段不大可能出故障,则相比更换可能出故障的段其本质上是浪费钱的。故障要求更高昂的紧急更换并也带有连锁性故障的风险。电缆、接头、终接器和变压器评级电缆、接头、终接器和变压器是具有相当大数量的馈电线构件。对(多构件馈电线的)各个构件如何发生故障进行建模可额外程度地理解馈电线故障。构件的特征相比对馈电线积累的相似特征可更直接地关联于局部故障并保持在非聚集形式;例如对构件建模任务的特征可对1950年由Okonite制造的PILC段编码,而馈电线建模任务的特征可代替地对馈电线多于40年的PILC段数进行编码。评级构件允许在(通过馈电线评级的指导)选择易受影响的馈电线以提高可靠性之后给予更好的决策支持。构件评级允许当预算约束条件禁止全部馈电线的更换时通过对故障的敏感性排定构件优先级。最终,构件评级本身可用来定义馈电线评级任务的特征。通常,人们能构建由一些信用分配结构指导的部分-整体分层学习系统。对于联合爱迪生,用于评级电缆、接头和锤头的数据是多样的并且具有相当的噪声,尽管比用于下面描述的检修孔事件预测项目的数据噪声少。检修孔评级每年在许多城市出现少量严重的“检修孔事件”,包括着火和爆炸。这些事件经常是由二次网络中的低电压电缆的绝缘击穿引起的。由于绝缘可在长时间段击穿,因此尝试从过往事件的特征预测未来的严重事件是合理的。这些事件被认为落在某种程度上简化的两类范畴中:“严重事件”(着火、爆炸、严重冒烟的检修孔)以及“潜在先兆事件”(歇火、闪光等)。潜在先兆事件可以是大面积网络问题的指标,或者它们可指示仅影响1-2个检修孔的局部问题。许多电力公司以事故单的形式保持所有过往事件的记录,所述事故单是由派遣人员作出的速记笔记。纽约市冒烟检修孔事件的一示例性事故单出现在图3。本文披露的机器学习技术可高效地处理这些事故单。MTBF(故障间的平均时间)建模可靠性表现的量度是可被修复的构件或系统的故障间平均时间(MTBF)以及无法被修复的构件的故障平均时间(MTTF)。在倾向管理中,MTBF是常见的测量或可靠性表现。一旦可靠性被量化,则可执行成本相对于利益分析,并可计划更换策略、检查策略和可靠性提闻程序。馈电线由多个可能出故障的构件构成,因此MTBF是适用的。一旦接头出故障,它被更换,因此这时MTTF是适用的。通常,构件或类似馈电线的复合系统的故障率在其寿命上具有变化的MTBF。新的或刚被维护过的某物可能具有早期故障,也被称为“夭折”。然后系统陷入具有低故障率的中年期,最终在其寿命终结时故障率增加。(参见图4)。PILC电缆一一种自从电力产业开始时就选择的电缆类型但如今在多数公用事业中正被逐渐淘汰——可具有非常长的寿命并且难以确定它们的寿命特征的终止。变压器随着故障率增加表现出老化。用于电网中的故障预测的方法和系统其一般目的是“知识探索”,即在数据中寻找隐含的、新颖的并且可能极为有用的信息。Harding等人提供在制造中的知识探索的概览。一般的CRISP-DM架构捕捉针对(潜在地)极端原始数据进行处理的数据,然而数据库(KDD)中的传统知识探索的要点不涵盖这个。这里给出的一般处理可被认为是CRISP-DM的特殊情形,但落在KDD的领域之外,因为构造数据库所涉及的繁重的数据清洗(data cleaning)和处理。对于电网数据的一般知识发现过程示出于图5中。数据首先被清洗并整合入单个数据库,该数据可被准确地查询。然后,在适当的时间标度上将一个或多个机器学习问题公式化。在某些实施例中,机器学习模型中适用的特征对本领域专家是有意义的。机器学习算法中的参数通过互相证实被调整或测试,并被评估以对不在数据库中的数据进行预测准确性盲预测试。本领域专家也使用商业管理工具对模型进行评估并建议改进(通常在数据的最初处理和清洗时)。数据处理/清洗是确保作为结果的模型的完整性的关键点。这种观点与Hsu等人的观点相符,Hsu宣称“……知识探索中经常被忽略的预处理和后处理步骤是确定现实数据采矿应用的成功时最关键的要素”。数据清洗话题已在文献(例如电子商务文献)中广泛地予以描述。经常,机器学习 技术的应用(没有数据清洗步骤的话)不直接导致有用或有意义的模型。在电气公共事业场合下,这些数据可能极为原始:数据可来自整个公司具有不同机制以记录构件的事件次数或身份的多种源,这些数据可能是不完整的或极具噪声的,这些数据可包含大量自由文本文档(例如事故单)。数据处理完整地定义数据解释,该数据解释可由机器学习模型使用,例如通过处理前述数据输入的例子。这种处理将来自多种源的历史数据转化成可供学习使用的预测性特征和标签。数据清洗可包括许多步骤,例如图案匹配(例如寻找结构化或非结构化数据中的寻常表达)、信息提取、文本规范化、使用重叠数据以寻找不一致以及推断出关联或重复的记录。可使用初步统计来评估数据是否丢失,并对推论加入作出公正(sanity)检查。推论加入是可基于至少一个推论将多个原始数据表联合到一个数据库的处理。推论加入可以是数据清洗的一个关键点。使用推论加入的基本图案匹配和统计例示隐藏逻辑的一个例子是针对纽约市内的检修孔事件处理将主电缆记录联合到原始检修孔数据以确定哪些电缆进入哪些检修孔。主电缆连接两个检修孔(与仅进入一个检修孔的服务电缆或街灯电缆形成对照)。电缆数据可来自公用事业的会计部门,这与检修孔位置数据的源不同。检修孔至电缆的原始加入(基于3域检修孔类型、数量和局部3块码的联合的唯一检修孔标识符)得到与仅大约一半的电缆记录的匹配。对电缆数据作出的第一轮校正包括拼写规范化并寻找与相邻的3块码的匹配(所述相邻的3块码经常对于边界上的检修孔被错误地输入)。下一轮校正使用主电缆具有有限长度这一事实:只要电缆两端的仅一端唯一地与检修孔匹配,而对于另一端具有若干可能的检修孔,则选择最接近的检修孔(最短可能的电缆长度)。这种处理得到对大约四分之三的电缆记录的匹配。然而,电缆长度的直方图指示这些加入记录中的大约5%代表过长而无法实现的电缆。这些电缆可用于再次对加入进行故障查找。统计一般有助于寻找不正确地加入其它相关数据的数据囊。数据可以是:静态的(代表网络的拓朴布局,例如电缆数、连接性)、半动态的(临时地或拓朴地,当去除或更换段——几乎是永远——时)以及动态的(实时的、具有时戳的)。可电子地测量动态数据(例如馈电线负载测量),或可当故障发生时测量(例如事故单)。对于半动态和动态数据,可针对机器学习的特征和标签选择集中的时间标度。数据可以是结构化的文本或分类数据、数值数据或非结构化的文本文档。对于前述所有四种应用,机器学习模型可在过往数据上形成、训练和互相证实,并使用评级或MTBF测量经由例如更新近的数据的“盲检”在评估引擎中评估。下面描述用于机器学习和机器学习算法的特征和标签的形成。对于最初处理,评估引擎经常发生变化。这些校正对于评级问题可能是重要的。在列表顶部经常是最重要的评级问题中,存在列表顶部将完全通过由不正确和不完整的数据处理造成的异常值(outliers)繁衍的可能性,且因此整个列表是完全无用的。这尤其发生在推论加入带噪声时;如果馈电线不正确地关联于一些额外故障事件,则看上去就像这种馈电线是尤其脆弱的。另一方面,可通过在经评级列表的顶部执行构件的案例研究来对这类异常值执行故障查找。对于评级算法,评估一般是使用级别统计来执行的,并且经评级的列表可被图形化为例如ROC(接受方操作者特征)曲线。样本估算量度可包括:.在顶部成功的百分比k%:在经评级列表的顶部内故障的构件的百分比k%。.AUC或加权的AUC:ROC曲线下的面积、或威-曼-怀三氏U统计,如下面公式化的那样。AUC关联于列表中的误评级对之和。当列表顶部最重要时,加权的AUC量度(例如使用下面描述的P-范数推进(P-Norm Push)算法)更有用。
可直接地评估MTBF和MTTF。用于在罕见事件预测框架中评级的机器学习方法随着信息检索(IR)社区开始形成和广泛地使用这些方法(见LETOR站点和其中的文献),机器学习中的评级的子领域在过去的几年内已迅速膨胀。“学习评级”最近已被标识为机器学习中雅虎的关键科技挑战之一。评级算法可容易地用于信息检索之外的应用,我们的兴趣在于开发和应用评级算法对电网构件进行评级。在IR中,目的是以同给定查询的相关性为顺序对一组文档进行 评级。对于电气构件评级和IR两者,列表的顶部被认为是最重要的。这里研究的评级问题落在受管理的学习问题的一般范畴下。在受管理的学习中,其目的是从给定的数据集(被称为“训练集”)构造一函数f。可假设该训练集是随机地从未知概率分布中抽取的并由一组对象构成,其中每个对象由一特征矢量(即属性)和标签(即所需输出)表征。其目的是构造一函数,该函数预测从同一分布中提取的新对象的标签。对于给定的学习问题,对于该函数可定义损失函数R(f,数据)或品质量度。这种质量量度根据目的可以是误评级损失、回归损失(如在MTBF中使用的)、误分类损失等。函数f通常是经由“经验风险最小化”构建的,其中f是通过对训练集优化R来选取的,例如:f* = ωη Λ(/.^aining为了避免高维度中的过度拟合,函数F的类别是特征的线性组合的集。由于算法仅优化评估标准R (f,训练数据),这些模型不是双用途的。当在MTBF标准上评估时,评级模型将不一定像在MTBF预测时那么准确。下面披露对于受批管理的评级的机器学习算法和评估标准。馈电线故障评级、电缆、接头和锤头评级以及检修孔事件评级可经由成批管理的机器学习算法构造。重要的是注意,机器学习算法的特殊选择不一定是在该域内主要构件的成功;相反,成功的关键可以是如前所述的数据清洗和处理。如果机器学习特征和标签被很好地构建,任何理想的算法将很好地执行;反之亦然,即糟糕构建的特征和标签将不会产生有用的模型,不管算法选择如何。在受管理的双向评级任务中,其目的是根据处理特定属性的概率对一组随机抽取的例子进行评级。评分函数是从一训练集构建的,该训练集是从同一(未知的)分布中抽取的。形式上,该训练集由具有标签的例子构成:{(J'1.1ijTi € Λ. α € {—1.+1}其中每个例子通过特征值矢量表征:
{fe,1:3.—, ftj ; Κ.
在这种情形下,这些例子是电气构件,并且人们想要预测的属性是故障是否将发生在给定的时间间隔内。这些特征对构件的过往表现、制造商等进行编码。例如,X是锤头,且如果锤头年份小于10年则hj(x)为1,否则Iij(X)为O。评分函数被选择为这些特征的线性组合:- κ 2 = Σ.aA1.-r.'—评级任务的目的是最小化在从中抽取例子的完全(未知)分布上计算出的经评级列表的统计。该未知的分布代表特征值的完整一组可能性(例如可能的锤头的类型)。一
种可能的目的是最小化一对新的随机选择的例子被误评级的概率。
权利要求
1.一种用于对电网中相似构件的经过滤的故障趋势量度的集合进行评级的机器学习系统,包括: (a)原始数据组件,用以提供表征电网中的相似构件的原始数据; (b)数据处理器,其可操作地耦合于所述原始数据组件以经由一种或多种数据处理技术将所述原始数据转换成更统一的数据; (C)数据库,其可操作地耦合于所述数据处理器以存储所述更统一的数据; (d)机器学习引擎,其可操作地耦合至数据库以提供所述相似构件的故障趋势量度的集合; (e)评估引擎,其可操作地耦合至所述机器学习引擎以从故障趋势量度的集合中检测和移除不相符的量度并提供经过滤的故障趋势量度的集合;以及(f)决策支持应用,其可操作地耦合至所述评估引擎并被配置成显示电网中的相似构件的经过滤的故障趋势量度的集合的评级。
2.如权利要求1所述的机器学习系统,其特征在于,所述表征相似构件的原始数据是至少部分地从对于所述类似构件中的至少一个构件的维护记录或维护请求中获得的。
3.如权利要求1所述的机器学习系统,其特征在于,所述数据处理技术包括推论加入、图案匹配、信息提取、文本规范化、查询重叠数据以寻找不一致以及来自关联或复制记录的推论中的一个或多个。
4.如权利要 求1所述的机器学习系统,其特征在于,基于AUC、加权的AUC和预定义的百分比故障排除中的一个或多个来检测所述不相符的量度。
5.如权利要求1所述的机器学习系统,其特征在于,所述评估引擎进一步包括用于存储断电衍生的数据集的断电衍生数据库,所述断电衍生的数据集捕捉表征相似构件中的至少一者的失效数据的动态先兆。
6.如权利要求5所述的机器学习系统,其特征在于,失效数据的动态先兆是从故障时或恰好在故障前结束并在故障前预选时间开始的时移时域中获得的。
7.如权利要求1所述的机器学习系统,其特征在于,所述相似构件是从电缆、接头、终接器、锤头、检修孔和变压器中选取的二次网络构件。
8.如权利要求7所述的机器学习系统,其特征在于,所述相似构件是检修孔。
9.如权利要求1所述的机器学习系统,其特征在于,故障量度的倾向是从故障间平均时间(MTBF)和故障平均时间(MTTF)中选取的。
10.如权利要求1所述的机器学习系统,其特征在于,所述评估引擎包括:数据历史家,用以记录在第一时间段内的经过滤的故障趋势量度的集合以及在第二时间段内的经过滤的故障趋势量度的集合;以及数据分析器,用以确定在第一时间段内的经过滤的故障趋势量度的集合是否在统计上比在第二时间段内的经过滤的故障趋势量度的集合有改善。
11.一种经由机器学习对电网中相似构件的经过滤的故障趋势量度的集合进行评级的方法,包括: (a)提供原始数据组件以提供表征所述电网中的所述相似构件的原始数据; (b)处理所述原始数据以经由一种或多种数据处理技术将所述原始数据转换成更统一的数据; (C)在数据库中存储所述更统一的数据;(d)将所述更统一的数据发送至机器学习引擎以提供所述相似构件的故障趋势量度的集合; (e)对评估引擎中的故障趋势量度的集合进行评估以从所述故障趋势量度的集合中检测和移除不相符的量度并提供经过滤的故障趋势量度的集合;以及 (f)对从所述评估引擎获得的经过滤的故障趋势量度的集合进行评级并将评级显示在决策支持应用上。
12.如权利要求11所述的方法,其特征在于,所述表征相似构件的原始数据是至少部分地从对于所述类似构件中的至少一个构件的维护记录或维护请求中获得的。
13.如权利要求11所述的方法,其特征在于,所述数据处理技术包括推论加入、图案匹配、信息提取、文本规范化、查询重叠数据以寻找不一致以及来自关联或复制记录的推论中的一个或多个。
14.如权利要求11所述的方法,其特征在于,基于AUC、加权的AUC和预定义的百分比故障排除中的一个或多个来检测所述不相符的量度。
15.如权利要求11所述的方法,其特征在于,所述评估进一步包括存储断电衍生的数据集,所述断电衍生的数据集捕捉表征相似构件中的至少一者的失效数据的动态先兆。
16.如权利要求15所述的方法,其特征在于,所述失效数据的动态先兆是从故障时或恰好在故障前结束并在故障前预选时间开始的时移时域中获得的。
17.如权利要求11所述的方法,其特征在于,所述相似构件是从馈电线、电缆、接头、终接器、锤头、检修孔和变压器中选取的构件。
18.如权利要求17所述的机器学习系统,其特征在于,所述相似构件是检修孔。
19.如权利要求11所述的方法,其特征在于,所述故障趋势量度是从故障间平均时间(MTBF)和故障平均时间(MTTF)中选取的。
20.如权利要求1所述的方法,其特征在于,所述评估还包括:记录在第一时间段内的经过滤的故障趋势量度的集合以及在第二时间段内的经过滤的故障趋势量度的集合;以及分析以确定在第一时间段的经过滤的故障趋势量度的集合是否在统计上比在第二时间段的经过滤的故障趋势量度的集合有改善。
全文摘要
对电网中相似构件的故障量度的经过滤趋势的集合进行评级包括原始数据组件,用以提供表征电网内的相似构件的原始数据;数据处理器,其耦合于原始数据组件以经由一种或多种数据处理技术将原始数据转换成更统一的数据;数据库,用以存储更多的统一数据;机器学习引擎,用以提供相似构件的故障量度的趋势的集合;评估引擎,其可操作地耦合至机器学习引擎以从故障量度的趋势的集合中检测和移除不相符的量度并提供经过滤的故障趋势量度的集合;以及决策支持应用,其配置成显示电网中的相似构件的经过滤的故障趋势量度的集合的评级。
文档编号G06E1/00GK103154845SQ201180044607
公开日2013年6月12日 申请日期2011年7月18日 优先权日2010年7月16日
发明者R·N·安德森, A·鲍朗格, C·鲁丁, D·沃茨, A·萨拉布-奥维斯, M·周, H·杜塔, P·格罗斯, B·黄, S·伊罗姆, D·依萨克, A·克瑞斯纳, R·帕索尼奥, A·拉德瓦, L·吴, F·多尔蒂, P·霍夫曼 申请人:纽约市哥伦比亚大学托管会, 联合爱迪生纽约股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1