本发明属于电力系统继电保护技术领域,尤其涉及一种基于正则表达式的继电保护缺陷文本专属名词词典构建方法。
背景技术:
继电保护在电网运行中起着异常告警、切除故障的作用,对于系统安全稳定运行,提高供电可靠性起着不可替代的作用。由于继电保护在电力系统中的重要地位,因此相关国家标准和企业标准规定了在保护装置投入运行后,须定期对保护装置进行检修,在装置发生故障时,还要进行故障检修。在此运行维护过程中,由运维人员记录了大量的缺陷记录文本,这些文本记录了装置发生缺陷的详细信息,包括缺陷现象、缺陷原因、处理措施、处理结果等,这些信息是在保护装置长期运行维护过程中产生的巨大财富,合理有效地进行分析应用将对后期保护装置研发改进以及运行维护产生重要积极作用。
同时,这些缺陷记录文本数据量巨大,而本身信息密度不高,靠人工来对这些数据做全面的分析几乎不能实现,依靠自然语言处理方法进行文本挖掘是必然趋势。基于此,我们可以充分利用机器学习方法处理速度快、效率高的特点,将其应用到继电保护装置缺陷文本数据挖掘。
在保护装置缺陷文本中,存在一类专属名词,例如厂站名称、线路名称等,这些词在文本中出现的重复率很低,且本身对于缺陷文本分析意义不大。因此,为了降低缺陷文本的词集维度,提高文本挖掘的效率和质量,通常将这些专属名字作为停用词,在文本处理时自动删除。正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。通过正则表达式的使用,对缺陷记录数据采取特殊的处理方法,建立单独的词典存储起来,以备后续自然语言处理工作的开展时调用。
技术实现要素:
本发明的目的是提供一种基于正则表达式的继电保护缺陷文本专属名词词典构建方法。该方法根据保护装置缺陷日志结构化部分中的不规范记录文本,基于正则表达式分别提出了用于发电厂名称、变电站名称、输电线路名称的抽取方法,并提供了一套完整的继电保护缺陷文本专属名词词典构建流程,为继电保护缺陷文本分类,缺陷本体、知识图谱等知识模型的构建提供技术支撑。
为实现上述目的,本发明采取以下技术方案:
一种基于正则表达式的继电保护缺陷文本专属名词词典构建方法,所述方法包括:
步骤1、发电厂名称抽取;
步骤2、变电站名称抽取;
步骤3、输电线路名称抽取。
所述步骤1中,发电厂名称抽取包括发电厂名称特征总结以及电压等级、公司名称等干扰字符正则化处理,不同类型发电厂区分。
所述步骤2中,变电站名称抽取包括变电站名称特征总结以及电压等级等干扰字符正则化处理,不同类型变电站区分。
所述步骤3中,输电线路名称抽取包括输电线路名称特征总结以及厂站名称等干扰字符正则化处理。
由上述本发明提供的技术方案可看出,上述方法给出了一种比较完整的基于正则表达式的继电保护缺陷文本专属名词词典构建方法,可以为继电保护专业文本分析的工作提供技术支撑,提高自然语言处理方法在继电保护文本分析中的表现。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显然,下面描述中的附图仅是本发明的部分实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例所述的基于正则表达式的继电保护缺陷文本专属名词词典构建方法流程示意图;
图2为本发明实施例所述的基于正则表达式的发电厂名称抽取流程图。
图3为本发明实施例所述的基于正则表达式的变电站名称抽取流程图。
图4为本发明实施例所述的基于正则表达式的输电线路名称抽取流程图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚完整的描述。
步骤1、发电厂名称抽取。
在继电保护装置缺陷记录日志中,对于每次缺陷,均记录了缺陷的详细缺陷情况文字描述,这些文字描述中包括缺陷现象、缺陷原因、处理措施等十分具有价值的信息。同时,也可能记录着缺陷装置的具体服役厂区,具体线路名称等。厂站名和线路名属于一类专有名词,这类专有名词出现频率很低,且对于保护装置缺陷文本分析意义不大;另外,由于汉语本身的特性,这些专有名词与其他词汇黏连在一起,需要将其准确的从分词文本中识别出来,否则可能会影响其他正常词汇的准确切分。
为保证专属名词词典尽量完备,因此直接从台账数据中获取。实践中发现,装置信息记录格式不统一,台账记录中发电厂名称记录格式主要有以下几种:
(1)地名+公司+‘电厂’;
(2)公司+地名;
(3)电压等级+地名+‘热电厂’;
(4)电压等级+地名+序号+‘电厂’;
(5)地名+序号+‘厂’;
(6)电压等级+地名+‘发电厂’;
(7)地名+‘厂’+序号;
(8)电压等级+地名+‘风电场’;
(9)地名+‘厂’;
(10)地名+‘电厂’。
图2所示为发电厂名称的抽取流程。首先从台账中获取发电厂名称记录,并从中取出1条记录;接下来利用正则表达式去除记录中的电压等级、公司名,并进一步判断其结束字符为哪一类,去除末尾的“发电厂”、“电厂”、“厂”、“风电场”;判断该发电厂是否已存在于发电厂名称列表,若否,则统一存储,若是,则回到台账记录,判断该记录是否为空,若否,重复以上流程,若是,结束。
值得注意的是,缺陷记录中发电厂名称格式主要有:(1)地名;(2)地名+‘厂’;(3)地名+‘发电厂’。对于获取的发电厂名称需要保存为以上三种格式,以便于在缺陷记录文本中精确识别。
步骤2、变电站名称抽取。
台账记录中变电站名称记录格式有以下几种:
(1)电压等级+地名;
(2)电压等级+地名+‘站’;
(3)电压等级+地名+‘变电站’;
(4)地名+‘升压站’;
(5)地名+‘换流站’;
(6)电压等级+地名+‘开关站’;
(7)电压等级+地名+‘开闭站’。
图2所示为变电站名称的抽取流程。首先从台账中获取变电站名称记录,并从中取出1条记录;接下来利用正则表达式去除记录中的电压等级,并进一步判断其结束字符为哪一类,去除末尾的“变电站”、“开关站”、“站”……;判断该变电站名称是否已存在于变电站列表,若否,则统一存储,若是,则回到台账记录,判断该记录是否为空,若否,重复以上流程,若是,结束。
值得注意的是,缺陷记录中发电厂名称格式主要有:(1)地名;(2)地名+‘站’;(3)地名+‘变电站’。对于获取的变电站名称需要保存为以上三种格式,以便于在缺陷记录文本中精确识别。
步骤3、输电线路名称抽取。
台账记录中变电站名称记录格式存在以下几种特征:
(1)线名+‘线’;
(2)线名+线+‘编号’;
(3)线名+‘一/二’+‘线’;
(4)线名+‘ⅰ/ⅱ’+‘线’;
(5)线名+‘ⅰ/ⅱ’+‘回线’;
(6)变电站+线名+‘1/2’+‘线’。
由于输电线路名来自一次设备统计,其中不只包含线路名,还有主变、母线等非线路名的干扰信息。
图3所示为变电站名称的抽取流程。首先从台账中获取一次设备记录,并从中取出1条记录;接下来利用正则表达式去除记录中的厂站名称,并进一步判断该条记录中是否含有字符“线”,若否,回到台账记录,若是,继续判断是否以“母线”结束,若是,回到台账记录,若否,取其前两字作为输电线路名称;判断该线路名称是否已存在于线路列表,若否,则统一存储,若是,则回到台账记录,判断该记录是否为空,若否,重复以上流程,若是,结束。
下面以具体实例对本方法进行论述。
从某地区电网继电保护台账记录中抽取部分数据,包含本方法所述的各种名称格式,如下表所示,其中以dm表示所有地名,以gs表示所有公司名,以xl表示所有线路名。
表1实例输入数据
对上述数据分别进行相应的正则化处理,得到专属名词如下表:
表2实例输出专属名词
值得注意的是,本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
显然,所述实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的情况下所获得的所有其他实施例,都属于本发明保护范围。