一种适用于继电保护装置缺陷分析的专业词典构建方法

文档序号:25586897发布日期:2021-06-22 17:02阅读:115来源:国知局
一种适用于继电保护装置缺陷分析的专业词典构建方法

本发明涉及继电保护技术领域,尤其涉及一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。



背景技术:

继电保护系统是电力系统安全、稳定运行的第一道防线,继电保护系统能否正确动作,各类继电保护装置的缺陷管理工作十分关键和重要。继电保护的四项基本要求中快速性、选择性和灵敏性可通过整定计算得以保障,但可靠性与保护装置本身的缺陷情况息息相关,即使动作定值、时间整定和设备配套方案设置合理,装置自身缺陷所引起的二次系统功能缺失会使电网安全稳定运行失去保障,从而导致故障范围扩大、负荷大面积损失、设备损坏、人身伤亡等不利情况。

目前,继电保护行业已经积累了大量的继电保护装置缺陷信息数据。随着缺陷数据量的增长,传统数据分析方法开始向机器学习算法过渡,这为缺陷数据的分析提供了新的思路。值得注意的是,传统数据分析应用均基于现场人员填写好的规范数据开展,忽略了缺陷数据根本上是一种非规范的文本型数据。因此,借助自然语言处理算法的文本挖掘技术值得尝试。但是,文本挖掘技术特殊性在于其对专业领域词典依赖性很高,因此,建立适用于继保装置缺陷分析的专业词典具有较强的实际意义。



技术实现要素:

本发明的目的是提供一种综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法。该方法能较好地实现对缺陷文本记录分词并修正从而建立专业词典的目标,为基于文本挖掘技术开展缺陷定级或缺陷信息抽取提供基础。

本发明的目的是通过以下技术方案实现的:

一种适用于继电保护装置缺陷分析的专业词典构建方法,所述方法包括:

步骤1、继电保护缺陷记录文本数据预处理。

步骤2、继电保护缺陷记录停用词表构建。

步骤3、继电保护缺陷记录文本分词。

步骤4、继电保护缺陷记录同义词合并。

所述步骤1中,文本数据预处理包括文本数据清洗,删除重复缺陷记录、空白缺陷记录等无意义数据,按照缺陷等级将缺陷文本分为危急、严重、一般三部分,分别进行分词处理。

所述步骤2中,停用词表构建包括基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等。

所述步骤3中,文本数据分词共涉及两次分词,初次粗分词利用jieba分词,然后进行人工修正并对停用词进行补充完善,之后基于该次结果进行二次分词,获得质量更高的专业词典。

所述步骤4中,同义词合并主要基于人工识别并存储。

由上述本发明提供的技术方案可以看出,上述方法一方面考虑了继电保护装置实际运维中缺陷记录的主要属性,另一方面根据继电保护专业语料对分词结果中专业词汇进行修正,修正结果提升了机器分词的准确性和专业性,所得分词结果为文本挖掘技术在缺陷分析中的应用提供了基础。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显然,下面描述中的附图仅是本发明的部分实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。

图1为本发明实施例所述的继电保护装置缺陷分析专业词典构建方法的流程示意图;

图2为本发明实施例所述的停用词表构建所采用的正则表达式方法流程图。

具体实施方式

下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。

显然,所描述的实施例仅为本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。

步骤1、继电保护缺陷记录文本数据预处理。

首先,对缺陷文本数据进行清洗,删除重复缺陷记录、空白缺陷记录等无意义数据;然后,按照缺陷等级将缺陷文本分为危急、严重、一般三部分,分别进行分词处理。

重复缺陷记录剔除、空白缺陷记录删除及按照缺陷等级的缺陷文本划分通过excel软件筛选完成;之后将三组文本转换为txt格式文档存储以备调用。

步骤2、继电保护缺陷记录停用词表构建。

基于正则表达式提取缺陷装置信息、厂站名、输电线路名和人名等。

具体的,停用词提取分别有如下几类:

(1)厂站名、线路名:属于专有名词,需要将其准确的从分词文本中识别出来,否则可能会影响其他正常词汇的准确切分。厂站名和线路名集合提取自缺陷数据中的厂站名称和一次设备名称。运用正则表达式的方法,去除其中的电压等级,将记录中的变电站和发电厂区分开,从中提取出所需的厂站名集合。

(2)设备型号:缺陷记录中如lcs5678h、nsr3111f、pcs-222ea-g、csc101b等保护型号,每个型号在文本记录中出现次数太少,对于文本分析意义不大;由于人工记录,存在不同的书写格式,不易识别;出现的型号本身不一定完整,甚至存在记录错误。因此,对于在文本记录中出现的保护型号,只从中提取“csc”、“psl”等表明发生故障的装置所属的序列。

(3)人名:人名因为占比很少,目前采用人工识别的方式,同时考虑获取运维人员名单并导入以进行正则化抽取。

停用词表借助正则表达式方法构建,基于正则表达式匹配某些特定数据。正则表达式是用于处理字符串的强大工具,拥有自己独特的语法以及一个独立的处理引擎。得益于这一点,在提供了正则表达式的语言里,正则表达式的语法都是一样的,区别只在于不同的编程语言实现支持的语法数量不同。使用正则表达式进行匹配的流程如附图2所示。

正则表达式的匹配过程是:依次拿出表达式和文本中的字符比较,如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败。正则表达式可以用来匹配多种数据形式:字符组、匹配多个单词、区间、特殊字符、匹配目标数据、取反、匹配空白、单词边界、开始结束、可选的任意字符、重复区间及开闭区间。

步骤3、继电保护缺陷记录文本分词。

继电保护缺陷文本记录数据分词共涉及两次分词,初次粗分词利用jieba分词,然后进行人工修正并对停用词进行补充完善,之后基于该次结果进行二次分词,获得质量更高的专业词典,提升分词结果的准确性。

在该步骤3中,主要的分词约束包含以下内容:

①对于出现的厂站,将具体名称替换为“变电站”、“发电厂”或“风电场”,出现的线路,将具体名称替换为“线路”,从而降低文本语料的特征空间维数,并且体现缺陷发生的地点属性;

②专属实体名合并,例如故障/录波器、cpu/插件、重合/闸等;

③不切分出单字实词,例如光电/口、接线/头等,当作短语处理;

④必要的虚词前后缀(尤其否定前缀),例如无/异常、不/影响等;

⑤出现数字后,先判断其后一个词是否为有意义的时间、电流、电压等计量单位。若是,则保留;若不是,考虑直接删除。

步骤4、继电保护缺陷记录同义词合并。

同义词合并主要基于人工识别并存储。目前继电保护装置缺陷处理中的近义词汇较少,如“主变”和“主变压器”,多通过人工添加进行筛选。

下面再以具体的实例对上述缺陷数据修正方法进行论证与说明:

以2016-2018年全国继电保护装置缺陷管理日志为样本,构建适用于缺陷诊断的专业文本词典,所得停用词表结果如下:

表1停用词表结果

基于停用词表,对缺陷日志短文本进行分词,所得结果举例如下表所示:

表2文本分词结果举例

上述分词结果表明,所使用的文本分词方法能够良好地对缺陷文本进行分词,一方面保留了继电保护相关专业术语词汇,另一方面对停用词表中的内容进行了有效滤除。基于该词典可以有效构建缺陷文本向量空间,并借助相关机器学习算法对缺陷文本进行分类。

综上,本发明所述的综合考虑实际运维记录和用于缺陷分析的继电保护装置专业词典构建方法可行,且具有工程应用价值。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1