一种电力内外网交互中的敏感图像识别方法

文档序号:6521327阅读:159来源:国知局
一种电力内外网交互中的敏感图像识别方法
【专利摘要】本发明提供一种电力内外网交互中的敏感图像识别方法,包括:1,在电力内网系统中收集样本图像,形成样本图像集,采用人工标注的方式,对样本图像进行敏感性和非敏感性标注;2,选取样本图像的特征项;3,根据选取的特征项提取样本图像集的特征数据集;4,采用机器学习方法,根据样本图像集的特征数据集和对应的敏感性或非敏感性的标注,训练得到分类模型;5,基于分类模型进行敏感图像识别,当误判率小于设置的误判阀值时,判断当前分类模型符合预期目标,训练结束;当误判率大于等于该误判阀值时,重新选取样本图像的特征项后,执行3。本发明提供的一种方法,基于机器学习法来识别敏感图像,在有限样本的情况下能够得到较为优秀的分类模型。
【专利说明】一种电力内外网交互中的敏感图像识别方法
【技术领域】
[0001]本发明涉及电力系统信息化【技术领域】,具体涉及一种电力内外网交互中的敏感图像识别方法。
【背景技术】
[0002]随着智能电网的建设和发输变配调用各个环节各种应用的深度融合,信息系统集中化程度将更高,电力内外网信息交换类型和内容将更加复杂,对业务系统的支撑作用越来越显著。电力系统参照“安全分区、网络专用、横向隔离、纵向认证”十六字安全防护方针划分为生产管理大区和管理信息大区,在大区之间部署横向隔离设备,部署于电力内网到外网之间的正向隔离装置的作用是识别非法请求并阻止超越权限的数据访问和操作,从而保护内网实时闭环监控系统和调度数据网络的安全,而部署于电力外网到内网之间的反向隔离装置的作用是保证反向应用数据传输的安全性。
[0003]隔离装置虽然保护了内外网信息的安全性,但是对从内网流向外网信息的保密性却无法保证,内网中的涉密信息如未经过滤或操作不慎仍有非常大的隐患被发布或者推送到信息外网,从而造成涉密信息的泄露。文字信息通过设定敏感词汇进行过滤相对容易识另O,图像信息由于其本身的可读性较差很难进行识别,而且敏感图像的识别,不能用类似于人脸识别通过计算特征点是否符合特定模型的方式开展。敏感图像的界定取决于图像所表达的内容,如施工平面图、一次系统接线图等涉及电网设计规划的图像被认为是敏感图像,只能在内网中流通,而诸如局部的检修工作示意图、母线排结以及活动会议照等被认为是非敏感图像能在外网系统中流转。
[0004]这些敏感或非敏感图像很难用具体的规则去描述,现有技术中,基于语义标注的方法需要事先对图像对所有图像添加描述信息后进行人为识别,不但工作量大而且人为因素的影响较大,而基于统计方法的图像分类计数只有在样本图像趋向无穷大时,其分类效果才趋于理想。

【发明内容】

[0005]本发明针对现有技术的不足,提供一种电力内外网交互中的敏感图像识别方法,包括:
[0006]步骤1,在电力内网系统中收集样本图像,形成样本图像集,采用人工标注的方式,对所述样本图像进行敏感性和非敏感性标注;
[0007]步骤2,选取所述样本图像的特征项。
[0008]步骤3,根据所述选取的特征项提取生成所述样本图像集的特征数据集;
[0009]步骤4,采用机器学习方法,根据所述样本图像集的特征数据集和对应的敏感性或非敏感性的标注,训练得到分类模型;
[0010]步骤5,基于所述分类模型进行敏感图像识别,当误判率小于设置的误判阀值时,判断当前分类模型符合预期目标,训练结束;当所述误判率大于等于所述误判阀值时,重新选取所述样本图像的特征项后,执行步骤3。
[0011]本发明提供的第一优选实施例中:所述步骤I中选取样本图像时应该满足样本所述图像集中包含各种形式和内容的图像,并且各种类型的图像在数量上相等;
[0012]所述样本图像的格式包括bmp、jpg和png。
[0013]本发明提供的第二优选实施例中:所述步骤I中通过将敏感图像和非敏感图像分为两个文件包存储来完成对所述样本图像进行敏感性和非敏感性标注。
[0014]本发明提供的第三优选实施例中:所述步骤2中和步骤5中选取的所述样本图像的特征项包括图像的颜色特征、纹理特征以及特征点。
[0015]本发明提供的第四优选实施例中:所述步骤3包括:过滤所有图像,根据所述选取的特征项将图像格式化为一些列的特征数据;
[0016]所述特征数据包括基于所述特征项的颜色相关矩阵、灰度共生矩阵;
[0017]所述特征数据为连续、离散或字符类型。
[0018]本发明提供的第五优选实施例中:所述步骤4中得到的所述分类模型为以特征值为参数的函数集合,所述函数集合包含所述样本图像中敏感图像和非敏感图像的分类超平面。
[0019]本发明提供的第六优选实施例中:所述步骤5包括:
[0020]步骤501,根据当前分类模型以及当前样本图像合集,计算曲线下面积的值以及混淆矩阵;
[0021]所述AUC的值为正确包含在所述敏感图像和非敏感图像的分类超平面内的样本的百分比;所述混淆矩阵的参数包括:正确判断为敏感的图像数量Cl、正确判断为非敏感的图像数量C2、误判为敏感的图像数量C3和误判为非敏感的图像数量C4 ;
[0022]步骤502,当所述AUC的值大于等于设定的闕值并且所述混淆矩阵优于设定值时,判断所述当前分类模型符合分类期望,结束步骤5 ;当所述AUC的值小于所述设定的闕值或者所述混淆矩阵劣于所述设定值时,执行步骤503 ;
[0023]步骤503,通过添加或删除所述样本图像的特征项重新选取所述样本图像的特征项,执行步骤3。
[0024]本发明提供的第七优选实施例中:所述方法包括:步骤6,基于误判反馈对分类模型进行更新。
[0025]本发明提供的第八优选实施例中:所述步骤6包括:
[0026]步骤601,根据误判反馈实时统计误判次数,将误判图像连同反馈的正确图像分类信息添加到误判图像集中;
[0027]步骤602,当所述误判次数小于设定的允许误判的阀值时,则不更新模型,动作结束;当所述误判次数大于等于所述允许误判的阀值时,将所述误判图像集添加到当前样本图像集中,根据当前分类模型对应的特征项,提取生成误判图像集对应的特征数据的集合;
[0028]步骤603,将所述误判图像集加入到原特征数据集中,所述误判次数清零,并清空所述特征数据集合;执行步骤4。
[0029]本发明提供的一种电力内外网交互中的敏感图像识别方法,相对最接近的现有技术的有益效果包括:[0030]1、本发明提供的一种电力内外网交互中的敏感图像识别方法,基于机器学习法对图像进行识别,在有限样本的情况下能够得到较为优秀的分类模型,将敏感图像识别应用到电力内网环境中,可以有效的保障信息的保密性。
[0031]2、得到分类模型后,还对分类模型的性能是否满足预期值进行判断,衡量分类模型性能包括曲线下面积和混淆矩阵两个参数,能有效的刻画分类模型,通过这两个参数评价分类模型,并反复调整特征项,迭代训练分类模型,能基于当前的有限样本得到性能优秀的分类模型。
[0032]3、考虑电力内外网的复杂性,随着运行环境的变化,当前的样本图像可能不能很好的代表真实的图像数据,在实际操作中还设置误判反馈机制,反馈机制用于收集所有误判的数据,当误判次数大于预先设定的阀值时,启动模型更新机制,将误判图像集添加到样本图像集中,重新计算分类模型,并替换当前的分类模型,使得给敏感图像的识别方法具有很好的灵活性。
【专利附图】

【附图说明】
[0033]如图1所示为本发明提供的一种电力内外网交互中的敏感图像识别方法的流程图;
[0034]如图2所示为本发明提供的一种判断生成的分类模型是否符合分类预期的方法的流程图;
[0035]如图3所示为本发明提供的一种基于误判反馈对分类模型进行更新的方法的流程图。
【具体实施方式】
[0036]下面根据附图对本发明的【具体实施方式】作进一步详细说明。
[0037]本发明提供一种电力内外网交互中的敏感图像识别方法,其方法流程如图1所示,由图1可知,该方法包括:
[0038]步骤1,在电力内网系统中收集样本图像,形成样本图像集,采用人工标注的方式,对样本图像进行敏感性和非敏感性标注。
[0039]步骤2,选取样本图像的特征项。
[0040]步骤3,根据选取的特征项提取生成样本图像集的特征数据集。
[0041]步骤4,采用机器学习方法,根据样本图像集的特征数据集和对应的敏感性或非敏感性的标注,训练得到分类模型。
[0042]步骤5,基于分类模型进行敏感图像识别,当误判率小于设置的误判阀值时,判断当前分类模型符合预期目标,训练结束;当误判率大于等于该误判阀值时,重新选取样本图像的特征项后,执行步骤3。
[0043]步骤I中理论上样本图像的数量越大对分类模型的训练越有利,在样本的选择上应该遵循范围广数量均衡的特点,即满足样本图像集中包含各种形式和内容的图像,并且各种类型的图像在数量上大体相当。样本图像的格式包括bmp、jpg和png。
[0044]由于对样本图像进行敏感性和非敏感性标注是二分类,因此只需将敏感图像和非敏感图像分为两个文件包存储即可达到人工标注的目的。[0045]步骤2中和步骤5中选取的样本图像的特征项包括图像的颜色特征、纹理特征以及特征点。
[0046]步骤3中过滤所有图像,根据选取的特征项将图像格式化为一些列的特征数据,特征数据包括基于特征项的颜色相关矩阵、灰度共生矩阵,该特征数据可以为连续、离散或字符类型。
[0047]步骤4中得到的分类模型为以图像特征值为参数的函数集合,该函数集合包含样本图像中敏感图像和非敏感图像的分类超平面。
[0048]根据步骤2中选取的图像的特征项得到的分类模型的性能可能不是最优的,因此步骤5中为对当前的分类模型的性能进行评价,该性能评价除了误判率的值的判断还可以包括混淆矩阵的判断,该误判率的值可以根据步骤4得到的分类超平面来计算。具体的,步骤5的流程图如图2所示,由图2可是,步骤5包括:
[0049]步骤501,根据当前分类模型以及当前样本图像合集,计算曲线下面积(Areaunder the Curve, AUC)的值以及混淆矩阵。
[0050]AUC的值为正确包含在敏感图像和非敏感图像的分类超平面内的样本的百分比,混淆矩阵的参数包括:正确判断为敏感的图像数量Cl、正确判断为非敏感的图像数量C2、误判为敏感的图像数量C3和误判为非敏感的图像数量C4。
[0051]步骤502,当AUC的值大于等于设定的闕值并且混淆矩阵优于设定值时,判断当前分类模型符合分类期望,即该分类模型不需要调整,结束步骤5 ;当AUC的值小于设定的闕值或者混淆矩阵劣于设定值时,执行步骤503。
[0052]步骤503,通过添加或删除样本图像的特征项重新选取样本图像的特征项,执行步骤3。
[0053]当AUC的值小于设定的闕值或者混淆矩阵劣于设定值时,说明当前的分类模型不符合分类期望,分类期望低的原因可能是过多的提取了无关的特征项而重要的特征项被忽略的,利用重新选取的特征项得到分类模型,直到该分类模型符合分类预期。
[0054]电力内外网是个复杂的运行环境,随着应用系统的更新和运行,图像数据会发生变化,从而导致分类模型不能很好的服务于敏感图像的识别,具体体现为误判率的上升。优选的,本发明提供的一种电力内外网交互中的敏感图像识别方法,还可以包括:步骤6,基于误判反馈对分类模型进行更新。在实际运行中记录了误判信息,累加误判次数,以及记录误判图像,形成误判图像集,这些图像对模型的更新尤为重要,在模型得到更新后,误判次数清零,并清空误判图像集,具体流程如图3所示,由图3可知,步骤6包括:
[0055]步骤601,根据误判反馈实时统计误判次数,将误判图像连同反馈的正确图像分类信息添加到误判图像集中。
[0056]步骤602,当误判次数小于设定的允许误判的阀值时,则不更新模型,动作结束;当误判次数大于等于该允许误判的阀值时,将误判图像集添加到当前样本图像集中,根据当前分类模型对应的特征项,提取生成误判图像集对应的特征数据的集合。
[0057]步骤603,将误判图像集加入到原特征数据集中,误判次数清零,并清空特征数据集合;执行步骤4。
[0058]最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的【具体实施方式】进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
【权利要求】
1.一种电力内外网交互中的敏感图像识别方法,其特征在于,所述方法包括: 步骤1,在电力内网系统中收集样本图像,形成样本图像集,采用人工标注的方式,对所述样本图像进行敏感性和非敏感性标注; 步骤2,选取所述样本图像的特征项。 步骤3,根据所述选取的特征项提取生成所述样本图像集的特征数据集; 步骤4,采用机器学习方法,根据所述样本图像集的特征数据集和对应的敏感性或非敏感性的标注,训练得到分类模型; 步骤5,基于所述分类模型进行敏感图像识别,当误判率小于设置的误判阀值时,判断当前分类模型符合预期目标,训练结束;当所述误判率大于等于所述误判阀值时,重新选取所述样本图像的特征项后,执行步骤3。
2.如权利要求1所述的方法,其特征在于,所述步骤I中选取样本图像时应该满足样本所述图像集中包含各种形式和内容的图像,并且各种类型的图像在数量上相等; 所述样本图像的格式包括bmp、jpg和png。
3.如权利要求1所述的方法,其特征在于,所述步骤I中通过将敏感图像和非敏感图像分为两个文件包存储来完成对所述样本图像进行敏感性和非敏感性标注。
4.如权利要求1所述的方法,其特征在于,所述步骤2中和步骤5中选取的所述样本图像的特征项包括图像的颜色特征、纹理特征以及特征点。
5.如权利要求1所述的`方法,其特征在于,所述步骤3包括:过滤所有图像,根据所述选取的特征项将图像格式化为一些列的特征数据; 所述特征数据包括基于所述特征项的颜色相关矩阵、灰度共生矩阵; 所述特征数据为连续、离散或字符类型。
6.如权利要求1所述的方法,其特征在于,所述步骤4中得到的所述分类模型为以特征值为参数的函数集合,所述函数集合包含所述样本图像中敏感图像和非敏感图像的分类超平面。
7.如权利要求6所述的方法,其特征在于,所述步骤5包括: 步骤501,根据当前分类模型以及当前样本图像合集,计算曲线下面积的值以及混淆矩阵; 所述AUC的值为正确包含在所述敏感图像和非敏感图像的分类超平面内的样本的百分比;所述混淆矩阵的参数包括:正确判断为敏感的图像数量Cl、正确判断为非敏感的图像数量C2、误判为敏感的图像数量C3和误判为非敏感的图像数量C4 ; 步骤502,当所述AUC的值大于等于设定的闕值并且所述混淆矩阵优于设定值时,判断所述当前分类模型符合分类期望,结束步骤5 ;当所述AUC的值小于所述设定的闕值或者所述混淆矩阵劣于所述设定值时,执行步骤503 ; 步骤503,通过添加或删除所述样本图像的特征项重新选取所述样本图像的特征项,执行步骤3。
8.如权利要求1所述的方法,其特征在于,所述方法包括:步骤6,基于误判反馈对分类模型进行更新。
9.如权利要求8所述的方法,其特征在于,所述步骤6包括: 步骤601,根据误判反馈实时统计误判次数,将误判图像连同反馈的正确图像分类信息添加到误判图像集中; 步骤602,当所述误判次数小于设定的允许误判的阀值时,则不更新模型,动作结束;当所述误判次数大于等于所述允许误判的阀值时,将所述误判图像集添加到当前样本图像集中,根据当前分类模型对应的特征项,提取生成误判图像集对应的特征数据的集合; 步骤603,将所述误判图像集加入到原特征数据集中,所述误判次数清零,并清空所述特征数据集 合;执行步骤4。
【文档编号】G06K9/66GK103605992SQ201310627243
【公开日】2014年2月26日 申请日期:2013年11月28日 优先权日:2013年11月28日
【发明者】黄凤, 梁云, 郭经红, 黄莉, 郭云飞, 姚继明, 田文锋, 张征, 时志雄 申请人:国家电网公司, 中国电力科学研究院, 国网上海市电力公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1