核电文件校验处理方法以及系统与流程

文档序号:17080800发布日期:2019-03-09 00:14阅读:218来源:国知局
核电文件校验处理方法以及系统与流程

本发明涉及核电领域,尤其涉及一种核电文件校验处理方法以及系统。



背景技术:

据统计,在核电建设项目中,工程总成本的约3%~5%是由信息传递的问题导致工程变更和工程实施的错误所造成的。核电工程企业内容信息数据复杂,文档资料数量庞大,达到百万级别,尤其是项目工程文件、技术文档、商务合同、往来函件及各技术路线(如ap1000、epr三代核电技术)转让资料。由于技术资料大部分是以半结构化形式存储在企业内容管理系统(enterprisecontentmanagementsystem,ecms)中,信息量庞大。

核电文档结构化的元数据信息除了在信息平台中体现外,在非结构化的实体的工程文档文件中也有相应的体现,而工程实施过程中,在ecm中存储的元数据需要通过实体文件的形式展示给现场人员,因此核电文档信息的准确性直接影响了项目的建设实施,为了保证核电工程质量和核安全,文档的规范化检查与元数据匹配是的核电文档管理重要基础工作。

核电文档实行电子化、无纸化管理,电子化工作流审批及自动化数字签名大大提高了生产效率,但文档检查需要投入大量人力,成为文档流转的瓶颈。核电文档检查工作是一个复杂繁琐的事务性工作,每个工程设计文件需要进行多达24项,均需要人工核对检查,每天需要检查核对几百份工程文件与工程函件,消耗大量的人力与成本,而这种重复性的工作。

公开号为cn106815268a的发明申请公开了一种海量非结构化电子文件的结构化处理方法及系统。该发明仅从技术资料的实体电子文件的属性(如文件名称、大小、目录、哈希码等信息)进行了分析和提取,并未对非结构化文档的具体内容,尤其是图像内的数据信息进行进一步处理。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种核电文件校验处理方法以及系统。

本发明解决其技术问题所采用的技术方案是:构造一种核电文件校验处理方法,包括:

从企业内容管理系统中获取非结构化核电文件及相关元数据信息;

根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则;

基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;

结合所述图片结构化信息,进行文档数据校验。

优选的,所述方法还包括:

在进行图像分割之前,对所述非结构化核电文件进行预处理,所述预处理包括:对所述非结构化核电文件先后进行灰度处理、二值化处理、滤波降噪处理以及图片倾斜矫正。

优选的,所述方法还包括:

提取所述非结构化核电文件的颜色信息,获取校验所需要的文件属性信息;

在进行图像分割之后,识别信息块图片的清晰度;

在进行文档数据校验时,基于所述校验规则,对提取出的所述图片结构化信息、清晰度信息、提取到的颜色信息文件以及获取到的文件属性信息进行综合校验,导出校验结果给结果显示用户接口,并提供各项校验结果的说明。

优选的,所述的对所述非结构化核电文件进行图像分割,包括:对所述非结构化核电文件中的图片进行图片边缘识别;对识别出边缘的图片进行倾斜校正;分割出倾斜校正后的图片;根据校验规则中的文件模板,获取位置信息,根据位置信息定位提取单个信息块图片。

优选的,所述的对分割出来的信息块图片进行文字识别以提取图片结构化信息,包括:

对分割出来的单个信息块图片进行行、字切分得到单个文字图片;

通过对单个文字图片的统计特征进行分析,获取特征向量;

将所述特征向量输入人工神经网络以获取所述单个文字图片的文字信息。

本发明还要求保护一种核电文件校验处理系统,包括:

内容管理系统接口,用于从企业内容管理系统中获取非结构化核电文件及相关元数据信息;

校验规则获取模块,用于根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则;

图片结构化信息提取模块,用于基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;

校验模块,用于结合所述图片结构化信息,进行文档数据校验。

优选的,所述系统还包括:

预处理模块,用于对所述非结构化核电文件进行预处理后送往所述图片结构化信息提取模块进行处理;其中,所述预处理包括:对所述非结构化核电文件先后进行灰度处理、二值化处理、滤波降噪处理以及图片倾斜矫正。

优选的,所述系统还包括:

颜色信息提取模块,用于提取所述非结构化核电文件的颜色信息并送往所述校验模块;

文件属性提取模块,用于获取校验所需要的文件属性信息并送往所述校验模块;

清晰度识别模块,用于识别信息块图片的清晰度并送往所述校验模块;

所述校验模块具体用于基于所述校验规则,对提取出的所述图片结构化信息、清晰度信息、提取到的颜色信息文件以及获取到的文件属性信息进行综合校验,导出校验结果给结果显示用户接口,并提供各项校验结果的说明。

优选的,所述图片结构化信息提取模块包括:

图片分割提取单元,用于对所述非结构化核电文件中的图片进行图片边缘识别,对识别出边缘的图片进行倾斜校正,分割出倾斜校正后的图片;以及根据校验规则中的文件模板,获取位置信息,根据位置信息定位提取单个信息块图片。

优选的,所述图片结构化信息提取模块包括:

文字识别单元,用于对分割出来的单个信息块图片进行行、字切分得到单个文字图片,通过对单个文字图片的统计特征进行分析,获取特征向量,将所述特征向量输入人工神经网络以获取所述单个文字图片的文字信息。

本发明的核电文件校验处理方法以及系统,具有以下有益效果:本发明适用于包含图片的非结构化核电文件的校验处理,填补了核电企业内容自动化图像识别校验的空白,可以根据需求预先录入配置信息以实现针对不同的文件类型实现多样化定制校验规则,适应核电多专业、多机组、多技术路线的发展特点,保证了核电内容的完整性和准确性,极大的提升了生产效率,降低人力成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图:

图1是本发明实施例一的方法流程图;

图2是人工神经网络模型;

图3是本发明实施例二的系统结构示意图。

具体实施方式

为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。

本发明总的思路是:先从企业内容管理系统中获取非结构化核电文件及相关元数据信息;然后基于预先录入的校验规则配置信息,获取校验规则;再基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;最后,结合所述图片结构化信息,进行文档数据校验。如此可以实现经图片中的内容信息提取出来形成结构化信息进而进行校验,填补了核电企业内容自动化图像识别校验的空白,而且通过录入不同的校验规则配置信息,可以针对不同的文件类型实现多样化定制校验规则,适应核电多专业、多机组、多技术路线的发展特点,保证了核电内容的完整性和准确性,极大的提升了生产效率,降低人力成本。

为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。

实施例一

参考图1,实施例一公开了一种核电文件校验处理方法,方法包括:

s101、从企业内容管理系统(ecms)中获取非结构化核电文件及相关元数据信息,元数据信息包括文件编码、文件版本、状态、标题等。

s102、根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则。校验规则包括核电文件的分类和核电文件的模板。

其中,预先录入的校验规则配置信息时,是根据核电文档管理规则录入相关数据。本实施例中,校验规则配置信息存储于以下三个数据库中:文档分类规则库、校验区域规则库以及元数据校验规则库,该三个数据库分别定义结构化的元数据、非结构化的核电文件以及二者间的关联关系。相关说明如下。

meta={att1,att2,att3...attn}

position={pos1,pos2,pos3...posj}

category={ca1,ca2,ca3...cam}

template={tpl1,tpl2,tpl3...tpli}

validate={(c,t)|c∈categories,t∈templates}

其中,meta是核电文件的元数据的集合,如文件编码、文件版本、状态、标题等。position是核电文件的内容位置,包括页面大小、页数、定位坐标等。

category是核电文件的分类,即核电文档细分类别,如工程文件、工程函件、合同等。分类的依据均来自元数据的组合。categories是核电文档分类集合。

template是核电文件的模板,对于任何一个核电文件的分类,都存在一个对应模板,每个模板中包含分类信息以及对应的元数据位置。templates是核电文件的模板集合。

validate是校验规则集合,对于每个核电文件的分类,对应一个或多个核电文件的模板。

s103、对所述非结构化核电文件进行预处理;

其中,所述预处理包括四个步骤:对所述非结构化核电文件先后进行灰度处理、二值化处理、滤波降噪处理以及图片倾斜矫正,下面对这四个步骤进行详细说明。

1031)灰度处理:在进行灰度化处理前,需要校验所述非结构化核电文件的颜色属性,如果校验通过,则可以认为文件中每个像素的颜色可表示为:c=xr+yg+zb,其中x+y+z=1。则可以按照以下公式将彩色文档中的每个像素进行加权灰度化处理:gray=(ωrr+ωgg+ωbb)÷3。由于人眼对绿色最为敏感,红色次之,对蓝色的敏感性最低,因此使ωg>ωr>ωb将得到较易识别的灰度图像。特殊地,设置权值如下,ωr=0.299,ωb=0.587,ωg=0.114,ωg=0.114;ωr=0.299;ωb=0.587,如此得到的灰度图像效果最好。

1032)二值化处理:由于预处理的效果好坏直接影响后续文字识别的性能,而核电文件中识别的文件内容多为字母或数字,因此,需要对图片进行二值化处理,处理公式如下:

二值化处理即将文档内的灰度进行调整,高于阈值t0的为1(灰度中设置为255),低于阈值t0的为0(灰度中设置为0)。其中,t0一般可设置为整个文件中的所有像素的灰度值的最大值与最小值的平均值:

1033)滤波降噪处理:为提高识别率,尤其是扫描文件的噪声处理,采用图像平滑滤波算法消除图像噪声。例如,可以对已进行二值化处理的图像,选取窗口尺寸为m*n(m,n>1,且均为奇数,一般为3*3)的滤波器,且均为奇数,一般为3*3),在周边值中寻找中值,作为该中心点的数值。例如,对于滤波器所选中的3*3的9个像素点,假若滤波前这9个像素点的值分别为:

000

02550

000

显然,中间点是噪点,通过本步骤的滤波降噪处理后,中间点的255变成周边各个点的中值(平均数)0,即降噪后,变成

000

000

000

1034)图片倾斜矫正:可以采用基于投影的方法,将文件沿指定方向投影,得到若干投影图,再根据投影图的投影特征(如均方差)得出文件的倾斜角,根据该倾斜角即可并完成文件的倾斜校正。

s104、提取所述非结构化核电文件的颜色信息,获取校验所需要的文件属性信息。此处可以根据核电文件整体信息,获取校验所需要的文件属性信息,如文件名称、文件大小、文件格式等。

s105、基于所述校验规则,对所述非结构化核电文件进行图像分割。需要说明的是,s105与s104两者之间的执行顺序并不做限制。只需保证在最终的步骤s109之前执行了步骤s105与s104即可。

根据获取到的所述校验规则,结合步骤s101获取的非结构化核电文件,可以确定需要进行校验的各项内容,其中对于核电文件中的图像,则可以进行图像分割,图像分割的详细过程如下:

1051)对所述非结构化核电文件中的图片进行图片边缘识别:可以利用边缘检测算子对步骤s103预处理之后的文件进行卷积运算,然后采用hough算法检测出核电文件中的图片边缘上的直线段;

1052)对识别出边缘的图片进行倾斜校正:将上一步得到的直线段按长度递减排序,选择最长的若干个直线段计算该若干个直线段相对于水平方向的倾斜角度,取该若干个直线段的倾斜角度的中值作为整个图像的倾斜角度,基于整个图像的倾斜角度可以通过旋转图像对其进行倾斜校正;

1053)分割出倾斜校正后的图片:保留水平方向和垂直方向上的直线段,去除其他直线段;计算保留下来的不同直线段端点之间的距离,如果小于设定的阈值,则对直线段进行连接,如此可以获得表格的单元格图像;

1054)定位提取单个信息块图片:首先,根据校验规则中的文件模板,获取位置信息,根据位置信息定位信息块图片的位置;其次,定位信息块图片的位置之后,通过边缘识别算法扣取信息块图片;最后,将扣取出来的信息块图片按照规则进行临时保存。其中,位置信息包括页码、起始点与结束点。一个具体的实施例中,可以利用边缘算法将扣取的信息块图片保存为bmp格式。

s106、对分割出来的信息块图片进行文字识别以提取图片结构化信息,具体包括:

1061)对分割出来的单个信息块图片进行行、字切分得到单个文字图片;

其中,行切分可以采用二值图像的像素累加方法,如下面公式所示。

其中f(i,j)是文本二值图像,l是行长,p是大于零的实验常数,取决于文档的噪点。为通配符。当为≥时,表达式若成立,则为行上界;当为≤时则为行下界。上下界之间的可切分为一行。字切分的方法与之类似,字切分相当于将行切分之后的图片旋转90°再次进行行切分,当然此时的l不再是行长,而是字高。

1062)通过对单个文字图片的统计特征进行分析,利用局部灰度算法抽象网格特征,获取特征向量;

1063)将所述特征向量输入人工神经网络(artificialneuralnetwork),如图2所示,通过对人工神经网络中神经元连接的权值设置,计算非线性激活函数是否大于阈值,进而输出分类信息yk,该分类信息yk也就所述单个文字图片的文字信息。

其中,xj是神经元输入信息,其为步骤1062)中获取的特征向量;ωkj是神经元k连接的权值,θk为阈值,为激活函数,yk为神经元k输出的分类信息。

s107、识别信息块图片的清晰度;

清晰度识别采用梯度算法,对文件中的图片采用sobel算子提取水平和垂直两个方向的梯度值,基于tenengrad能量梯度函数实现清晰度判断。

d(f)=∑y∑x|g(x,y)|,(g(x,y)>t)

其中,d(f)表示清晰度,t是给定的边缘检测阈值,gx和gy分别是像素点(x,y)处sobel水平和垂直方向边缘检测算子的卷积。其中sobel算子模板如下。

s108、基于所述校验规则,对提取出的所述图片结构化信息、清晰度信息、提取到的颜色信息文件以及获取到的文件属性信息进行综合校验,导出校验结果给结果显示用户接口,并提供各项校验结果的说明。

优选的,方法还包括:记录整个方法过程中的日志,如图片分割结果,图片中的元数据识别结果等。

实施例二

参考图3,本实施例公开了一种核电文件校验处理系统,包括:

内容管理系统接口201,用于从企业内容管理系统中获取非结构化核电文件及相关元数据信息。元数据信息包括文件编码、文件版本、状态、标题等。

校验规则获取模块202,用于根据获取到的非结构化核电文件及相关元数据信息,基于预先录入的校验规则配置信息,获取校验规则。校验规则包括核电文件的分类和核电文件的模板。

其中,预先录入的校验规则配置信息时,是根据核电文档管理规则录入相关数据。本实施例中,校验规则配置信息存储于以下三个数据库中:文档分类规则库、校验区域规则库以及元数据校验规则库,该三个数据库分别定义结构化的元数据、非结构化的核电文件以及二者间的关联关系,具体内容可以参考实施例一的对应内容,此处不再赘述。

预处理模块203,用于对所述非结构化核电文件进行预处理后送往所述图片结构化信息提取模块进行处理;其中,所述预处理包括:对所述非结构化核电文件先后进行灰度处理、二值化处理、滤波降噪处理以及图片倾斜矫正。具体内容可以参考实施例一的对应内容,此处不再赘述。

颜色信息提取模块204,用于提取所述非结构化核电文件的颜色信息并送往所述校验模块;

文件属性提取模块205,用于获取校验所需要的文件属性信息并送往所述校验模块;

图片结构化信息提取模块206,用于基于所述校验规则,对所述非结构化核电文件进行图像分割,并对分割出来的信息块图片进行文字识别以提取图片结构化信息;

清晰度识别模块207,用于识别信息块图片的清晰度并送往所述校验模块;具体过程可以参考实施例一的对应内容,此处不再赘述。

校验模块208,用于基于所述校验规则,对提取出的所述图片结构化信息、清晰度信息、提取到的颜色信息文件以及获取到的文件属性信息进行综合校验,导出校验结果给结果显示用户接口,并提供各项校验结果的说明。

日志记录模块209,用于记录整个系统的操作过程中的日志,如图片分割结果,图片中的元数据识别结果等。

具体的,上述的图片结构化信息提取模块206包括:

图片分割提取单元2061,用于对所述非结构化核电文件中的图片进行图片边缘识别,对识别出边缘的图片进行倾斜校正,分割出倾斜校正后的图片;以及根据校验规则中的文件模板,获取位置信息,根据位置信息定位提取单个信息块图片。具体内容可以参考实施例一的对应内容,此处不再赘述。

文字识别单元2062,用于对分割出来的单个信息块图片进行行、字切分得到单个文字图片,通过对单个文字图片的统计特征进行分析,获取特征向量,将所述特征向量输入人工神经网络以获取所述单个文字图片的文字信息。具体内容可以参考实施例一的对应内容,此处不再赘述。

需要指出的是,上文对各种模块的描述中,分割成这些模块,是为了说明清楚。然而,在实际实施中,各种模块的界限可以是模糊的。例如,本文中的任意或所有功能性模块可以共享各种硬件和/或软件元件。又例如,本文中的任何和/或所有功能模块可以由共有的处理器执行软件指令来全部或部分实施。另外,由一个或多个处理器执行的各种软件子模块可以在各种软件模块间共享。相应地,除非明确要求,本发明的范围不受各种硬件和/或软件元件间强制性界限的限制。

综上所述,本发明的核电文件校验处理方法以及系统,具有以下有益效果:本发明适用于包含图片的非结构化核电文件的校验处理,填补了核电企业内容自动化图像识别校验的空白,可以根据需求预先录入配置信息以实现针对不同的文件类型实现多样化定制校验规则,适应核电多专业、多机组、多技术路线的发展特点,保证了核电内容的完整性和准确性,极大的提升了生产效率,降低人力成本。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1