海量非结构化电子文件的结构化处理方法及系统与流程

文档序号:12596333阅读:415来源:国知局
海量非结构化电子文件的结构化处理方法及系统与流程

本发明属于文档管理信息化技术领域,更具体地说,本发明涉及一种海量非结构化电子文件的结构化处理方法及系统。



背景技术:

核电工程资料多以图纸,文档,软件输入输入数据,三维模型为主,其非结构化程度较高,通常使用企业内容管理平台(Enterprise Content Management,ECM)进行管理,企业内容管理平台将部分结构化信息存储在数据库中,便于通过特征元数据快速检索和利用,而技术资料的主要技术信息则存储在实体的电子文件中。

核电工程设计企业外部文档资料数量庞大,达到百万级别,尤其是AP1000、EPR三代核电技术转让资料,由于技术转让资料大部分是非结构化或半结构化文件档案,这些海量资料存在时间跨度大,数量庞大,编码复杂,文件版本多,重复提交现象严重,元数据信息不全,电子文件命名不规范等诸多问题。目前这些海量资料的结构化梳理方式以文档人员手动处理为主,不仅耗费大量人力物力,而且,海量资料人工梳理的工作效率极为低下。

因此,如何开发及提供一种能够对半结构化甚至非结构化核电文档资料进行高效的结构化处理的核电技术资料处理方法及系统,已成为亟待解决的技术问题。



技术实现要素:

本发明的目的在于:针对现有技术的上述缺陷,提供一种通过智能化分布式处理方式对海量非结构化电子文件进行高效的结构化处理,节省人工成本, 显著提高数据结构化转换效率及准确率的结构化处理方法及系统。

为了实现上述发明目的,本发明提供了一种海量非结构化电子文件的结构化处理方法,该方法包括:

根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条件;

根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据,并将该海量结构化数据导入核电企业内容管理系统。

本发明还提供了一种海量非结构化电子文件的结构化处理系统,该系统包括:

元数据形式化约束配置模块,用于根据核电技术资料的编码规范及匹配规则制定元数据形式化约束条件;

结构化处理模块,用于根据元数据形式化约束条件对海量非结构化电子文件进行结构化处理,得到满足核电企业内容管理系统结构要求的海量结构化数据;

内容管理系统集成模块,用于将该海量结构化数据导入核电企业内容管理系统。

本发明提供了一种智能化程度高,科学严谨,简单实用,且运行可靠稳定的海量非结构化电子文件的结构化处理方法及系统,应用本发明海量非结构化电子文件的结构化处理方法及系统,可显著提高海量半结构化或非结构化电子文件(比如结构化程度低的海量核电技术文件)的结构化转换效率及准确率,降低人工成本。另外,本发明还可通过日志对元数据形式化约束条件校验或匹配过程中的报错作完整记录,利于后期追踪及回滚,本发明系统还支持对因存在数据噪声而被滤除,但经人工干预更正的那部分核电技术文件进行再一次的结构化处理,以提高非结构化数据结构化转换的成功率。

附图说明

下面结合附图和具体实施方式,对本发明海量非结构化电子文件的结构化处理方法及系统进行说明,其中:

图1为本发明较佳实施例提供的海量非结构化电子文件的结构化处理方法的流程图;

图2为图1中包含的海量非结构化核电技术文件的结构化处理过程的具体流程图;

图3为图2中包含的滤除海量核电技术文件中存在数据噪声的核电技术文件的流程图;

图4为图2中包含的将海量结构化核电技术文件导入核电企业内容管理系统的流程图;

图5为本发明另一较佳实施例提供的海量非结构化电子文件的结构化处理系统的结构框图;

图6为图5中结构化处理模块的结构框图;

图7为图6中数据噪声滤除子模块的结构框图。

具体实施方式

为了使本发明的发明目的、技术方案及其技术效果更加清晰,以下结合附图和具体实施方式,对本发明进一步详细说明。应当理解的是,本说明书中描述的具体实施方式仅仅是为了解释本发明,并非为了限定本发明。

如图1所示,针对现有技术中核电技术资料数量庞大且大部分为非结构化或半结构化的文件,结构化梳理方式落后且处理效率低下,以及人工成本高的技术缺陷,本发明提出了一种海量非结构化电子文件的结构化处理方法,该方法包括以下步骤:

S100、根据核电技术文件的编码规范及匹配规则制定元数据形式化约束条 件。该元数据形式化约束条件用于判断某个元数据m实例是否符合该元数据集合中对应元素m的限制条件,判断条件以元数据枚举库或形式化正则表达约束函数作为依据。

S200、根据元数据形式化约束条件对海量非结构化核电技术文件进行结构化处理,得到满足核电企业内容管理系统600结构要求的海量结构化数据。在步骤S200中,优选地,对海量非结构化核电技术文件进行分布式处理,以此提高核电技术文件的处理效率,缩短海量核电技术文件结构化处理的耗时。

S300、将该海量结构化数据导入核电企业内容管理系统600。

在本发明海量非结构化核电技术文件的结构化处理方法中,应用分布式数据处理方式对海量非结构化核电技术文件进行分布式处理,提高了海量非结构化核电技术文件结构化梳理的处理效率,缩短了海量数据结构化处理的耗时。本发明可根据核电技术文件特点进行自由组合及配置,可适应多种核电技术路线。

进一步地,如图2所示,本发明步骤S200具体包括:

步骤S201、根据元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息,将抽取的结构化信息存储于元数据结构化信息数据库400。

其中,海量非结构化核电技术文件的结构化信息的抽取过程如下:

采用分布式处理方式对海量非结构化核电技术文件中的元数据进行扫描,获得海量非结构化核电技术文件的文件属性(例如,文件名称、文件类型、空间大小、创建日期、Hash码等)及目录属性(如技术转让任务包、传递文件的函件编码、传递文件的日期甚至文件的编码日期);以及

对海量非结构化核电技术文件进行分布式内容分析,利用Map&Reduce抽取海量非结构化核电技术文件中的关键字,将抽取的关键字作为包含于海量非结构化核电技术文件的结构化信息中的内容属性。

S202、根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在 数据噪声的核电技术文件。在本发明中,由于一些电子文件的结构化数据表述模糊且形式不规范,致使该类电子文件中存在数据噪声。通过海量非结构化核电技术文件的结构化处理,滤除海量非结构化核电技术文件中存在数据噪声的核电技术文件,并建立关联结构化信息及核电技术文件的映射关系,为后面的核电技术文件的查找、索引提供了极大方便,保证了海量数据的有序、可用。

进一步地,如图3所示,本发明提出了包含于步骤S202中的一种数据噪声过滤方案,该数据噪声过滤方案具体包括如下步骤:

步骤S2021、抓取非结构化核电技术文件自带的结构化信息。

步骤S2022、通过元数据形式化约束条件对该非结构化核电技术文件自带的结构化信息进行校验,以判断该结构化信息是否满足制定的元数据形式化约束条件。

步骤S2023、如该结构化信息符合该元数据形式化约束条件,则执行下一步骤S2024;否则,执行步骤S2026。

步骤S2024、将该结构化信息与元数据结构化信息数据库400中的结构化信息进行匹配分析。

该匹配分析过程具体如下:

应用匹配分值计算公式计算该非结构化核电技术文件的结构化信息在基于不同维度及权重的结构化元数据结构框架下的匹配分数,并将该匹配分数与设定的匹配分数阈值进行比较;

该匹配分值计算公式如下所示:

其中:

MatchMeta(Δ)表示非结构化核电技术文件的结构化信息在结构化元数据结构框架下的匹配分数;

δi表示将核电技术文件的结构化数据按元数据规则划分成的n个元数据/元 数据组中第i个元数据/元数据组;

λi表示第i个元数据/元数据组的权值;

Fii,mi)为用于计算划分的每个元数据/元数据组的匹配分值的匹配函数。

步骤S2025、判断匹配是否成功。如该非结构化核电技术文件的结构化信息的匹配分数超过该设定的匹配分数阈值,则判定匹配成功,执行步骤S2027;否则,判定匹配失败,执行步骤S2026。

步骤S2026、报错并通过日志记录报错信息。该报错信息包括校验错误信息及匹配错误信息。通过日志记录报错信息,本发明可完整记录海量非结构化核电技术文件的结构化转变过程,利于追踪及回滚,保证了数据的完整性及一致性。

步骤S2027、记录匹配成功的结构化信息,并建立该匹配成功的结构化信息及其对应的经结构化处理的核电技术文件的映射关系。

待步骤S2027及步骤S2026执行完毕后,返回步骤S2021。

进一步地,本发明还提出了一种包含在步骤S300中的基于结构化信息的海量结构化数据的索引及导入方法。

请结合图4,该海量数据索引及导入方法具体包括:

步骤S301、根据匹配成功的结构化信息索引与之存在映射关系的,经结构化处理且满足核电企业内容管理系统600结构化要求的核电技术文件;

步骤S302、将该结构化核电技术文件导入核电企业内容管理系统600。

进一步地,本发明在步骤S300之后还可以包括:

步骤S400、在完成海量结构化数据的导入之后,根据元数据中的文件属性创建资料文件授权组,该资料文件授权组由文件的类别、任务包、文件所属领域及文件密级数据拼接而成。

可选地,本发明还可以包括:

步骤S500、接收经人工干预更正的核电技术文件,根据元数据形式化约束 条件对该部分更正的核电技术文件进行再一次的结构化处理(由于更正的核电技术文件的结构化处理方案与本申请上述步骤S200基本相同,故在此不再赘述)。

本发明对已知结构化元数据结构框架下的多个维度(即元数据或元数据组)及不同维度的权值进行全面考量,合理设定结构化匹配条件,应用科学严谨的匹配分值计算公式计算海量非结构化核电技术文件的结构化信息与已知的结构化元数据结构框架下的匹配程度,达到了高效精确地过滤海量非结构性核电技术文件中存在数据噪声而无法满足核电企业内容管理系统600结构化要求的核电技术文件,得到有序、可用的海量结构化数据。因此,本发明不仅大大降低了人工成本及生产成本,还能显著提高海量数据的结构化转换效率及其准确率,提高了时间效率。

基于图1至图4所述的海量非结构化电子文件的结构化处理方法,本发明还提出了一种海量非结构化电子文件的结构化处理系统。

请结合图5,该海量非结构化电子文件的结构化处理系统包括:

元数据形式化约束配置模块100,用于根据核电技术资料的编码规范及匹配规则制定元数据形式化约束条件;

结构化处理模块200,用于根据元数据形式化约束条件对海量非结构化电子文件进行分布式的结构化处理,得到满足核电企业内容管理系统600结构要求的海量结构化数据;

内容管理系统集成模块300,用于将该海量结构化数据导入核电企业内容管理系统600。

请结合图6,进一步地,该结构化处理模块200还包括:

非结构化电子文件结构化数据抽取子模块201,用于根据制定的元数据形式化约束条件抽取海量非结构化核电技术文件的结构化信息;该结构化信息包括非结构化核电技术文件的文件属性、目录属性及内容属性。

数据噪声滤除子模块202,用于根据设定的元数据匹配规则过滤海量非结构化核电技术文件中存在数据噪声的核电技术文件。

进一步地,该系统还包括:

元数据结构化信息数据库400,用于存储该非结构化电子文件结构化数据抽取子模块201抽取的结构化信息。

请结合图7,进一步地,该数据噪声滤除子模块202可以包括:

结构化信息校验单元2021,用于抓取非结构化核电技术文件自带的结构化信息,通过元数据形式化约束条件对该结构化信息进行校验,以判断该结构化信息是否符合元数据形式化约束条件;

匹配分析单元2022,用于该非结构化核电技术文件的结构化信息通过校验时,应用匹配分值计算公式计算该非结构化核电技术文件的结构化信息在基于不同维度及权重的结构化元数据结构框架下的匹配分数,将该匹配分数与设定的匹配分数阈值进行比较,根据比较结果判断该非结构化核电技术文件的元数据是否匹配成功,据此判断该非结构化核电技术文件是否为存在数据噪声的核电技术文件;其中:

该匹配分值计算公式如下所示:

其中:

MatchMeta(Δ)表示非结构化核电技术文件的结构化信息在结构化元数据结构框架下的匹配分数;

δi表示将核电技术文件的结构化数据按元数据规则划分成的n个元数据/元数据组中第i个元数据/元数据组;

λi表示第i个元数据/元数据组的权值;

Fii,mi)为用于计算划分的每个元数据/元数据组的匹配分值的匹配函数。

具体地,该内容管理系统集成模块300用于根据匹配成功的结构化信息索 引与该结构化信息存在映射关系的结构化核电技术文件,并将该结构化核电技术文件导入核电企业内容管理系统600。

进一步地,该系统还可以包括一个日志记录及报错模块500,该日志记录及报错模块500用于当该结构化信息不符合制定的元数据形式化约束条件,或者该结构化信息匹配失败时,报错并通过日志记录报错信息,该报错信息包括校验错误信息及匹配错误信息。

可选地,该结构化处理模块200还用于接收由外部输入的,经人工干预更正的核电技术文件,根据制定的元数据形式化约束条件对该部分更正的核电技术文件进行再一次的结构化处理。

综上所述,本发明提供了一种智能化程度高,科学严谨,简单实用,且运行可靠稳定的海量非结构化电子文件的结构化处理方法及系统,应用本发明海量非结构化电子文件的结构化处理方法及系统,可显著提高海量半结构化或非结构化电子文件(比如结构化程度低的海量核电技术文件)的结构化转换效率及准确率,降低人工成本。另外,本发明还可通过日志对元数据形式化约束条件校验或匹配过程中的报错作完整记录,利于后期追踪及回滚,本发明系统还支持对因存在数据噪声而被滤除,但经人工干预更正的那部分核电技术文件进行再一次的结构化处理,以提高非结构化数据结构化转换的成功率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。

上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保 护的范围情况下,还可作出很多形式,这些均属于本发明的保护之内。此外,尽管本说明书中使用了一些特定的术语,但这些术语只是为了方便说明,并不对本发明构成任何限制。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1