一种贵金属材料数据文件自动化提取系统及方法与流程

文档序号:28860311发布日期:2022-02-12 00:16阅读:129来源:国知局
一种贵金属材料数据文件自动化提取系统及方法与流程

1.本发明属于贵金属数据材料整理技术领域,具体涉及一种贵金属材料数据文件自动化提取系统及方法。


背景技术:

2.在以往的贵金属行业实验生产中,产生的数据往往被记录在电子文档(例如word,excel,txt,pdf)。每个实验室、课题组都有自己的一套数据记录方式与生成数据格式,本实验室或课题组在需要时可以随时查阅。但是随着当代计算机技术的不断进步,越来越多行业选择将电子文档中的数据进行信息化提取,再进行存储分析等操作。
3.由于贵金属行业设计材料极多,材料性能指标量大,直接导致了数据格式繁杂,不同部门之间数据格式互相独立。在规模较大的贵金属企业中,往往同时存在多个实验室、多个课题组、多种材料数据格式,进行数据文件提取时,如何将几十甚至数百种的数据同时录入到单一结构数据库种,成了巨大的难题。
4.虽然现有也有部分系统用于贵金属材料数据文件的自动化提取技术的应用,但往往注重单一格式文件的自动化提取,缺少通用性,可能由某一实验室开发的自动化提取技术在提取该实验室数据上表现很好,但是在提取另一实验室数据时,提取错误较多。
5.同时在现有通用性较好的贵金属材料数据文件自动化提取技术中,往往又需要全程的人工录入干涉,不属于自动化提取,提取人员必须具备一定的贵金属材料领域专业知识。这样就耽误了贵金属领域人才大量的时间,而且由于人工干预的原因,提取效率低、错误率较机器提取明显更高。对于未来可能增加的数据种类则无能为力,必须重新设计自动化提取流程,这样就浪费了大量时间用户自动化提取技术的研发,也让产生贵金属材料数据文件的科研人员感到束手束脚,限制了数据格式设计的自由性。


技术实现要素:

6.针对现有技术的不足,本发明的目的在于提供一种贵金属材料数据文件自动化提取系统及方法,解决了现有技术中存在的上述技术问题。
7.本发明的目的可以通过以下技术方案实现:
8.一种贵金属材料数据文件自动化提取系统,包括解析插件模块、解析模板模块、文件格式化模块,
9.所述解析插件模块:寻找可以解析从贵金属行业实验生产中产生的电子文档数据文件的解析插件,通过解析插件对数据文件进行解析;
10.所述解析模板模块:寻找可以将解析出的数据映射到贵金属材料数据库中的解析模板,并通过解析模板对该贵金属材料数据文件进行解析;
11.所述文件格式化模块:对解析后的贵金属材料数据文件格式进行判断,对符合标准的数据文件格式进行贵金属材料结构化数据提取,获得贵金属材料结构化数据。
12.进一步的,所述解析插件中每一种插件负责一类贵金属材料数据文件的解析,解
析插件会针对贵金属材料数据做处理逻辑。
13.进一步的,所述解析插件的处理逻辑方式为:读取特定贵金属材料数据格式、对贵金属性能数据做出重组和简单计算统计操作。
14.进一步的,所述解析插件模块中对于不存在可以解析的数据文件的解析插件,则通过人工导入适配该文件数据的解析插件。
15.进一步的,所述解析模板中每一种模板负责解析结果与贵金属材料数据库的数据一一产生映射关系,当解析结果存在多种映射时,创建多个贵金属材料数据文件解析模板。
16.进一步的,所述文件格式化模块中对于不同数据文件采用不同的提取方式提取,并获得数据文本中的数据信息。
17.进一步的,所述文件格式化模块中,当数据文件无法匹配到对应模板,则直接反馈扫描位置与扫描项目,并通过人工判断,对反馈的贵金属材料数据文件进行修改、或对贵金属材料数据文件解析插件进行修改。
18.所述的贵金属材料数据文件自动化提取系统的方法,包括以下步骤:
19.s1、收集贵金属行业实验生产中产生的电子文档数据;
20.s2、对收集到的贵金属材料数据文件进行解析插件读取,寻找是否存在可以解析该类贵金属材料数据文件的解析插件,如果不存在该解析插件,则人工导入针对该类贵金属材料数据文件的新解析插件,如果存在则通过解析插件解析出半结构化数据;
21.s3、寻找是否存在可以将解析出的半结构化数据映射到贵金属材料数据库的贵金属材料数据文件解析模板,通过存在的解析模块为解析插件解析出的数据完成数据到数据库的一对一映射;
22.s4、对解析后的贵金属材料数据文件进行数据文件格式扫描,获得贵金属材料结构化数据,并存储在贵金属材料数据库中。
23.进一步的,所述s3中,当解析出的半结构化数据无法匹配对应的解析模板,则需要重新选择贵金属材料数据文件、或者重新设置贵金属材料的解析插件。
24.本发明的有益效果:
25.1、本发明提供的系统通过一套完整严谨的贵金属材料数据文件自动化提取处理逻辑,在确保仅有较少人工工作的情况下,可以高自动化、高效率处理贵金属材料领域所有数据的信息化、数字化。在对已知格式文档进行全自动提取归档的同时,更可以对解析能力进行扩展,不断自我完善。
26.2、本发明提供的方法提高了贵金属材料数据数字化效率和精准度,降低了录入人员工作难度和投入成本,可以包含贵金属材料单位工作过程中生产的绝大多数贵金属材料数据文件,并且具有良好的扩展性和纠错能力。
附图说明
27.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
28.图1是本发明实施例的整体系统框图;
29.图2是本发明实施例的流程方法示意图。
具体实施方式
30.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
31.如图1所示,本发明实施例提供一种贵金属材料数据文件自动化提取系统,包括解析插件模块、解析模板模块、文件格式化模块,
32.解析插件模块:寻找可以解析从贵金属行业实验生产中产生的电子文档数据文件的解析插件,通过解析插件对数据文件进行解析;解析插件中每一种插件负责一类贵金属材料数据文件的解析,对于不存在可以解析的数据文件的解析插件,则通过人工导入适配该文件数据的解析插件(人工倒入插件开发过程非常自由,读取文件,对文件内容进行读取,获取标志性的位置,对需要的数据进行截断、获取、处理,开发流程短,开发灵活),导入的解析插件可以保存在磁盘中,需要的时候导入到提取系统。
33.解析模板模块:寻找可以将解析出的数据映射到贵金属材料数据库中的解析模板,并通过解析模板对该贵金属材料数据文件进行解析;解析插件会针对贵金属材料数据做处理逻辑,其中处理逻辑方式为:读取特定贵金属材料数据格式、对贵金属性能数据做出重组和简单计算统计操作。
34.同时每一种模板负责解析结果与贵金属材料数据库的数据一一产生映射关系,为解析数据赋予完整结构化属性。当解析结果存在多种映射时,创建多个贵金属材料数据文件解析模板。
35.文件格式化模块:对解析后的贵金属材料数据文件格式进行判断,文件格式化模块中对于不同数据文件采用不同的提取方式提取,并获得数据文本中的数据信息,当数据文件无法匹配到对应模板,则直接反馈扫描位置与扫描项目,并通过人工判断,对反馈的贵金属材料数据文件进行修改、或对贵金属材料数据文件解析插件进行修改。对符合标准的数据文件格式进行贵金属材料结构化数据提取,获得贵金属材料结构化数据。
36.如图2所示,本发明提供的贵金属材料数据文件自动化提取系统的方法,包括以下步骤:
37.s1、收集贵金属行业实验生产中产生的电子文档数据(例如word,excel,txt,pdf等)。
38.s2、对收集到的贵金属材料数据文件进行解析插件读取,寻找是否存在可以解析该类贵金属材料数据文件的解析插件(每一种插件应当被进行合理的备注说明,可以方便操作人员判断该插件符合的使用情景),如果不存在该解析插件,则人工导入针对该类贵金属材料数据文件的新解析插件(自行开发,插件开发过程非常自由,读取文件,对文件内容进行读取,获取标志性的位置,对需要的数据进行截断、获取、处理,开发流程短,开发灵活);自行开发的新解析插件可以保存在磁盘中,需要的时候导入到提取系统。
39.如果存在所适配的解析插件,则继续执行s3,在该解析插件中每一种插件负责一类贵金属材料数据文件的解析,插件会针对贵金属材料数据做特殊处理逻辑(例如读取特定贵金属材料数据格式、对贵金属性能数据做出重组和简单计算统计操作),确保提取出来的数据准确、符合贵金属材料数据标准,获得解析插件解析出的数据为半结构化数据。
40.s3、寻找是否存在可以将解析出的半结构化数据映射到贵金属材料数据库的贵金属材料数据文件解析模板,通过存在的解析模块为解析插件解析出的数据完成数据到数据库的一对一映射,当解析结果存在多种映射时,可以创建多种贵金属材料数据文件解析模板,同时当当解析出的半结构化数据无法匹配对应的解析模板,则需要重新选择贵金属材料数据文件、或者重新设置贵金属材料的解析插件。
41.s4、对解析后的贵金属材料数据文件进行数据文件格式扫描,该技术使用多种方法确保输入的贵金属材料数据文件符合自动化提取的技术规格(即对excel文件,使用预扫描技术,逐行、逐单元格扫描excel文件布局和特征单元格、对word文件,使用预扫描技术,逐行扫描word文件布局与特征字段,如果贵金属材料数据word文件的特征字段使用了独特的字体/字形/颜色,预扫描技术也可以快速确定特征字段位置、对pdf文件,使用预解析技术,对pdf文件内的图片对象、文本对象、表格对象等进行解析,如果解析结果不满足模板要求,则尝试使用abbyy公司的ocr技术扫描重新生成pdf后再次解析),从而获得贵金属材料结构化数据,并存储在贵金属材料数据库中,该贵金属材料结构化数据也可直接被数据库应用。
42.同时,当数据文件格式扫描时无法寻找到相互适配的技术规格,将贵金属材料数据文件与模板不对应的地方做出反馈;即贵金属材料数据文件格式扫描时,扫描的同时会记录扫描位置与当前扫描的项目,如果过程中出现了不满足,会直接反馈扫描位置与扫描项目;工作人员可以进行判断,根据本技术的反馈对贵金属材料数据文件进行修改、或根据本技术的反馈对贵金属材料数据文件解析插件进行修改。
43.可以从最终得到的贵金属材料数据库中获取贵金属材料数据库的关键结构化信息(数据库、数据表、字段的名称、数据类型、主键等),从而确定贵金属材料数据文件解析模块,该贵金属材料数据文件解析模块与s3过程中需要重新确定的解析模块,按照一对一的规则设立映射规则,生成模板文件,并将该模板导入系统,进行使用。
44.本发明通过一套完整严谨的贵金属材料数据文件自动化提取处理逻辑,在确保仅有较少人工工作的情况下(解析插件的简单配置开发),可以高自动化、高效率处理贵金属材料领域所有数据的信息化、数字化。不仅可以对已知格式文档进行全自动提取归档,更可以对解析能力进行扩展,不断自我完善。
45.提供的方法提高了贵金属材料数据数字化效率和准确度,降低了录入人员工作难度和投入成本,可以包含贵金属材料单位工作过程中生产的绝大多数贵金属材料数据文件,并且具有良好的扩展性和纠错能力。
46.在本说明书的描述中,参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
47.以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1