建设行业工程项目Excel文件数据格式化存储方法及系统与流程

文档序号:11286244阅读:526来源:国知局
建设行业工程项目Excel文件数据格式化存储方法及系统与流程

本发明属于建设行业工程项目文件处理领域,具体涉及一种建设行业工程项目excel文件数据格式化存储方法及系统



背景技术:

excel文件作为数据格式化存储已经在许多行业得到使用,但是建设行业还没有一个通用、标准的数据格式化存储方案,因此建设行业的各企业主要按照各自的意愿设置存储格式进行存储。这些存储格式不统一的excel文件数据上传到大数据分析平台后,系统难以自动进行识别及分析,因此对分析工作带来了很大困难。现有的解决方案主要仍是通过人工进行识别及分析,效率很低且成本过高。

故而,现有技术需要进一步发展及改进。



技术实现要素:

本发明的目的在于解决建设行业中缺少excel文件数据的通用格式化存储方案的问题,由此公开一种建设行业工程项目excel文件数据格式化存储方法。同时,本发明还相应公开一种建设行业工程项目excel文件数据格式化存储系统。

为了实现以上目的,本发明公开的一种建设行业工程项目excel文件数据格式化存储方法,包括以下步骤:

a、基于分布式和高并发的计算机技术,在各客户端上采集建设行业工程项目excel文件,并提取excel文件中的字段属性信息;

b、根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段;

c、将有效的关键特征字段加入kafka消息队列,并利用反垃圾大数据算法对导入的excel文件进行自动识别,识别出垃圾文件数据和标准格式数据;

d、将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。

本发明的进一步方案中,步骤a中字段属性信息包括行名称和列名称。

本发明的进一步方案中,步骤b中具体包括:将包含有关键特征字段的文本信息进行分词处理,并与关键词库进行匹配,得到有效的关键特征字段。

本发明的进一步方案中,步骤c中的反垃圾大数据算法具体为simhash算法,通过simhash算法对关键特征字段相似对度进行计算及统计,识别出垃圾文件数据和标准格式数据。

本发明的进一步方案中,步骤d包括对标准格式数据按照工程项目数据层级进行统一编码,以便于数据横向及纵向对比分析。

本发明的进一步方案中,工程项目数据层级包括:建设项目、单项工程、单位工程、分部分项、清单、定额、消耗量、工料机数据。

本发明相应公开的一种建设行业工程项目excel文件数据格式化存储系统,包括字段属性信息提取模块、关键特征字段提取模块、标准格式数据识别模块、数据规约存储模块;其中,

字段属性信息提取模块用于在各客户端上采集建设行业工程项目excel文件,并提取excel文件中的字段属性信息;关键特征字段提取模块用于根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段;标准格式数据识别模块用于将有效的关键特征字段加入kafka消息队列,并利用反垃圾大数据算法对导入的excel文件进行自动识别,识别出垃圾文件数据和标准格式数据;数据规约存储模块用于将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。

有益效果:本发明通过提取excel文件数据的字段属性信息以及关键特征字段,结合kafka消息队列及反垃圾大数据算法识别出标准格式数据,以及对标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储,从而实现了一种高效的建设行业工程项目excel文件数据格式化存储方案,为建设行业excel文件数据的通用格式化存储提供了参考案例。此外,本发明还具有识别效率更高、更准确等有益效果。

附图说明

图1是实施例一公开的建设行业工程项目excel文件数据格式化存储方法整体流程示意图。

图2是实施例二公开的建设行业工程项目excel文件数据格式化存储系统结构框图。

具体实施方式

为了便于本领域技术人员理解,下面将结合附图以及实施例对本发明进行进一步描述。

实施例一

请参阅图1,实施例一公开的一种建设行业工程项目excel文件数据格式化存储方法,主要包括以下步骤s100至s400:

s100、基于分布式和高并发的计算机技术,在各客户端上采集建设行业工程项目excel文件,并提取excel文件中的字段属性信息。

步骤s100中的字段属性信息包括行名称和列名称。譬如某工程项目excel文件中的字段属性信息有以下行名称或列名称:序号、定额编号、项目名称、单位、数量、仪表名称、单位定额值、合计值等。

s200、根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段。

譬如在以上工程项目excel文件中字段属性信息的行名称“项目名称”进行坐标定位并提取到以下关键特征字段:保护倒换测试、敷设管道光缆、光缆割接、光纤连接、光缆中继段双窗口测试等。

步骤s200中具体包括:将包含有关键特征字段的文本信息进行分词处理,并与关键词库进行匹配,得到有效的关键特征字段。

s300、将有效的关键特征字段加入kafka消息队列,并利用反垃圾大数据算法对导入的excel文件进行自动识别,识别出垃圾文件数据和标准格式数据。

步骤s300中的反垃圾大数据算法具体为simhash算法,通过simhash算法对关键特征字段相似对度进行计算及统计,识别出垃圾文件数据和标准格式数据。

s400、将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。

步骤s400包括对标准格式数据按照工程项目数据层级进行统一编码,以便于数据横向及纵向对比分析。

本实施例的工程项目数据层级包括:建设项目、单项工程、单位工程、分部分项、清单、定额、消耗量、工料机数据。

本实施例通过提取excel文件数据的字段属性信息以及关键特征字段,结合kafka消息队列及反垃圾大数据算法识别出标准格式数据,以及对标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储,从而实现了一种高效的建设行业工程项目excel文件数据格式化存储方案,为建设行业excel文件数据的通用格式化存储提供了参考案例。

实施例二

请参阅图2,实施例二相应公开的一种建设行业工程项目excel文件数据格式化存储系统,包括字段属性信息提取模块10、关键特征字段提取模块20、标准格式数据识别模块30、数据规约存储模块40。

其中,字段属性信息提取模块10用于在各客户端上采集建设行业工程项目excel文件,并提取excel文件中的字段属性信息;关键特征字段提取模块20用于根据提取的字段属性信息进行坐标定位并提取有效的关键特征字段;标准格式数据识别模块30用于将有效的关键特征字段加入kafka消息队列,并利用反垃圾大数据算法对导入的excel文件进行自动识别,识别出垃圾文件数据和标准格式数据;数据规约存储模块40用于将标准格式数据进行规约,并按照工程项目标准结构自动统计、汇总及存储。

实施例二与实施例一相对,其工作原理及有益效果与实施例一相同,这里不再赘述。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1