一种结构化建设行业材料文件及材料数据识别管理方法_2

文档序号:8396279阅读:来源:国知局
一字样的位置。
[0040]所述对材料名称位置的标记,以Excel文件为例,具体可以标记出该(匹配出的)材料名称在Excel文件中的行数和列数。
[0041]S400、从所述国标材料数据库中调取与所述有效数据文件的材料名称相应的材料属性单位,根据所述材料属性单位,读取所述有效数据文件中材料名称的位置之后的材料数据,得出所述有效数据文件的材料属性值。
[0042]在建设行业领域,材料属性包括“规格”、“单位”和“单价”等,所述国标材料数据库中的材料属性单位包括“t”和“元”等。假设所述国标材料数据库中材料名称“圆钢”对应的材料属性单位为“t”,在步骤S400中,读取所述有效数据文件中材料名称的位置之后的材料数据得到“10t”的字样(先匹配到“t”),则将(“t”所在的整个Excel单元格的材料数据)“10t”作为所述有效数据文件的材料属性值。
[0043]步骤S400中,从所标记的材料名称的位置去识别材料属性值可以大大提高材料数据的识别效率。
[0044]S500、基于所述有效数据文件的材料名称和材料属性值,形成关联属性数据并保存。
[0045]步骤S500中,所述有效数据文件中的材料数据均被有效甄别,基于甄别出来的材料名称和材料属性值形成关联属性数据(例如将上述“圆钢”与“ lot”进行关联),该关联属性数据可供后续查询及使用,有助于提高查询及使用的效率及精确性。
[0046]本实施例提出的结构化建设行业材料文件及材料数据识别管理方法,其对结构化建设行业材料文件进行文件类型检测及转换,确定出有效类型文件,使得到的文件可以按统一方式处理;对所述效类型文件进行检测,确定出有效数据文件,以提高后续识别及管理的效率;运用预设的国标材料数据库从所述有效数据文件中识别出所述有效数据文件的材料名称和材料属性值,实现了材料数据的准确识别;所述材料名称和材料属性值形成关联属性数据,便于后续查询及使用,有助于提高查询及使用的效率及精确性。本实施例可以自动完成材料文件及材料数据的识别及管理,而不需要过多依赖人工操作,能够大大提高工作效率,并且显著地降低了运营成本。
[0047]为了更好地实现本实施例的目的,本实施例还对各步骤做了进一步优化。
[0048]具体的,步骤S300中读取所述有效数据文件内容中的材料数据之前还包括以下步骤S210:
[0049]S210、检测所述有效类型文件中表头的位置,并对所述表头的内容进行词义分析,确认出表头对应的数据列所代表的信息。
[0050]在步骤S210的基础上,所述步骤S300中读取所述有效数据文件内容中的材料数据包括以下步骤S310:
[0051]S310、根据所述数据列所代表的信息,相应从所述数据列中读取所需的材料数据。
[0052]步骤S210中,检测表头的位置具体可以通过检测所述表头所处的列数及行数来确定;而对所述表头内容的词义分析可以较大提高材料数据识别的效率。例如,从步骤S210中分析得出表头的内容为“名称”,则该表头对应的列(的单元格)中的材料数据很可能便是该有效数据文件的材料名称;如果需要读取该有效数据文件的材料名称,在步骤S310中便可只对该表头中对应的数据列中进行读取即可,而不需要读取所有的数据列。
[0053]本实施例中,在步骤S310中从所述数据列中读取所需的材料数据之后,还包括以下步骤S320:
[0054]S320、通过字符识别将所述数据列中的无效数据进行清洗。
[0055]在步骤S320的基础上,步骤S300中将所述材料数据与预设的国标材料数据库中的材料名称进行匹配的步骤具体为以下步骤S330:
[0056]S330、将所述材料数据中的有效数据与预设的国标材料数据库中的材料名称进行匹配。
[0057]本实施例中的无效数据包括空行或无效字符等不具备识别价值的数据,同时还包括其格式不便于直接识别或使用的字符,例如全角或半角等,因此本实施例对这些无效数据进行了清洗,只保留(或使其形成)有效数据,这样能够有效减少数据量,降低数据的复杂度,提高数据的识别效率及数据的规范性,并节约存储空间资源。
[0058]具体的,所述步骤S320中通过字符识别将所述数据列中的无效数据进行清洗的步骤具体包括:通过字符识别,对所述数据列中的空行或无效字符做相应的清除处理,并相应进行全角/半角转换。
[0059]本实施例中,所述步骤S210中检测所述有效类型文件中表头的位置之后,还可包括以下步骤S220:
[0060]S220、检测是否存在合并单元格;若是,则判断所述合并单元格是否为规格列;若是,则对其进行规范拆分。
[0061]由于用户上传的建设行业材料文件往往并非规范的文件,其中可能会出现合并单元格等影响本实施例的材料数据识别效率的情况,因此本实施步骤S220中还检测是否存在合并单元格,若存在合并单元格,则判断其是否为规格列,若是则可进行拆分;若否,则通常情况下应该是无法拆分的单元格,为了提高效率,可以不做拆分处理。
[0062]基于以上步骤S100、S200、S210、S220、S300、S310、S320、S330、S400 以及 S500 形成的详细流程示意图请参阅图2。
[0063]此外,本实施例中所述步骤S210中对所述表头的内容进行词义分析之后,还可进一步包括以下步骤S215:
[0064]S215、基于所述词义分析,确定是否存在多个价格表头;若是,则根据预设的优先顺序选取对应的数据列中的优选价格数据;
[0065]在步骤S215的基础上,所述步骤S400中得出所述有效数据文件的材料属性值具体为:将所述优选价格数据作为所述有效数据文件在价格方面的材料属性值。
[0066]即当所述材料属性值具体指价格时,则根据预设的优先顺序选取对应的数据列中的优选价格,以提高材料数据识别的准确度。
[0067]以下用三个具体实例来展示本发明实施例的具体应用过程(仅介绍主要流程)。
[0068]实例1,以用户上传了内含“圆钢”这一材料数据的Excel文件为例,包括以下步骤:
[0069]L1、检测用户想要上传的文件是否是Excel、Word、PDF之类的结构化文件,若是,则允许上传。由于用户上传的是Excel文件,因此允许上传。
[0070]L2、检测用户上传的文件是否为预设文件类型,即Excel文件类型;若是,则确定其为有效类型文件;若否,则将其转换为预设文件类型。由于用户上传的是Excel文件,因此可以确定其为有效类型文件,不需要进行转换。
[0071]L3、执行文件读取操作,并将读取到的材料数据与预设的国标材料数据库中的材料名称进行匹配,发现有“圆钢”字样,对该字样的位置进行标记。
[0072]L4、依据标记的文字位置,调取国标材料数据库中“圆钢”的属性单位,与从该标记字样“圆钢”起的后续文字进行匹配,获取该“圆钢”的属性值。假设获取到的规格“Q235”、单位“t”、和价格“3469”。
[0073]L5、将步骤L3获取到的“圆钢”与步骤L4获取到的规格“Q235”、单位“t”、和价格“ 3469 ”形成关联属性数据并保存。
[0074]L6、材料文件及材料数据已被有效甄别,进程结束。
[0075]实例2,以用户上传了内含“沥青复合胎柔性防水卷材-双面膜”这一材料数据的Excel文件为例,包括以下步骤:
[0076]X1、检测用户想要上传的文件是否是Excel、Word、PDF之类的结构化文件,若是,则允许上传。由于用户上传的是Excel文件,因此允许上传。
[00
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1