一种文档数据结构化处理方法与流程

文档序号:21369666发布日期:2020-07-04 06:18阅读:1353来源:国知局
一种文档数据结构化处理方法与流程

本发明涉及数据处理领域,特别是指一种文档数据结构化处理方法。



背景技术:

目前国内外有较多的文本挖掘工具,用于分析文本数据、处理非结构化数据,将文本文字提炼为固定的标签、分类维度或者结构化字段。有些成熟的文本挖掘工具可以通过http接口,帮助应用方有效分析大量的文本数据,提高应用方的处理效率,主要的文本挖掘功能包括以下四种:第一是针对文本文件自动进行标签提取,从文本数据中通过自然语言分析,提取较为重要的关键词标签;第二是对文本进行分类,通过算法自动判别文章的所属类别,并给出相应的置信度,比如判断一篇文章是属于娱乐八卦、时事政治还是数码科技等;第三是对文件进行自动审核,判别文章内容是否政治违规或者是否情色违规,同时给出违规的严重程度;第四是自动判断文本是否属于垃圾文本,对于垃圾数据自动过滤,但整个处理的流程和过程都过于繁琐,需要人工进行整理和甄别,影响整个办公的效率。



技术实现要素:

有鉴于此,本发明的目的在于提出一种文档数据结构化处理方法。

基于上述目的本发明提供的一种文档数据结构化处理方法,其特征在于,包括步骤如下:

a、建立主数据清单,物料主数据清单中包含物料编码、物料短描述、物料长描述、物料大类编码、物料大类描述、物料中类编码、物料中类描述、物料小类编码、物料小类描述,物料主数据存储在物料主数据平台上;

b、根据物料主数据,每一个物料都有类别归属,物料小类是最后一层类别划分,提报采购需求、寻找供应商、制定采购计划的时候都是以物料小类为基本单位开展;

c、针对统一实施采购的物料小类,通过集中招标的方式完成的,将采购物资分包,公开招标、评标,最终确定各标包的供应商;

d、针对重要的、采购金额较大的物料小类建立统一模板,允许投标参与者按照模板填报企业资质和销售供应业绩信息,随后由物资部质量监督处审核后,出具一纸证明说明投标参与者的资质业绩;

f、物资采购、合同签订、供应计划、废旧物资处置、供应商管理等业务均在ecp系统上进行管理和数据记录,其中所述一纸证明即以.doc格式保存ecp系统;

g、进行评审。

优选的,所述步骤b中根据物料小类所涉及的“一纸证明”设计二维数据表结构,确定二维表名称、在文件中的位置、每张表中包含哪些字段,定义各字段的数据格式;

优选的,所述步骤d中物资小类梳理所有具有“一纸证明”的供应商清单,且供应商全称与其他二维表中的供应商名称一一对应,完全对应,且供应商名称可以作为主键实现各二维表之间的匹配。

优选的,所述一纸证明”设计二维数据表的文本数据提取到既定的二维表中,并填写到相应的位置,

优选的,所述二维表中各个字段的数据格式和单位进行定义。

优选的,所述步骤g具体为:

g1、初评,根据招标文件逐项审查投标文件中的技术偏差。

g2、详评,对投标书的技术部分、商务部分、投标人的企业资质和供应能力进行综合比较。

优选的,所述二维数据表定义基础商务信息表,其中包含供应商名称企业全称、企业简称、成立时间、注册资金、注册所在地、厂房所在地、法定代表人、企业类别、单位类型、企业性质等字段

优选的,所述二维数据表中各个字段的数据格式和单位,以程序一次性读取为基本原则,避免二次处理。

从上面所述可以看出,本发明提供的一种文档数据结构化处理方法,针对ecp系统中存储的一纸证明文本文件进行结构化处理,提取大量文本文件中的关键信息,以投标企业为对象,构建基本信息、财务状况、既有业绩、人员构成、设计软件、设计图纸、专利、认证证书、型式试验、制造装备、试验设备、制造工艺、生产环境、产品产能等二维数据表,将“一纸证明”信息结构化,将重要信息变为结构化数据,大大提高办公行政效率。

附图说明

图1为本发明实施例的步骤流程图;

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。

需要说明的是,本发明实施例中所有使用“第一”和“第二”的表述均是为了区分两个相同名称非相同的实体或者非相同的参量,可见“第一”“第二”仅为了表述的方便,不应理解为对本发明实施例的限定,后续实施例对此不再一一说明。

如图1所述本发明的一种文档数据结构化处理方法,包括步骤如下:a、建立主数据清单,物料主数据清单中包含物料编码、物料短描述、物料长描述、物料大类编码、物料大类描述、物料中类编码、物料中类描述、物料小类编码、物料小类描述,物料主数据存储在物料主数据平台上;b、根据物料主数据,每一个物料都有类别归属,物料小类是最后一层类别划分,提报采购需求、寻找供应商、制定采购计划的时候都是以物料小类为基本单位开展;步骤b中根据物料小类所涉及的一纸证明设计二维数据表结构,确定二维表名称、在文件中的位置、每张表中包含哪些字段,定义各字段的数据格式,优选的,所述二维数据表定义基础商务信息表,其中包含供应商名称企业全称、企业简称、成立时间、注册资金、注册所在地、厂房所在地、法定代表人、企业类别、单位类型、企业性质等字段,所述二维数据表中各个字段的数据格式和单位,以程序一次性读取为基本原则,避免二次处理,一纸证明设计二维数据表的文本数据提取到既定的二维表中,并填写到相应的位置,二维表中各个字段的数据格式和单位进行定义;c、针对统一实施采购的物料小类,通过集中招标的方式完成的,将采购物资分包,公开招标、评标,最终确定各标包的供应商;d、针对重要的、采购金额较大的物料小类建立统一模板,允许投标参与者按照模板填报企业资质和销售供应业绩信息,随后由物资部质量监督处审核后,出具一纸证明说明投标参与者的资质业绩;步骤d中物资小类梳理所有具有“一纸证明”的供应商清单,且供应商全称与其他二维表中的供应商名称一一对应,完全对应,且供应商名称可以作为主键实现各二维表之间的匹配;f、物资采购、合同签订、供应计划、废旧物资处置、供应商管理等业务均在ecp系统上进行管理和数据记录,其中所述一纸证明即以.doc格式保存ecp系统;g、进行评审,步骤g具体为:g1、初评,根据招标文件逐项审查投标文件中的技术偏差;g2、详评,对投标书的技术部分、商务部分、投标人的企业资质和供应能力进行综合比较,选择综合表现最佳的投标方。

所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。

另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(ic)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。

尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态ram(dram))可以使用所讨论的实施例。

本发明的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1