一种采购中标数据的解析方法_2

文档序号:9631566阅读:来源:国知局
同一行来判断是否是标准表格,是否在同一行的两个必要条件为:
[0046]1)在不同列:供应商的位置A与报价金额的位置B之间包含单元格标签“</td>”;
[0047]2)在同一行:供应商的位置A与报价金额的位置B之间不包含行标签“</tr>”。
[0048]如图4中所示的表格,其中报价人名称(供应商)和报价金额符合上述两个必要条件,则判断图4中的表格数据为标准表格数据。
[0049]步骤S200:根据采购中标公告文本的中标公告属性分别对标准表格数据和非标准表格数据进行解析,得到中标记录;
[0050]分离出文本中的标准表格数据和非标准表格数据后,分别对标准表格数据和非标准表格数据进行解析。由于表格数据中存在嵌套关系,对标准表格数据和非标准表格数据进行解析时,根据表格的嵌套顺序从最内层嵌套表格的数据进行解析,完成一层表格数据的解析后,删除对应层的表格数据,之后再解析该层的外层表格数据。采用由里到外的解析方式,能够保证外层表格标签处理时不受嵌套表格标签的干扰,以更加准确获取中标记录。
[0051]本实施方式中,对标准表格数据进行解析的具体方式如图2所示,包括以下步骤:
[0052]①获取标准表格数据中各中标公告属性的列号;以中标公告属性的名称为关键字在表格数据中检索定位出各属性所处的准确利号,如图4中所示的表格数据,供应商列号为2,第一候选人标志的列号为5 ;
[0053]②循环处理表格中的每一行,根据各中标公告属性的列号,获取每一行的各中标公告属性的值,得到每一行的中标记录。标准表格数据中的每一行对应一条中标记录。
[0054]如图4中所述的标准表格数据中的第二行,解析得到的中标记录为:供应商:广州市新谷电子科技有限公司,中标金额为246000,该供应商为第一候选人。
[0055]本实施方式中,采用文本串解析方法对非标准表格数据进行解析,解析的流程如图3所示,具体包括:
[0056]对于一个非标准表格数据,以中标公告属性或者中标公告属性的关联前缀或后缀为关键字在非标准表格数据中进行检索,得到各中标公告属性的属性值,根据各中标公告属性及其属性值得到一条中标记录。
[0057]在实际应用中,首先需要定位出供应商的名称,可以以“供应商”或者“报价人”、“报价公司”等为关键字在子包数据中进行检索,如果找不到,则可以根据供应商的关联前缀或后缀进行匹配查找,例如,在供应商的名称前一般会有“:”等特殊前缀或者在名称中一般会有“公司”等后缀,可以根据这些前缀或后缀进行供应商的检索定位。完成供应商的定位后,再进一步解析出中标金额及其它中标公告属性,与供应商定位相似,可以以中标公告属性为的名称(如“中标金额”)为关键字直接检索,如果检索不到,可以在根据相关的关联前缀或后缀进行查找(如“中标金额”的关联后缀“额”、“元”、“价”等)。
[0058]在完成标准表格数据和非标准表格数据的解析,得到中标记录后,为了保证中标记录的完整性,在实际应用中,还可以通过常规的关键字匹配方法获取中标记录的项目名称、专家等其它相关信息。
[0059]步骤S300:将解析得到的中标记录存储到数据库中。
[0060]在通过步骤S200中的解析,完成中标记录的获取后,将中标数据存储到数据库中。
[0061]在实际存储之前,为了避免中标数据中存在描述重复的现象,需要对中标记录的有效性进行判断,以及进行中标记录的去重处理。
[0062]本实施方式中,在进行中标记录的有效性判断时,可以根据中标公告属性的属性值,判断中标记录是否有效,若是,则保留该中标记录,若否,则删除该中标记录。例如,通过判断供应商验证是否有效或中标金额是否为0或是否为第一候选供应商等方式来判断记录是否有效,一般,如果供应商和中标金额没有明显问题,则可以认为一条中标记录是有效中标记录。
[0063]本实施方式中,在进行中标记录的去重处理时,根据中标记录所属表格的标识和其中标公告属性的属性值判断中标记录中的重复记录,并进行去重处理;判断方式为:若两个中标记录所属表格的标识相同且其中标公告属性的属性值相同,则判定两个中标记录重复。其中,所述表格的标识用于唯一识别一个表格,如图6中所示的非标准表格数据中,包括了三条非标准表格数据,三条非标准表格数据所属的表格标识非别为“包一”、“包二”和“包三”,一般的,在Html格式的中标公告文本中,每个表格都带有其标识,如果没有,本实施方式中会默认的为每一表格分配一个唯一的标识号。
[0064]在完成中标记录的有效性及去重处理后,将有效的中标记录的相关信息保存到数据库中。
[0065]本实施方式中所提供的采购中标数据的解析方法能够将非结构化的采购中标公告(Html中标文本)转化为结构化的中标记录进行存储,该方法尤其适用于政府采购中标公告的解析,在实践中,采用该方法能够有效识别90%以上的政府采购中标记录,大大提高中标数据解析的效率和准确率。
[0066]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
【主权项】
1.一种采购中标数据的解析方法,包括以下步骤: (1)分离出待解析的Html采购中标公告文本中的标准表格数据和非标准表格数据; (2)根据采购中标公告文本的中标公告属性分别对标准表格数据和非标准表格数据进行解析,得到中标记录; (3)将解析得到的中标记录存储到数据库中。2.根据权利要求1所述的一种采购中标数据的解析方法,其特征在于:步骤(2)中,所述中标公告属性包括项目名称、供应商、中标金额、米购人和第一中标候选人标志。3.根据权利要求2所述的一种采购中标数据的解析方法,其特征在于:步骤(1)中,所述标准表格数据是指表格数据中指定的中标公告属性位于表格中同一行、不同列的数据;所述指定的中标公告属性包括供应商和中标金额。4.根据权利要求3所述的一种采购中标数据的解析方法,其特征在于:步骤(1)中,分离出待解析的Html采购中标公告文本中的标准表格数据和非标准表格数据,包括: 1)根据Html文本的表格标签table分离出Html采购中标公告文本中的所有表格;所有表格包括表格中嵌套的子表格; 2)判断表格中所述指定的中标公告属性是否满足位于表格的同一行且不同列,若是,则确定表格为标准表格,若否,则确定表格为非标准表格。5.根据权利要求4所述的一种采购中标数据的解析方法,其特征在于:步骤(2)中,对标准表格数据进行解析,包括: ①获取标准表格数据中各中标公告属性的列号; ②循环处理表格中的每一行,根据各中标公告属性的列号,获取每一行的各中标公告属性的值,得到每一行的中标记录。6.根据权利要求1所述的一种采购中标数据的解析方法,其特征在于:步骤(2)中,采用文本串解析方法对非标准表格数据进行解析,包括: 对于一个非标准表格数据,以中标公告属性或者中标公告属性的关联前缀或后缀为关键字在非标准表格数据中进行检索,得到各中标公告属性的属性值,根据各中标公告属性及其属性值得到中标记录。7.根据权利要求4至6之一所述的一种采购中标数据的解析方法,其特征在于:步骤(2)中,对标准表格数据和非标准表格数据进行解析时,根据表格的嵌套顺序从最内层嵌套表格的数据进行解析,完成一层表格数据的解析后,删除对应层的表格数据。8.根据权利要求1所述的一种采购中标数据的解析方法,其特征在于:步骤(1)中,在分离出待解析的Html采购中标公告文本中的标准表格数据和非标准表格数据之前,还包括: 对待解析的Html采购中标公告文本进行预处理,删除Html采购中标公告文本中的与中标内容无关的数据。9.根据权利要求1所述的一种采购中标数据的解析方法,其特征在于:步骤(3)中,将解析得到的中标记录存储到数据库之前,还包括: 根据中标公告属性的属性值,判断中标记录是否有效,若是,则保留该中标记录,若否,则删除该中标记录。10.根据权利要求1所述的一种采购中标数据的解析方法,其特征在于:步骤(3)中,将解析得到的中标记录存储到数据库之前,还包括: 根据中标记录所属表格的标识和其中标公告属性的属性值判断中标记录中的重复记录,并进行去重处理;判断方式为:若两个中标记录所属表格的标识相同且其中标公告属性的属性值相同,则判定两个中标记录重复。
【专利摘要】本发明公开了一种采购中标数据的解析方法,涉及数据仓库技术中的ETL(数据抽取、转换和加载)领域。该方法包括:分离出待解析的Html采购中标公告文本中的标准表格数据和非标准表格数据;根据采购中标公告文本的中标公告属性分别对标准表格数据和非标准表格数据进行解析,得到中标记录;将解析得到的中标记录存储到数据库中。本发明所提供的解析方法,通过将采购中标公告文本中的标准表格数据和非标准表格数据进行分离处理,实现了对采购中标数据的高效、准确的解析,为采购中标数据的深度挖掘和利用提供了基础。
【IPC分类】G06F17/30
【公开号】CN105389338
【申请号】CN201510683420
【发明人】陈国强, 姬永杰, 朱培冬
【申请人】北京用友政务软件有限公司
【公开日】2016年3月9日
【申请日】2015年10月20日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1