基于互联网建筑施工企业资源价格信息库的构建方法

文档序号:6639270阅读:233来源:国知局
基于互联网建筑施工企业资源价格信息库的构建方法
【专利摘要】本发明公开了一种基于互联网建筑施工企业资源价格信息库的构建方法,涉及信息库构建领域。该方法以资源价格采集任务方式执行:在任务中配置获取资源价格数据的信息参数、采集频率、清洗规则、存储目标位置;在任务执行中通过配置的参数定时从互联网价格网站上进行数据抓取、清洗、存储等操作,从而获得准确的价格数据。与现有技术相比,本发明的基于互联网建筑施工企业资源价格信息库的构建方法能够解决建筑施工企业在项目管理系统建立资源(工、料、机)价格库时操作繁琐、及时性差、需人工干预的问题,大大提高了工作效率,保证了数据准确性及时性,具有很好的推广应用价值。
【专利说明】基于互联网建筑施工企业资源价格信息库的构建方法

【技术领域】
[0001]本发明涉及信息库构建领域,具体地说是一种基于互联网建筑施工企业资源价格信息库的构建方法。

【背景技术】
[0002]建筑企业在生产经营活动中,对资源价格数据十分敏感,因为只有获得准确及时的价格数据才能在项目预算中做到准确预测项目成本,对项目投标和成本控制都起到重要作用,在日常经营采购活动中参考资源价格数据在谈判中能做到知己知彼,在竞价谈判中处于有利位置。所以,建筑企业对资源价格数据的及时性准确性十分关注。
[0003]传统项目管理系统中价格数据采集方式一般有两种:一是依赖操作人员从项目管理系统中录入,要想得到准确实时的价格数据就需要大量人工操作录入,费时费力,且容易出错,不能在第一时间拿到准确数据;二是操作员先在系统外通过物理文件整理为系统需要的特定格式,然后导入系统,这种方式需要大量人工干预,及时性也不佳,且一旦整理数据有错误就会影响了数据正确性,甚至数据不能导入。
[0004]如何能让价格采集工作变得简单实时有效,提高投标报价和成本控制的准确性实时性,提高采购工作的生产率和工作效率,是建筑施工企业迫切要解决的一个难题。


【发明内容】

[0005]本发明的技术任务是针对上述现有技术的不足,提供一种基于互联网建筑施工企业资源价格信息库的构建方法。该方法能够解决建筑施工企业在项目管理系统建立资源(工、料、机)价格库时操作繁琐、及时性差、需人工干预的技术问题。
[0006]本发明的技术任务是按以下方式实现的:基于互联网建筑施工企业资源价格信息库的构建方法,包括价格采集任务的设置及价格采集任务的执行两个步骤:
价格采集任务的设置包括:
(1)任务基本属性,包括任务的编号、名称、地区、时间规则等属性;
(2)任务的数据来源,指定抓取数据的价格网站网址,设置任务抓取网站的登录网址、登录用户名和密码、验证码获取规则等信息,其中,验证码获取规则包括:验证码地址、验证码识别方式、验证码识别接口(如默认识别方式不能实现,可以通过插件方式实现),是否人工参与等;
(3 )任务的抓取规则,用于对每一个抓取对象设置抓取规则,指定要抓取的数据内容和抽取规则:网页上会有很多无效的数据,需要指定取哪些数据例如资源名称,资源编号,规格型号,价格单位,单价等对应网页上哪些元素。每个抓取对象通过设置正则表达式、直接查找和递归查找等匹配方式来从网页上找到所需的数据。用户也可在满足抓取规则接口的情况下自行开发扩展数据抓取方法;
(4)任务的分页方式,使之能够获取分页后的数据:网页上数据显示是有限的,资源价格往往会分页显示,可通过分页方式访问到有效的数据网页,以节省大量的时间; (5)任务的执行频率和轮询规则,用于指定任务下次执行的最小间隔时间,和可以使用的服务器,以应对价格网站服务器防DDOS (分布式拒绝服务)软件的拦截:任务执行时,任务服务器根据可用服务器和最小执行时间分配抓取任务,只有服务器执行完成后空闲时间大于最小间隔时间,才可执行下一次抓取;
(6)任务的数据清洗规则,用于对采集的数据进行再次校验整理,并对数据进行比较去重;
(7)任务的存储规则,可以存储到数据库表或物理文件,所述数据库支持各种主流数据库,用户也可在满足存储接口的情况下自行开发扩展存储方式;数据保存时要包含发布地区、时间、资源品名、材质、规格、价格、数量、生产厂、仓库地、交易地等要素,数据存储的规则要一致,要能方便的根据时间和地区等要素把资源价格信息分开或合并保存。
[0007]任务的数据来源可设置多个,每个来源分别配置抓取规则、分页方式和执行频率轮询规则。
[0008]任务的抓取规则支持多种方式组合,数据中不同项内容采用不同的规则,同一项内容可设置优先级不同的规则进行抓取。
[0009]任务的执行频率可按周、天、时、分、秒或自定义时间间隔设置;任务的轮询规则支持同一服务器等待时间和不同服务器的切换时间等设置。
[0010]价格采集任务的执行包括:
(1)抓取指定网站价格数据网页
任务模拟访问某一个价格网站进行价格数据网页抓取工作;
(2)依据抓取规则抓取数据
(3)依据清洗规则清洗数据
(4)依据存储规则保存数据。
[0011]作为优选,设置任务的分页方式时,可以通过设置首页、上页、下页、末页和显示页序号的分页方式或指定下一页按钮或指定页序号输入框和跳转执行按钮的方式设置分页。
[0012]数据清洗的规则包括数据一致性检查、无效值和缺失值处理及去重规则。
[0013]抓取指定网站价格数据网页的具体步骤为:
1)访问价格网站,输入访问凭据;然后,判断是否需要输入验证码;
2)如果不需要验证码,则进入网页抓取操作;如果需要验证码,根据设置的验证规则获取验证码,并进行识别判断或人工识别;
3)验证码输入完成后,进入网页抓取操作;
4)当前网页抓取完成后,读取分页方式,判断是否有下一页,如果有下一页,则根据设定的执行频率和轮询规则,执行访问下一页操作,然后执行抓取网页操作,直到没有下一页。
[0014]抓取数据时,在某一网站网页保存后,就可以按该网站设置的抓取规则抓取数据,不用等到所有网页保存完成后再抓取数据。数据抓取任务可以在网页抓取保存的空闲时间执行,这样可以有效的利用服务器的资源,提高任务的执行效率。
[0015]数据抓取后,需要对所有网站抓取的数据根据设置的规则进行清洗整理,才能得到最终有效的数据。数据清洗任务可以在数据抓取后执行,但是必须保证数据清洗任务的范围是整个任务所有网站的抓取数据。
[0016]数据清洗后,需要对数据根据设置的存储规则进行保存,才能被用户使用。
[0017]本发明的方法以资源价格采集任务方式执行:在任务中配置获取资源价格数据的信息参数、采集频率、清洗规则、存储目标位置;在任务执行中通过配置的参数定时从互联网价格网站上进行数据抓取、清洗、存储等操作,从而获得准确的价格数据。
[0018]与现有技术相比,本发明的方法具有以下突出的有益效果:
(一)只需发布任务并配置其执行参数,剩余工作由服务器自动执行,减少了人工干预,大大提高了工作效率,保证了数据准确性及时性;
(二)使用该方法能明显提高建筑施工企业项目概预算使用相关资源价格的准确性、及时性,能更准确测算工程成本,提高企业竞争力;在资源采购时能及时获得当地当前及历史价格,节约采购成本。

【专利附图】

【附图说明】
[0019]附图1是本发明构建方法中价格采集任务的设置流程图;
附图2是本发明构建方法中价格采集任务的执行流程图。

【具体实施方式】
[0020]参照说明书附图以具体实施例对本发明的基于互联网建筑施工企业资源价格信息库的构建方法作以下详细地说明。
[0021]实施例:
如附图1所示,本发明的价格采集任务的设置过程为:
首先,设置任务基本属性A101,确定一个价格采集任务。每个任务可以设置多个抓取网站A102。任务的每一个抓取网站设置数据来源A104、抓取规则A105、分页方式A106和执行频率轮询规则A107等属性A103。其中,数据来源A104,包含登录网址、登录用户名和密码、验证码获取规则等信息;抓取规则A105应对每一个抓取对象设置抓取规则,可以包含多个抓取对象;设置完网站抓取规则后,进入数据清洗规则定义A108,对采集的数据进行再次校验整理,并对数据进行比较去重,保证最终数据到有效性。最后,设置数据的存储规则A109,数据存储的规则要一致,要能方便的根据时间和地区等要素把资源价格信息分开或合并保存。
[0022]如图2所示,是本发明方法的价格采集任务的执行流程示意图。
[0023]图示中展示了本发明的价格采集任务的执行流程。首先,服务器发起价格任务采集请求A201,指定采集任务,采集价格数据,进入任务设置的抓取网站抓取网页数据阶段A202。
[0024]任务模拟访问某一个价格网站进行价格数据网页抓取工作A202。首先,访问价格网站,输入访问凭据A203。然后,判断是否需要输入验证码A204。如果不需要验证码,则进入网页抓取操作A207。如果需要验证码,根据A104设置的验证规则获取验证码,并进行识别判断A205。如果不能机器识别,则需要人工识别A206。验证码输入完成后,进入网页抓取操作A207。当前网页抓取完成后,根据A106设定,读取分页方式,判断是否有下一页A209,如果有下一页,则根据A107设定的执行频率和轮询规则,执行访问下一页操作A208,然后执行抓取网页操作A207,然后执行A209操作,直到没有下一页。
[0025]抓取数据是在某一网站网页保存后,就可以按该网站设置的抓取规则A106,抓取数据A210,不用等到所有网页保存完成后再抓取数据。
[0026]数据清洗后,根据A109设置的存储规则对数据进行保存A212。
【权利要求】
1.基于互联网建筑施工企业资源价格信息库的构建方法,其特征在于包括价格采集任务的设置及价格采集任务的执行两个步骤: 价格采集任务的设置包括: 任务基本属性,包括任务的编号、名称、地区、时间规则属性; (2)任务的数据来源,指定抓取数据的价格网站网址,设置任务抓取网站的登录网址、登录用户名和密码、验证码获取规则信息; (3)任务的抓取规则,用于对每一个抓取对象设置抓取规则; (4)任务的分页方式; (5)任务的执行频率和轮询规则,用于指定任务下次执行的最小间隔时间,和可以使用的服务器; (6)任务的数据清洗规则,用于对采集的数据进行再次校验整理,并对数据进行比较去重; (7)任务的存储规则; 价格采集任务的执行包括: (1)抓取指定网站价格数据网页 任务模拟访问某一个价格网站进行价格数据网页抓取工作; (2)依据抓取规则抓取数据 (3)依据清洗规则清洗数据 (4)依据存储规则保存数据。
2.根据权利要求1所述的基于互联网建筑施工企业资源价格信息库的构建方法,其特征在于通过设置首页、上页、下页、末页和显示页序号的分页方式或指定下一页按钮或指定页序号输入框和跳转执行按钮的方式设置分页。
3.根据权利要求1所述的基于互联网建筑施工企业资源价格信息库的构建方法,其特征在于数据清洗的规则包括数据一致性检查、无效值和缺失值处理及去重规则。
4.根据权利要求1所述的基于互联网建筑施工企业资源价格信息库的构建方法,其特征在于抓取指定网站价格数据网页的具体步骤为: 访问价格网站,输入访问凭据;然后,判断是否需要输入验证码; 如果不需要验证码,则进入网页抓取操作;如果需要验证码,根据设置的验证规则获取验证码,并进行识别判断或人工识别; 验证码输入完成后,进入网页抓取操作; 当前网页抓取完成后,读取分页方式,判断是否有下一页,如果有下一页,则根据设定的执行频率和轮询规则,执行访问下一页操作,然后执行抓取网页操作,直到没有下一页。
【文档编号】G06Q50/08GK104484424SQ201410791468
【公开日】2015年4月1日 申请日期:2014年12月19日 优先权日:2014年12月19日
【发明者】薛军利, 刘本熙, 李洪营, 李伟龙, 聂明, 李焕伟, 李伟 申请人:浪潮通用软件有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1