基于爬虫技术的信息系统监理价格库生成方法与流程

文档序号:18104120发布日期:2019-07-06 11:32阅读:202来源:国知局
基于爬虫技术的信息系统监理价格库生成方法与流程

本发明涉及信息系统工程监理服务领域,特别涉及一种基于爬虫技术的信息系统监理价格库生成方法。



背景技术:

信息工程项目的投资控制要求在批准的预算条件下确保项目保质按期完成。即指在项目投资的形成过程中,对项目所消耗的人力资源、物质资源和费用开支进行指导、监督、调节和限制,及时纠正即将发生和已经发生的偏差,把各项项目费用控制在计划投资的范围之内,保证投资目标的实现。信息工程项目投资控制的目的在于降低项目成本,提高经济效益。信息系统工程项目投资控制由一些过程组成,其中一个最重要的过程是成本估算,计算完成项目中的所需各资源(人、材料、设备等)成本的近似值。成本估算的方法通常使用类比估计法。该方法使用先前类似项目的实际数据作为估计现在项目的基础。在信息系统工程监理服务的过程中,成本估算通常利用各单位积累的项目资料和政府相关的政策文件为基础,检索资料来对项目中的资源的成本进行估算。

现有技术存在如下缺点:(1)无法找到类似项目的实际数据。由于单位项目积累不足,找不到类似的项目进行估算参考。(2)数据的时效性无法保证。特别是在材料、设备等成本的估算时,如果将若干年前的项目数据作参考,那么成本估算的结果将存在较大的偏差。(3)检索效率低下。历史项目文档或资料未进行预处理,对文档进行分类、标签化,难以检索出需要的数据。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能找到类似项目的实际数据、能保证数据的时效性、检索效率较高的基于爬虫技术的信息系统监理价格库生成方法。

本发明解决其技术问题所采用的技术方案是:构造一种基于爬虫技术的信息系统监理价格库生成方法,包括如下步骤:

a)收集发布中标结果公告的网站信息;

b)通过网络爬虫工具抓取中标结果公告;

c)将抓取的网页资料按一定的规则创建目录,分类存放在下载资料库中;所述目录按照如下层次进行存储:域名、日期、公告标题、公告、招标文件和报价明细;

d)采用分析处理程序分析所述下载资料库中的中标结果公告,按照域名和日期提取新采集到的中标结果公告和报价明细表;

e)所述分析处理程序对中标结果公告文件和招标文件进行解析,从中提取项目信息并将其存入价格库;

f)所述分析处理程序将所述招标文件和报价明细表自动上传到文档管理系统,将所述项目信息作为文件标签和属性,附加到上传的所述招标文件和报价明细表中,并获取所述招标文件和报价明细表在所述文档管理系统中的url;

g)所述分析处理程序对所述报价明细表进行解析,提取资源报价信息并将其存入到价格库中形成价格记录,同时每条价格记录关联上对应的项目信息和项目文件的url;所述项目文件包括招标文件和报价明细表;

h)所述文档管理系统自动对所述招标文件和报价明细表进行索引操作,创建索引,获取关键词,根据文件标签和属性对检索的结果进行过滤;

i)采用价格检索程序进行资源报价检索;

j)对价格检索结果进行过滤;

k)当价格资料超过设定的时效时,自动删除价格库中过时的项目信息和价格信息,以及项目资料库中的对应文档。

在本发明所述的基于爬虫技术的信息系统监理价格库生成方法中,所述网站信息至少包括域名、发布首页、中标公告关键字、公告链接深度、排序方式、公告格式和报价明细表上下文关键字。

在本发明所述的基于爬虫技术的信息系统监理价格库生成方法中,所述步骤b)进一步包括:

b1)建立待抓取url列表和抓取深度;

b2)从所述待抓取url列表中提取url放入待抓取url队列,将完成抓取的url从所述待抓取url队列中删除;

b3)判断所述待抓取url队列是否为空,如是,执行步骤b10);否则,执行步骤b4);

b4)判断当前日期是否大于已抓取日期,如是,执行步骤b5);否则,执行步骤b10);

b5)从所述待抓取url队列中取出url开始抓取页面信息,执行步骤b6);

b6)通过规则判断页面是否是中标结果公告,通过关键字提取中标公告日期,执行步骤b7);

b7)判断所述中标公告日期是否大于已抓取日期,如是,执行步骤b8);否则,执行步骤b10);

b8)从所述页面信息中根据报价明细关键字提取报价明细表,执行步骤b9);

b9)创建目录存储中标结果公告和报价明细表;

b10)更新已抓取日期,执行步骤b11);

b11)结束。

在本发明所述的基于爬虫技术的信息系统监理价格库生成方法中,所述项目信息至少包括项目编号、项目名称、采购方、项目类别、项目领域、项目规模、项目时间和项目地区。

在本发明所述的基于爬虫技术的信息系统监理价格库生成方法中,所述资源报价信息至少包括报价资源名称、型号规格、数量、单价、总价和关键性描述信息。

在本发明所述的基于爬虫技术的信息系统监理价格库生成方法中,所述价格检索结果根据项目类别、项目领域、项目规模、项目时间和项目地区进行过滤。

实施本发明的基于爬虫技术的信息系统监理价格库生成方法,具有以下有益效果:由于本发明基于网络爬虫技术,通过自动收集信息系统工程项目的中标报价信息,形成一个动态更新的用于信息系统监理投资估算的价格库。在信息系统项目建设的决策阶段(投资估算)和实施阶段(制定预算、标底),在有限的时间条件下,可节省大量用于查询资源价格的时间,获取更加精确的资源价格,从而提高监理服务的效率和质量。本发明通过对大量信息系统工程项目的中标报价数据进行筛选、清洗、格式转换,建立信息系统资源价格库。对中标项目的项目信息和招标文件进行整理、分类、标签化建立项目资料库。监理人员能从价格库和资料库中检索有效的项目资料作为参考,指导信息系统建设方进行有效项目决策,审核信息系统承建方的设计和实施,有效的提高信息系统监理的水平;因此本发明能找到类似项目的实际数据、能保证数据的时效性、检索效率较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明基于爬虫技术的信息系统监理价格库生成方法一个实施例中的流程图;

图2为所述实施例中基于爬虫技术的信息系统监理价格库生成方法的流程框图;

图3为所述实施例中通过网络爬虫工具抓取中标结果公告的具体流程图;

图4为所述实施例中通过网络爬虫工具抓取中标结果公告的流程框图;

图5为所述实施例中中标结果公告的存储目录层次图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明基于爬虫技术的信息系统监理价格库生成方法实施例中,该基于爬虫技术的信息系统监理价格库生成方法的流程图如图1所示。该基于爬虫技术的信息系统监理价格库生成方法的流程框图如图2所示。如图1所示,该基于爬虫技术的信息系统监理价格库生成方法包括如下步骤:

步骤s01收集发布中标结果公告的网站信息:本步骤中,收集发布中标结果公告的网站信息。具体而言,针对本单位监理业务开展的区域,收集中标结果公告发布的站点信息,网站信息(即站点信息)至少包括域名、发布首页、中标公告关键字、公告链接深度、排序方式、公告格式和报价明细表上下文关键字等。

步骤s02通过网络爬虫工具抓取中标结果公告:本步骤中,通过网络爬虫工具抓取中标结果公告。通过步骤s01收集的中标公告结果网站信息,设置待抓取网页的url列表和过滤规则。各站点公告发布格式和报价附件格式会有所不同,不同的站点需要独立支持不同的url列表、抓取深度和过滤规则。

步骤s03将抓取的网页资料按一定的规则创建目录,分类存放在下载资料库中:本步骤中,以目录分类保存抓取的网页。具体而言,为方便后续报价分析处理程序对项目信息和报价信息的处理,抓取的网页资料需要按一定的规则创建目录,分类存放在下载资料库。图5为本实施例中中标结果公告的存储目录层次图,通常目录层次按图5中的格式进行存储,该格式为:域名、日期、公告标题、公告、招标文件和报价明细。

步骤s04采用分析处理程序分析下载资料库中的中标结果公告,按照域名和日期提取新采集到的中标结果公告和报价明细表:本步骤中,采用分析处理程序分析下载资料库中的中标结果公告,按照域名和日期提取新采集到的中标结果公告和报价明细表。不同网站中标结果公告的格式和报价明细表的格式并不相同,分析处理程序支持根据域名选择不同的文件解析模块,用于解析中标结果公告提取项目信息,以及解析报价明细表中提供的各种资源的报价信息。

步骤s05分析处理程序对中标结果公告文件和招标文件进行解析,从中提取项目信息并将其存入价格库:本步骤中,分析处理程序对中标结果公告文件和招标文件进行解析,从中提取项目信息并将其存入价格库。具体而言,从中标结果公告中提取项目编号、项目名称、采购方、项目类别、项目领域、项目规模、项目时间和项目地区等项目信息。通常各站点的公告格式相对固定,可使用模板方式提取项目信息。提取后项目信息存入价格库。

步骤s06分析处理程序将招标文件和报价明细表自动上传到文档管理系统,将项目信息作为文件标签和属性,附加到上传的招标文件和报价明细表中,并获取招标文件和报价明细表在文档管理系统中的url:本步骤中,对项目文件进行归档,具体而言,分析处理程序将招标文件和报价明细表自动上传到文档管理系统,将项目信息作为文件标签和属性,附加到上传的招标文件和报价明细表中,并获取招标文件和报价明细表在文档管理系统中的url。

步骤s07分析处理程序对报价明细表进行解析,提取资源报价信息并将其存入到价格库中形成价格记录,同时每条价格记录关联上对应的项目信息和项目文件的url:本步骤中,分析处理程序对报价明细表进行解析,提取资源报价信息,具体而言,从报价明细表中提取报价资源名称、型号规格、数量、单价、总价、关键性描述等资源报价信息。将提取出的各种资源的报价信息存入到价格库形成价格记录,同时每条价格记录关联上对应的项目信息和项目文件的(项目文件包括招标文件和报价明细表)url。

步骤s08文档管理系统自动对招标文件和报价明细表进行索引操作,创建索引,获取关键词,根据文件标签和属性对检索的结果进行过滤:具体而言,文档管理系统提供开放接口给分析处理程序和价格检索程序进行文档的上传和下载操作。文档上传后可根据需要给文档管理系统中的文件添加自定义的标签和属性,以利于在文档管理系统中对文件进行检索过滤。

文档管理系统提供全文检索引擎。文档上传后,自动对文件进行索引操作创建索引,获取关键词。在全文检索的过程中对检索出的结果,再根据步骤s06中的文件标签和属性对检索的结果进行过滤,提高检索效率。

步骤s09采用价格检索程序进行资源报价检索:本步骤中,价格检索程序提供价格检索接口。在监理投资估算阶段,依据评估项目使用的资源名称、型号规格及其它关键性描述进行资源报价检索。检索的结果自动按时间从近到远的顺序进行排序。

步骤s10对价格检索结果进行过滤:本步骤中,进行价格检索结果过滤。随着价格库中数据的不断增长,同一资源在不同的项目领域,不同地区等报价会存在一定的差别,价格检索结果可以根据项目类别、项目领域、项目规模、项目时间、项目地区等进行过滤,以提供更加准确的价格参考。

步骤s11当价格资料超过设定的时效时,自动删除价格库中过时的项目信息和价格信息,以及项目资料库中的对应文档:本步骤中,进行价格资料的自动清理。具体而言,价格库持续不断的从源站点进行抓取数据,数据量随着时间的推移不断增大,由于价格信息通常也具有一定的时效性。文档管理系统可以为不同的资源类别设定时效,当超过设定的时效时,自动删除价格库中过时的项目信息和价格信息以及项目资料库中的对应文档。

本发明在信息系统监理领域,依据信息系统项目中标结果公告,利用网络爬虫技术创建动态更新的信息系统监理价格库。本发明能基于大量的信息系统中标报价明细,对价格信息按照项目类别、项目领域、项目规模、项目时间、项目地区进行整理,形成准确的价格参考,帮助信息系统监理团队指导系统建设方进行项目的投资决策、进行项目实施过程的投资控制,以提高监理服务水平和质量。本发明能找到类似项目的实际数据、能保证数据的时效性、检索效率较高。

对于本实施例而言,上述步骤s02还可进一步细化,其细化后的流程图如图3所示,该步骤s02细化后的流程框图如图4所示。上述步骤s02进一步包括:

步骤s201建立待抓取url列表和抓取深度:本步骤中,建立待抓取url列表和抓取深度。

步骤s202从待抓取url列表中提取url放入待抓取url队列,将完成抓取的url从待抓取url队列中删除:本步骤中,从待抓取url列表中提取url放入待抓取url队列,将完成抓取的url从该待抓取url队列中删除。

步骤s203判断待抓取url队列是否为空:本步骤中,判断待抓取url队列是否为空,如果判断的结果为是,则执行步骤s204;否则,执行步骤s210。

步骤s204判断当前日期是否大于已抓取日期:本步骤中,判断当前日期是否大于已抓取日期,如果判断的结果为是,则执行步骤s205;否则,执行步骤s210。

步骤s205从待抓取url队列中取出url开始抓取页面信息:本步骤中,从待抓取url队列中取出url开始抓取页面信息。执行完本步骤,执行步骤s206。

步骤s206通过规则判断页面是否是中标结果公告,通过关键字提取中标公告日期:本步骤中,通过规则判断页面是否是中标结果公告,通过关键字提取中标公告日期。执行完本步骤,执行步骤s207。

步骤s207判断中标公告日期是否大于已抓取日期:本步骤中,判断中标公告日期是否大于已抓取日期,如果判断的结果为是,则执行步骤s208;否则,执行步骤s210。

步骤s208从页面信息中根据报价明细关键字提取报价明细表:本步骤中,从页面信息中根据报价明细关键字提取报价明细表。执行完本步骤,执行步骤s209。

步骤s209创建目录存储中标公告和报价明细表:本步骤中,创建目录存储中标公告和报价明细表。

步骤s210更新已抓取日期:本步骤中,更新已抓取日期。执行完本步骤,执行步骤s211。

步骤s211结束:本步骤中,结束对中标结果公告的采集过程。

总之,信息系统监理项目通常与政府招标项目相关联,本发明依据政府采购中标结果公告,有针对性的收集相关领域的项目信息包括中标项目标的名称、规格型号、数量、单价、服务要求或标的的基本概况和项目报价明细表。通过自动化的方式定时收集和整理项目资料,形成一个动态增长项目价格资料库。以弥补在做成本估算时项目参考数据不足的问题,同时获取最新的价格数据。

分析收集到的项目资料,对其中的价格数据经过筛选、清洗、格式转换、经过数据挖掘算法过滤,形成有效的价格信息,包括项目名称、设备名称、规格型号、单价、年份等,建立价格库。对项目资料的项目信息进行提取,形成项目标签,基于文档管理系统将项目资料进行分类存储,并将项目的文件标签应用到项目资料。则可以通过文件标签进行项目资料检索的过滤与分类,大大提高检索效率。在对价格数据进行检索时,可通过年份信息进行过滤,保证数据的有效性。本发明能找到类似项目的实际数据、能保证数据的时效性、检索效率较高。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1