招投标相关网页页面信息提取方法及系统与流程

文档序号:17358781发布日期:2019-04-09 21:54阅读:507来源:国知局
招投标相关网页页面信息提取方法及系统与流程

本发明涉及网络信息获取领域,具体涉及一种招投标相关网页页面信息提取方法及系统。



背景技术:

招标投标,是在市场经济条件下进行的大宗货物的买卖、工程建设项目有发包与承包,以及服务项目的采购与提供时,所采用的一种交易方式。在这种交易方式下,通常是由项目采购(包括货物的购买、工程的发包和服务的采购)的采购方作为招标方,通过发布招标公告或者向一定数量的特定供应商、承包商发出招标邀请等方式发出招标采购的信息,提出所需采购的项目的性质及其数量、质量、技术要求,交货期、竣工期或提供服务的时间,以及其他供应商、承包商的资格要求等招标采购条件,表明将选择最能够满足采购要求的供应商、承包商与之签订采购合同的意向,由各有意提供采购所需货物、工程或服务的报价及其他响应招标要求的条件,参加投标竞争。经招标方对各投标者的报价及其他的条件进行审查比较后,从中择优选定中标者,并与其签订采购合同。

信息化的发展带来了招投标领域的新局面,原来投标人主要通过期刊杂志获取项目招投标信息的方式转变成了通过互联网网站来获取适合自己投标的信息。投标人的一种做法是登录各地的各个招投标网站来获取信息,然后通过人工的方式一个个检索并排查需要的信息。另外一种更加高效的做法是登录一些大型的招投标信息网站,通过全文检索的方式去搜索需要的招投标信息,整个过程耗费费时费力,且常常出现信息获取不及时的问题;当招标信息或中标信息发布出来后需要投标人去点击查看,但若是投标人较多时,可能将导致招标企业网站崩溃,无法及时的获取中标信息。



技术实现要素:

本发明目的在于提供一种招投标相关网页页面信息提取方法,以解决现有投标人寻找招标信息或中标信息获取不及时的问题。

本发明提供的基础方案为:招投标相关网页页面信息提取方法,包括如下步骤:

s1:自动根据招标和中标相关的关键字获取相关信息所在网页中的位置节点网页;

s2:根据获取的位置节点网页寻找该关键词共有的父节点网页;

s3:判断获取的父节点网页是否已经被获取,若父节点网页没有被获取过,则将判断该父节点网页内容排布方式后根据其排布方式进行信息爬取;

s4:对爬取的招标信息和中标信息进行存储显示。

本发明的优点在于:

1、投标人关注多家企业网站的招标信息和中标信息时,投标人无需进入到每一家企业信息发布的网站上去看,只需通过本方案获取所有需要获取的招标信息和中标信息即可;

2、若招标企业信息公布的网站关注人数较多,在该企业发布信息后可能会导致网页崩溃无法加载的情况,采用本方案时投标人便无需进入到对应企业信息发布的网站中,只需使用本方法自动获取招标信息或中标信息,与人工获取相比,获取信息更加方便快捷。

进一步,在步骤s1-s4中,招标信息和中标信息的抓取是通过总服务器按照分配准则分配对应的信息抓取子服务器完成的。

由于需要爬取的企业信息公布的网站比较多,所以在进行招标信息和中标信息爬取时所涉及到的网站比较多,所需要用到的信息抓取子服务器也就比较多,而总服务器根据分配准则来分配信息抓取子服务器执行信息爬取工作,避免信息漏抓取或重复抓取。

进一步,分配准则生成时,首先获取企业网站上网站信息的更新时间,然后对每一个企业网站上网络信息更新时间进行先后排序,同时根据每一个企业网站平均每天的访问人数进行排序,若多个企业网站上网络信息更新时间相同,则优先对平均每天访问人数多的企业网站优先执行信息抓取指令,若每一个企业网站更新网络信息时间不同,则按照企业网站更新时间的先后顺序执行信息抓取指令,且每一台信息抓取子服务器将被按照执行信息抓取指令时间依次被安排执行。

企业网站上网络信息更新时间可能并不一致,所以将企业网站更新网络信息时间作为分配准则因素之一,便于能够及时的获取对应企业网站更新的信息。而每一个企业网站平均每天访问人数并不一致,访问人数多的企业网站上的更新的信息将更难获取,所以将企业网站平均每天访问人数作为分配准则的因素之一,在多个企业网站在同时更新信息时优先获取平均每天访问人数多的企业网站更新的信息,避免该企业网站更新的信息获取滞后太久。

进一步,在步骤s3中,进行招标信息和中标信息爬取后,将随机抽取爬取的招标信息和中标信息进行正误验证。

通过随机抽取爬取获得的信息进行正误验证,便于初步掌握爬取信息正误率,即便于系统测试人员进行爬取方法的优化。

另外,针对上述招投标相关网页页面信息提取方法,还提供了一种应用该方法的招投标相关网页页面信息提取系统,包括:用户终端、总服务器以及多个信息抓取子服务器;

用户终端用于用户注册、登录、关注和订阅招标信息以及中标信息;

总服务器用于生成信息抓取子服务器的分配准则,然后根据该分配准则分配信息抓取子服务器进行对应企业网站中招标信息及中标信息的抓取。

采用本系统将能够实现招标信息和中标信息的自动抓取,需要查看不同企业招标信息和中标信息的投标人便可以通过该系统统一查看,无需投标人到每一个企业网站上去寻找,使用方便。

进一步,所述总服务器包括用户分类限定模块,所述用户分类限定模块用于对注册的用户进行权限划分,分为普通用户、文档人员用户以及系统测试人员用户,普通用户购买会员后能进行访问信息阅读,文档人员用户不仅能对访问信息进行阅读,还能对访问信息进行编写,系统测试人员用户可以进行信息阅读、编写及软件测试。

对注册用户的权限进行划分,便于实现系统的管理工作。

附图说明

图1为本发明实施例一中招投标相关网页页面信息提取系统的逻辑框图。

具体实施方式

下面通过具体实施方式进一步详细说明:

如图1所示,招投标相关网页页面信息提取系统包括:信息管理子系统和分配模型生成子系统,其中信息管理子系统包括:用户终端、总服务器和多个信息抓取子服务器,用户终端和信息抓取子服务器均与总服务器通过无线通信模块进行无线通信。

一、用户终端

登录注册模块,用于不同的用户根据注册信息或登录信息进行注册或登录,用户包括普通用户和管理用户,管理用户包括系统测试人员用户以及文档人员用户。

账户设置模块,用于用户对自己的个人信息进行填写设置。

会员购买模块,用于普通用户购买会员。

设置模块,用于用户进行密码修改和问题反馈。

招标信息搜索模块,用于用户进行招标信息搜索查看。

招标信息查看模块,用于对不同类型的招标信息进行查看、关注和订阅。

信息验证模块,用于文档人员用户查看总服务器发送的招标信息和中标信息进行核对。

二、总服务器

数据库,数据库内存储有信息抓取子服务器抓取的父节点网页。

用户分类限定模块,用于对注册的不同用户进行权限划分,普通用户购买会员后能进行访问信息阅读,文档人员用户不仅能对访问信息进行阅读,还能对访问信息进行编写,系统测试人员用户可以进行信息阅读、编写及软件测试。

本实施例中的分配模型生成子系统位于总服务器中,分配模型生成子系统包括子服务器分配模块,子服务器分配模块用于生成信息抓取子服务器的分配准则,并根据分配准则分配不同信息抓取子服务器按照分配规律执行信息抓取指令。分配准则生成时,首先获取企业网站上网站信息的更新时间,然后对每一个企业网站上网络信息更新时间进行先后排序,同时根据每一个企业网站平均每天的访问人数进行排序,若多个企业网站上网络信息更新时间相同,则优先对平均每天访问人数多的企业网站优先执行信息抓取指令,若每一个企业网站更新网络信息时间不同,则按照企业网站更新时间的先后顺序执行信息抓取指令,且每一台信息抓取子服务器将被按照执行信息抓取指令时间依次被安排执行。

抽取验证模块用于接收关键字值判断模块中标信息或招标信息,然后随机抽取预设数量的招标信息和中标信息发送给文档人员用户对应的用户终端。

三、信息抓取子服务器

信息抓取模块,用于按照总服务器的分配进行网站招标中标信息的抓取,进行网站信息的抓取时,加载招标中标html页面信息,然后自动根据“招标”、“中标”等关键字获取相关信息所在网页中的位置节点网页,之后根据获取的位置节点查找该关键字共有的最近父节点网页。若没有查找到关键字共有的最近父节点网页,如获取的最初获取的节点网页已经是首页,则不再获取最近父节点网页,将最初获取的节点网页作为父节点网页执行。

关键字值判断模块,用于判断信息抓取模块抓取的父节点网页是否已经存储到数据库中,若已经存储到数据库中,则获取该父节点网页对应的招标信息或中标信息,若该父节点网页在数据库中并没有存储,则判断该父节点网页内内容排布规律是竖向排布还是横向排布,若判断结果为横向排布,则横向获取该父节点网页对应的招标信息或中标信息,若判断结果为纵向排布,则纵向获取该父节点网页对应的招标信息或中标信息。另外,关键字判断模块在获取招标信息或中标信息后将其信息发送给总服务器。

针对上述招投标相关网页页面信息提取系统,本方案还公开了一种招投标相关网页页面信息提取方法,其实施流程如下:

s1:自动根据招标和中标相关的关键字获取相关信息所在网页中的位置节点网页;

s2:根据获取的位置节点网页寻找该关键词共有的父节点网页;

s3:判断获取的父节点网页是否已经被获取,若父节点网页没有被获取过,则将判断该父节点网页内容排布方式后根据其排布方式进行信息爬取;

s4:对爬取的招标信息和中标信息进行存储显示。

其中,在步骤s1-s4中,招标信息和中标信息的抓取是通过总服务器按照分配准则分配对应的信息抓取子服务器完成的。分配准则生成时,首先获取企业网站上网站信息的更新时间,然后对每一个企业网站上网络信息更新时间进行先后排序,同时根据每一个企业网站平均每天的访问人数进行排序,若多个企业网站上网络信息更新时间相同,则优先对平均每天访问人数多的企业网站优先执行信息抓取指令,若每一个企业网站更新网络信息时间不同,则按照企业网站更新时间的先后顺序执行信息抓取指令,且每一台信息抓取子服务器将被按照执行信息抓取指令时间依次被安排执行。在步骤s3中,进行招标信息和中标信息爬取后,将随机抽取爬取的招标信息和中标信息进行正误验证。

实施例二

实施例二与实施例一的区别在于,实施例二中分配模型生成子系统包括:用户终端、管理终端和总服务器。用户终端和管理终端均和总服务器通过现有的wifi模块进行网络通信,用户终端和管理终端均可以选用现有的手机或电脑。分配模型生成子系统和信息管理子系统两者所使用的用户终端为同一设备,且两者使用的总服务器为同一设备。

一、用户终端

用户终端包括:

关注需求填写模块,用于用户输入自己关注的信息集,并将用户输入的信息集发送给总服务器。信息集包括用户想要关注和订阅的企业名称以及关注的信息内容关键词。

二、总服务器

总服务器包括:

数据库,用于存储总服务器生成和接收到的所有数据,并针对每一个用户建立了一个用户信息存储模块。

企业网站访问人数获取模块,用于从各个企业网站上获取该企业网站最近一年中的总访问人数,然后根据对应企业网站的近一年中的总访问人数计算其日均访问人数,之后根据每一家企业日均访问人数进行先后排序,生成企业网站日均访问人数信息单。企业网站日均访问人数信息单包括企业名称以及对应企业的日均访问人数,日均访问人数多的企业网站排在前,日均访问人数少的企业网站排在后。

企业网站访问人数记录模块,用于获取记录每家企业网站每一天中每一个小时内其访问人数量,然后分别对每家企业网站每一天每一小时的访问人数生成随时间变化的折线图,然后分析每一家企业网站每一天访问人数高峰期到访问人数低谷期变化规律,然后判断同一家企业网站不同日期其访问人数高峰期到访问人数低谷期变化规律是否一致,若一致则生成该企业网站对应的日访问时间记录信息,若同一家企业网站不同日期其访问人数高峰期到访问人数低谷期变化规律不一致,则以周为单位分析对应企业网站周一到周日之间其不同日期访问人数高峰期到访问人数低谷期变化规律,并生成周访问时间记录信息。日访问时间记录信息包括往常一天中的企业网站访问人数高峰期和低谷期信息,周访问时间记录信息包括一周中每天访问人数变化信息、每天企业网站访问人数高峰期和低谷期信息、一周中周一至周日其访问人数变化规律信息以及访问人数高峰期和低谷期变化规律信息。

企业网站信息公布时间获取模块,用于获取企业网站每天更新信息时间,同时通过“招标”和“中标”等关键词寻找对应企业网站公布的网页信息,然后根据“公布时间”或“公开时间”等关键词爬取其中标公开时间,之后生成企业信息更新时间信息。本方案中的企业信息更新时间信息包括企业网站每天更新信息时间和中标公开信息时间。企业网站信息公布时间获取模块还用于根据不同企业网站每天更新信息时间在以天为单位的时间轴上进行标注,将同一时间更新信息的企业网站标注在同一个时间点,中标公开时间则标注在日历上,然后将标注的每天更新信息时间和中标公开时间生成时间信息记录表。

用户信息查阅规律获取模块,用于获取用户查看信息规律记录表。获取用户查看信息规律记录表时,先获取每一个用户每天从登录注册模块登陆查看信息的时间以及查看对应内容的时间,然后针对每一个用户生成一个用户查看信息规律记录表,每一个用户的用户查看信息规律表均包括:每日登录时间规律(或称用户习惯登录时间,包括用户每天首次登录系统时间规律、用户每天二次登录系统时间规律以及用户每天第三次登录系统时间规律)、查看内容、查看每一个企业内容对应时间以及查看企业内容的先后排序。

分配模型生成模块,用于根据企业网站日均访问人数信息单、日访问时间记录信息、周访问时间记录信息、时间信息记录表和用户查看信息规律表生成分配模型,并按照分配模型分配对应的信息抓取子服务器执行信息爬取指令。

分配模型生成时,根据企业信息更新时间信息将用户关注的所有企业网站进行三种类型的划分。第一种类型为企业网站每天更新信息时间在用户每天首次登录系统时间前,该企业网站信息爬取时间便是该企业网站每天更新信息时间到用户每天首次登录系统时间期间;第二种类型为企业网站每天更新信息时间在用户每天首次登录系统时间和用户每天二次登录系统时间之间,该企业网站信息爬取时间便是该企业网站每天更新信息时间和用户每天二次登录系统时间期间;第三种类型为企业网站每天更新信息时间在用户每天二次登录系统时间和用户每天第三次登录系统时间,该企业网站信息爬取时间便是该企业网站每天更新信息时间和用户每天第三次登录系统时间期间。

对于属于相同类型的企业网站,按照用户查看企业内容的先后排序依次对比用户每日登录时间和其用户关注且常常浏览的企业网站(用户信息集中填写的企业名称以及用户查看信息规律表中记录的查看内容对应的企业网站)对应的日访问时间记录信息或周访问时间记录信息,并确认在企业网站每天更新信息时间(包括中标公开信息时间当天对应的企业网站每天更新信息时间)到用户每日登录时间之间的访问人数低谷期(称为最佳信息爬取时间),并在该最佳信息爬取时间内安排对应的信息抓取子服务器进行招标信息和中标信息的爬取。

若用户关注的多家企业网站最佳信息爬取时间预算相同,且多家企业网站对应的企业网站日均访问人数信息单获取的日均访问人数均相同,则按照用户查看企业内容的先后排序依次安排空闲的信息抓取子服务器进行爬取;若用户关注的多家企业网站最佳信息爬取时间预算相同,且多家企业网站对应的企业网站日均访问人数信息单获取的日均访问人数不同,则从企业网站日均访问人数信息单中企业网站先后排序顺序(访问人数多的排在前)以及用户查看企业内容的先后排序(用户先看的企业排在前)两个排序序列中优先安排爬取用户查看企业内容排在最前的一个企业网站,然后安排爬取企业网站日均访问人数信息单中企业网站排在前的企业网站,之后再安排爬取用户查看企业内容排在第二位的企业网站,然后安排爬取企业网站日均访问人数信息单中企业网站排在第二的企业网站,以此类推(由于同一家企业网站会在两个排序序列中均有,一旦一个企业网站已经被爬取,其在两个排序序列中的排序位置便失效,之后的爬取便不会再考虑该企业网站)。比如:同一个用户关注的a、b、c、d四个企业网站其最佳信息爬取时间在同一时间段,其在企业网站日均访问人数信息单中排列顺序为a-b-c-d;在用户查看信息规律表中四个企业网站的排列顺序为c-a-d-e,则优先安排c企业对应的企业网站信息爬取,然后是安排a企业对应的企业网站,之后安排d企业对应的企业网站,最后安排b企业对应的企业网站。

另外,若用户有一天登录系统时间和用户查看信息规律表中记录的并一样,比如往常用户每天首次登录系统时间比较晚,而有一天突然迫切的想要知道一个企业公开的招标信息或中标信息,所以这天用户首次登录系统的时间较往常都要早很多,而这时按照步骤一和步骤二的规则,即使企业网站更新信息时间在该用户首次登录系统以前,但由于企业更新信息时间到往常用户每天首次登录系统时间期间步骤二中确定出的访问人数低谷期并不在企业更新信息时间到该天用户首次登录系统时间之间,则会导致该用户关注且常常浏览的企业网站中公布的招标信息或中标信息便还没有进行爬取,这时,一旦用户当天首次登录系统时间在往常的用户每天首次登录系统时间之前,则根据该用户往常的用户首次登录系统时间与用户往常查看第一个企业网站上爬取的招标信息或中标信息时间之间的时间差值,同时获取该用户当天首次登录系统时间并从用户当天首次登录系统时间开始安排信息抓取子服务器从对应企业网站上爬取对应的招标信息或中标信息,即时间差值内一段时间是获取企业网站招标信息和中标信息的时间。获取招标信息或中标信息时,根据该用户的用户查看信息记录表中的查看企业内容的先后排序对应对每一个企业网站信息爬取时间进行排序,即往常用户先查看的企业网站上爬取的信息在该次爬取中也是优先分配信息抓取子服务器进行信息爬取。

三、信息抓取子服务器

信息抓取子服务器包括:

信息爬取模块,用于接收总服务器发送的信息爬取指令,然后在接收到该指令后到对应企业网站上进行招标信息或中标信息的爬取工作。

另外,针对上述分配模型生成子系统,本实施例还提供了一种招分配模型生成方法,该方法在本实施例中将以举例的方式进行说明,假设用户输入的信息集中表示自己想要关注甲公司和乙公司的招标信息,甲公司对应的企业网站每天早上九点进行信息的更新,每天均早上九点到十点这一个小时内访问人数最多,之后的时间段访问人数逐渐减小;乙公司对应的企业每天上午八点进行信息的更新,但每天上午八点到九点之间访问人数较少,九点到十一点之间访问人数均较多,其余时间访问人数一致。且甲公司的企业网站日均访问量多于乙公司,该用户习惯每天上午十一点查看是否有招标信息更新,之后便不再查看,每次查看时先查看甲公司对应招标信息再查看乙公司对应招标信息。

其具体实施步骤如下:

s1:用户填写信息集,该信息集包括填写的想要关注公司为甲公司和乙公司。

s2:总服务器获取该根据信息集获取甲公司和乙公司对应企业网站日均访问人数信息单、日访问时间记录信息以及企业信息更新时间信息。其中,获取的企业网站日均访问人数信息单中甲公司排在前,乙公司排在后;在从甲公司对应企业网站获取的日访问时间记录信息中记录了每天均早上九点到十点这一个小时内访问人数最多,之后的时间段访问人数逐渐减小的相关信息,而从乙公司对应企业网站上获取的日访问时间记录信息中记录了上午八点到九点之间访问人数较少,九点到十一点之间访问人数均较多,其余时间访问人数一致的相关信息。

s3:总服务器每天在甲公司和乙公司对应企业网站进行信息更新同时进行招标信息相关内容爬取。这样不管用户在哪个时间段查看,只要企业网站更新了信息,并信息爬取成功,用户便能够查看到对应的爬取信息。

s4:总服务器获取该用户每天登录信系统并查看信息的时间,生成用户查看信息规律表。且用户查看信息规律表中记录了用户每天首次登录系统时间为上午十一点。

s5:总服务器根据企业网站日均访问人数信息单、日访问时间记录信息、时间信息记录表和用户查看信息规律表生成分配模型。分配模型生成时,首先判断这两个企业网站属于三种类型中的哪一种,由于两家企业网站每天信息更新时间均在用户每天首次登录系统时间前,所以两家企业网站判断结果均为第一种类型。其次判断两家企业的最佳信息爬取时间,判断结果为甲公司最佳访问时间为上午十点到十一点之间,乙公司最佳访问时间为上午八点到九点之间,两家企业的最佳信息爬取时间并不相同,则分别安排信息抓取子服务器在两家企业对应的最佳信息爬取时间范围内进行信息爬取。

实施例三

实施例三与实施例二的区别在于,实施例二中总服务器还包括:

信息管理模块,用于从每一个用户的信息集中标记关注的企业名称以及用户访问爬取信息来源的对应企业名称(即企业网站上记录的该企业名称),然后统计所有注册用户中有多少个用户关注、订阅或查阅过该企业网站上爬取的信息,并生成用户关注信息记录表。

爬取信息调整模块,用于获取所有用户查看信息规律表中记录的用户每天首次登录系统时间,并进行先后排序后生成用户登录时间排布表,然后根据用户登录时间排布表以及用户关注信息记录表判断哪一个用户每天首次登录系统时间是最接近该企业网站每天更新时间,且该用户每天首次登录系统时间在该企业网站每天更新时间后,称这样的用户为该企业的接近用户,则该企业网站信息爬取的工作便是根据该接近用户对应的用户查看信息规律表中记录的信息执行分配模型,并在获取该企业网站对应的招标信息或中标信息后将不再对该企业网站进行同样信息的爬取,即该企业公布的招标信息或中标信息将在该企业网站更新信息时间和其接近用户每天首次登录系统时间期间进行爬取。

实施例三与实施例二相比,实施例三中避免了不同用户关注相同企业网站公布的招标信息和中标信息时,无需针对每一个用户重复进行同一个企业网站招标信息和中标信息的爬取。

以上所述的仅是本发明的实施例,方案中公知的具体结构及特性等常识在此未作过多描述,所属领域普通技术人员知晓申请日或者优先权日之前发明所属技术领域所有的普通技术知识,能够获知该领域中所有的现有技术,并且具有应用该日期之前常规实验手段的能力,所属领域普通技术人员可以在本申请给出的启示下,结合自身能力完善并实施本方案,一些典型的公知结构或者公知方法不应当成为所属领域普通技术人员实施本申请的障碍。应当指出,对于本领域的技术人员来说,在不脱离本发明结构的前提下,还可以作出若干变形和改进,这些也应该视为本发明的保护范围,这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准,说明书中的具体实施方式等记载可以用于解释权利要求的内容。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1