一种用于房库网的网络爬虫服务系统的制作方法

文档序号:6620838阅读:154来源:国知局
一种用于房库网的网络爬虫服务系统的制作方法
【专利摘要】本发明提出了一种用于房库网的网络爬虫服务系统,可快速的进行网站挖掘并提取房产相关的数据,包括:网站爬虫模块,由多个网站爬虫组成,网站爬虫与网站一一对应,并针对网站的页面元素进行解析,网站爬虫抽取网站数据进行语义分析并映射到预设的数据实体当中进行保存;监控服务模块,用于监控各个网站爬虫的工作情况,判断网站爬虫工作是否正常,数据抓取是否正确;管理服务模块,用于配置网站爬虫工作相关参数的设置,对网站爬虫进行升级,并对服务系统的启动与停止、网站爬虫的生命周期及工作进行管理;部署服务模块,用于对网站爬虫进行分配与部署;调度服务模块,内置网络爬虫的调度模式,对网站爬虫的工作方式、时间、停止进行调度管理。
【专利说明】—种用于房库网的网络爬虫服务系统

【技术领域】
[0001]本发明涉及网站数据挖掘【技术领域】,尤其涉及一种用于房库网的网络爬虫服务系统。

【背景技术】
[0002]房地产行业直接关系民生根本。当前居住市场将进入存量房时代,而许多存量房的房主并不是专业销售人员,提供的出售信息不够全面。同时目前政府部门的房屋的档案管理仍停留在纸质阶段,各种有关居住和房产方面的数据分散于各个单位和部门,这样既给相关部门对人居和房产的管理带来不便,同时各种有效数据也得不到充分的利用。百姓选择住房,企业选择办公场所将面临严重缺乏专业详尽的信息服务。
[0003]在社会大环境下,推进房产信息化,便于购房者查询信息,促进房产交易的完成,意义重大。房产信息化,需要建立收容房产相关“万方数据”的大型数据库。而建立数据库的基础就是数据挖掘,但是在进入信息高速传播、垃圾信息满天飞的今天,如何快速并有效的进行网站数据挖掘,一直是热门话题,也一直没有找到理想有效的解决手段。


【发明内容】

[0004]基于【背景技术】存在的问题,本发明提出了一种用于房库网的网络爬虫服务系统,可快速的进行网站挖掘并有效提取房产相关的数据。
[0005]本发明提出的一种用于房库网的网络爬虫服务系统,其特征在于,包括:
[0006]网站爬虫模块,由多个网站爬虫组成,网站爬虫与网站--对应,并针对网站的页面元素进行解析,网站爬虫抽取网站数据进行语义分析并映射到预设的数据实体当中进行保存;
[0007]监控服务模块,用于监控各个网站爬虫的工作情况,判断网站爬虫工作是否正常,数据抓取是否正确;
[0008]管理服务模块,用于配置网站爬虫工作相关参数的设置,对网站爬虫进行升级,并对服务系统的启动与停止、网站爬虫的生命周期及工作进行管理;
[0009]部署服务模块,用于对网站爬虫进行分配与部署;
[0010]调度服务模块,内置网络爬虫的调度模式,对网站爬虫的工作方式、时间、停止进行调度管理;
[0011]网站爬虫模块分别连接监控服务模块、管理服务模块、部署服务模块和调度服务模块,监控服务模块分别连接管理服务模块,管理服务模块分别连接部署服务模块和调度服务模块;
[0012]工作时,调度服务模块对网站爬虫的工作方式、时间、停止进行调度管理,部署服务模块从网站爬虫模块调用网站爬虫对相应的网站进行数据挖掘,监控服务模块监控网站爬虫的工作情况,当个别网站爬虫工作异常时,监控服务模块通知管理服务模块对异常的网站爬虫进行参数及工作方式调节,当异常网站爬虫达到或超过门限值a时,监控服务模块通知管理服务模块停止系统抓取网站数据,然后,管理服务模块通知调度服务模块和部署服务模块重新对网站爬虫进行调度和部署后再次进行网站数据挖掘,并由监控服务模块进行监控,循环往复。
[0013]优选地,门限值a为异常网站爬虫与分布出去的总网站爬虫的比值。
[0014]优选地,a的取值范围为[0.1,I]。
[0015]优选地,a= 0.5。
[0016]优选地,a为异常网站爬虫的数量。
[0017]优选地,a的取值范围为[100,10000]。
[0018]优选地,a的取值与分布出去的网站爬虫数量成正比。
[0019]优选地,a的取值可由人工设置或由系统自动生成。
[0020]优选地,网站爬虫均为聚焦爬虫。
[0021 ] 本发明中,通过与网站一一对应的网站爬虫进行数据挖掘,工作速率高,同时挖掘到的数据通过语义分析并与预设的数据实体进行映射后存储,该手段可有效删除无关信息及重复信息,提升存储数据的价值,同时也减少所占存储空间。本发明中,对网站爬虫的管理十分便捷且人性化,既可以自动监控调节,也可以进行人工调控,保证网站数据挖掘的实时性、有效性以及精确性。

【专利附图】

【附图说明】
[0022]图1为本发明提出的一种用于房库网的网络爬虫服务系统的结构图。

【具体实施方式】
[0023]参照图1,本发明提出的一种用于房库网的网络爬虫服务系统,包括:网站爬虫模块、监控服务模块、管理服务模块、部署服务模块和调度服务模块。网站爬虫模块分别连接监控服务模块、管理服务模块、部署服务模块和调度服务模块,监控服务模块连接管理服务模块,管理服务模块分别连接部署服务模块和调度服务模块。
[0024]网站爬虫模块,由多个网站爬虫组成,网站爬虫与网站--对应,并针对网站的页面元素进行解析,网站爬虫抽取网站数据进行语义分析并映射到预设的数据实体当中进行保存。本实施方式,通过与网站--对应的网站爬虫进行数据挖掘,工作速率高,同时挖掘到的数据通过语义分析并与预设的数据实体进行映射后存储,该手段可有效删除无关信息及重复信息,提升存储数据的价值,同时也减少所占存储空间。网站爬虫均为聚焦爬虫,仅仅挖掘与房产相关的信息。
[0025]监控服务模块,用于监控各个网站爬虫的工作情况,判断网站爬虫工作是否正常,数据抓取是否正确,以便运维与开发人员及时了解网站爬虫的工作状态,进行调整。
[0026]管理服务模块,用于配置网站爬虫工作相关参数的设置,对网站爬虫进行升级,并对服务系统的启动与停止、网站爬虫的生命周期及工作进行管理。网站爬虫是该系统中最需要实时更新的部分,如果被抓取网站的页面元素与认证模式等发生变化,那么对应的网站爬虫就要进行相应的升级改造,以保证抓取内容的准确性。运维与开发人员可根据监控服务模块的监控结果通过管理服务模块及时进行网站爬虫的升级,保证网站爬虫的实时有效性。
[0027]部署服务模块,用于对网站爬虫进行分配与部署,使得每一个网站爬虫负责且仅负责一个对应网站数据的抓取,提高数据挖掘效率,避免重复。部署服务模块就是为了提升网站爬虫的部署方便性而准备的’开发人员升级了网站爬虫组件后可以方便快捷地进行部署。
[0028]调度服务模块,内置网络爬虫的调度模式,对网站爬虫的工作方式、时间、停止进行调度管理,该模块可用于快速、批量地调节网站爬虫,提高网站爬虫的设置效率,减少空白时间,防止数据遗漏,提高网站数据挖掘的完整度。
[0029]本系统工作时,调度服务模块对网站爬虫的工作方式、时间、停止进行调度管理,部署服务模块从网站爬虫模块调用网站爬虫对相应的网站进行数据挖掘,监控服务模块监控网站爬虫的工作情况,当个别网站爬虫工作异常时,监控服务模块通知管理服务模块对异常的网站爬虫进行参数及工作方式调节,当异常网站爬虫达到或超过门限值a时,监控服务模块通知管理服务模块停止系统抓取网站数据,然后,管理服务模块通知调度服务模块和部署服务模块重新对网站爬虫进行调度和部署后再次进行网站数据挖掘,并由监控服务模块进行监控,循环往复。
[0030]本系统中,门限值a为异常网站爬虫与分布出去的总网站爬虫的比值,且a = 0.5,即当a〈0.5时,利用管理服务模块调整异常网站爬虫,当a>0.5时,利用部署服务模块和调度服务模块调整异常网站爬虫。具体实施时,a的取值范围可设为[0.1,I]。
[0031]具体实施时,a也可以为异常网站爬虫的数量,a的取值与分布出去的网站爬虫数量成正比,即分布出去进行数据挖掘的网站爬虫越多,a的取值越大,具体可设a的取值范围为[100,10000],异常网站爬虫的数量小于100时,管理服务模块自行处理还不至于负荷过大,异常网站爬虫的数量超过10000时,已经超过管理服务模块的负荷范围,启用部署服务模块和调度服务模块更加快捷,可缩小数据挖掘的空白时间段。
[0032]a的取值可由人工设置或由系统自动生成,人工设置可提高其精确性,系统自动生成实时性更好。
[0033]以上所述,仅为本发明较佳的【具体实施方式】,但本发明的保护范围并不局限于此,任何熟悉本【技术领域】的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
【权利要求】
1.一种用于房库网的网络爬虫服务系统,其特征在于,包括: 网站爬虫模块,由多个网站爬虫组成,网站爬虫与网站一一对应,并针对网站的页面元素进行解析,网站爬虫抽取网站数据进行语义分析并映射到预设的数据实体当中进行保存; 监控服务模块,用于监控各个网站爬虫的工作情况,判断网站爬虫工作是否正常,数据抓取是否正确; 管理服务模块,用于配置网站爬虫工作相关参数的设置,对网站爬虫进行升级,并对服务系统的启动与停止、网站爬虫的生命周期及工作进行管理; 部署服务模块,用于对网站爬虫进行分配与部署; 调度服务模块,内置网络爬虫的调度模式,对网站爬虫的工作方式、时间、停止进行调度管理; 网站爬虫模块分别连接连接监控服务模块、管理服务模块、部署服务模块和调度服务模块,监控服务模块连接管理服务模块,管理服务模块分别连接部署服务模块和调度服务模块; 工作时,调度服务模块对网站爬虫的工作方式、时间、停止进行调度管理,部署服务模块从网站爬虫模块调用网站爬虫对相应的网站进行数据挖掘,监控服务模块监控网站爬虫的工作情况,当个别网站爬虫工作异常时,监控服务模块通知管理服务模块对异常的网站爬虫进行参数及工作方式调节,当异常网站爬虫达到或超过门限值a时,监控服务模块通知管理服务模块停止系统抓取网站数据,然后,管理服务模块通知调度服务模块和部署服务模块重新对网站爬虫进行调度和部署后再次进行网站数据挖掘,并由监控服务模块进行监控,循环往复。
2.如权利要求1所述的用于房库网的网络爬虫服务系统,其特征在于,门限值a为异常网站爬虫与分布出去的总网站爬虫的比值。
3.如权利要求2所述的用于房库网的网络爬虫服务系统,其特征在于,a的取值范围为[0.1, I]。
4.如权利要求3所述的用于房库网的网络爬虫服务系统,其特征在于,a= 0.5。
5.如权利要求1所述的用于房库网的网络爬虫服务系统,其特征在于,a为异常网站爬虫的数量。
6.如权利要求5所述的用于房库网的网络爬虫服务系统,其特征在于,a的取值范围为[100,10000]。
7.如权利要求6所述的用于房库网的网络爬虫服务系统,其特征在于,a的取值与分布出去的网站爬虫数量成正比。
8.如权利要求1至7任一项所述的用于房库网的网络爬虫服务系统,其特征在于,a的取值可由人工设置或由系统自动生成。
9.如权利要求1所述的用于房库网的网络爬虫服务系统,其特征在于,网站爬虫均为聚焦爬虫。
【文档编号】G06F17/30GK104182462SQ201410347463
【公开日】2014年12月3日 申请日期:2014年7月21日 优先权日:2014年7月21日
【发明者】贾岩 申请人:安徽华贞信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1