酒店数据的处理系统及方法

文档序号:8457732阅读:727来源:国知局
酒店数据的处理系统及方法
【技术领域】
[0001]本发明涉及一种酒店数据的处理系统及方法,特别是涉及一种能够自动对在线旅游网站的酒店的价格数据进行比较和处理的酒店数据的处理系统以及一种利用所述酒店数据的处理系统实现的酒店数据的处理方法。
【背景技术】
[0002]现有的在线旅游网站对酒店的市场价格分析是通过少量抽样人工比对来实现的,通常都是由业务部门人工维护一个价格比对清单,通过单机爬虫系统获取清单中的酒店的市场价格数据,但是由于受到客户端数的限制,无法在网络中获取到海量数据,只能获取抽样数据,导致数据非常少,比对效率低下,覆盖面小,数据更新频率低。并且,获取到的数据都是通过线下人工导入到BI (商业智能软件)系统,导致很容易出现错误,时效性也不高,同时,由于不同网站各自录入的酒店的名称、价格等信息很可能不一致,就导致现有技术中在对市场价格进行分析的时候酒店和酒店的匹配、房型和房型的匹配等的数据经常不准确,匹配结果也很可能出现偏差。

【发明内容】

[0003]本发明要解决的技术问题是为了克服现有技术中对酒店的市场价格分析是通过少量抽样人工比对来实现的,导致比对效率低下、结果很容易出现偏差的缺陷,提供一种能够自动对在线旅游网站的酒店的价格数据进行比较和处理的酒店数据的处理系统以及一种利用所述酒店数据的处理系统实现的酒店数据的处理方法。
[0004]本发明是通过下述技术方案来解决上述技术问题的:
[0005]本发明提供了一种酒店数据的处理系统,其特点在于,所述处理系统包括:
[0006]一分布式爬虫系统,用于发送爬虫任务以采用分布式的爬取方式定期从网络中抓取至少一个目标酒店的数据,每个目标酒店的数据均包括所述目标酒店的名称、房型以及每个房型的价格;
[0007]—目标数据库,用于定期存储所述分布式爬虫系统抓取的所述至少一个目标酒店的数据,并定期对每个目标酒店的数据进行MD5 (消息摘要算法第五版)加密以生成相匹配的MD5消息摘要;
[0008]一判断模块,用于对由最新抓取的目标酒店的数据生成的MD5消息摘要进行MD5校验,以判断所述最新抓取的目标酒店的数据是否存储于所述目标数据库中,若否,则将所述最新抓取的目标酒店的数据存储于所述目标数据库中,若是,则判断所述最新抓取的目标酒店的数据是否发生变化,并在发生变化时将所述最新抓取的目标酒店的数据更新至所述目标数据库中;
[0009]一源数据库,用于存储至少一个源酒店的数据,每个源酒店的数据包括所述源酒店的名称、房型以及每个房型的价格;
[0010]一匹配模块,用于对所述目标数据库中存储的目标酒店的名称及房型与所述源数据库中存储的源酒店的名称及房型进行匹配,并输出匹配结果;
[0011]一价格比较模块,用于对所述匹配模块匹配成功的目标酒店及源酒店的同一房型的价格进行比较,并输出比较结果。
[0012]较佳地,所述处理系统还包括一报警模块,用于在所述价格比较模块比较出所述目标酒店及源酒店的同一房型的价格差超过一阈值时进行报警。
[0013]较佳地,所述处理系统还包括一价格调整模块,用于在所述报警模块报警后对所述源酒店的房型的价格进行调整。
[0014]较佳地,所述匹配模块采用漏斗式匹配机制进行匹配,所述漏斗式匹配机制依次包括三层匹配方式,第一层匹配方式为对所述目标酒店的名称的字符与所述源酒店的名称的字符进行匹配,第二层匹配方式为对所述目标酒店及所述源酒店的业务逻辑进行匹配,所述业务逻辑包括对酒店的房型的命名,第三层匹配方式为对酒店的房型的价格区间进行匹配。
[0015]本发明的目的在于还提供了一种酒店数据的处理方法,其特点在于,其利用上述的处理系统实现,所述处理方法包括以下步骤:
[0016]S1、在一源数据库中存储至少一个源酒店的数据,每个源酒店的数据包括所述源酒店的名称、房型以及每个房型的价格;
[0017]S2、调用所述分布式爬虫系统发送爬虫任务以采用分布式的爬取方式定期从网络中抓取至少一个目标酒店的数据,每个目标酒店的数据均包括所述目标酒店的名称、房型以及每个房型的价格;
[0018]S3、将所述分布式爬虫系统抓取的所述至少一个目标酒店的数据定期存储至所述目标数据库中,并定期对每个目标酒店的数据进行MD5加密以生成相匹配的MD5消息摘要;
[0019]S4、调用所述判断模块对由最新抓取的目标酒店的数据生成的MD5消息摘要进行MD5校验,以判断所述最新抓取的目标酒店的数据是否存储于所述目标数据库中,若是,则将所述最新抓取的目标酒店的数据存储于所述目标数据库中,若是,则判断所述最新抓取的目标酒店的数据是否发生变化,并在发生变化时将所述最新抓取的目标酒店的数据更新至所述目标数据库中;
[0020]S5、调用所述匹配模块对所述目标数据库中存储的目标酒店的名称及房型与所述源数据库中存储的源酒店的名称及房型进行匹配,并输出匹配结果;
[0021]S6、调用所述价格比较模块对所述匹配模块匹配成功的目标酒店及源酒店的同一房型的价格进行比较,并输出比较结果。
[0022]较佳地,所述处理系统还包括一报警模块,所述处理方法还包括一报警步骤:在步骤S6中比较出所述目标酒店及源酒店的同一房型的价格差超过一阈值时调用所述报警模块进行报警。
[0023]较佳地,所述处理系统还包括一价格调整模块,所述处理方法还包括一价格调整步骤:在所述报警模块报警后调用所述价格调整模块对所述源酒店的房型的价格进行调難
iF.0
[0024]较佳地,步骤S5中采用漏斗式匹配机制进行匹配,所述漏斗式匹配机制依次包括三层匹配方式,第一层匹配方式为对所述目标酒店的名称的字符与所述源酒店的名称的字符进行匹配,第二层匹配方式为对所述目标酒店及所述源酒店的业务逻辑进行匹配,所述业务逻辑包括对酒店的房型的命名,第三层匹配方式为对酒店的房型的价格区间进行匹配。
[0025]本发明的积极进步效果在于:本发明能够高效、自动地获取海量的市场上的酒店价格数据,并与数据库中自有的数据进行匹配和分析,并在自动匹配结果的基础上,获取业务部门可用的市场上的酒店、房型以及价格之间的匹配关系,并能够根据匹配关系以及对价格的比对结果,帮助业务部门进行价格决策。本发明还具有以下的优点:分布式爬虫系统的爬虫部署能力强,支持水平扩展;统一的调度策略,快速的任务响应和分解;高效读写,支持海量数据的去重存储;快速的数据匹配,能在获取数据之后的最短时间内得到比较结果;自动化的预警,能对系统和数据进行监控。
【附图说明】
[0026]图1为本发明的一较佳实施例的酒店数据的处理系统的结构示意图。
[0027]图2为本发明的一较佳实施例的酒店数据的处理方法的流程图。
【具体实施方式】
[0028]下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
[0029]如图1所示,本发明的酒店数据的处理系统包括一分布式爬虫系统1、一目标数据库2、一判断模块3、一源数据库4、一匹配模块5、一价格比较模块6、一报警模块7以及一价格调整模块8。
[0030]所述分布式爬虫系统I会向多个客户端发送爬虫任务,以控制多个客户端采用分布式的爬取方式定期从网络中抓取至少一个目标酒店的数据,其中每个目标酒店的数据均包括静态数据和动态数据,静态数据包括目标酒店的名称、地址、联系电话以及目标酒店的房型等,这些数据基本不会发生变化,动态数据则包括每个房型的价格,这类数据可能会随着时间的变化而发生变化。在本发明中,通过采用所述分布式爬虫系统1,有效地防止了在获取数据时出现瓶颈,提高了酒店的价格数据更新的时效性,还可以通过增加客户端做快速部署,支持水平扩展。
[0031]所述目标数据库2会按照时间先后顺序从所述分布式爬虫系统I中获取抓取到的所述至少一个目标酒店的数据,并在其中定期对每个目标酒店的数据进行MD5加密,以生成相匹配的带有MD5标签的MD5消息摘要。
[0032]所述判断模块3会对由所述分布式爬虫系统I最新抓取的目标酒店的数据所生成的MD5消息摘要进行MD5校验,以判断所述最新抓取的目标酒店的数据是否已存储于所述目标数据库2中,具体地,通过判断所述目标数据库2中是否具有相同MD5标签的MD5消息摘要。
[0033]若没有,则说明所述目标数据库2中还不具有所述最新抓取到的目标酒店的数据,此时,可以将其存储于所述目标数据库2中;若有,则所述判断模块3会继续判断所述最新抓取到的目标酒店的数据是否发生变化,具体可以判断MD5消息摘要的内容是否发生变化,若内容并未发生变化,而只是其中的时间戳发生变化,则说明数据没有变化,此时可以将最新的时间戳更新至所述目标数据库2中,若内容已经发生变化,则将变化后的最新的目标酒店的数据更新至所述目标数据库2中,以覆盖变化前的数据。
[0034]在本发明的所述源数据库4中则存储有至少一个源酒店的数据,每个源酒店的数据同样包括静态数据和
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1