一种开放式的旅游多源异构数据融合方法及系统的制作方法

文档序号:8935007阅读:545来源:国知局
一种开放式的旅游多源异构数据融合方法及系统的制作方法
【技术领域】
[0001]本发明涉及智慧旅游领域领域,具体地,涉及一种开放式的旅游多源异构数据融合方法及系统。
【背景技术】
[0002]旅游业是一个信息密集型产业,也是一个综合性极强、信息依存度极高的产业,信息的有效汇聚、传递和流通是其生命力的源泉。然而,旅游信息数据涉及“吃、住、行、游、购、娱”等多个方面,跨行业、跨部门、跨区域、跨平台、跨网络的特性比较明显,加之近年来在线旅游的兴起以及旅游信息化建设的不断推进,使得旅游信息数据呈现快速、几何级的增长。由于各级旅游主管部门及各涉旅企业的旅游信息化发展水平不同,以及旅游信息化信息数据标准、规范建设相对滞后,导致旅游信息数据的分类、编目及存储格式多样,极不利于数据汇总;旅游信息数据的更新周期长,实时性不强,导致数据的分析时效性不强;涉旅各部门间的信息分割严重,隶属于不同的主管部门,导致互通共享较为困难。
[0003]智慧旅游建设的不断深入发展及游客对于旅游信息需求的不断提升,要求旅游信息数据要尽快克服以上困难,实现快速、准确的数据采集,高效、实用的数据分析,全面、便捷的数据共享。当前一些旅游信息数据融合的方法及系统或多或少存在着以下一些问题:一是数据融合的信息一般只关注于本行业,跨行业的多源数据融合不多;二是结构化数据融合较多,而非结构化的、异构数据融合的不多;三是数据融合的开放性不强,对于新的数据源接入过程较为复杂。因此,要将旅游多源异构数据进行充分融合,形成可供分析、共享的旅游信息数据源,急需一种开放、实用、便捷、高效的方法及相应系统。

【发明内容】

[0004]本发明所要解决的技术问题是提供一种开放式的旅游多源异构数据融合方法及系统,打破旅游信息孤岛,建立数据共享机制,解决旅游信息数据交换和共享问题。
[0005]本发明解决上述问题所采用的技术方案是:一种开放式的旅游多源异构数据融合系统,系统包括:
多源数据采集接口,所述多源数据采集接口为基于可信Web Service开发的服务型应用接口,该服务型应用接口采用WSDL标准写出描述文件,服务型应用接口以WSDL标准写出的描述文件能够在可信服务注册中心注册或直接提供给服务调用方,从而实现与多行业、多部门和多系统的多源非结构化的异构数据进行连接;其中的多行业、多部门和多系统主要指的是涉旅厅局、管理部门、涉旅企业以及其他与旅游相关的部门和企业,该多源数据采集接口在使用过程中,应用服务调用方可通过查询可信服务注册中心或从服务提供方取得所需Web服务的调用规范,通过可信SOAP客户端调用服务方提供的可信Web Service服务接口,完成应用的交互。通过以服务和API方式提供可信消息服务的调用接口,为应用开发中集成各种用户交流手段提供安全、方便的解决方案,能较好地实现异构数据源统一、透明的访问,保证数据的完整性、安全性和一致性,为旅游行业多源异构数据的集成提供了解决方案,有效地实现了旅游行业信息异构数据的共享,打破旅游信息孤岛,建立数据共享机制,解决旅游信息数据交换和共享问题。
[0006]数据采集及传输中间件,数据采集中间件根据设定采集时间间隔或侦测数据源有数据更新时,进行数据采集,并及时将采集到的实时数据发给传输中间件,由传输中件间负责数据的传输;数据传输中间件接收采集中间件发送的数据后即刻将数据发送给数据中心,传输完成后进行数据校验;以确保数据传输的正确性,若传输链路不通时,数据传输中间件会将该条数据存入本地数据库,等待网络恢复后进行传输,以确保数据的完整性。
[0007]数据清洗与分类单元,所述数据清洗和分类单元从不同的数据源采集数据,并对采集数据进行清洗和分类,把不同类型的数据转变为统一标准的数据;由于是从不同的数据源收集数据,数据的标准性、一致性不能确定,要将纷乱庞杂的数据变为数据中心统一标准的数据,必须要对采集的数据进行清洗和分类。
[0008]数据存储单元,所述数据存储单元把采集的数据,做成缓存,运行在服务器的内存中,在服务器运行相对空闲或占用内存量过大时,把数据存入数据库中,以确保数据的高速存储与持久化存储的协同运转;其中CPU占用率低于30%时为服务器运行相对空闲时,内存占用超40%时为占用内存量过大时。
[0009]数据互通与共享单元,所述数据互通与共享单元建立规范的数据API接口,用于调用数据的授权涉旅单位调取数据;建立数据的交换协议标准,使相关涉旅部门进行数据交换,互通相关数据信息;建立数据共享管理标准及流程,实现旅游主管部门内部各处信息数据与数据中心数据的互通共享。通过建立数据的交换协议标准,方便相关涉旅部门进行数据交换,互通相关数据信息。
[0010]本发明还支持数据对接接口的动态扩展,当需要接入新的数据源时,只需在系统中进行相关配置并确定采集任务,即可实现对新数据源的数据对接及采集。
[0011 ] 进一步的,所述多源数据采集接口包括业务类接口、数据类接口和安全类接口,业务类接口用于提供业务接入能力,整合不同子系统间的业务流;数据类接口用于提供数据交换以及数据整合能力;安全类接口用于提供管理员的安全访问和隔离的能力。
[0012]进一步的,所述数据清洗与分类单元具体包括:
通过格式校验工具对采集抽取来的xml数据文件进行自动校验,校验工具将自动产生校验结果并以日志形式记录在数据库中,并输出到web后台提交给管理员查阅,用以控制采集数据质量,对于含有敏感词的数据,单独用文本文件记录其提供方、数据内容和时间,以便后期处理;校验的范围包括允许值、极限值检查,非法内容检查等,例如空值检查就是检查必填字段是否都有值;数值检查则是对数值进行最大值和最小值的检查,超限即否定;敏感词检查则是通过设定的过滤词,直接拒绝带有敏感词的数据。
[0013]对通过校验的数据进行转换处理,则根据数据的不同类型选用通过字段转换、业务转换、分级转换或者是编目转换中的任意一种进行;
字段转换的意思是处理数据源和数据中心数据库中对相同涵义字段的不同描述,如对于同一景区的所处位置的字段,有“JQDZ”、“JQWZ”等,采集后,这两个字段的内容均对应于数据中心的“ADDRESS”字段;
业务转换的意思是处理数据源和数据中心数据库中对相同字段但存储内容的值不同的情况,如A中对景区的等级以“AAAAA”表示5A级景区,“AAAA”表示4A级景区,如此类推,而在B中的等级是5A以“5A级”来表示,4A是以“4A”来表示,采集后,统一为“5A”、“4A”表不;
分级转换则是对涉旅数据进行了分级处理,如基础信息、经营信息等等,基础信息录入后一般不常修改,经营信息则每天都有记录;但一般从数据供方采集抽取而来的数据未作明确划分,因此,数据进行整合时需进行分级转换。
[0014]编目转换则是由于目前旅游各行业没有形成统一的规范,许多企业都建有各自的业务系统,数据编目存在严重的不一致性,平台搜集这些数据后,必须按照制定的编目规范进行统一的编目,以便对涉旅数据进行统一管理。
[0015]该过程制定统一的数据对接及采集标准,实现对旅游多源异构数据进行数据采集、编目、分级,实现旅游数据分类归档、授权应用。该方案覆盖了目前较为全面的数据源类型,支持目前通用的各类数据对接及采集方式,支持数据对接接口的动态扩展,为数据采集的用户提供通用、开放的数据对接采集标准,使不同厂家提供的硬件及软件产品具有互操作性,做到不同硬件及软件产品的接口转化成统一的对接和采集方式。
[0016]对于采集的数据在进行自动校验及转换后仍然无法入库的数据,由系统自动进行隔离,另表存放,由人工进行数据审核。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1