多源异构数据融合系统及方法与流程

文档序号:14403125阅读:16669来源:国知局

本发明涉及航空业的大数据分析,具体涉及一种多源异构数据融合系统及方法。



背景技术:

在航空行业,由于信息化建设比较早,现在每个航空企业都有自己的旅客信息库、电子客票库以及离港记录库,而随着电商行业的兴起,越来越多的旅客通过第三方ota机构、航空公司官网或者app进行购票,由于信息建设时间不同,架构不同,因此在航空企业产生了大量的多源异构数据。

多源异构数据具有以下特点:

(1)混合型数据:包括结构化和非结构化数据;

(2)数据离散性:数据分布在不同的系统或者平台;

(3)数据量大:基本上每个平台的数据量都非常庞大;

(4)数据质量参差不齐:不同平台的数据质量不一致。

对多源异构数据进行融合,并基于融合后的数据进行应用,有利于实现航空公司的科学决策,降低航空公司运营成本,提升客流。



技术实现要素:

本发明的目的在于提供一种多源异构数据融合系统及方法。

为实现上述目的,本发明采用以下技术方案:

多源异构数据融合系统,用于航空业的多源异构数据融合,包括:

数据源层,所述数据源层用于获取各异构数据源的集合,其获取的数据源包括结构化数据、非结构化数据及实时流数据;

计算层,所述计算层用于对所述数据源的收集、清洗、存储及计算,其包括内存计算框架、流计算框架、数据仓库、数据挖掘引擎、分布式计算框架及文件系统;

所述内存计算框架用于实现基于内存的数据计算,所述流计算框架用于对于航空pnr数据的实时接收以及计算,所述数据仓库用于存储结构化后的网站浏览相关数据,所述数据挖掘引擎用于用户的模型建立和计算,用于对于整个大数据平台的资源管理,所述文件系统用于整个平台底层的数据文件存储;

数据层,所述数据层用于实现存储数据访问,其包括sql系统、nosql系统及缓存系统;所述sql系统用于实现关系型数据库的存储和搜索,所述nosql系统用于非关系型数据库的存储和搜索,所述缓存系统用于基于缓存的数据存储和计算;

分析层,所述分析层用于实现对用户关联后的数据分析及画像刻画,其包括语义层及olap引擎;所述语义层用于实现基于分析后和业务场景进行报表的开发和展示,所述olap引擎用于实现对于数据分析的联机分析处理。

本发明还公开了一种多源异构数据融合方法,其包括以下步骤:

s1、对航空公司官网进行改造,获取代表用户唯一身份的用户拉链表;

s2、获取多源异构数据,对多源异构数据进行融合,并以单一用户的数据方式存储在大数据平台上,其具体包括:

s21、获取网站访问日志、电子客票记录及离港记录,所述网站访问日志包括航空公司官网访问日志及第三方购票网站访问日志;

s22、将网站访问日志文本化,采用mr程序对文本化的网站访问日志进行清洗,将其清洗为结构化的网站数据;

s23、通过用户拉链表识别出结构化后的各网站数据中同一用户的访问轨迹;

s24、设定访次时长,将处于访问时长内的多次访次判定为一个访次,从访问轨迹中获取用户的操作数据;

s25、将用户与网络中的其他用户进行关联,将关联后的数据形成宽表存储在大数据平台上。

进一步地,在航空公司官网中提示用户绑定微信或qq,后续采用微信或qq直接登录,对于未绑定用户采用userid和webtrends_id相结合的方法进行识别,将网站的访问id、邮箱地址、会员卡号、手机号码、微信号码、qq号码识别成一个用户的信息,做成具有唯一身份的用户拉链表。

进一步地,通过电子客票记录及离港记录,分析用户与其他用户的同行及受让关系;通过用户对微信公众号的分享,分析用户与其他用户之间的微信朋友关系;通过对用户入会资料的分析,分析用户与其他用户之间的同事关系。

进一步地,还包括:

s3、应用支持:利用融合后的多源异构数据进行用户的特征提取,形成用户画像;将形成的用户画像采用nosql的表示形式存储到大数据平台上面,以实现应用上的供数支持:

进一步地,所述供数支持包括:用户画像的展示:以唯一id识别用户,提供姓名、联系方式或证件号码信息作为查询条件查询该用户拥有的用户画像。

进一步地,所述供数支持包括:根据营销部门提出的营销策略,对用户画像进行不同的组合,形成不同维度的营销方案。

进一步地,所述供数支持包括:根据特定时间段中,用户从第三方ota流向官网平台或者从官网平台流向app平台,提供用户迁徙报表作为票价的调整或者航班的调整依据。

采用上述技术方案后,本发明与背景技术相比,具有如下优点:

本发明通过用户拉链表在各购票网站中识别同一用户的访问轨迹,并挖掘网络中用户与其他用户的关系,获得全局的关联结果,其最终获得的融合数据是以单一用户的形式存储在大数据平台上。并基于单一用户的数据进行用户画像,从而为航空公司的科学决策提供支持。

附图说明

图1为本发明系统架构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

实施例

请参阅图1所示,本发明公开了一种多源异构数据融合系统,用于航空业的多源异构数据融合,其包括数据源层,计算层、数据层及分析层。

所述数据源层用于获取各异构数据源的集合,其获取的数据源包括结构化数据、非结构化数据及实时流数据。

所述计算层用于对所述数据源的收集、清洗、存储及计算,其包括内存计算框架、流计算框架、数据仓库、数据挖掘引擎、分布式计算框架及文件系统。所述内存计算框架用于实现基于内存的数据计算,比如网站访客流失模型的计算;所述流计算框架用于对于航空pnr数据的实时接收以及计算;所述数据仓库用于存储结构化后的网站浏览相关数据;所述数据挖掘引擎用于用户的模型建立和计算;用于对于整个大数据平台的资源管理,所述文件系统用于整个平台底层的数据文件存储。

所述数据层用于实现存储数据访问,其包括sql系统、nosql系统及缓存系统;所述sql系统用于实现关系型数据库的存储和搜索,所述nosql系统用于非关系型数据库的存储和搜索,所述缓存系统用于基于缓存的数据存储和计算;

分析层,所述分析层用于实现对用户关联后的数据分析及画像刻画,其包括语义层及olap引擎;所述语义层用于实现基于分析后和业务场景进行报表的开发和展示,所述olap引擎用于实现对于数据分析的联机分析处理。

本发明还公开了一种多源异构数据融合方法,其包括以下步骤:

s1、对航空公司官网进行改造,获取代表用户唯一身份的用户拉链表;

s2、获取多源异构数据,对多源异构数据进行融合,并以单一用户的数据方式存储在大数据平台上;

s3、应用支持:利用融合后的多源异构数据进行用户的特征提取,形成用户画像;将形成的用户画像采用nosql的表示形式存储到大数据平台上面,以实现应用上的供数支持。

其中,s1具体为:在航空公司官网中提示用户绑定微信或qq,后续采用微信或qq直接登录,对于未绑定用户采用userid和webtrends_id相结合的方法进行识别,将网站的访问id、邮箱地址、会员卡号、手机号码、微信号码、qq号码识别成一个用户的信息,做成具有唯一身份的用户拉链表。

s2具体为:

s21、获取网站访问日志、电子客票记录及离港记录,所述网站访问日志包括航空公司官网访问日志及第三方购票网站访问日志。

用户在航空电商网站或者app上会积累大量的静态和动态数据。静态的数据比如用户的基本信息,用户在注册会员后或者有购票记录后,会形成一定的属性信息:比如其基本信息,包括姓名、性别、年龄、联系方式等;比如其背景信息,包括其工作单位、住址等。动态的数据包括乘机信息及访问轨迹等。乘机信息是指用户在多次购票和乘机后形成的社交网络结构信息,该信息可以从航空公司的电子客票记录、离港记录中查得,其具体地可包括如节假日出行频率、自购和代购、同行关系和受让关系等。访问轨迹指的是用户在电商网站上面的浏览记录、购票记录等。

s22、将网站访问日志文本化,采用mr程序对文本化的网站访问日志进行清洗,将其清洗为结构化的网站数据。

s23、通过用户拉链表识别出结构化后的各网站数据中同一用户的访问轨迹;

s24、设定访次时长,将处于访问时长内的多次访次判定为一个访次,从访问轨迹中获取用户的操作数据。

如将访问时长定义为30分钟,则某一用户在30分钟内的所有访次定义为一个访次。通过访次的定义,在使数据具有明确的时间节点的同时,又可以避免产生过多的无用数据而导致数据过于臃肿。

s25、将用户与网络中的其他用户进行关联,将关联后的数据形成宽表存储在大数据平台上。

具体地,其通过电子客票记录及离港记录,分析用户与其他用户的同行及受让关系;通过用户对微信公众号的分享,分析用户与其他用户之间的微信朋友关系;通过对用户入会资料的分析,分析用户与其他用户之间的同事关系。

步骤s3中,提取的用户特征包括地理信息特征、购票频率、用户背景等信息,通过该信息即可形成丰富的用户画像,如电商高价值用户、办理购票活跃度、活跃金卡用户等。

其所述供数支持包括:用户画像的展示、精准营销广告投放及用户使用习惯迁徙。

用户画像的展示:以唯一id识别用户,提供姓名、联系方式或证件号码等信息作为查询条件查询该用户拥有的用户画像。

精准营销广告投放:根据营销部门提出的营销策略,对用户画像进行不同的组合,形成不同维度的营销方案。

用户使用习惯迁徙:根据特定时间段中,大量用户从第三方ota流向官网平台或者从官网平台流向app平台,提供用户迁徙报表作为票价的调整或者航班的调整依据。

以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1