多源数据融合系统和方法

文档序号:10534977阅读:1639来源:国知局
多源数据融合系统和方法
【专利摘要】本发明公开了一种多源数据融合系统和方法,包括:数据来源子系统,用于采集多源数据;场景规则库,用于存储基于不同场景设定的场景规则;数据融合子系统,用于将所述多源数据进行数据融合,形成分析数据集,根据所述场景规则关联所述分析数据集,输出基于所述场景规则的融合数据库;融合数据库子系统,用于存储基于所述场景规则的融合数据库。通过上述系统和方法,能够解决不同场景下的数据融合的需求,提高数据融合的有效性,为不同场景的需求提供准确的数据信息服务。
【专利说明】
多源数据融合系统和方法
技术领域
[0001] 本发明涉及数据融合领域,特别是涉及一种多源数据融合系统和方法。
【背景技术】
[0002] 随着信息系统和互联网的使用,各企事业单位拥有了大规模的数据。这些大规模 的数据,促使人们不断使用新的方法和工具来对这些数据进行分析。大数据具有四个维度 (简称为4V):容量(Volume);高速(Velocity);多样(Variety);真实性(Veracity)。相应地, 大数据具有四个特点,即数据体量大,数据增加和变化快,数据来源和类型繁多,以及数据 的真实性难以保证。大数据往往是由来源不同的数据归集而来,具有不同的数据模式以及 数据表示方法。如何将这些数据融合起来是大数据研究的核心问题。
[0003] 数据融合通常是指采集多个数据源,将这些多个数据源合并成一个一致的数据存 储,如存放在数据仓库中。良好的数据融合方法有助于减少数据集的冗余和不一致,可以大 大提高数据挖掘过程的准确性和速度。随着近年来互联网、移动互联网、新社交媒体的发 展,用户成为商业行为的主宰者。随之而来的,用户(例如消费者,企业等)个性化的需求也 越来越凸显,如何通过对多源数据进行数据融合以形成有效的分析数据集,来更好地解决 用户个性化的需求是目前需要解决的问题。

【发明内容】

[0004] 本发明主要解决的技术问题是提供一种多源数据融合系统和方法,能够解决不同 场景下的数据融合的需求,提高数据融合的有效性,为不同场景的需求提供准确的数据信 息服务。
[0005] 为解决上述技术问题,本发明采用的一个技术方案是:提供一种多源数据融合系 统,包括:数据来源子系统,用于采集多源数据;场景规则库,用于存储基于不同场景设定的 场景规则;数据融合子系统,用于将所述多源数据进行数据融合,形成分析数据集,根据所 述场景规则关联所述分析数据集,输出基于所述场景规则的融合数据库;融合数据库子系 统,用于存储基于所述场景规则的融合数据库。
[0006] 可选地,所述场景规则包括行为类型规则、行为相似规则、时间串联规则和地点邻 近规则中的一种或多种。
[0007] 可选地,所述数据融合子系统具体包括:属性归集子模块,用于读取所述数据来源 子系统中的多源数据,所述多源数据由不同的数据库中的数据表组成,按照所述数据表的 属性进行分类和记录,存储到元模型数据库的不同的数据表中;实体识别子模块,用于识别 所述元模型数据库的不同的数据表的相同/相似属性的字段并进行合并;数据去冗子模块, 用于去除合并后的数据表中的冗余字段,形成分析数据集;数据关联子模块,用于根据所述 场景规则关联所述分析数据集,输出基于所述场景规则的融合数据库。
[0008] 可选地,所述融合数据库包括:行为融合数据库、信用融合数据库和异常融合数据 库;其中,所述行为融合数据库包含以用户标识为关键字的消费/支付行为的融合数据库; 所述信用融合数据库包含用户信用行为的融合数据库;所述异常融合数据库包含用户异常 行为的融合数据库。
[0009] 本发明实施例采用的另一个技术方案是:一种多源数据融合方法,包括:采集多源 数据;将所述多源数据进行数据融合,形成分析数据集;根据场景规则关联所述分析数据 集,输出基于所述场景规则的融合数据库;其中,所述场景规则是基于不同场景设定的场景 规则;存储基于所述场景规则的融合数据库。
[0010] 可选地,所述场景规则包括行为类型规则、行为相似规则、时间串联规则和地点邻 近规则中的一种或多种。
[0011] 可选地,所述将所述多源数据进行数据融合,形成分析数据集具体包括:读取数据 来源子系统中的多源数据,所述多源数据由不同的数据库中的数据表组成,按照所述数据 表的属性进行分类和记录,存储到元模型数据库的不同的数据表中;识别所述元模型数据 库的不同的数据表的相同/相似属性的字段并进行合并;去除合并后的数据表中的冗余字 段,形成分析数据集。
[0012] 可选地,所述融合数据库包括:行为融合数据库、信用融合数据库和异常融合数据 库;其中,所述行为融合数据库包含以用户标识为关键字的消费/支付行为的融合数据库; 所述信用融合数据库包含用户信用行为的融合数据库;所述异常融合数据库包含用户异常 行为的融合数据库。
[0013] 本发明实施例提供的一种多源数据融合系统和方法,能够解决不同场景下的数据 融合的需求,提高数据融合的有效性,为不同场景的需求提供更准确的数据信息服务。
【附图说明】
[0014] 图1是本发明一种多源数据融合系统的一较佳实施例的示意图;
[0015] 图2是本发明一种数据融合子系统的一较佳实施例的示意图;
[0016] 图3是本发明一种多源数据融合方法的一较佳实施例的示意图。
【具体实施方式】
[0017] 下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能 更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
[0018] 请参阅图1,本发明实施例提供一种多源数据融合系统,包括:
[0019] 数据来源子系统100、数据融合子系统102和融合数据库子系统104。其中,
[0020] 数据来源子系统100,用于进行采集多源数据;
[0021 ]场景规则库106,用于存储基于不同场景设定的场景规则;
[0022]数据融合子系统102,用于将所述多源数据进行数据融合,形成分析数据集,根据 所述场景规则关联所述分析数据集,输出基于所述场景规则的融合数据库;
[0023] 融合数据库子系统104,用于存储基于所述场景规则的融合数据库。
[0024] 为了描述清楚,下面对本发明实施例提供的多源数据融合系统进行详细介绍,包 括:
[0025] 数据来源子系统100,用于进行采集多源数据;
[0026] 在本发明实施例的具体实现时,数据来源子系统100可以包括至少以下一种或多 种数据库:日志数据库,通过不同的业务应用系统的日志文件采集数据;爬虫数据库,通过 网络技术,从互联网网站,例如百度百科、电商、社交网站采集数据;第三方数据库,通过第 三方的应用后台数据库采集数据。
[0027] 场景规则库106,用于存储基于不同场景设定的场景规则;
[0028] 在本发明实施例的具体实现时,场景规则库用于根据不同场景的需要,设定相应 的场景规则,不同场景的场景规则可以相同,也可以不同。例如:场景规则可以包括:行为类 型规则、行为相似规则、时间串联规则和/或地点邻近规则。行为类型规则是对行为进行分 类,满足一定条件的行为,作为同一类行为。例如:通过网上商城来购物的行为,都属于网络 购物这一类行为,不管消费者是通过淘宝、京东或苏宁等网上商城来购物,只要是通过网络 上的商城来购物,都属于网络购物这一类行为。行为相似规则是对同一类的行为进行分析, 根据一定的规则进一步细分的行为来确定是否属于行为相似。例如:消费者通过网络购物 的方式购买了电脑,手机,电视机等电子产品,我们可以把通过网络购物的方式购买电子产 品的行为,都属于电子产品网络消费行为。时间串联规则,是指在时间上有串联关系的行 为,可以通过时间要素来关联起来。例如,9点30出地铁站,10点在商场购物刷卡,12点在订 外卖属于在时间上有串联关系的行为。地点邻近规则是指在相近地理位置(或经炜度)范围 内的行为具有一定的关联性。例如:在同一商场的多次刷卡购物的行为属于在相同/相近地 理位置(或经炜度)的行为,可以通过地点邻近规则进行关联。
[0029]数据融合子系统102,用于将所述多源数据进行数据融合,形成分析数据集,根据 所述场景规则关联所述分析数据集,输出基于所述场景规则的融合数据库;
[0030]在本发明实施例的具体实现时,数据融合子系统将多源数据进行数据融合,形成 分析数据集。将多源数据进行数据融合通常需要解决的主要问题有:1)实体识别,即识别两 个数据表的不同字段指的是相同属性;2)数据关联,即针对两个数据表的两个相同属性的 字段,对具有相同属性值的记录进行关联;3)数据冗余,即一个属性可以由另一个或另一组 属性导出,则认为该属性是冗余的。在本发明实施例的具体实现时,数据融合子系统具体是 如何将多源数据进行数据融合形成分析数据集,本发明不做具体的限定。例如,如附图2所 示,在本发明实施例的具体实现时,数据融合子系统可以包括属性归集子模块200、实体识 别子模块202、数据去冗子模块204和数据关联子模块206,其中,属性归集子模块200用于读 取数据来源子系统中的多源数据,所述多源数据由不同的数据库中的数据表组成,按照所 述数据表的属性进行分类和记录,存储到元模型数据库的不同的数据表中。实体识别子模 块202,用于识别所述元模型数据库的不同的数据表的相同/相似属性的字段并进行合并; 数据去冗子模块204,用于去除合并后的数据表中的冗余字段,形成分析数据集。数据关联 子模块206,用于根据所述场景规则关联所述分析数据集,输出基于所述场景规则的融合数 据库。
[0031]为了描述清楚,我们假设有两个数据源A和B,数据源A和B都存储有用户数据表和 用户订单数据表。
[0032]数据源A的表结构为:
[0033] 用户数据表sys_user: idAl,name,password,memo,address,phone,longitude, latitude;
[0034] 其中,idAl表示用户数据表的序列号;name表示用户的名字;password表示密码; memo表示备注;adress表示用户地址;phone表示用户的电话;longitude表示用户位置所在 的经度;latitude表示用户位置所在的炜度。
[0035] 用户订单数据表sys_order : idA2 ,user_id,amount,pm_id,merchant」d, payment_channel〇
[0036] 其中idA2表示用户订单数据表的序列号;user_id表示标识用户;amount表示用户 使用的帐号;mer chant_i d表示商家信息;ayment_channe 1表示支付方式。
[0037]数据源B的表结构为:
[0038]用户数据表sys_ user:idBl,user-name,user-password,memo,address,lng,lat, user-phone
[0039] 其中,idBl表示用户数据表的序列号;user_name表示用户的名字;user_password 表示密码;memo表示备注;adress表示用户地址;lng表示用户位置所在的经度;lat表示用 户位置所在的纬度;phone表示用户的电话;
[0040] 用户订单数据表sys_order : idB2 ,user_id,order_amount,merchant_id, payment_channel.
[OO41 ] 其中idB2表示用户订单数据表的序列号;user_id表示标识用户;order_amount表 示用户使用的帐号;mer chant_i d表示商家信息;ayment_channe 1表示支付方式。
[0042]我们从数据源A和B的表结构可以看出两者使用不同字段,却描述的是相同属性的 数据。所以我们可以通过建立元模型数据库,以便把不同字段且相同属性的数据进行归类。 [0043]具体实现时,数据融合子系统中的属性归集子模块200可以读取数据来源子系统 中的多源数据,所述多源数据由不同的数据库中的数据表组成,按照所述数据表的属性进 行分类和记录,存储到元模型数据库的不同的数据表中。
[0044] 首先,我们根据数据源A和B的数据表,抽象出元模型数据库C。
[0045] 例如,针对数据源A和B的用户数据表抽象出元模型数据库C的用户数据表的结构 为:
[0046] c_user:id,user_id,user_name,user_password,memo,address,longitude, latitude,channel id,uuid.
[0047] 其次,建立属性字段配置映射表,用于根据所述属性字段配置映射表中的对应关 系将数据源A和B的数据表中的不同字段且相同含义的数据存储在同一个元模型数据库中。
[0048] 例如:属性字段配置映射表tm_attributeconf ig如下:

[0050] 其中,ID表示序列号;MY_raLUMN表示元模型数据库的数据表的字段;MY_TABLE表 示元模型数据库的数据表;THIRD_C0LUMN表示第三方数据库的数据表中的字段;THIRD_ DATABASE表示数据库的来源;MEMO表示备注。
[0051]接着,需要对数据源A和B的数据进行合并。
[0052]具体实现时,可以由数据融合子系统中的实体识别子模块202,来识别所述元模型 数据库的不同的数据表的相同/相似属性的字段并进行合并。
[0053] 例如,根据tm_attributeconf ig表中的对应关系,对数据源A和B中的数据进行合 并处理。也就是说,将数据源A和B中的用户数据表Sys_ USer的数据录入到元模型数据库C中 的用户数据表c_user中。
[0054]同理,也可以采用同样的方式建立元模型数据库C的用户订单数据表border,将 数据源A和B中的用户订单数据表sys_order的数据录入到元模型数据库C中的c_order中。
[0055] 另外,需要对元模型数据库C中的数据进行去冗余。
[0056] 具体实现时,可以由数据融合子系统中的数据去冗子模块204,来去除合并后的数 据表中的冗余字段,形成分析数据集;
[0057] 例如,从上面的描述的实现方式,我们得到了元模型数据库C中的用户数据表(:_ user和用户订单数据表c_order。接下来,需要对〇_11861~和c_order中的数据进行冗余处理, 得到分析数据集。
[0058] 通常,我们根据c_user中的user_phone与user_name字段进行去重合并。例如,对 于user_phone和user_name字段中的数据相同的表项可以进行合并,优选的,为了表示对相 同的user_phone和user_name的表项进行合并,我们可以在c_user的user_id字段用idAl_ idBl来表示;此外,对c_order中与c_user对应的user_id的数据也相应地修改为idAl_ idBl。这样,通过合并、冗余后得到的数据无论从存储角度还是用户查询的角度来看,都减 少了查询的复杂度,提高了查询效率。
[0059] 进一步地,根据所述场景规则关联所述分析数据集,输出基于所述场景规则的融 合数据库。
[0060] 在本发明实施例的具体实现时,数据融合子系统中的数据关联子模块206可以根 据场景规则库中的场景规则来关联所述分析数据集,输出基于所述场景规则的融合数据 库。
[0061] 为了描述方便,我们仍以上面的元模型数据库C进行举例,我们对数据库C中的数 据根据场景规则库中的不同场景规则来关系分析数据集,输出基于所述场景规则的融合数 据库。例如:场景规则之一,以用户信息为关键字,输出基于用户信息的融合数据库;
[0062] 元模型数据库C中的数据表有:用户数据表causer:


[0074]这样,我们可以得知,在c_USer中的id=l的用户通过同一个客户端进行了两笔消 费。
[0075]这样,基于该以用户信息为关键字的场景规则进行数据融合,输出的融合数据库 为:
[0077]再例如,我们可以依据行为类型规则对上述表中数据进行关联。我们可以关联使 用支付宝作为支付方式的用户数据表和用户订单表,这样,我们可以输出基于支付宝作为 支付方式的融合数据库。
[0079]进一步地,我们可以将行为类型规则和行为相似规则结合起来对上述表进行关 联。我们可以关联使用支付宝作为支付方式且喜欢超市购物的用户数据表和用户订单表, 这样,我们可以输出使用支付宝作为支付方式且喜欢超市购物的融合数据库。
[0081]再例如,我们可以依据地点邻近规则对上述表中数据进行关联。我们Wc_USer表 中可以得知,c_user表中的id = 2和id = 4的用户使用相同的lng,lat和uuid,所以,我们得 知(3_11861~中的丨(1 = 2的用户和1(1 = 4的用户在同一地点,使用同一个设备分别进行了购物和 订餐,我们可以推断出结论:c_user中的id = 2的用户和id = 4的用户可能为同一个人用不 同的帐号的消费。如果用户订单数据表中有时间信息,我们可以结合时间串联规则来进一 步确定关联性,即c_user中的丨(1 = 2的用户和1(1 = 4的用户可能为同一个人用不同的帐号进 行消费,且先进行了订餐然后购物的消费。为了进一步地对上述信息进行确认,提高数据融 合的利用价值,我们可以利用卡方校验等概率来校验误差。
[0082] 例如:c_user中共有字段5个,其中id = 2的用户和id = 4的用户的匹配字段为3个, 匹配率为:3/5*100 = 60%;
[0083]我们可以假设定义的匹配率为60%以上认为为同一个人,那么id = 2的用户和id =4的用户就是同一个人消费。可以通过这样的方式得到用户最近的消费情况,喜欢的食品 以及经常出入的地点等有用的信息。
[0084] 需要说明的是,本发明实施例对场景规则库中的基于不同场景的不同规则是不做 限定的,可以根据具体使用融合数据库的客户的需求来个性化定制。此外,不同场景的不同 规则可以单一使用,也可以结合使用,具体都是可以根据具体客户的需求来考虑如何使用 一个或多个规则。
[0085] 融合数据库子系统104,用于存储基于所述场景规则的融合数据库。
[0086] 在本发明实施例的具体实现时,融合数据库子系统具体存储的融合数据库的内容 本发明实施例不做限定,可以根据具体使用融合数据库的客户的需求来个性化输出。例如, 融合数据库可以包括行为融合数据库、信用融合数据库和异常融合数据库。其中,行为融合 数据库可以包含以用户标识ID为关键字的消费/支付行为的融合数据库;信用融合数据库 可以包含用户信用行为的融合数据库。异常融合数据库可以包含用户异常行为的融合数据 库。其中,消费/支付的含义为消费或支付。
[0087] 在本发明实施例中,多源数据融合系统可以是服务器(Server),也可以是个人电 脑(PC机)或智能设备等,本发明不做限定。
[0088] 请参阅图3,本发明另一个实施例提供一种多源数据融合方法,包括:
[0089] 300、采集多源数据;
[0090]在本发明实施例的具体实现时,可以从至少以下一种或多种数据库中来采集数 据:日志数据库,通过不同的业务应用系统的日志文件采集数据;爬虫数据库,通过网络技 术,从互联网网站,例如百度百科、电商、社交网站采集数据;第三方数据库,通过第三方的 应用后台数据库采集数据。
[0091] 302、将所述多源数据进行数据融合,形成分析数据集;
[0092] 将多源数据进行数据融合通常需要解决的主要问题有:1)实体识别,即识别两个 数据表的不同字段指的是相同属性;2)数据关联,即针对两个数据表的两个相同属性的字 段,对具有相同属性值的记录进行关联;3)数据冗余,即一个属性可以由另一个或另一组属 性导出,则认为该属性是冗余的。在本发明实施例的具体实现时,具体是如何将多源数据进 行数据融合形成分析数据集,本发明不做具体的限定。例如,在本发明实施例的具体实现 时,可以读取不同数据库的多源数据,所述多源数据由不同的数据表组成,按照所述数据表 的属性进行分类和记录,存储到元模型数据库的不同的数据表中。接着,识别所述元模型数 据库的不同的数据表的相同/相似属性的字段并进行合并;去除合并后的数据表中的冗余 字段,形成分析数据集。
[0093]为了描述清楚,我们假设有两个数据源A和B,数据源A和B都存储有用户数据表和 用户订单数据表。
[0094]数据源A的表结构为:
[0095] 用户数据表sys_user: idAl,name,password,memo,address,phone,longitude, latitude;
[0096] 其中,idAl表示用户数据表的序列号;name表示用户的名字;password表示密码; memo表示备注;adress表示用户地址;phone表示用户的电话;longitude表示用户位置所在 的经度latitude表示用户位置所在的纬度。
[0097] 用户订单数据表sys_order : idA2 ,user_id,amount,pm_id,merchant」d, payment_channel〇
[0098] 其中idA2表示用户订单数据表的序列号;user_id表示标识用户;amount表示用户 使用的帐号;mer chant_i d表示商家信息;ayment_channe 1表示支付方式。
[0099]数据源B的表结构为:
[0100]用户数据表sys_ user:idBl,user-name,user-password,memo,address,lng,lat, user-phone
[0101 ] 其中,idBl表示用户数据表的序列号;user_name表示用户的名字;user_password 表示密码;memo表示备注;adress表示用户地址;lng表示用户位置所在的经度;lat表示用 户位置所在的纬度;phone表示用户的电话;
[0102] 用户订单数据表sys_order : idB2 ,user_id,order_amount,merchant_id, payment_channel.
[0103] 其中idB2表示用户订单数据表的序列号;user_id表示标识用户;order_amount表 示用户使用的帐号;mer chant_i d表示商家信息;ayment_channe 1表示支付方式。
[0104] 我们从数据源A和B的表结构可以看出两者使用不同字段,却描述的是相同属性的 数据。所以我们可以通过建立元模型数据库,以便把不同字段且相同属性的数据进行归类。
[0105] 首先,我们根据数据源A和B的数据表,抽象出元模型数据库C。
[0106] 例如,针对数据源A和B的用户数据表抽象出元模型数据库C的用户数据表的结构 为:
[0107] c_user:id,user_id,user_name,user_password,memo,address,longitude, latitude,channel id,uuid.
[0108]其次,建立属性字段配置映射表,用于根据所述属性字段配置映射表中的对应关 系将数据源A和B的数据表中的不同字段且相同含义的数据存储在同一个元模型数据库中。 [0109] 例如:属性字段配置映射表tm_attributeconfig如下:
[0111] 其中,ID表示序列号;MY_raLUMN表示元模型数据库的数据表的字段;MY_TABLE表 示元模型数据库的数据表;THIRD_C0LUMN表示第三方数据库的数据表中的字段;THIRD_ DATABASE表示数据库的来源;MEMO表示备注。
[0112] 接着,需要对数据源A和B的数据进行合并。
[0113] 例如,根据tm_attributeconf ig表中的对应关系,对数据源A和B中的数据进行合 并处理。也就是说,将数据源A和B中的用户数据表Sys_ USer的数据录入到元模型数据库C中 的用户数据表c_user中。
[0114]同理,也可以采用同样的方式建立元模型数据库C的用户订单数据表border,将 数据源A和B中的用户订单数据表sys_order的数据录入到元模型数据库C中的c_order中。
[0115] 另外,需要对元模型数据库C中的数据进行去冗余。
[0116] 例如,从上面的描述的实现方式,我们得到了元模型数据库C中的用户数据表(:_ user和用户订单数据表c_order。接下来,需要对〇_11861~和c_order中的数据进行冗余处理, 得到分析数据集。
[0117] 通常,我们根据c_user中的user_phone与user_name字段进行去重合并。例如,对 于user_phone和user_name字段中的数据相同的表项可以进行合并,优选的,为了表示对相 同的user_phone和user_name的表项进行合并,我们可以在c_user的user_id字段用idAl_ idBl来表示;此外,对c_order中与c_user对应的user_id的数据也相应地修改为idAl_ idBl。这样,通过合并、冗余后得到的数据无论从存储角度还是用户查询的角度来看,都减 少了查询的复杂度,提高了查询效率。
[0118] 304、根据场景规则关联所述分析数据集,输出基于所述场景规则的融合数据库; 其中所述场景规则是基于不同场景设定的场景规则;
[0119] 在本发明实施例的具体实现时,我们可以根据不同场景的需要,设定相应的场景 规则,不同场景的场景规则可以相同,也可以不同。例如:场景规则可以包括:行为类型规 贝1J、行为相似规则、时间串联规则和/或地点邻近规则。行为类型规则是对行为进行分类,满 足一定条件的行为,作为同一类行为。例如:通过网上商城来购物的行为,都属于网络购物 这一类行为,不管消费者是通过淘宝、京东或苏宁等网上商城来购物,只要是通过网络上的 商城来购物,都属于网络购物这一类行为。行为相似规则是对同一类的行为进行分析,根据 一定的规则进一步细分的行为来确定是否属于行为相似。例如:消费者通过网络购物的方 式购买了电脑,手机,电视机等电子产品,我们可以把通过网络购物的方式购买电子产品的 行为,都属于电子产品网络消费行为。时间串联规则,是指在时间上有串联关系的行为,可 以通过时间要素来关联起来。例如,9点30出地铁站,10点在商场购物刷卡,12点在订外卖属 于在时间上有串联关系的行为。地点邻近规则是指在相近地理位置(或经炜度)范围内的行 为具有一定的关联性。例如:在同一商场的多次刷卡购物的行为属于在相同/相近地理位置 (或经炜度)的行为,可以通过地点邻近规则进行关联。优选地,可以通过场景规则库来存储 上述的场景规则。
[0120]为了描述方便,我们仍以上面的元模型数据库C进行举例,我们对数据库C中的数 据根据场景规则库中的不同场景规则来关系分析数据集,输出基于所述场景规则的融合数 据库。例如:场景规则之一,以用户信息为关键字,输出基于用户信息的融合数据库;
[0121 ]元模型数据库C中的数据表有:用户数据表causer:
[0123] 其中,uuid表示用户使用的设备标识。
[0124] 用户订单数据表(3_<^(161':

[0129] 我们通过user_phone和uuid字段可以得到c_user中的id = 1和id = 3为同一个用 户,我们可以将c_user中的id = l和id = 3进行合并:
[0130]合并后的用户数据表c_user: L0132」合并后的用尸订单表c_〇rder:

[0134] 这样,我们可以得知,在causer中的id=l的用户通过同一个客户端进行了两笔消 费。
[0135] 这样,基于该以用户信息为关键字的场景规则进行数据融合,输出的融合数据库 为:
[0137]再例如,我们可以依据行为类型规则对上述表中数据进行关联。我们可以关联使 用支付宝作为支付方式的用户数据表和用户订单表,这样,我们可以输出基于支付宝作为 支付方式的融合数据库。
[0139]进一步地,我们可以将行为类型规则和行为相似规则结合起来对上述表进行关 联。我们可以关联使用支付宝作为支付方式且喜欢超市购物的用户数据表和用户订单表, 这样,我们可以输出使用支付宝作为支付方式且喜欢超市购物的融合数据库。
[0141]再例如,我们可以依据地点邻近规则对上述表中数据进行关联。我们Wc_uSer表 中可以得知,c_user表中的id = 2和id = 4的用户使用相同的lng,lat和uuid,所以,我们得 知(3_11861~中的丨(1 = 2的用户和1(1 = 4的用户在同一地点,使用同一个设备分别进行了购物和 订餐,我们可以推断出结论:c_user中的id = 2的用户和id = 4的用户可能为同一个人用不 同的帐号的消费。如果用户订单数据表中有时间信息,我们可以结合时间串联规则来进一 步确定关联性,即c_user中的丨(1 = 2的用户和1(1 = 4的用户可能为同一个人用不同的帐号进 行消费,且先进行了订餐然后购物的消费。为了进一步地对上述信息进行确认,提高数据融 合的利用价值,我们可以利用卡方校验等概率来校验误差。
[0142] 例如:c_user中共有字段5个,其中id = 2的用户和id = 4的用户的匹配字段为3个, 匹配率为:3/5*100 = 60%;
[0143] 我们可以假设定义的匹配率为60%以上认为为同一个人,那么id = 2的用户和id =4的用户就是同一个人消费。可以通过这样的方式得到用户最近的消费情况,喜欢的食品 以及经常出入的地点等有用的信息。
[0144] 需要说明的是,本发明实施例对场景规则库中的基于不同场景的不同规则是不做 限定的,可以根据具体使用融合数据库的客户的需求来个性化定制。此外,不同场景的不同 规则可以单一使用,也可以结合使用,具体都是可以根据具体客户的需求来考虑如何使用 一个或多个规则。
[0145] 306、存储基于所述场景规则的融合数据库。
[0146] 在本发明实施例的具体实现时,具体存储的融合数据库的内容本发明实施例不做 限定,可以根据具体使用融合数据库的客户的需求来个性化输出。例如,融合数据库可以包 括行为融合数据库、信用融合数据库和异常融合数据库。其中,行为融合数据库可以包含以 用户标识ID为关键字的消费/支付行为的融合数据库;信用融合数据库可以包含用户信用 行为的融合数据库。异常融合数据库可以包含用户异常行为的融合数据库。
[0147] 本文中术语"和/或",仅仅是一种描述关联对象的关联关系,表示可以存在三种关 系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文 中字符7",一般表示前后关联对象是一种"或"的关系。
[0148] 应该理解,本发明的各种实施例中,上述各过程中序号的大小并不意味着执行顺 序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施 过程构成任何限定。
[0149] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单 元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件 和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这 些功能究竟是以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。 专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现 不应认为超出本发明的范围。
[0150] 所属领域的技术人员可以清楚了解到,为了描述的方便和简洁,上述描述的系统、 装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0151] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以 通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划 分,仅仅是一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或者组件 可以结合或者可以继承到一个系统,或者一些特征可以忽略,或不执行。另外,所显示或讨 论的相互之间的耦合或者直接耦合或者通信连接可以是通过一些接口、装置或单元的间接 耦合或通信连接,也可以是电的,机械的或其他的形式连接。
[0152] 所述作为分离部件说明的单元可以是或者可以不是物理上分开的,作为单元显示 的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网 络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的 目的。
[0153] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以 是各个单元单独物理存在,也可以是两个或两个以上单元集成在个单元中。上述集成的单 元即可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0154] 通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可以 用硬件实现,或者软件实现,或它们的组合方式来实现。当使用软件实现时,可以见上述功 能存储在计算机可读介质中或作为计算机可读介质上的一个或多个指令或代码进行传输。 计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另 一个地方传送计算机程序的任何介质。存储介质可以是计算机能够存取的任何介质。以此 为例但不限于:计算机可读介质可以包括1?崖、1?(通、££?1?011丄0-1?(通或其他光盘存储、磁盘介 质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序 代码并能够由计算机存取的任何其他介质。此外,任何连接可以适当的成为计算机可读介 质,例如,如果软件是使用同轴电缆、光纤光缆、双绞线、数字用户线(SDL)或者诸如红外线、 无线电和微波之类的无线技术包括在所属介质的定影中。如本发明所使用的盘(Disk)和碟 (Disc)包括压缩光碟(CD)、激光碟、光碟、数字通用光碟(DVD)、软盘和蓝光光碟,其中盘通 常磁性的复制数据,而碟则用激光来光学的复制数据。上面的组合也应当包括在计算机可 读介质的保护范围之内。
[0155] 以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发 明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技 术领域,均同理包括在本发明的专利保护范围内。
【主权项】
1. 一种多源数据融合系统,其特征在于,包括: 数据来源子系统,用于采集多源数据; 场景规则库,用于存储基于不同场景设定的场景规则; 数据融合子系统,用于将所述多源数据进行数据融合,形成分析数据集,根据所述场景 规则关联所述分析数据集,输出基于所述场景规则的融合数据库; 融合数据库子系统,用于存储基于所述场景规则的融合数据库。2. 根据权利要求1所述的系统,其特征在于, 所述场景规则包括行为类型规则、行为相似规则、时间串联规则和地点邻近规则中的 一种或多种。3. 根据权利要求1所述的系统,其特征在于,所述数据融合子系统具体包括: 属性归集子模块,用于读取所述数据来源子系统中的多源数据,所述多源数据由不同 的数据库中的数据表组成,按照所述数据表的属性进行分类和记录,存储到元模型数据库 的不同的数据表中; 实体识别子模块,用于识别所述元模型数据库的不同的数据表的相同/相似属性的字 段并进行合并; 数据去冗子模块,用于去除合并后的数据表中的冗余字段,形成分析数据集; 数据关联子模块,用于根据所述场景规则关联所述分析数据集,输出基于所述场景规 则的融合数据库。4. 根据权利要求1-3任一所述的系统,其特征在于,所述融合数据库包括:行为融合数 据库、信用融合数据库和异常融合数据库;其中,所述行为融合数据库包含以用户标识为关 键字的消费/支付行为的融合数据库;所述信用融合数据库包含用户信用行为的融合数据 库;所述异常融合数据库包含用户异常行为的融合数据库。5. -种多源数据融合方法,其特征在于,包括: 采集多源数据; 将所述多源数据进行数据融合,形成分析数据集; 根据场景规则关联所述分析数据集,输出基于所述场景规则的融合数据库;其中,所述 场景规则是基于不同场景设定的场景规则; 存储基于所述场景规则的融合数据库。6. 根据权利要求5所述的系统,其特征在于, 所述场景规则包括行为类型规则、行为相似规则、时间串联规则和地点邻近规则中的 一种或多种。7. 根据权利要求5所述的系统,其特征在于,所述将所述多源数据进行数据融合,形成 分析数据集具体包括: 读取数据来源子系统中的多源数据,所述多源数据由不同的数据库中的数据表组成, 按照所述数据表的属性进行分类和记录,存储到元模型数据库的不同的数据表中; 识别所述元模型数据库的不同的数据表的相同/相似属性的字段并进行合并; 去除合并后的数据表中的冗余字段,形成分析数据集。8. 根据权利要求5-7任一所述的系统,其特征在于,所述融合数据库包括:行为融合数 据库、信用融合数据库和异常融合数据库;其中,所述行为融合数据库包含以用户标识为关 键字的消费/支付行为的融合数据库;所述信用融合数据库包含用户信用行为的融合数据 库;所述异常融合数据库包含用户异常行为的融合数据库。
【文档编号】G06F17/30GK105893526SQ201610194976
【公开日】2016年8月24日
【申请日】2016年3月30日
【发明人】程明强, 王向阳, 曹国梁
【申请人】上海坤士合生信息科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1