数据栅格化、用户行为分析的方法和装置的制造方法

文档序号:8282378阅读:269来源:国知局
数据栅格化、用户行为分析的方法和装置的制造方法
【技术领域】
[0001] 本发明涉及数据处理领域,更具体的涉及一种数据栅格化、以及一种用户行为分 析的方法和装置。
【背景技术】
[0002] 随着移动通信网络,互联网,移动终端(智能手机,汽车终端)等的发展,服务器 可以借助网络中的其他节点获得海量的用户位置数据和用户行为数据。其中,用户位置数 据是运营商通过给用户提供服务的基站采集到的用户在某个时刻所在的位置,比如张 X在 2014年10月23日10:00:00分,位置为经度113. 5678,炜度23. 111;用户行为数据则是用 户在某个时间,通过某个终端产生的行为属性数据,比如张 X在2014年10月23日10:00:00 分打了一次电话,时长2分钟,又如百度用户xyz在XX时间搜索了"西餐"。某个区域一段 时间内大量的用户位置数据和用户行为数据可以反映出这个区域内各种属性指标如人流 量、消费情况、年龄或偏好等等以及这些属性指标随时间变化的趋势,因此对这些数据的按 区域分析可以给运营商基建、连锁超市、餐饮或加油站等实体商业机构的选址或商业推广 提供定量或定性的参考。
[0003] 然而,目前对某个区域内某时间段内的数据分析采用的数据栅格化的方法却不能 满足以上需求。具体的,现行方法是待分析区域内基于运营商的位置数据和人群基本信息, 比如人流量与待分析区域中划定的栅格进行匹配,即判断数据的位置在哪个栅格中,之后 再以每个栅格为单位对栅格化的数据进行定性或定量的分析,得出某些规律或结论。通常, 数据栅格化采用射线法,具体为在多边形外面任意一点画一条虚拟的射线到P (X,y)然后 计算该射线与多边形上的边相交的次数。如果该次数是偶数,说明P(x,y)在多边形外,如 果是奇数,则在多边形内。通过循环判断每一条位置关联数据处于哪一个栅格多边形内,就 可以给每一条位置关联数据生成一条栅格数据。
[0004] 假设栅格个数为g个,用户数为m,时间段分为η个(如3个月按天分为90个时间 段),平均每个用户每个时间段产生k条数据,则所有用户产生的记录条数a = m*n*k。最简 单的栅格化方法是,逐条遍历每条数据与g个栅格,时间复杂度为m*n*k*g。假设m为百万 级,k为10, η为100, g为1000,则需要遍历IO12次以上,显然时间复杂度太高,而且效率较 低。
[0005] 因此现行的栅格化方法无法处理不包含用户位置信息的用户行为数据,更重要的 是,提取用户的行为规律或偏好等数据需要以大量多样化的实时栅格数据作为基础,而使 用现有的栅格化方法需要占用的计算资源多,效率低,不适合分析用户的行为规律或偏好, 更无法满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的数据分 析需求。

【发明内容】

[0006] 有鉴于此,本发明实施例提供了一种数据栅格化的方法和装置,提高了数据栅格 化的效率。
[0007] 另一方面,本发明实施例提供了一种用户行为的分析方法和装置,以实现基于大 量多样化的实时栅格数据的用户行为规律或偏好分析。
[0008] 第一方面,本发明实施例提供了一种数据栅格化的方法,所述方法应用于计算节 点,所述方法包括:
[0009] 根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对 应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个 用户的行为信息;
[0010] 根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号;
[0011] 以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维 索引号,其中所述二维编号落入所述匹配的二维索引号的取值范围,或者所述二维编号与 所述匹配的二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所述用户 关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述二维索 引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格;
[0012] 根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据 匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的 栅格密度大于所述目标区域的一级栅格的栅格密度;
[0013] 关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述 用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识,所述栅 格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
[0014] 在第一方面的第一种可能的实现方式中,在根据所述用户关联数据中的位置信 息,计算所述用户关联数据对应的二维编号的方面,所述方法具体包括:
[0015] 根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点相对于所 述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区域相交的 二维矩形栅格上经炜度的值已知的一个点;
[0016] 将所述位置参数转化为所述用户关联数据对应的二维编号。
[0017] 结合第一方面,或者第一方面第一种可能的实现方式,在第二种可能的实现方式 中,所述方法还包括:
[0018] 设置二级矩形栅格的网格尺寸;
[0019] 根据所述网格尺寸,将所述目标区域按所述二级矩形栅格划分;
[0020] 根据每个所述二级矩形栅格对应的区域的位置信息,计算每个所述二级矩形栅格 对应的二维索引号。
[0021] 结合第一方面,或者第一方面第一至第二种任意一种可能的实现方式,在第三种 可能的实现方式中,在根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述 用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识的方面,所述方法具体包 括:
[0022] 计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的 位置关系,以确定每个所述顶点所对应的一级栅格;
[0023] 根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述 目标区域相交的每个所述二级矩形栅格对应的一级栅格;
[0024] 根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹 配的二级矩形栅格对应的一级栅格的栅格标识。
[0025] 结合第一方面,或者第一方面第一至第三种任意一种可能的实现方式,在第四种 可能的实现方式中,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用 户行为数据对应的用户关联数据的方面,所述方法具体包括:
[0026] 在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应 的用户关联数据;
[0027] 在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时 间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位 置数据,所述用户位置数据包括位置信息;
[0028] 将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行 为数据对应的用户关联数据;
[0029] 在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大 于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度 处理所述用户关联数据。
[0030] 第二方面,本发明实施例提供了一种用户行为分析方法,所述方法应用于计算节 点,所述方法包括:
[0031] 根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对 应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个 用户的行为信息;
[0032] 根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维编号;
[0033] 以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配的二维 索引号,其中所述二维编号落入二维索引号的范围,或者所述二维编号与二维索引号相同, 其中所述匹配的二维索引号表示的二级矩形栅格为所述用户关联数据匹配的二级矩形栅 格,所述二维索引号集包括多个二维索引号,每个所述二维索引号表示所述目标区域内或 者与所述目标区域相交的一个二维矩形栅格;
[0034] 根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关联数据 匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标区域的 栅格密度大于所述目标区域的一级栅格的栅格密度;
[0035] 关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格的所述 用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识;
[0036] 根据至少一个所述一级栅格的一条或多条所述栅格数据,提取所述一级栅格在所 述目标时间段中的栅格特征数据,所述栅格特征数据表示所述目标时间段中经过所述目标 区域的用户的行为规律或偏好。
[0037] 在第二方面的第一种可能的实现方式中,在根据所述用户关联数据中的位置信 息,计算所述用户关联数据对应的二维编号的方面,所述方法具体包括:
[0038] 根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点相对于所 述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区域相交的 二维矩形栅格上经炜度值已知的一个点;
[0039] 将所述位置参数转化为所述用户关联数据对应的二维编号。
[0040] 结合第二方面,或者第二方面第一种可能的实现方式,在第二种可能的实现方式 中,所述方法还包括:
[0041] 设置二级矩形栅格的网格尺寸;
[0042] 根据所述网格尺寸,将所述目标区域按所述二级矩形栅格划分;
[0043] 根据每个所述二级矩形栅格对应的区域的位置信息,计算每个所述二级矩形栅格 对应的二维索引号。
[0044] 结合第二方面,或者第二方面第一至第二种任意一种可能的实现方式,在第三种 可能的实现方式中,在根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述 用户关联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识的方面,所述方法具体包 括:
[0045] 计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的 位置关系,以确定每个所述顶点所对应的一级栅格;
[0046] 根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述 目标区域相交的每个所述二级矩形栅格对应的一级栅格;
[0047] 根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹 配的二级矩形栅格对应的一级栅格的栅格标识。
[0048] 结合第二方面,或者第二方面第一至第三种任意一种可能的实现方式,在第四种 可能的实现方式中,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用 户行为数据对应的用户关联数据的方面,所述方法具体包括:
[0049] 在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应 的用户关联数据;
[0050] 在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时 间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位 置数据,所述用户位置数据包括位置信息;
[0051] 将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行 为数据对应的用户关联数据;
[0052] 在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大 于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度 处理所述用户关联数据。
[0053] 第三方面,本发明实施例提供了一种数据栅格化的方法,所述方法应用于计算节 点,所述方法包括:
[0054] 根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对 应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个 用户的行为信息;
[0055] 根据所述位置信息,与所述用户关联数据对应的用户历史栅格集中的栅格的位置 信息进行匹配,以得到与所述用户关联数据对应的栅格的栅格标识;
[0056] 在获得所述栅格标识的情况下,根据所述用户关联数据与所述栅格标识,得到所 述用户关联数据对应的栅格数据;
[0057] 在未获得所述栅格标识的情况下,将所述位置信息与所述目标区域的不在所述用 户历史栅格集中的栅格的位置信息进行匹配,以得到所述用户关联数据对应的栅格的栅格 标识,关联所述栅格标识与所述用户关联数据以得到所述用户关联数据对应的栅格数据, 以及将所述栅格标识加入所述用户关联数据对应的用户历史栅格集;
[0058] 其中所述栅格数据包括所述行为信息和所述栅格标识,所述栅格数据用于分析所 述目标时间段中经过所述目标区域的用户的行为规律或偏好。
[0059] 在第三方面的第一种可能的实现方式中,所述方法还包括:
[0060] 根据所述用户关联数据中携带的用户信息,确定所述用户关联数据对应的用户历 史栅格集。
[0061] 结合第三方面,或者第三方面第一种可能的实现方式,在第二种可能的实现方式 中,在根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对应 的用户关联数据的方面,所述方法具体包括:
[0062] 在所述用户行为数据携带位置信息的情况下,将所述用户行为数据作为所述对应 的用户关联数据;
[0063] 在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时 间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位 置数据,所述用户位置数据包括位置信息;
[0064] 将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行 为数据对应的用户关联数据;
[0065] 在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大 于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度 处理所述用户关联数据。
[0066] 第四方面,本发明实施例提供了一种用户行为的分析方法,所述方法应用于计算 节点,所述方法包括:
[0067] 根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为数据对 应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个或多个 用户的行为信息;
[0068] 根据所述位置信息
当前第1页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1