数据栅格化、用户行为分析的方法和装置的制造方法_4

文档序号:8282378阅读:来源:国知局
分别处理所述栅格数据中的数值数据和文本数据,以便获得 所述栅格数据对应的栅格的栅格特征数据。
[0188] 需要说明的是,栅格特征数据是根据栅格内的栅格数据计算或生成的统计数据。 通常,栅格特征数据是按照栅格来计算或生成的,即通过对同一栅格内的一条或多条栅格 数据进行计算获得此栅格的栅格特征数据,再通过比较和计算,获得目标区域以栅格为单 位表示的栅格特征数据所表示出的数据的规律,进而通过栅格特征数据反映所述目标时间 段中经过所述目标区域的用户的行为规律或偏好。栅格数据可以体现栅格内多条栅格数据 的特点,也可以用于比较不同栅格的栅格数据,栅格特征数据多根据数据处理的要求来设 定,可以分为数值型特征比如求平均人流量等,或者文本型特征比如词语搜索频率分析等。
[0189] 具体的,对于数值型特征,可根据求平均,求和,求方差等数学处理方式等对同一 栅格在目标时间段内的栅格数据进行聚合,从而提取出相应的栅格特征数据。又比如某些 特征需要按照时间段计算特征趋势。例如特征attr在第一个时间段到第N个时间段的值 分别为S 1,…an,从第2个时间段开始,属性趋势值计算为S2Ai1, a3/a2, "UnAvltj
[0190] 对于文本类栅格特征,可以将同一栅格在目标时间段内所有与待分析的特征有关 的词语(例如通过搜索关键词的方法)组成一个词语矩阵,即文本,利用文本聚类方法, 比如文档主题生成模型(LDA,Latent Dirichlet Allocation)、概率潜语义分析(PLSA, Probability Latent Semantic Analysis)等方法聚类出多个主题特征。
[0191] 图2c所示的方法,根据目标区域内产生的用户行为数据获得用户关联数据,每处 理一条用户关联数据,都根据用户关联数据对应的用户历史栅格集,将这条用户关联数据 匹配到相应的栅格内以生成对应的栅格数据,并根据栅格数据提取栅格的栅格特征数据, 从而完成对用户行为的分析,这个过程提高了数据栅格化的数据处理效率,并且简化了数 据栅格化的过程,从而更好的实现了基于大量多样化的实时栅格数据的用户行为规律或 偏好分析,更能满足当下的实体商业机构的选址或为商业推广提供定量或定性的参考中的 数据分析需求。
[0192] 由于用户关联数据所要匹配的原始栅格是已定的,但是这些原始栅格的参数往往 在栅格匹配过程中抽象成栅格的编号,并且原始栅格的划分多种多样,划分原则往往是按 照基站的分布或者按照社区、街道划分,因此原始栅格的形状和大小往往不等,栅格需要较 多的位置参数来描述,这些参数也缺乏规律性,增加了数据栅格化的计算量。图2b所述方 法用于栅格化产生于目标区域的目标时间段内的数据,目标时间段用于界定需要处理的数 据的产生时间,目标区域用于界定需要处理的数据的产生区域,包括以下步骤:
[0193] S201b:根据产生于目标时间段中目标区域内的用户行为数据,获得所述用户行为 数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所述一个 或多个用户的行为信息。
[0194] 具体的,S201b包括:在所述用户行为数据携带位置信息的情况下,将所述用户行 为数据作为所述对应的用户关联数据;
[0195] 在所述用户行为数据不携带位置信息的情况下,根据所述用户行为数据的产生时 间和用户信息,获得产生时间与所述用户行为数据的产生时间最接近的同一用户的用户位 置数据,所述用户位置数据包括位置信息;
[0196] 将所述用户位置数据中的位置信息关联到所述用户行为数据,以得到所述用户行 为数据对应的用户关联数据;
[0197] 在所述用户位置数据的产生时间与所述用户行为数据的产生时间之间的间隔大 于关联时间阈值的情况下,计算所述用户关联数据的关联置信度以及根据所述关联置信度 处理所述用户关联数据。
[0198] 其中,关联时间阈值用于表示在关联时间阈值内,同一用户的用户行为数据和用 户位置数据是在同一位置产生的。
[0199] 关联置信度表示用户关联数据的准确程度。
[0200] 更进一步的说明请参看S201a的内容,此处不再赘述。
[0201] S202b:根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维 编号。
[0202] 具体的,根据所述用户关联数据中的位置信息,计算所述位置信息表示的位置点 相对于所述目标区域的标准点的位置参数,所述标准点为所述目标区域中或与所述目标区 域相交的二维矩形栅格上经炜度的值已知的一个点;
[0203] 将所述位置参数转化为所述用户关联数据对应的二维编号。
[0204] 可选的,标准点可以是所述目标区域中或与所述目标区域相交的二维矩形栅格上 经度和炜度的值最小的一个点,或者是所述目标区域中或与所述目标区域相交的二维矩形 栅格上经度和炜度的值最大的一个点。标准点的选择可以以方便计算为标准,也可以任选 所述目标区域中或与所述目标区域相交的二维矩形栅格上经炜度的值已知的一个点,本发 明实施例不做限定。
[0205] S203b:以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配 的二维索引号,其中所述二维编号落入所述匹配的二维索引号的取值范围,或者所述二维 编号与所述匹配的二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所 述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述 二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格。
[0206] 需要说明的是,二级矩形栅格是数据栅格化之前或者数据栅格化过程中,重新划 定的辅助栅格,通过重新划定辅助网格,提高数据栅格化的效率,节约计算资源。
[0207] 可选的,在S203b前,还包括:设置二级矩形栅格的网格尺寸;根据所述网格尺寸, 将所述目标区域按所述二级矩形栅格划分;根据每个所述二级矩形栅格对应的位置信息, 计算每个所述二级矩形栅格对应的二维索引号。
[0208] 可选的,二级矩形栅格的网格设置为正方形。
[0209] 可选的,每个二级矩形栅格的大小相等。
[0210] S204b:根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关 联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标 区域的栅格密度大于所述目标区域的一级栅格的栅格密度;
[0211] 具体的,S204b包括:确定所述区域内的每个二级矩形栅格顶点所在的一级栅格;
[0212] 计算所述二级矩形栅格在所述目标区域内的每个顶点与所述一级栅格的网格的 位置关系,以确定每个所述顶点所对应的一级栅格;
[0213] 根据每个所述顶点与所述一级栅格的对应关系,确定在所述目标区域内或与所述 目标区域相交的所述二级矩形栅格对应的一级栅格;
[0214] 根据所述用户关联数据匹配的二级栅格的二维索引号,获得所述用户关联数据匹 配的二级具体的,二级矩形栅格可以在目标区域有多种栅格密度,也可以在目标区域和非 目标区域设定不同的栅格密度。
[0215] 需要说明的是,栅格密度是单位面积中的网格数,是一个平均值。
[0216] 矩形栅格对应的一级栅格的栅格标识。
[0217] 具体的,可以根据二级矩形栅格顶点所在的二级矩形栅格与所述一级栅格之间的 对应关系可以是映射表、函数关系等形式,本发明实施例不做限定。
[0218] S205b:关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格 的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识, 所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
[0219] 图2b所示的方法,根据目标区域内产生的用户行为数据获得用户关联数据,每处 理一条用户关联数据,都计算这条用户关联数据的在二级矩形栅格下的二维编号,根据一 级栅格与二级矩形栅格的对应关系,从而将这条用户关联数据匹配到相应的一级栅格内 以生成对应的栅格数据,增强了栅格化方法的数据处理能力,并且简化了数据栅格化的过 程,提高了数据栅格化的数据处理效率,减少了对计算资源的占用,更适合基于大量多样 化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构的选址或为 商业推广提供定量或定性的参考中的数据分析需求。
[0220] 基于与图2b对应的数据栅格化方法,可以得到如图2d所示的用户行为分析方法, 图2d所示的用户行为分析方法中,包括以下步骤:
[0221] 其中,S201d:根据产生于目标时间段中目标区域内的用户行为数据,获得所述用 户行为数据对应的用户关联数据,所述用户关联数据包括一个或多个用户的位置信息和所 述一个或多个用户的行为信息。
[0222] 具体的,S201d包括S201b中的全部内容,请参阅相关段落,此处不再赘述。
[0223] S202d:根据所述用户关联数据中的位置信息,计算所述用户关联数据对应的二维 编号。
[0224] 具体的,S202d包括S202b中的全部内容,请参阅相关段落,此处不再赘述。
[0225] S203d:以所述二维编号为查询条件,在二维索引号集中获得与所述二维编号匹配 的二维索引号,其中所述二维编号落入所述匹配的二维索引号的取值范围,或者所述二维 编号与所述匹配的二维索引号相同,其中所述匹配的二维索引号表示的二级矩形栅格为所 述用户关联数据匹配的二级矩形栅格,所述二维索引号集包括多个二维索引号,每个所述 二维索引号表示所述目标区域内或者与所述目标区域相交的一个二维矩形栅格。
[0226] 具体的,S203d包括S203b中的全部内容,请参阅相关段落,此处不再赘述。
[0227] S204d:根据所述二级矩形栅格与所述一级栅格之间的对应关系,确定所述用户关 联数据匹配的二级矩形栅格所对应的一级栅格的栅格标识,所述二级矩形栅格在所述目标 区域的栅格密度大于所述目标区域的一级栅格的栅格密度。
[0228] 具体的,S204d包括S204b中的全部内容,请参阅相关段落,此处不再赘述。
[0229] S205d:关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格 的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识。
[0230] 具体的,S205d包括S205b中的全部内容,请参阅相关段落,此处不再赘述。
[0231] S206d:关联所述一级栅格的栅格标识与所述用户关联数据,以得到所述一级栅格 的所述用户关联数据对应的栅格数据,所述栅格数据包括所述行为信息和所述栅格标识, 所述栅格数据用于分析所述目标时间段中经过所述目标区域的用户的行为规律或偏好。
[0232] 其中,提取可以理解为生成或者计算,在生成所述用户关联数据对应的一条栅格 数据后,可以将这条栅格数据维护起来(如储存起来),在需要以栅格为单位进行分析的情 况下,可以与这条栅格数据对应的栅格的其他栅格数据一起处理或者单独处理,从而获得 栅格特征数据。具体的,处理方法为分别处理所述栅格数据中的数值数据和文本数据,以便 获得所述栅格数据对应的栅格的栅格特征数据。
[0233] 需要说明的是,栅格特征数据是根据栅格内的栅格数据计算或生成的统计数据。 通常,栅格特征数据是按照栅格来计算或生成的,即通过对同一栅格内的一条或多条栅格 数据进行计算获得此栅格的栅格特征数据,再通过比较和计算,获得目标区域以栅格为单 位表示的栅格特征数据所表示出的数据的规律,进而通过栅格特征数据反映所述目标时间 段中经过所述目标区域的用户的行为规律或偏好。栅格数据可以体现栅格内多条栅格数据 的特点,也可以用于比较不同栅格的栅格数据,栅格特征数据多根据数据处理的要求来设 定,可以分为数值型特征比如求平均人流量等,或者文本型特征比如词语搜索频率分析等。
[0234] 栅格特征数据是根据一个栅格内的栅格数据计算或生成的统计数据,可以体现栅 格内多条栅格数据的特点,栅格特征数据多根据数据处理的要求来设定,可以分为数值型 特征比如求平均人流量等,或者文本型特征比如词语搜索频率分析等。
[0235] 具体的,对于数值型特征,可根据求平均,求和,求方差等处理方式等对同一栅格 在目标时间段内的栅格数据进行聚合,从而提取出相应的栅格特征;又比如某些特征需 要按照时间段计算特征趋势,例如特征attr在第一个时间段到第N个时间段的值分别为 al,…an,从第2个时间段开始,属性趋势值计算为a2/al,a3/a2,…an/an-1。
[0236] 对于文本类栅格特征,可以将同一栅格在目标时间段内所有与待分析的特征有关 的词语(例如通过搜索关键词的方法)组成一个词语矩阵,即文本,利用文本聚类方法, 比如文档主题生成模型(LDA,Latent Dirichlet Allocation)、概率潜语义分析(PLSA, Probability Latent Semantic Analysis)等方法聚类出多个主题特征。
[0237] 图2d所示的方法,根据目标区域内产生的用户行为数据获得用户关联数据,每处 理一条用户关联数据,都计算这条用户关联数据的在二级矩形栅格下的二维编号,根据一 级栅格与二级矩形栅格的对应关系,将这条用户关联数据匹配到相应的栅格内以生成对 应的栅格数据,并根据栅格数据提取栅格特征数据,从而完成对用户行为的分析,这个过程 提高了数据栅格化的数据处理效率,并且简化了数据栅格化的过程,从而更好的实现了基 于大量多样化的实时栅格数据的用户行为规律或偏好分析,更能满足当下的实体商业机构 的选址或为商业推广提供定量或定性的参考中的数据分析需求。
[0238] 图3所示的是图2a或者图2b所示的数据栅格化方法具体应用于根据目标区域在 目标时间段内产生的用户行为数据和用户位置数据,提取目标区域在目标时间段内的栅格 特征,从而完成图2c或者图2d所示的用户行为分析方法的实施例。这一过程在计算节点上 实现,计算节点可以是一台计算机中或者一组计算机集群,所述计算机可以是运营商的核 心网中的一台服务器或者具备数据计算能力的其他设备,图3所示的实施例不做限定。为 了方便理解,叙述过程中,结合分析2014年10月到11月,深圳市岗厦村的区域内的人群的 饮食偏好和晚饭时间(下午5点到9点)的人流密度的场景进行举例说明,应当明白这个 场景的举例仅用于加强理解,图3所示的实施例不仅仅局限于这一个场景。需要说明的是, 每条用户行为数据和每条用户位置数据都包括数据产生的时间、产生数据的用户的标识, 每条用户位置数据都包括数据产生的位置信息。并且,需要理解的
当前第4页1 2 3 4 5 6 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1