商户的商圈信息的标定的制作方法

文档序号:9826533阅读:390来源:国知局
商户的商圈信息的标定的制作方法
【技术领域】
[0001] 本发明属于数据处理技术领域,涉及基于消费交易数据的处理来标定商户的商 圈信息,尤其涉及通过对消费交易数据进行关联规则挖掘计算得到商户关联关系信息、并 基于该关联关系信息来标定商户的商圈信息。
【背景技术】
[0002] 城市中通常按照商业区域范围来划分商圈,存在各种级别的商圈,例如核心商 圈、次级商圈和边缘商圈等。商户的位置信息通常通过商圈信息的形式来表述,例如,通常 会将某个商户归属于某一商圈,从而标定该商户的商圈信息。
[0003] 商户的商圈信息是开展针对商户的分析以及提供针对商户的服务的重要依据,并 且在现在商业社会中越来越重要。然而,实际上的大部分涉及商户的数据集合中,很多商户 的商圈信息都是不全面的,甚至是错误的,那么标定这部分缺失的商圈信息就成了一项必 要工作。
[0004] 当前,众多商户数据的持有者们在建立商户信息方面大多采用人工录入的方式来 实现。这种通过人工录入商户的商圈信息,其最直接的缺点就是工作量庞杂巨大,需要耗费 大量的人力成本和时间成本;第二个缺点就是商圈信息的录入标准不可控,不同的人可能 采用不同的标准来录入商圈信息,这给后续过程中对数据的清洗和分析带来了困难;第三 个缺点是商户位置信息的录入质量不可控,在人工录入的背景下,很多商户都会出现提供 错误商圈信息的现象,并且还会出现由于录入者的失误或者主观错误导致的商户的商圈信 息错误或遗漏。
[0005] 有鉴于此,亟需提出一种方案来自动化、高效、准确地标定商户的商圈信息,或者 标定所遗漏的商户的商圈信息、或修正商户的错误的商圈信息。

【发明内容】

[0006] 本发明的目的之一在于,实现对商户的商圈信息的自动化标定。
[0007] 本发明的又一目的在于,提高对商户的商圈信息的标定的准确性。
[0008] 本发明的又一目的在于,提高对商户的商圈信息的标定效率。
[0009] 为实现以上目的或者其他目的,本发明提供以下技术方案。
[0010] 按照本发明的一方面,提供一种标定商户的商圈信息的方法,其包括步骤: 对消费用户的消费交易数据进行关联规则的挖掘计算处理,以获取商户之间的关联关 系信息; 基于所述关联关系信息以及所述商户中的至少部分商户的已标定的商圈信息,计算所 述商户中商圈信息未标定的商户相对若干商圈的从属率;以及 基于每个所述商户的从属率标定其商圈信息。
[0011] 根据本发明一实施例的标定商户的商圈信息的方法,其中,所述获取关联关系信 息的步骤包括: 将对应属于同一消费用户的消费交易数据进行归并,将归并的消费交易数据中涉及的 所有商户列出以形成对应该消费用户的商户组数据; 以每个所述商户组数据为项集、对所有项集进行所述关联规则的挖掘计算处理,获取 所述商户之间的1-频繁项集、2-频繁项集以及每个所述1-频繁项集和2-频繁项集分别所 出现的频次(/);以及 至少基于所述2-频繁项集构建其中涉及到的商户的关联关系网,并存储以边集数组 表示的所述关联关系网中的"边"对应的第一商户(A)和第二商户(B)之间的关联关系信 肩、。
[0012] 优选地,所述第一商户(A)和第二商户(B)之间对应的所述边集数组为: 〈第一商户(A),第二商户(B),关联强度r#>和/或〈第二商户(B),第一商户(A),关 联强度 其中,关联强度r#通过以下关系式(1)计算:
其中,为所述第一商户A和第二商户B对应的2-频繁项集出现的频次,/^和&分 别为第一商户A和第二商户B对应的1-频繁项集出现的频次,Λ为所有的商户组数据的总 数。
[0013] 可选地,所述关联规则的挖掘计算是基于Apriori或FP-Growth算法进行的。
[0014] 根据本发明又一实施例的标定商户的商圈信息的方法,其中,计算所述从属率的 步骤中使用独立瀑布模型来计算。
[0015] 在之前所述任一实施例的方法中,计算所述从属率的步骤包括步骤: 假设所述第一商户(A)为已标定商圈信息的商户并且所述第一商户相对其所标定的商 圈的从属率为4,计算所述第二商户(B)相对该商圈的从属率队,其中B1通过以下关系式 (2)计算:
其中,为该商圈从属传播概率;為是所述第一商户相对其所标定的商圈的从属率;(? 是所述第一商户(A)和所述第二商户(B)之间的关联强度。
[0016] 在之前所述任一实施例的方法中,所述商户中的至少部分商户的已标定的商圈信 息的商户被定义为所述关联关系网中的种子节点。
[0017] 优选地,选取每个商圈中的核心知名商户作为该商圈的所述种子节点。
[0018] 根据本发明再一实施例的标定商户的商圈信息的方法,其中,基于每个所述商户 的从属率标定其商圈信息的步骤包括: 对应每个商圈信息未标定的商户的多个所述从属率,取其中最大的从属率; 判断所述最大的从属率是否大于或等于预定阈值; 在所述最大的从属率大于或等于预定阈值时,所述最大的从属率对应的商圈被标定为 该商户的商圈信息; 在所述最大的从属率小于预定阈值时,则认为该商户无明显的商圈从属性,放弃对该 商户的商圈信息的标定。
[0019] 按照本发明的又一方面,提供一种标定商户的商圈信息的装置,其包括: 第一部件,其用于对消费用户的消费交易数据进行关联规则的挖掘计算处理以获取商 户之间的关联关系信息; 第二部件,其用于基于所述关联关系信息以及所述商户中的至少部分商户的已标定的 商圈信息,计算所述商户中商圈信息未标定的商户相对若干商圈的从属率;以及 第三部件,其用于基于每个所述商户的从属率标定其商圈信息。
[0020] 根据本发明又一实施例的标定商户的商圈信息的装置,其中,所述第一部件包 括: 第一子部件,其用于将对应属于同一消费用户的消费交易数据进行归并,将归并的消 费交易数据中涉及的所有商户列出以形成对应该消费用户的商户组数据; 第二子部件,其用于以每个所述商户组数据为项集、对所有项集进行所述关联规则的 挖掘计算处理,获取所述商户之间的1-频繁项集、2-频繁项集以及每个所述1-频繁项集和 2-频繁项集分别所出现的频次(/);以及 第三子部件,其用于至少基于所述2-频繁项集构建其中涉及到的商户的关联关系网, 并存储以边集数组表示的所述关联关系网中的"边"对应的第一商户(A)和第二商户(B)之 间的关联关系信息。
[0021] 优选地,在所述第三子部件中,所述第一商户(A)和第二商户(B)之间对应的所述 边集数组为: 〈第一商户(A),第二商户(B),关联强度r#>和/或〈第二商户(B),第一商户(A),关 联强度 其中,关联强度r#通过以下关系式(1)计算:
其中,为所述第一商户A和第二商户B对应的2-频繁项集出现的频次,力和&分别 为第一商户A和第二商户B对应的1-频繁项集出现的频次,Λ为所有的商户组
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1