一种基于大数据挖掘技术的楼宇人员归属识别方法与流程

文档序号:24074932发布日期:2021-02-26 16:40阅读:178来源:国知局
一种基于大数据挖掘技术的楼宇人员归属识别方法与流程

[0001]
本发明涉及一种基于大数据挖掘技术的楼宇人员归属识别方法,属于通信领域。


背景技术:

[0002]
经过近三十年的发展,电子商务已经走进我国千家万户,形成一项不可替代的产业形式。当前电商市场中主流并且较为成熟的用户分群方式为依据用户行为,具体应用方式为商品推荐。各企业争相利用大数据进行用户画像,对不同特征的用户群体进行划分,针对不同用户群提供专属营销服务,其个性化推荐方式主要可概括为两类:
[0003]
(a)对商品进行分类标签,通过用户的浏览、收藏等行为信息识别用户兴趣类别,为其推荐同类别的商品。
[0004]
(b)对所有用户进行画像,针对不同类的用户采用不同的推荐方式和内容,对同类用户推荐其他用户兴趣产品。
[0005]
上述方式主要注重用户的个人行为和时序上的前后影响,对用户的群体划分也只依赖于用户网络行为的特征,可获得的信息有限,维度也比较单一。而当前的用户行为等相关大数据中仍有大量信息等待发现和应用,群体行为特征间的影响和用户群体的划分维度等待综合性研究,如何发掘和应用新的用户分群维度成为时代背景下一大热点。
[0006]
一直以来,团体性用户都是企业进行客户维护的重点,与个人用户不同,团体性用户有着便于集中维护、效益高、维护成本低的优点。有研究表明,客户集中度与企业的财务效益具有倒u型的变化关系,即随着客户集中度增加,企业财务效益呈现先增加后降低的趋势。由此,合理发展企业集团性用户,提升客户集中度,有利于提升电商企业的财务效益;同时,由于同一集团的用户间具有特征相似,地理位置邻近等特点,对已有的集团性用户进行统一管理,有助于降低客户的维护成本和供应成本,因此对客户的集群性划分已成为企业客户维护的一大重点。
[0007]
与此同时,有研究表明,地方社会环境的特点可以影响人们的思想和行为的方式,这被称为邻里效应。研究显示,群体对个人行为有极大的影响,网络购物分享也会大大增加用户隐性需求,邻近人群间的购物行为会相互影响,选择产品有趋同性。由此,分析用户群地理集中情况,针对用户群分析职住空间,有利于发现邻近人群间的购物行为间的相互影响,协助电商企业进行精准推荐营销,完善用户推荐的依据维度,深度利用大数据信息,从而提高客户满意度,更好的维护客户。
[0008]
然而由于集团归属性的定义复杂,依据集团归属性对用户分群也存在一定难度,如何合理确定用户的集团归属情况以及算法是否有效都是待解决的问题。因此,如何充分利用用户数据和信令数据,将用户按照归属企业和地理位置进行群体划分,从而实现楼宇内企业用户群体的自动识别,已成为技术人员重点关注的技术问题。


技术实现要素:

[0009]
有鉴于此,本发明的目的是提供一种基于大数据挖掘技术的楼宇人员归属识别方
法,能充分利用用户数据和信令数据,将用户按照归属企业和地理位置进行群体划分,从而实现楼宇内企业用户群体的自动识别。
[0010]
为了达到上述目的,本发明提供了一种基于大数据挖掘技术的楼宇人员归属识别方法,包括有:
[0011]
步骤一、设定工作时段,提取每个用户在工作时段内的基站数据,以据此确定每个用户工作时的所属基站,然后根据基站信息中包含的楼宇名称,获取每个用户工作时的归属楼宇,最后将所有用户按照其工作时的归属楼宇划分成不同的楼宇用户组;
[0012]
步骤二、构建、并训练楼宇-用户分群模型,其输入是每个楼宇用户组内所有用户的特征数据,输出是将该楼宇用户组内所有用户划分后组成的多个企业用户群,楼宇-用户分群模型的工作流程如下:根据输入每个用户的特征数据,计算每两个用户之间的企业相似度,然后采用社区发现louvain算法,以每个用户为节点、每两个用户之间的企业相似度为边来构造图,从而将楼宇用户组内所有用户划分成多个社区,一个社区即一个企业用户群;
[0013]
步骤三、将待识别楼宇用户组内所有用户的特征数据输入训练后的楼宇-用户分群模型,并输出获得待识别楼宇用户组内所有用户分别归属的多个企业用户群。
[0014]
与现有技术相比,本发明的有益效果是:由于同一楼宇内通常会混杂有不同企业归属情况的用户,本发明基于信令数据和大数据挖掘技术对用户进行挖潜和归位研究,并采用图论社区发现算法,对同一楼宇内的用户按照企业归属和地理位置进行群体划分,最终实现将各用户归位至其所属企业,从而帮助精准营销、个性化推荐和提升客户满意度。
附图说明
[0015]
图1是本发明一种基于大数据挖掘技术的楼宇人员归属识别方法的流程图。
[0016]
图2是图1步骤一中,提取每个用户在工作时段内的基站数据,以据此确定每个用户工作时的所属基站的具体流程图。
[0017]
图3是图1步骤二中根据输入每个用户的特征数据,计算每两个用户之间的企业相似度的具体流程图。
具体实施方式
[0018]
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
[0019]
如图1所示,本发明一种基于大数据挖掘技术的楼宇人员归属识别方法,包括有:
[0020]
步骤一、设定工作时段,提取每个用户在工作时段内的基站数据,以据此确定每个用户工作时的所属基站,然后根据基站信息中包含的楼宇名称,获取每个用户工作时的归属楼宇,最后将所有用户按照其工作时的归属楼宇划分成不同的楼宇用户组;
[0021]
步骤二、构建、并训练楼宇-用户分群模型,其输入是每个楼宇用户组内所有用户的特征数据,输出是将该楼宇用户组内所有用户划分后组成的多个企业用户群,楼宇-用户分群模型的工作流程如下:根据输入每个用户的特征数据,计算每两个用户之间的企业相似度,然后采用社区发现louvain算法,以每个用户为节点、每两个用户之间的企业相似度为边来构造图,从而将楼宇用户组内所有用户划分成多个社区,一个社区即一个企业用户
群;
[0022]
步骤三、将待识别楼宇用户组内所有用户的特征数据输入训练后的楼宇-用户分群模型,并输出获得待识别楼宇用户组内所有用户分别归属的多个企业用户群。
[0023]
步骤一中,当用户处于居家或工作状态时,一个普遍的规律是将长时间停留在某个特定地点,因此可以将基站的附着时间作为用户状态判断的一个特征。首先将全天24小时分为 24个时段:从0时开始,依次为t1、t2、......、t24,根据调研,并且为了使数据覆盖绝大部分人群,保证特征提取的准确度,可以选取工作时段为t9-t12和t14-t17,然后针对每个用户根据工作时段其附着在每个基站的时间来筛选其可能的工作时所属基站。隶属度表示某个元素归属于某个模糊集合的程度,是模糊模式识别中的关键问题;本发明可以依据隶属度函数,将每个用户对每个停留基站的属性向量转化成隶属度向量。因此,如图2所示,图 1步骤一中,提取每个用户在工作时段内的基站数据,以据此确定每个用户工作时的所属基站,可以进一步包括有:
[0024]
步骤11、获取每个用户在工作时段内停留过的多个基站,构建每个用户对每个停留基站的属性向量:x
ij
=(x
ij1
,x
ij2
,...,x
ijn
)
t
,其中,x
ij
是用户i对于其第j个停留基站的属性向量,x
ij1
、x
ij2
、...、x
ijn
分别是用户i对其第j个停留基站的第1、2、...、n个基站数据,n是基站数据总数,基站数据包括但不限于:时段内打电话次数、时段内接电话次数、时段内基本位置更新次数、周期性位置更新次数、时段内收短信次数、时段内发短信次数、时段内通信时间总次数、时段内停留时长,如下表所示,是同一个用户在工作时段内对每个停留基站的基站数据表:
[0025][0026]
步骤12、根据每个用户对每个停留基站的属性向量,计算每个用户对每个停留基站与标准的工作状态基站的隶属度向量:u
ij
=(μ
ij1
,μ
ij2
,...,μ
ijn
)
t
,其中,u
ij
是用户i对第j个停留基站与标准的工作状态基站的隶属度向量,u
ij
中每个元素值的计算公式如下:μ
ijz
是u
ij
中的第z个元素值,z∈[1,u],x
ijz
是用户i对于其第j个停留基站的第z个基站数据,a
z
是第z个基站数据的标准值,σ
z
是第z个基站数据的标准差, a
z
、σ
z
的值可以根据样本数据中所有用户对于所有停留基站的第z个基站数据的均值来计算获得;
[0027]
步骤13、计算每个用户对每个停留基站与标准的工作状态基站的隶属度评价值:其中,n
ij
是用户i对第j个停留基站与标准的工作状态基站的隶属度评价值,α
z
是第z个基站数据对应的权重,其值可以根据对楼宇-用户分群模型的训练确定,然后从每个用户对所有停留基站与标准的工作状态基站的隶属度评价值中挑选一个最小值,所述最小值对应的停留基站即是每个用户工作时的所属基站。
[0028]
可以从企业成员之间的通话交往、工资收入、团建和聚餐位置等不同维度来获取
用户的特征数据,如图3所示,图1步骤二中根据输入每个用户的特征数据,计算每两个用户之间的企业相似度,以用户p和q为例加以说明,可以进一步包括有:
[0029]
步骤21、计算用户p和q的通话特征相似度:其中,θ
c
是第c个通话特征的权重,其值可以根据对楼宇-用户分群模型的训练确定,是用户p和q 在第c个通话特征上的属性值,c是通话特征数,通话特征可以包括但不限于:总通话次数、总通话时长、共同联系人个数、共同联系人通话次数;
[0030]
步骤22、计算用户p和q的工资收入特征相似度:其中,δ
b
是第b个工资收入特征的权重,其值可以根据对楼宇-用户分群模型的训练确定,是用户p和q在第b个工资收入特征上的相似值,b是工资收入特征数,工资收入特征可以包括但不限于:使用频率前三的银行的短信接口、固定下发日期和每月下发次数;
[0031]
由于工资收入特征可以是离散型或者连续性属性数据,以第b个工资收入特征为例,当第b个工资收入特征是离散型属性数据时,的计算公式如下:其中,分别是用户p和q的第b个工资收入特征值;当第b个工资收入特征是连续性属性数据时,的计算公式如下:其中,uban
max
、uban
min
分别是第b个工资收入特征的最大、最小值,其值可以根据实际业务需要而设置;
[0032]
步骤23、计算用户p和q的团建特征相似度分别提取用户p和q在每个历史节假日的一定时段内停留时间长的tm个基站,并按照停留时间从长到短的次序对为用户p和q 提取的tm个基站分别排序,然后逐一比较用户p和q在每个排序位置上的停留基站是否相同,从而获得用户p和q的相同停留基站数,再计算用户p和q在每个历史节假日的团建特征相似值,所述团建特征相似值即是用户p和q的相同停留基站数和tm的比值,最后计算用户p和q的团建特征相似度,即用户p和q在所有历史节假日的团建特征相似值的平均值;其中,tm可以根据实际业务需要而设置,例如选取每个节假日t13-t17之间用户停留时间前三的基站,在某个历史节假日,用户p排名第一的基站和用户q一致,但各自排名第二和三的基站不一致,用户p和q在该历史节假日的团建特征相似值就是1/3;
[0033]
步骤24、计算用户p和q的聚餐特征相似度逐一比较用户p和q在统计周期内每个工作日的一定时段内停留时间最长的基站是否相同,并统计基站相同的天数,然后计算用户p和q的聚餐相似度,即基站相同的天数和统计周期内所有工作日的总天数的比值;
[0034]
步骤25、计算用户p和q的企业相似度:其中,ρ1、ρ2、ρ3、ρ4分别是通话特征相似度、工资收入特征相似度、团建特征相似度、聚餐特征相似度的权重,可
以根据对楼宇-用户分群模型的训练来确定。
[0035]
楼宇-用户分群模型在采用社区发现louvain算法将楼宇用户组内所有用户划分成多个社区后,还可以针对同一企业用户群中人员分布存在多个企业、同一企业人员存在分布于多个企业用户群的情况,采用组内拆分和组间聚合的方法,从而实现楼宇内单一企业用户群的精准识别,其中:
[0036]
1)针对同一企业用户群中人员分布存在多个企业的情况,还包括有:
[0037]
步骤a1、根据楼宇用户组内每个企业用户群中的每两个用户之间的企业相似度,从每个企业用户群中挑选企业相似度低的多个用户作为重选用户,并由所有重选用户构成重选用户组,同时将重选用户从其所属的企业用户群中删除;
[0038]
步骤a2、计算重选用户组中每个用户与楼宇用户组内的每个企业用户群的相似度,用户与企业用户群的相似度是用户与企业用户群中所有用户之间的企业相似度的均值,并为重选用户组中每个用户挑选与其相似度最高的企业用户群,然后判断每个用户与所挑选的企业用户群的相似度是否大于所挑选的企业用户群内一定数量的用户之间的企业相似度,如果是,则将用户加入到所挑选的企业用户群中;如果否,则为用户构建一个新的企业用户群,并将用户加入到新的企业用户群中。
[0039]
2)针对同一企业人员存在分布于多个企业用户群的情况,还包括有:
[0040]
步骤b1、计算楼宇内每两个企业用户群之间的相似度,两个企业用户群之间的相似度是两个企业用户群中所有用户之间的企业相似度的均值,然后将相似度高的多个企业用户群合并成一个企业用户群;
[0041]
步骤b2、逐一判断每个企业用户群的用户数是否小于人数阈值,如果是,则计算该企业用户群与楼宇内其他企业用户群的相似度,并将该企业用户群合并到与其相似度最高的其他企业用户群中。
[0042]
通过步骤二对楼宇-用户分群模型进行训练,确定楼宇-用户分群模型中的各个权重参数后,还可以使用测试样本对模型效果进行评价,还包括有:
[0043]
步骤c1、将测试楼宇用户组内所有用户的特征数据输入训练后的楼宇-用户分群模型,并输出获得测试楼宇用户组内所有用户分别归属的多个企业用户群;
[0044]
步骤c2、获取测试楼宇用户组内每个企业用户群中的用户与其归属的企业名称,并为每个企业用户群挑选用户数最多的企业名称作为每个企业用户群的名称;
[0045]
步骤c3、计算分群准确率和混杂率:其中,accuracy是分群准确率,mess是分群混杂率,n
uc
是分群正确的用户数,n
u
是测试的用户数,nc是测试的企业数,x∈[1,nc],m
x
是第x个企业用户群中不属于该企业用户群名称对应企业的用户数,m
x
是第x个企业用户群中的用户数;
[0046]
步骤c4、判断是否计算得到的分群准确率大于准确率阈值、且分群混杂率小于混杂率阈值,如果否,则表示模型效果未达到要求,继续对模型进行调整。
[0047]
若模型效果未达到要求,可通过完善相似性度量特征体系及完善细分规则进行模型优化。一方面引入更多非交往类特征,用以描述无直接联系的用户间相似性;另一方面,进行用户分群细分时,定义规则以对不同部门用户进行描述划分。
[0048]
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1