一种基于大数据的手机用户类型标记方法与流程

文档序号:17149548发布日期:2019-03-19 23:17阅读:360来源:国知局
一种基于大数据的手机用户类型标记方法与流程

本发明涉及数据分析技术领域,具体涉及一种基于大数据的手机用户类型标记方法。



背景技术:

生活在现代,手机给我们每一个人都带来了很大的便利,不管是订外卖还是打车,一部电话,可以说是把所有的事情都可以搞定了。可以这么说,手机是现代最伟大的发明也不为过,因为它极速的增加了我们与这个世界的沟通与交流,也缩短了人与人交流的障碍。从早上起床,到晚上睡觉的一整天时间里,手机总是被人们放置在触控范围内。出门时,手机也是和钥匙具有同等重要的地位,因此,手机与人基本上是24小时寸步不离。手机在连接通信网络时,是通过设置在各地的基站进行的,在同一时间,一个手机也只会与一个基站进行连接,因为各地的基站设置位置是固定和已知的,故当手机与基站进行连接时,就可以知道该手机的大概位置,即使用手机的用户的大概位置。但是现有的利用移动业务信令数据进行手机用户定位分析的方法大多存在定位不准确,不智能,更不能通过该业务信令数据分析出手机用户的个人情况,不能充分利用现有的移动业务信令的问题。



技术实现要素:

本发明目提供了一种基于大数据的手机用户类型标记方法,解决了现有技术中不能对手机用户的个人情况进行分析的问题。

本发明所采用的技术方案为:

一种基于大数据的手机用户类型标记方法,包括以下步骤:

s1、获取通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;

s2、通过基站工程参数和空间区块实际位置坐标点集合,形成地理实体特征指纹;

s3、将业务信令数据按时间、空间关系进行聚合,确定用户的业务信令轨迹数据特征;由于是业务信令,即一个时间点只有一个基站。但由于用户在一个位置时,可能由于多种因素会发生基站切换,即用户连续的多条业务信令可能均指向一个位置,因此需要将用户的业务信令按时间、空间关系进行聚合;

s4、根据聚合后的业务信令轨迹数据特征,对手机用户的每个时段进行定位,判断用户在每一时段所处的具体地理实体;

s5、根据用户每一时刻的定位,按照时间先后生成用户每天的定位轨迹链,结合用户历史的定位轨迹链,为用户打上特征标签,标签内容包括职业、居住地和工作地。

作为上述技术方案的优选,所述步骤s2中,形成地理实体特征指纹的步骤为:

s201、根据基站工程参数计算基站的覆盖面;

s202、根据地理实体的覆盖范围和基站的覆盖面,通过gis空间计算引擎,计算得到地理实体和基站覆盖的交叉面积s;所述地理实体的覆盖范围为:将地图服务商提供的地理实体实际位置坐标点进行两两相连,形成封闭的覆盖区域,即为地理实体覆盖范围;

s203:通过基站的工程参数计算出基站的覆盖面积sb;

s204:通过基站的覆盖面积sb和交叉面积s,通过方程计算地理实体和基站的空间关系系数α,计算方程为:α=s÷sb;

s205:输出地理实体和覆盖该地理实体的基站的关系:

{b,{lc1,α},{lc2,α}{lc3,α}..{lcn,α}}(1)

其中,b为地理实体,lc为基站编号。

作为上述技术方案的优选,所述步骤s3中,确定用户的业务信令轨迹数据特征包括如下步骤:

s301、对用户业务信令记录按发生时间进行排序,如连续的业务信令记录出现往复切换,则将这两条业务信令记录合并;

例如基站a->…->基站a这样的切换,如两次出现基站a的时间间隔不超过2小时,且两次基站a之前出现的其他基站和基站a之间的距离均不超过1km,则将这些记录合并;

s302、将时间间隔在1分钟的业务信令数据合并;

由于业务信令采集来源为多个数据源,且各数据源时间可能有些许差异,故将时间间隔在1分钟的业务信令数据合并;

s303、迭代执行步骤s301和步骤s302,直到无法合并为止;

s304、合并后的记录按“开始-结束”时间划分为多个时段,每个时段内存在多条记录,修正错误数据,找到每个时段内出现时间最长的基站,并剔除时段内跟该基站距离大于1km的记录;

s305、历史数据学习,将步骤s304处理后的记录存入数据库,并与历史记录进行相似度匹配,将相似的历史记录并入该时段;

s306、计算同一时段中出现过的每个基站在近一个月中的出现频次w;

s307、输出合并后的记录:

{u,ts,te,{lc1,w1},{lc2,w2},{lc3,w3}…{lcn,wn}}(2)

其中,u为用户标识,ts为时段开始时间,te为时段结束时间,lcn为基站小区标识,wn为基站小区在近一个月的出现频次。

作为上述技术方案的优选,所述s305中,如历史记录中存在跟该时段相似度大于80%,且均为工作日或均为非工作日,且历史记录的中的基站经纬度跟当前时段中所有基站的经纬度距离均小于1km,则将历史记录也并入该时段。时段相似度=两时段内相同分钟数的平方÷(时段一分钟数×时段二分钟数)。

作为上述技术方案的优选,所述步骤s4中,判断用户在每一时段所处的具体地理实体包括:

将式(1)和式(2)按照方程(3)进行关联计算,得到用户在该时段可能所在的可能性大小p,方程(3)为:

p{u,b}=∑w*α(3)

形成每个用户每个时段在各地理实体内的可能性大小数据集,

{u,ts,te,{b1,p1},{b2,p2},{b3,p3}…{bn,pn}}(4)

其中p最大的一个地理实体即为用户该时段的驻留位置。

作为上述技术方案的优选,所述基站工程参数包括地区区域码、基站识别码、网络制式、天线类型、天线方位角、基站覆盖类型、基站天线位置经度坐标和基站天线位置纬度坐标;所述移动业务信令数据包括时间、用户号码和基站编号。

作为上述技术方案的优选,所述基站覆盖类型包括室内型和非室内型;所述天线类型包括全向天线和定向天线;所述室内型基站的覆盖半径r为固定值;非室内型基站的覆盖半径r为,该基站天线经纬度坐标和最近的三个非室内型基站的平均距离与特定系数的乘积。所述特定系数为1.6;所述室内型基站的覆盖半径r默认为400米;

作为上述技术方案的优选,所述全向天线基站覆盖面的计算方法为:以天线经纬度为中心点,每隔45度向外延伸基站覆盖半径r的长度,分别得到八个坐标点,将相邻的坐标点用直线两两连接,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面。

作为上述技术方案的优选,所述定向天线基站覆盖面的计算方法为:以天线经纬度为中心点,分别按角度a、a+h÷6、a+h÷3、a+h÷2、a-h÷6、a-h÷3和a+h÷2向外延伸基站覆盖半径r的长度,得到七个坐标点,将相邻的坐标点用直线两两连接,两端的两个坐标点分别与天线经纬度点相连,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面;所述角度a为天线方位角,角度h为水平波瓣角度。所述水平波瓣角度计算方法为,若该基站定向天线数量小于等于2,则为180度,否则为120度。

作为上述技术方案的优选,所述步骤s5中,为用户打上特征标签的方法为:

s501、根据用户的历史定位轨迹链,统计出用户当月在该地理实体的驻留频次、驻留开始时段、驻留结束时段、平均驻留时长、工作日驻留天数、非工作日驻留天数和同类位置驻留天数;

s502、根据s501中统计出的数据,对用户的每一次驻留行为打上行为标签,行为标签包括居住和工作;

s503、根据行为标签,结合地理实体类型,采用非监督聚类分析方法,为用户打上特征标签。所述地理实体类型由地图服务商提供。

本发明的有益效果为:

本发明通过每天获取通信运营商提供的前一天的移动业务信令数据,与地图服务商提供的地理实体边界有机结合,通过对手机用户每一次驻留的具体地理实体进行精确定位,形成该用户当天的定位轨迹链,并结合历史的定位轨迹链,分析出该用户的工作地点、居住地点、经常去的娱乐场所等信息,并形成用户特征标签,能够使移动业务信令数据的价值得到充分的释放,具有极强的实用性。

附图说明

图1是本发明-实施例1用户特征标签的定义标准示例;

图2是本发明-实施例1用户特征标签内容示例。

具体实施方式

下面对本发明做详细的说明。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中,需要说明的是,术语“上”、“竖直”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

在本发明的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“安装”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。

实施例1:

本实施例提供了一种基于大数据的手机用户类型标记方法。

一种基于大数据的手机用户类型标记方法,包括以下步骤:

s1、获取通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;

s2、通过基站工程参数和空间区块实际位置坐标点集合,形成地理实体特征指纹;

s3、将业务信令数据按时间、空间关系进行聚合,确定用户的业务信令轨迹数据特征;由于是业务信令,即一个时间点只有一个基站。但由于用户在一个位置时,可能由于多种因素会发生基站切换,即用户连续的多条业务信令可能均指向一个位置,因此需要将用户的业务信令按时间、空间关系进行聚合;

s4、根据聚合后的业务信令轨迹数据特征,对手机用户的每个时段进行定位,判断用户在每一时段所处的具体地理实体;

s5、根据用户每一时刻的定位,按照时间先后生成用户每天的定位轨迹链,结合用户历史的定位轨迹链,为用户打上特征标签,特征标签内容包括职业、居住地、工作地、商娱地、双城人士和商旅人士。

所述步骤s2中,形成地理实体特征指纹的步骤为:

s201、根据基站工程参数计算基站的覆盖面;

s202、根据地理实体的覆盖范围和基站的覆盖面,通过gis空间计算引擎,计算得到地理实体和基站覆盖的交叉面积s;所述地理实体的覆盖范围为:将地图服务商提供的地理实体实际位置坐标点进行两两相连,形成封闭的覆盖区域,即为地理实体覆盖范围;

s203:通过基站的工程参数计算出基站的覆盖面积sb;

s204:通过基站的覆盖面积sb和交叉面积s,通过方程计算地理实体和基站的空间关系系数α,计算方程为:α=s÷sb;

s205:输出地理实体和覆盖该地理实体的基站的关系:

{b,{lc1,α},{lc2,α}{lc3,α}..{lcn,α}}(1)

其中,b为地理实体,lc为基站编号。

所述步骤s3中,确定用户的业务信令轨迹数据特征包括如下步骤:

s301、对用户业务信令记录按发生时间进行排序,如连续的业务信令记录出现往复切换,则将这两条业务信令记录合并;

例如基站a->…->基站a这样的切换,如两次出现基站a的时间间隔不超过2小时,且两次基站a之前出现的其他基站和基站a之间的距离均不超过1km,则将这些记录合并;

s302、将时间间隔在1分钟的业务信令数据合并;

由于业务信令采集来源为多个数据源,且各数据源时间可能有些许差异,故将时间间隔在1分钟的业务信令数据合并;

s303、迭代执行步骤s301和步骤s302,直到无法合并为止;

s304、合并后的记录按“开始-结束”时间划分为多个时段,每个时段内存在多条记录,修正错误数据,找到每个时段内出现时间最长的基站,并剔除时段内跟该基站距离大于1km的记录;

s305、历史数据学习,将步骤s304处理后的记录存入数据库,并与历史记录进行相似度匹配,将相似的历史记录并入该时段;

s306、计算同一时段中出现过的每个基站在近一个月中的出现频次w;

s307、输出合并后的记录:

{u,ts,te,{lc1,w1},{lc2,w2},{lc3,w3}…{lcn,wn}}(2)

其中,u为用户标识,ts为时段开始时间,te为时段结束时间,lcn为基站小区标识,wn为基站小区在近一个月的出现频次。

所述s305中,如历史记录中存在跟该时段相似度大于80%,且均为工作日或均为非工作日,且历史记录的中的基站经纬度跟当前时段中所有基站的经纬度距离均小于1km,则将历史记录也并入该时段。时段相似度=两时段内相同分钟数的平方÷(时段一分钟数×时段二分钟数)。

所述步骤s4中,判断用户在每一时段所处的具体地理实体包括:

将式(1)和式(2)按照方程(3)进行关联计算,得到用户在该时段可能所在的可能性大小p,方程(3)为:

p{u,b}=∑w*α(3)

形成每个用户每个时段在各地理实体内的可能性大小数据集,

{u,ts,te,{b1,p1},{b2,p2},{b3,p3}…{bn,pn}}(4)

其中p最大的一个地理实体即为用户该时段的驻留位置。

所述基站工程参数包括地区区域码、基站识别码、网络制式、天线类型、天线方位角、基站覆盖类型、基站天线位置经度坐标和基站天线位置纬度坐标;所述移动业务信令数据包括时间、用户号码和基站编号。

所述基站覆盖类型包括室内型和非室内型;所述天线类型包括全向天线和定向天线;所述室内型基站的覆盖半径r为固定值;非室内型基站的覆盖半径r为,该基站天线经纬度坐标和最近的三个非室内型基站的平均距离与特定系数的乘积。所述特定系数为1.6;所述室内型基站的覆盖半径r默认为400米;

所述全向天线基站覆盖面的计算方法为:以天线经纬度为中心点,每隔45度向外延伸基站覆盖半径r的长度,分别得到八个坐标点,将相邻的坐标点用直线两两连接,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面。

所述定向天线基站覆盖面的计算方法为:以天线经纬度为中心点,分别按角度a、a+h÷6、a+h÷3、a+h÷2、a-h÷6、a-h÷3和a+h÷2向外延伸基站覆盖半径r的长度,得到七个坐标点,将相邻的坐标点用直线两两连接,两端的两个坐标点分别与天线经纬度点相连,形成封闭的基站覆盖区域,即得到全向天线基站的覆盖面;所述角度a为天线方位角,角度h为水平波瓣角度。所述水平波瓣角度计算方法为,若该基站定向天线数量小于等于2,则为180度,否则为120度。

所述步骤s5中,为用户打上特征标签的方法为:

s501、根据用户的历史定位轨迹链,统计出用户当月在该地理实体的驻留频次、驻留开始时段、驻留结束时段、平均驻留时长、工作日驻留天数、非工作日驻留天数和同类位置驻留天数;

s502、根据s501中统计出的数据,对用户的每一次驻留行为打上行为标签,行为标签包括居住、工作、商娱和路过;

s503、根据行为标签,结合地理实体类型,采用非监督聚类分析方法,为用户打上特征标签。所述地理实体类型由地图服务商提供。

如图1所示,所述用户特征标签的定义标准示例:

居住地:用户平均日驻留时长5小时以上,结束时段80%位于7-9点区间;

工作地:用户平均日驻留时长3小时以上,开始时段80%位于8-10点区间或13-14点区间;

商娱地:用户平均驻留时长2小时以上,80%的驻留时间均在非工作日,地理实体类型为休闲娱乐、购物、旅游场所;

双城人士:用户工作日和非工作日存在两个固定居住地点;

商旅人士:用户在机场、火车站驻留,且之后存在1天以上的轨迹缺失。

如图2所示,所述用户特征标签内容示例:

1、用户名称:a35687416;

2、年龄:25岁;

3、性别:男;

4、职业:公司职员;

5、工作日居住地:a建筑;

6、工作地:b建筑;

7、非工作日居住地:c建筑;

8、商娱地:d建筑、e建筑、f建筑、g地点。

实施例2:

本实施例提供了一种支持本发明的时空大数据分析系统,包括计算层和服务层,其中:

计算层,根据通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合,计算出每个手机用户每天的轨迹链,并给每个手机用户打上标签;

服务层,根据不同的业务需要提取计算层内的不同数据,将提取出的数据进行统计后,得出对应的业务模型数据。

所述标签内容包括手机用户的职业、工作和居住属性。

所述基站工程参数包括地区区域码、基站识别码、网络制式、天线类型、天线方位角、基站覆盖类型、基站天线位置经度坐标和基站天线位置纬度坐标;所述移动业务信令数据包括时间、用户号码和基站编号。

所述基站覆盖类型包括室内型和非室内型;所述天线类型包括全向天线和定向天线;所述室内型基站的覆盖半径r为固定值;非室内型基站的覆盖半径r为,该基站天线经纬度坐标和最近的三个非室内型基站的平均距离与特定系数的乘积。所述特定系数为1.6;所述室内型基站的覆盖半径r默认为400米。

所述服务层将得出的业务模型数据转换为api、sdk和可视化组件中的一种或多种,以便第三方软件调用。

所述计算层和服务层均设置有系统检测模块,系统检测模块用于检测系统内各个模块的运行是否正常,若发现有系统运行运行状态失常,则发出报警信息。

所述计算层包括:

轨迹库,用于储存每个手机用户每天的轨迹链;

人口库,用于储存每个手机用户标签;

基础数据库,用于储存获取的通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;

模型库,用于储存算法模块,所述算法模块用于根据基础数据库的内容得到轨迹库和人口库。

所述服务层包括:

业务db,用于存储根据不同的业务需要在计算层的轨迹库和人口库中读取的数据;

第三方数据接入/采集模块,用于接收第三方输入的业务数据或主动采集第三方业务数据;

业务服务模块,用于将业务db内存储的数据,根据业务需要进行统计,得出对应的业务模型数据。

所述主动采集第三方业务数据的方式为,通过网络爬虫在搜索引擎中读取所需的信息。

所述服务层还包括用户管理模块,用户管理模块用于用户注册和用户权限管理;用户管理模块分别与用户库和运维库数据连接,所述用户库用于储存已注册的用户信息,所述运维库用于储存系统运行的数据和运行日志。

所述服务层还包括计费模块,计费模块用于用户充值,并根据用户的消费情况进行余额管理。用户充值后,计费模块将用户充值后的余额进行记录,当用户访问计算层内的数据后,根据用户访问数据内包括的人口数量、地理区域范围、地理精度、服务使用时长、标签使用类型和跟踪数据使用深度进行计费,并将费用实时在余额中进行扣除,并将扣除后的余额进行显示。

实施例3:

本实施例提供了一种基于大数据的手机用户类型标记方法。

一种基于大数据的手机用户类型标记方法,包括以下步骤:

s1、获取通信运营商提供的基站工程参数、移动业务信令数据和地图服务商提供的空间区块实际位置坐标点集合;

s2、通过基站工程参数和空间区块实际位置坐标点集合,形成地理实体特征指纹;

s3、将业务信令数据按时间、空间关系进行聚合,确定用户的业务信令轨迹数据特征;由于是业务信令,即一个时间点只有一个基站。但由于用户在一个位置时,可能由于多种因素会发生基站切换,即用户连续的多条业务信令可能均指向一个位置,因此需要将用户的业务信令按时间、空间关系进行聚合;

s4、根据聚合后的业务信令轨迹数据特征,对手机用户的每个时段进行定位,判断用户在每一时段所处的具体地理实体;

s5、根据用户每一时刻的定位,按照时间先后生成用户每天的定位轨迹链,结合用户历史的定位轨迹链,为用户打上特征标签,特征标签内容包括职业、居住地、工作地、商娱地、双城人士和商旅人士。

本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1