一种移动网络用户群体流量使用行为的分类方法

文档序号:10516722阅读:510来源:国知局
一种移动网络用户群体流量使用行为的分类方法
【专利摘要】本发明涉及一种移动网络用户群体流量使用行为的分类方法,属于移动通信技术领域。该方法重点考虑多个因素对用户流量使用行为的影响,并从多维度的角度出发,对用户流量使用行为进行考察;针对不同维度对用户流量使用行为的影响,本方法首先针对考虑因素对用户流量使用行为产生的影响程度对所考虑因素的等级进行划分;当完成各维度所考虑因素的程度划分后,对用户行为类别进行预分类;然后基于所有维度的考虑,对用户群体进行聚类,并计算每个聚类集合分别包含用户类别的占比,从而得到移动网络用户流量使用行为的分类。该方法能够有效完成移动网络用户流量使用行为的分类,并为流量营销价值的提升以及移动用户网络资源的配置提供理论依据。
【专利说明】
-种移动网络用户群体流量使用行为的分类方法
技术领域
[0001] 本发明属于移动通信技术领域,设及一种移动网络用户群体流量使用行为的分类 方法。
【背景技术】
[0002] 随着移动互联网、社交网络、电子商务等应用的日益发展,一个数据爆炸性增长的 "大数据"时代正在影响着我们。随着海量数据时代的到来,很多行业几乎到了 "数据就是业 务本身"的境地,数据的重要性、可用性越来越被重视。"大数据"甚至被视为"未来的新石 油"。但是大数据运不是仅掌握海量数据信息,而是要将掌握的数据信息进行专业分析和处 理,通过"深加工"使原始数据增值、可利用。同样,大数据时代对电信运营商的数据驾驭能 力提出了新的挑战与机遇。
[0003] 随着移动通信网络的发展,运营商语音、短信运些常规业务收入不断下降,流量业 务已经逐步成为电信运营商收入的主要来源。但是,电信运营商的流量业务的经营却越来 越困难:首先,多样化业务消耗的网络资源与流量增长之间矛盾日益突出;其次,随着行业 的竞争更为深刻,用户的感知能够更多的影响一个企业的发展前景,因此用户体验在行业 竞争中越来越重要。为了保证网络的有效管理W及用户体验的提升,迫切需要有效的方法 对移动网络用户流量使用行为模型进行深入的分析,为运营商进行数据流量经营提供更多 的辅助信息。
[0004] 随着网络用户流量使用行为呈现多样性和复杂性,用户对于高速无线数据传输的 需求越来越大,因而所需的频谱资源也越来越多。但是可利用的频谱资源毕竟有限,于是如 何提高频谱资源的频带利用率W提高无线数据传输速率成为行内人±研究的热口问题。除 了加快5G的研究步伐外,整合现有网络,组成异构网络,实现多种网络优势互补,提升网络 服务能力和用户服务体验,成了如今的研究重屯、之一。
[0005] 因此,对于移动网络用户流量使用行为进行分析,对流量营销价值的提升W及移 动用户网络资源的配置具有重要意义。

【发明内容】

[0006] 有鉴于此,本发明的目的在于提供一种移动网络用户群体流量使用行为的分类方 法,该方法重点考虑多个因素对用户流量使用行为的影响,并从多维度的角度出发,对用户 流量使用行为模型进行考察。
[0007] 为达到上述目的,本发明提供如下技术方案:
[000引一种移动网络用户群体流量使用行为的分类方法,在该方法中,将用户数据流量、 用户使用业务类型、用户移动性因素相结合,从多个维度对用户群体上网行为特征进行分 析,进而得出用户流量使用行为模型;具体包括W下步骤:
[0009] S1:首先根据考虑因素对用户流量使用行为产生的影响程度,对所考虑因素的等 级进行划分,所述考虑因素包括数据流量、用户使用业务类型、用户移动性;
[0010] S2:当完成各维度所考虑因素的程度划分后,对用户行为类别进行预分类;
[0011] S3:然后基于所有维度的考虑,对用户群体进行聚类,并计算每个聚类集合分别包 含用户类别的占比,从而得到移动网络用户流量使用行为的分类。
[0012] 进一步,在步骤S2中,将用户类别预分为九类,:A、即时通信低流量用户(包括沉默 用户);B、即时通信中流量用户;C、即时通信高流量用户;D、网页捜索低流量用户(包括沉默 用户);E、网页捜索中流量用户;F、网页捜索高流量用户;G、视频类低流量用户(包括沉默用 户);H、视频类中流量用户;I:视频类高流量用户。
[0013] 进一步,在步骤S3中,将聚类分为粗聚类和细聚类两个层面进行:先使用减法聚类 算法快速寻找聚类中屯、的个数;然后使用模糊C-均值聚类算法完成聚类参与点的划分;具 体包括W下步骤:
[0014] 1)计算每个数据点的密度,得到密度指标:
[0015]
[0016] 其中τι表示该点W距离的形式影响的范围,越大则管的范围越大,越小则越集中, 分的类越多;
[0017] 2)找到密度指标最大的数据作为第一个聚类中屯、,之后除去运个点的密度,再计 算所有点的密度指标
:Τ2表示表示该点W 距离的形式影响的范围,与τι的区别在于Τ2考虑的是权重影响的范围,若很小,则容易重合 聚类,即在原聚类中屯、又找了一个类中屯、,因此Τ2-般要大于τι;
[0018] 3)再找到最大的密度指标,并把此点作为聚类中屯、,依次循环,直到:
[0019]
[0020] 4)当某次的密度指标的最大值与第一次的比值小于某一个数δ,则迭代停止;
[0021] 5)确定聚类数C(已求得),初始化隶属度矩阵口^,口1听{0,1},我^!、〇、<,^!,耀遺 迭代次数t = 0;
[0022] 6)计算聚类中屯
口下:
[0023]
[0024] 7)对于第t步,修改隶属度矩阵PW如下:
[0025]
[0026] 8)若I IPA+U-P^I I >0,则进入下一步,否则置t = t+饼转步骤6);
[0027] 9)选择常数〇〉0,置迭代次数h = 0,W步骤8)的结果作为FCM算法的初始聚类中屯、Q (0). ,
[002引10)根据qW按下式计算隶属度矩阵ρ(^:
[0029]
[0030] 11)按下式进一步调整类别中屯、Q(h+":
[0031]
[0032] 12)若I ipth+U-pW! I <0,则算法结束,输出聚类的中屯、和隶属度矩阵P;否则,置h = h+l,返回10);由计算得到的隶属度矩阵P就可W确定每一个数据点分别对各个聚类的隶 属度,其中隶属度最大的聚类即为该数据点所属的聚类。
[0033] 本发明的有益效果在于:本发明重点考虑多个因素对用户流量使用行为的影响, 并从多维度的角度出发,对用户流量使用行为进行考察。针对不同维度对用户流量使用行 为的影响,本发明首先针对考虑因素对用户流量使用行为产生的影响程度对所考虑因素的 等级进行划分;当完成各维度所考虑因素的程度划分后,对用户行为类别进行预分类;然后 基于所有维度的考虑,对用户群体进行聚类,并计算每个聚类集合分别包含用户类别的占 比,从而得到移动网络用户流量使用行为的分类。该方法能够有效完成移动网络用户流量 使用行为的分类,并为流量营销价值的提升W及移动用户网络资源的配置提供理论依据。
【附图说明】
[0034] 为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行 说明:
[0035] 图1为本发明的系统结构框架图;
[0036] 图2为各维度因素程度划分图;
[0037] 图3为传统模糊C-均值聚类算法流程图;
[0038] 图4为减法聚类算法流程图;
[0039] 图5为改进后的聚类算法流程图;
[0040] 图6为基于特定业务类型和数据流量大小的用户群体分类表格;
[0041] 图7为实施例一:用户流量使用行为分类结果图;
[0042] 图8为基于特定小区位置和数据流量大小的用户群体分类表格;
[0043] 图9为实施例二:用户流量使用行为分类结果图;
[0044] 图10为基于用户的移动性、日均流量、流量均速用户群体分类表格;
[0045] 图11为实施例Ξ:用户流量使用行为分类结果图。
【具体实施方式】
[0046] 下面将结合附图,对本发明的优选实施例进行详细的描述。
[0047] 本发明实施例所分析的数据来自中国移动重庆分公司所部署的数据采集系统,该 城市的地理面积大约为8万平方公里,总人口数超过两千九百万。该城市的人口从一个侧面 反映了其经济的发展情况,也说明了其作为研究移动网络用户流量使用行为模型的典型城 市是比较有代表性和说服力的。如图1所示,数据集取自DPI分析系统,数据集涵盖了从接入 网到骨干汇聚层的所有数据,从而保证数据的完整性和可靠性。目前我们采集到的数据区 域为:重庆市,涵盖主城区、北摇、大足、丰都、洁陵等地区流量数据。观测流量类型包括所有 业务类型或选定业务类型(如P2P、IM、V0IP等)。观测数据分组包括小区宽带分组、GPRS分 组、WLAN分组等。观测数据颗粒度包括每五分钟、每一小时、每一天、每一周、每一月、每一 年。运些丰富的数据源能为我们的后期研究提供基础数据。本发明主要提取用户流量、业务 类型、用户移动性等多个因素作为聚类分析的维度,针对不同维度对用户流量使用行为模 式的影响,本发明首先针对考虑因素对用户流量使用行为产生的影响程度对所考虑因素的 等级进行划分,具体如图2所示。当完成各维度所考虑因素的程度划分后,对用户行为类别 进行预分类;然后基于所有维度的考虑,对用户群体进行聚类,并计算每个聚类集合分别包 含用户类别的占比,从而得到移动网络用户流量使用行为的分类,W此分析移动网络用户 流量使用行为的典型特征。该方法能够有效完成移动网络用户流量使用行为的分类,并为 流量营销价值的提升W及移动用户网络资源的配置提供理论依据。
[0048]模糊聚类分析作为无监督机器学习的主要技术之一,是用模糊理论对重要数据分 析和建模的方法,建立了样本类属的不确定性描述,能比较客观地反映现实世界,它已经有 效地应用在大规模数据分析、数据挖掘、矢量量化、图像分割、模式识别等领域,具有重要的 理论与实际应用价值,随着应用的深入发展,模糊聚类算法的研究不断丰富。在众多模糊聚 类算法中,模糊C-均值(FCM)算法应用最广泛且较成功,如图3所示,它通过优化目标函数得 到每个样本点对所有类中屯、的隶属度,从而决定样本点的类属W达到自动对数据样本进行 分类的目的。但是模糊C-均值(FCM)算法的迭代运算工作量却很大,数据的聚类分析效率很 低,不适用于一些多维的大数据量的聚类分析,特别是对于移动网络用户群体上网兴趣偏 好多样化运样的大数据处理,无法满足移动网络运营监测和资源管理的快速度和高效率的 要求。为实现上述目的,采取如下技术方案,本发明在传统模糊C-均值聚类算法(FCM)基础 之上,考虑减小计算聚类中屯、个数的复杂度W及提高聚类中屯、计算的精准度。减法聚类算 法可W通过对聚类中屯、进行初始化,为每个样本点赋予一个定量的权值,用来区分不同的 样本点对最终结果的不同作用。如图4所示,减法聚类将每一个数据点作为一个潜在的聚类 中屯、,之后减去已完成的聚类中屯、的作用,再次寻找聚类中屯、。采用减法聚类算法计算得到 的隶属度矩阵对传统的FCM算法进行修正,可W-定程度上减少迭代次数、加快收敛速度, 取得较好的聚类结果。因此本发明将聚类分为粗聚类和细聚类两个层面进行:先使用减法 聚类算法快速寻找聚类中屯、的个数;然后使用模糊C-均值聚类算法完成聚类参与点的划 分。本发明采用聚类算法整个流程图如图5所示:具体包括W下步骤:
[0049 ] 1)计算每个数据点的密度,得到密度指标:
[(K)加 ]
[0051] 其中τι表示该点W距离的形式影响的范围,越大则管的范围越大,越小则越集中, 分的类越多;
[0052] 2)找到密度指标最大的数据作为第一个聚类中屯、,之后除去运个点的密度,再计 算所有点的密度指标= 其中识表示表示该点W 距离的形式影响的范围,与τι的区别在于T2考虑的是权重影响的范围,若很小,则容易重合 聚类,即在原聚类中屯、又找了一个类中屯、,因此T2-般要大于τι;
[0053] 3)再找到最大的密度指标,并把此点作为聚类中屯、,依次循环,直到:
[0化4]
[0055] 4)当某次的密度指标的最大值与第一次的比值小于某一个数δ,则迭代停止;
[0056] 5)确定聚类数C(已求得),初始化隶属度矩阵pW,pue{〇,i}
置迭代次数t = 0;
[0057] 6)计算聚类中
如下:
[0化引
[0059] 7)对于第t步,修改隶属度矩阵PW如下:
[0060]
[0061] 8)若llpfh+iLpWM >0,则进入下一步,否则置t = t+饼转步骤6);
[0062] 9)选择常数〇〉0,置迭代次数h = 0,W步骤8)的结果作为FCM算法的初始聚类中屯、Q (0). ,
[0063] 10)根据qW按下式计算隶属度矩阵pW :
[0064]
[00化]11)按下式进一步调整类别中屯、Qfh+U :
[0066]
[0067] 12)若llpfh+U-pWi I <0,则算法结束,输出聚类的中屯、和隶属度矩阵P;否则,置h = h+l,返回10);由计算得到的隶属度矩阵P就可W确定每一个数据点分别对各个聚类的隶 属度,其中隶属度最大的聚类即为该数据点所属的聚类。
[006引实施例一:
[0069]在本实施例中,首先基于中国移动重庆分公司所部署的数据采集系统得到业务类 型信息和用户的流量信息,如图6所示,针对不同业务类型、不同兴趣偏好用户群对流量的 需求不同:可W考虑将业务类型和数据流量大小两个因素相结合,将用户类别预分为九类: A、即时通信低流量用户(包括沉默用户);B、即时通信中流量用户;C、即时通信高流量用户; D、网页捜索低流量用户(包括沉默用户);E、网页捜索中流量用户;F、网页捜索高流量用户; G、视频类低流量用户(包括沉默用户);H、视频类中流量用户;I:视频类高流量用户。
[0070] 根据之前介绍的聚类模型,先对用户位置信息和用户流量信息组成的二维数组进 行聚类运算,得到用户群体聚类结果。如图7所示,通过业务类型信息和用户流量信息对用 户进行聚类算法计算后,可W将用户兴趣偏好群体分为九类,分别用G1、G2、G3、G4、G5、G6、 67、68、69表示。其中61占总用户群体12.15%,62占总用户群体16.1%,63占总用户群体 11.8%,G4占总用户群体19.9%,G5占总用户群体10.32%,G6占总用户群体9.1 %,G7占总 用户群体8.78%,G8占总用户群体6.25%,G9占总用户群体5.6%。
[0071] 实施例二:
[0072] 本实施例中,首先基于中国移动重庆分公司现网流量数据分析得到用户的位置信 息和用户的流量信息。如图8所示,针对不同地区、不同偏好用户群对流量的需求不同:可W 考虑将小区位置和数据流量大小两个因素相结合,将用户类别预分为六类:A:商业区低流 量用户(包括沉默用户),该类别用户经常处于商业区活动范围内,但数据流量使用量不高。 B:商业区中流量用户,该群体绝大多数用户主要在商业区活动,并且有一定的数据流量需 求。C:商业区高流量用户,该类别用户经常处于商业区,并且对数据流量的需求较大。D:居 民区低流量用户(包括沉默用户),用户经常处于居民区活动范围内,并且数据流量使用量 不高。E:居民区中流量用户,运类群体经常处于居民区活动范围内,并且有一定数据流量需 求。F:居民区高流量用户,该类别用户经常处于居民区活动范围内,并且数据流量使用量较 局。
[0073] 根据之前介绍的聚类模型,先对用户位置信息和用户流量信息组成的二维数组进 行聚类运算,得到用户群体聚类结果。如图9所示,通过用户位置信息和用户流量信息对用 户进行聚类算法计算后,可W将用户群体分为六类,分别用61、62、63、64、65、66表示。其中 G1占总用户群体22.9%,G2占总用户群体22.1 %,G3占总用户群体17.8%,G4占总用户群体 16.1 %,G5占总用户群体8.25%,G6占总用户群体12.85%。
[0074] 实施例
[0075] 针对Ξ个维度的因素考虑,本实施例Ξ在W本发明技术方案为前提下进行实施, 给出了详细的实施方式和具体的操作过程:
[0076] 首先基于重庆移动公司现网数据得到用户所接入的基站信息从而推断出用户的 移动性;得到用户的入网时间和使用的总流量从而分析得到用户的日均流量;最后根据用 户的入网时间和流量使用情况计算出用户的流量均速。针对不同移动性和不同流量需求的 用户群体,考虑用上述Ξ个因素将用户预分为十四类,如图10所示。包括:A:静态低流量用 户(包括沉默用户)。B:静态中流量慢流速用户。C:静态中流量中流速用户。D:静态中流量高 流速用户。E:静态高流量慢流速用户。F:静态高流量中流速用户。G:静态高流量高流速用 户。Η:动态低流量用户(包括沉默用户)。I:动态中流量慢流速用户。J:动态中流量中流速用 户。Κ:动态中流量高流速用户。L:动态高流量慢流速用户。Μ:动态高流量中流速用户。Ν:动 态高流量高流速用户。
[0077] 根据之前介绍聚类模型,运用Python语言和化doop平台对用户移动性、用户日均 流量、用户流量均速Ξ个特征值下的用户数据进行聚类运算,得到用户群体聚类结果。然后 根据用户群体分类法则计算每一个聚类群体A~N十四类用户所占的比重,结果如图11所 /J、- 〇
[0078] 如图11所示,通过用户位置信息和用户流量信息对用户进行聚类算法计算后,可 W将用户群体分为八组,其中G1占18.02%,62占15.23%,63占12.06%,64占14.59%,65占 16.15%,G6占11.62%,G7占8.37%,G8占3.96%。由此可见,本发明提出的移动网络用户群 体上网兴趣偏好发现方法能够有效分析移动网络用户群体上网兴趣偏好的特征,并实现提 升流量价值的营销目标。
[0079]最后说明的是,W上优选实施例仅用W说明本发明的技术方案而非限制,尽管通 过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可W在 形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
【主权项】
1. 一种移动网络用户群体流量使用行为的分类方法,其特征在于:在该方法中,将用户 数据流量、用户使用业务类型、用户移动性因素相结合,从多个维度对用户群体上网行为特 征进行分析,进而得出用户流量使用行为模型;具体包括以下步骤: S1:首先根据考虑因素对用户流量使用行为产生的影响程度,对所考虑因素的等级进 行划分,所述考虑因素包括数据流量、用户使用业务类型、用户移动性; S2:当完成各维度所考虑因素的程度划分后,对用户行为类别进行预分类; S3:然后基于所有维度的考虑,对用户群体进行聚类,并计算每个聚类集合分别包含用 户类别的占比,从而得到移动网络用户流量使用行为的分类。2. 根据权利要求1所述的一种移动网络用户群体流量使用行为的分类方法,其特征在 于:在步骤S2中,将用户类别预分为九类,:A、即时通信低流量用户(包括沉默用户);B、即时 通信中流量用户;C、即时通信高流量用户;D、网页搜索低流量用户(包括沉默用户);E、网页 搜索中流量用户;F、网页搜索高流量用户;G、视频类低流量用户(包括沉默用户);H、视频类 中流量用户;I:视频类高流量用户。3. 根据权利要求2所述的一种移动网络用户群体流量使用行为的分类方法,其特征在 于:在步骤S3中,将聚类分为粗聚类和细聚类两个层面进行:先使用减法聚类算法快速寻找 聚类中心的个数;然后使用模糊C-均值聚类算法完成聚类参与点的划分;具体包括以下步 骤: 1) 计算每个数据点的密度,得到密度指标:其中^表示该点以距离的形式影响的范围,越大则管的范围越大,越小则越集中,分的 类越多;xk表示第k个数据点,k的取值范围为1到n; Vi表示第i个聚类中心;d(xk, Vi)表示数 据点Xk与第i个聚类中心Vl的欧式距离; 2) 假定为第k-Ι次选出的聚类中心,相应的密度指标为M^k),之后除去这个点的密度,再计算所有点的密度指标: 其中#= 一Γ_.,_Τ2表示表 .Η. 示该点以距离的形式影响的范围,与^的区别在于τ2考虑的是权重影响的范围,若很小,则 容易重合聚类,即在原聚类中心又找了一个类中心,因此τ2-般要大于T1;Mk( Vl)表示去除 聚类中心后,每个数据点的密度指标;Mk-Kw)表示去除聚类中心之前,每个数据点的密度 指标表示第k-Ι次选出的聚类中心与第i个聚类中心 Vl的欧式距离; 3) 再找到最大的密度指标,并把此点作为聚类中心,依次循环,直到:其中,表示聚类中心的密度指标;Μ〔为第一个聚类中心的密度指标,δ为预先 给定的参数; 4) 当某次的密度指标的最大值与第一次的比值小于某一个数δ,则迭代停止; 5) 确定聚类数C,初始化隶属度矩阵P(()),f"" e丨〇,1丨^八,=I,V/,置迭代次数t = 0; 6) 计算聚类中心g? = 如下:对于第t步,g广表示第i个聚类对应的聚类中心,i的取值范围为1到C,Q(t)表示C个聚类 中心的集合,表示#跟第j个数据点之间的隶属度,j的取值范围为1到n W为第j的数据 点的权值; 7) 对于第t步,修改隶属度矩阵P(t)如下:其中/|+1)表示第t+Ι步,#15与第j个数据点之间的隶属度,当#取最小值时,值 为1; 8) 若I |P(h+1)-P(h)| I 2。,则进入下一步,否则置t = t+l并转步骤6),其中,P(h)、P(h+1)分别 表示迭代次数为h和h+Ι时,求得的隶属度矩阵, σ为预先给定的参数; 9) 选择常数〇>0,置迭代次数h = 0,以步骤8)的结果作为FCM算法的初始聚类中心Q(()); 10) 根据Q(h)按下式计算隶属度矩阵P(h):其中^/+1)表示与第j个数据点之间的隶属度,;f表示跟第j个数据点之间的隶 属度,表示g,(n跟第k个聚类中心之间的隶属度,m为预先给定的参数; 11) 按下式进一步调整类别中心Q(h+1):其中,ff1表示第i个聚类对应的聚类中心,/f表示跟第j个数据点之间的隶属度, #表示#跟第k个聚类中心之间的隶属度,m为预先给定的参数,%为第j的数据点的权值; 12) 若| |P(h+1)-P(h)| | 则算法结束,输出聚类的中心和隶属度矩阵P;否则,置h = h+ 1,返回10);由计算得到的隶属度矩阵P就可以确定每一个数据点分别对各个聚类的隶属 度,其中隶属度最大的聚类即为该数据点所属的聚类。
【文档编号】H04W24/06GK105873119SQ201610355547
【公开日】2016年8月17日
【申请日】2016年5月26日
【发明人】贾云健, 贾科松, 万贝利, 梁靓, 吴玉成, 马慧
【申请人】重庆大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1