一种基于基站标号轨迹的运动模式挖掘方法_2

文档序号：9911611阅读：来源：国知局

的实际位置;然后，基于基站实际位置计算每对基站间的实际物理距离；最后，基于基站间实际物理距离计算每对基站间的相似度真实值;基站C1和C2的相似度真实值18(01，〇2)的计算公式如下：
[0030]
[0031] 其中，d( C1，c2)为基站(^和^的实际物理距离，单位:千米；
[0032] (2-2)抽取基站间切换模式特征:对于训练数据集中包含的任意一对基站，基于其在训练数据集中表现出的切换模式，抽取切换模式特征，切换模式特征包括本地切换模式特征和K近邻切换模式特征两大类；
[0033] 本地切换模式特征包括三类：同现率、振荡次数均值和最大值以及加权切换次数均值和最大值；
[0034] K近邻切换模式特征包括三类:K近邻同现率、K近邻振荡次数均值和K近邻加权切换次数均值；
[0035] (2-3)训练回归器:基于训练数据集中包含的所有基站对的切换模式特征和相似度真实值，采用回归算法训练一个回归器；
[0036] (2-4)计算位置信息未知的基站间的相似度:给定一对实际位置未知的基站^和 C2,首先抽取(^和(32在历史基站标号轨迹数据集中的切换模式特征，然后采用训练好的回归器得到C1和C2的相似度估计值S(C1，C2)。
[0037] 再进一步，所述步骤(2-2)中，对于一对基站C1和C2,同现率指C1和C2同时出现的轨迹数量与C1和C2至少有一个出现的轨迹数量的比例；
[0038] cdPC2的一次振荡指在一条轨迹中由(^切换到C2再切换回(^或由C2切换到 C1再切换回C2，振荡次数均值指cdPc2在所有(^和(3 2同时出现的轨迹中振荡次数的平均值，振荡次数最大值指C1和C2在所有C1和C2同时出现的轨迹中振荡次数的最大值；
[0039] C1和C2在基站标号轨迹T中的加权切换次数wsc(ci，C2，T)的计算公式如下：
[0040]
[0041 ] 其中，η为cjPc2在T中发生切换的次数，intervali为cdPc2发生第i次切换时间隔的基站数量，加权切换次数均值指(^和(32在所有cdPc2同时出现的轨迹中加权切换次数的平均值，加权切换次数最大值指cjPc 2在所有(^和(32同时出现的轨迹中加权切换次数的最大值；
[0042] 对于一对基站CjPC2，K近邻切换模式特征的计算方法为:给定本地切换模式特征 F，首先找出除c2外与值最大的K个基站KN&，以及除(^外与值最大的K个基站 KNN2;然后，求c^KNN冲每个基站的F值，以及cAK職中每个基站的F值;最后，计算这些值的平均值。
[0043] 更进一步，所述(3-3-1)中，基于基站(3更新当前前缀(3111'_口^;^1的方法为:将(3的标号作为一个字符附加到cur_pr ef i X代表的字符串的末尾。
[0044] 所述(3-3-3)中，基于基站c和投影序列P生成一个新的投影序列NP的方法为:若c 在P中出现，则NP为c在P中第一次出现的位置到P的末尾构成的子序列，并设置NP.conf为 P. conf;若T (c) [ i ]在P中出现，则NP为T (c) [ i ]在P中第一次出现的位置到P的末尾构成的子序列，并设置NP.conf为s(c，T(c)[i] )XP.conf，否贝丨J，NP为空。
[0045] 本发明的有益效果主要表现在：1、仅基于基站标号轨迹数据，无需明确的位置信息，避免了智能手机定位方式的局限性问题;2、基于基站间切换规律抽取切换模式特征，在此基础上训练回归器估计基站间相似度，显著提高了基站间相似度计算的准确度;3、融入基站间相似度，提出了一种新型的序列模式挖掘算法，有效减轻了基站连接不确定性导致的运动模式丢失问题。
【附图说明】
[0046] 图1为基于基站标号轨迹的运动模式挖掘方法的流程图；
[0047] 图2为基站间相似度计算方法的流程图；
[0048] 图3为基于前缀扩展的运动模式挖掘算法的流程图；
[0049] 图4为基站间切换模式抽取的实施例示意图。
【具体实施方式】
[0050] 下面结合附图对本发明作进一步描述。
[0051] 参照图1~图4,一种基于基站标号轨迹的运动模式挖掘方法，包括如下步骤：
[0052] (1)历史基站标号轨迹数据集构建:首先对用户智能手机当前所连接基站的标号进行连续采集，然后对采集到的数据进行轨迹分割得到若干基站标号轨迹数据以形成历史基站标号轨迹数据集。
[0053] (2)基站间相似度计算:基于历史基站标号轨迹数据集分析基站间的切换模式，在此基础上采用回归算法估计基站间的相似度。
[0054] (3)运动模式挖掘:将基站间相似度融入基于前缀扩展的序列模式挖掘算法，从历史基站标号轨迹数据集中挖掘运动模式。
[0055] 参照图2,所述步骤(2)中，基站间相似度计算的详细步骤如下：
[0056] (2-1)构造训练数据集:给定一个历史基站标号轨迹数据集，首先通过特定的网络服务接口（如OpenCelllD)查询其中包含的所有基站的实际位置。然后，基于基站实际位置计算每对基站间的实际物理距离。最后，基于基站间实际物理距离计算每对基站间的相似度真实值。基站C1和C2的相似度真实值18(01，〇2)的计算公式如下：
[0057]
[0058] 其中，d(C1，C2)为基站(^和^的实际物理距离(单位:千米）。
[0059 ] (2-2)抽取基站间切换模式特征:对于训练数据集中包含的任意一对基站，基于其在训练数据集中表现出的切换模式，抽取切换模式特征。切换模式特征包括本地切换模式特征和K近邻切换模式特征两大类。
[0060] 其中，对于一对基站cdPC2,本地切换模式特征包括如下三类：
[0061] 同现率：同现率指^和^同时出现的轨迹数量与^和^至少有一个出现的轨迹数量的比例。
[0062] 振荡次数均值和最大值:cdPc2的一次振荡指在一条轨迹中由(^切换到C2再切换回(^(发生切换时cdPc 2在轨迹中可以是不相邻的)或由c2切换到C1再切换回(：2。振荡次数均值指C1和C2在所有C1和C2同时出现的轨迹中振荡次数的平均值，振荡次数最大值指C1和C2在所有C1和C2同时出现的轨迹中振荡次数的最大值。
[0063] 加权切换次数均值和最大值:^和^在基站标号轨迹T中的加权切换次数WSC(C1， C2，T)的计算公式如下：
[0064]
[0065] 其中，η为cjPc2在T中发生切换的次数，intervah为cdPc2发生第i次切换时间隔的基站数量。加权切换次数均值指(^和(32在所有cdPc2同时出现的轨迹中加权切换次数的平均值，加权切换次数最大值指cjPc 2在所有(^和(32同时出现的轨迹中加权切换次数的最大值。
[0066]对于一对基站CjPC2，K近邻切换模式特征的计算方法为:给定本地切换模式特征 F，首先找出除c2外与值最大的K个基站KN&，以及除(^外与值最大的K个基站 KNN2。然后，求c2与KNN冲每个基站的F值，以及(^与1(顺2中每个基站的F值。最后，计算这些值的平均值。
[0067] K近邻切换模式特征包括三类:K近邻同现率、K近邻振荡次数均值和K近邻加权切换次数均值。
[0068] (2-3)训练回归器:基于训练数据集中包含的所有基站对的切换模式特征和相似度真实值，采用回归算法(如梯度下降回归树)训练一个回归器。
[0069] (2-4)计算位置信息未知的基站间的相似度:给定一对实际位置未知的基站^和 C2,首先抽取(^和(32在历史基站标号轨迹数据集中的切换模式特征，然后采用训练好的回归器得到C1和C2的相似度估计值S(C1，C2)。
[0070] 参照图3,所述步骤(3)中，运动模式挖掘算法的详细步骤如下：
[0071 ] (3-1)算法准备:算法准备包括如下步骤：
[0072] (3-1-1)建立基站切换有向图G:图的结点代表基站，结点cgljC2的边代表在历史基站标号轨迹中出现过C1直接切换到c2的情况（即发生切换时

完整全部详细技术资料下载

当前第2页1 2 3 4