一种基于手机信令历史数据强化学习的特征提取方法

文档序号:37587724发布日期:2024-04-18 12:16阅读:6来源:国知局
一种基于手机信令历史数据强化学习的特征提取方法

本发明涉及手机信令数据处理领域,特别涉及一种基于手机信令历史数据强化学习的特征提取方法。


背景技术:

1、随着手机功能的逐渐强大,人们的日常生活中也变得越来越离不开手机,像手机支付,手机导航,手机查询信息等,让手机能够基本上做到全天候伴随使用者左右,使得手机的位置信息能够极大程度上代表使用者的位置信息。所以在出行信息采集技术方面,手机信令数据作为采集数据源之一被广泛应用。

2、目前在基于手机信令的出行分析技术方面,主要采用两种方式进行出行起讫点的识别,一是通过手机信令数据切换和位置更新信息判定轨迹的转变从而确定起讫节点;第二类则是采用基于层次或密度的聚类算法进行确定。

3、但当前广泛应用的技术手段仍无法完美解决问题,尤其在手机信号基站存在坐标识别误差的情况下,用户地理信息的精准获取会存在一定的困难。同时,基站区域的划分与交通小区划分之间存在的不兼容问题也会导致对用户位置信息识别的错误,出现数据漂移以及乒乓现象,进一步加剧出行起讫点识别的误差。

4、此外,在算法方面,针对手机信令数据处理的算法也还存在噪音数据处理不到位,数据的出行模式归属划分界定不清晰、阈值设置不明确,点位数据聚类效果不理想,出行模式与方式选择的识别较为困难等问题,最终导致数据利用率不足,出行分析结果与实际不符合等一系列痛点,需要有针对性地进行新方法的探索。


技术实现思路

1、本发明所要解决的问题是:提供一种基于手机信令历史数据强化学习的特征提取方法,用于解决用户出行分析与数据统计精确度,以及提升手机信令数据利用率的问题。

2、本发明采用如下技术方案:一种基于手机信令历史数据强化学习的特征提取方法,包括如下步骤:

3、s10、根据最近一段时间内的手机信令历史数据,构建历史数据库,用于二重手机信令数据强化学习;

4、s20、第一重强化学习,数据特征学习:构造多通道卷积贝叶斯学习算法,学习手机信令历史数据的信号强度、时间长度以及坐标信息特征,对用户初始手机信令数据中存在的漂移数据与乒乓数据进行剔除,并对缺失数据点进行补全,输出具有高可信度的用户完整出行序列数据;

5、s30、第二重强化学习,出行行为学习:定义出行重合度的计算,对与用户完整出行序列数据具有较高出行重合度的历史数据进行学习,将数据分解为出行、静止以及小范围活动三种运动状态,输出三种运动状态的运动状态模糊权重,并构造模糊出行隶属集;

6、s40、结合模糊出行隶属集,提出基于模糊出行隶属度的三支高斯混合聚类算法,对用户完整出行序列数据进行聚类划分,提取出行集以及包含静止集、边缘运动集两个子集的停留点点集,并计算出各停留点点集的覆盖域;

7、s50、借助地图平台api接口,读取停留点点集覆盖范围内土地利用信息,提出双动态poi相似映射算法,通过结合土地信息对算法参数进行动态调整,对停留点点集进行地理信息映射与poi匹配,输出用户的精确起讫点与完整出行链;

8、s60、对所有用户数据进行读取与处理,按时间划分输出同一天内各交通小区间的出行od矩阵,以及用户出行模式与规律的统计结果,并将用户数据结果反馈回s10所述历史数据库,进行参数更新。

9、具体的,根据手机信令历史数据特征,s10历史数据库中存储的每条点位数据内容包括用户标识符、用户手机号码、每条数据包括日期与时间信息的时间戳记录、包括经纬度坐标以及基站归属的位置信息、反映基站与手机之间的信号质量的信号强度信息以及动静三值权重,数据的记录格式为:

10、ms(u1,u2,…,us)

11、us(i)={us,usp,date,mm,(lo,la,lci),si,tra(j)}t

12、其中,ms(us)为完整用户手机信令历史数据样本,us(i)指用户出行序列数据us的第i点位数据,usp为用户us的手机号码,date为格式为年/月/日的日期数据,mm为格式为时/分/秒的时长数据,lo为用户的经度坐标,la为用户的纬度坐标,lci为基站小区归属坐标,si为信号强度,tra(j)为第j类运动状态模糊权重值,t表示矩阵转置。

13、具体的,s20中,漂移数据指用户数据出现数据记录在短时间内突变至一个异常值再切换回原值的噪音数据;乒乓数据指用户数据的数据记录在两基站覆盖区域内来回切换的噪音数据;二重手机信令数据强化学习中的第一重强化学习,包括以下步骤:

14、s21、对s10中历史数据以及s20中用户初始数据进行格式转换,将时间戳数据、经纬度坐标与信号强度信息进行归一化,确保尺度一致;

15、s22、构建多通道卷积贝叶斯学习算法,对历史数据进行学习,根据学习结果,对用户数据计算异常分数,根据动态阈值进行异常数据的剔除与贝叶斯处理。

16、多通道卷积贝叶斯学习算法,包括以下步骤:

17、s221、将手机信令历史数据作为输入进行特征学习,在信号强度通道上进行cnn一阶学习,输出一维卷积特征学习结果,表示如下:

18、

19、其中,x1(i)为第i点位数据的一维卷积特征学习结果,bsi为信号强度偏置值,ωsi为信号强度权重,psil(i)为第i点位数据的信号损失概率,为一维卷积输入,n为信令信息输入数据量;

20、s222、在s221的基础上,结合时间通道进行cnn二阶学习,输出二维卷积特征学习结果,表示如下:

21、

22、其中,x2(i)为第i点位数据的二维卷积特征学习结果,btim为时间戳偏置值,σtim为时间弥补参数,ωtim为时间权重,ptiml(i)为第i点位数据的时间损失概率,为二维卷积输入,n、p为信令信息输入数据量;

23、s223、在s222的基础上,结合坐标通道进行cnn三阶学习,输出三维卷积特征学习结果,表示如下:

24、

25、其中,x3(i)为第i点位数据的三维卷积特征学习结果,bloa为坐标偏置值,σloa为坐标平衡参数,ωloa为坐标权重,ploal(i)为第i点位数据的坐标损失概率,为三维卷积输入,n、p、q为信令信息输入数据量;

26、s224、引入用户初始数据,对每个点位数据进行异常分数计算:

27、

28、其中:

29、

30、as(i)为用户数据us的第i点位数据的异常分数值,asm(i)为第m维度下的异常残差,ρm为维度指数,xm(i)第m维度下的卷积特征学习结果,j表示历史数据总数,有j=1,2,…,j;

31、usi(si)、usi(mm)、usi(loa)分别为用户数据中第i点位数据的信号强度、时长数据以及用户坐标值,hj(si)、hj(mm)、hj(loa)分别为第j条历史数据下的信号强度、时长信息,以及坐标信息;

32、sd、dd、td分别为一维、二维及三维数据形式,ωs、ωd、ωt分别为一维、二维及三维异常修正权重。

33、s225、引入贝叶斯后验观测平滑预测处理计算,在历史数据基础上进行数据修正与剔除,输出用户修正后的各点位数据

34、

35、其中,

36、

37、

38、为用户完整的出行序列各点位数据,maxa为最大异常许可值,a(i)为第i点位数据的动态异常分割值,α、β为动态参数,bay(us(i))是对第i个数据点的贝叶斯后验观测平滑预测处理的表达,为数据y(j)对数据x(i)的后验观测概率;

39、具体的,二重手机信令数据强化学习中的第二重强化学习,包括以下步骤:

40、s31、从历史数据库中调取数据,计算与s20所述的用户完整出行序列数据之间的出行重合度cr(i):

41、

42、其中,cr(i)为第i条历史数据与用户数据之间的重合度,h(i)为提取的第i条历史数据,为重合指数标度值,ε为空间相似衰减参数,代表用户出行序列数据中的x信息,xh(i)代表第i条历史数据中的x信息;

43、s32、根据数据量设定重合度划分阈值crt,将符合cr(i)≥crt条件的历史数据提取出来构造可用数据集hc,具体表示为:

44、hc={hc1,hc2,hc3,…,hck}

45、s33、根据可用数据集,构造纳入重合权的出行协方差矩阵,具体表达为:

46、

47、其中,rcovhc为纳入重合权的出行协方差矩阵,rhc为矩阵元素,crt为重合度划分阈值,cov为协方差函数,k为数据集hc包含的数据量,有k=1,2,…,k;

48、s34、采用pca结合k-means聚类的算法,对rcovhc进行主成分分析,在新的特征矩阵上将数据划分为出行、静止以及小范围活动三种运动状态,并赋予模糊权重值tra(i),具体表达为:

49、

50、其中,

51、

52、tra(1)、tra(2)、tra(3)分别为出行、静止以及小范围活动三种运动状态的模糊权重值,分别为出行、静止以及小范围活动三种运动状态的时间模糊平衡系数,λc={λc1,λc1,…,λck}为rcovhc的重合度特征根,nm表示聚类结果中第m类的数据量;

53、s35、根据s34所述的三种运动状态的模糊权重值,构造模糊出行隶属参数集μf(i):

54、

55、其中,μf(1)、μf(2)、μf(3)分别为出行、静止以及小范围活动三种状态模糊隶属参数,为用户完整出行序列数据前后两个数据点间空间距离运算,∈t、ζt、ηt分别为出行状态的单项、二项及三项模糊匹配系数,∈s、ζs、ηs分别为静止状态的单项、二项及三项阶模糊匹配系数,∈a、ζa、ηa分别为小范围活动状态的单项、二项及三项模糊匹配系数。

56、具体的,步骤s40中,基于模糊出行隶属度的三支高斯混合聚类算法(ftt-gmm),包括以下步骤:

57、s41、采用三支决策的思想,结合s30所述的出行行为的三类状态,构造三权gmm后验概率函数,用cs算法对函数参数进行迭代,得到用户数据中各点位数据的三权gmm后验概率值具体表示为;

58、

59、其中,

60、

61、为用户完整出行序列下第i点位数据属于第k高斯成分的三权gmm后验概率,k=3,pi表示数据属于第k高斯成分的概率,pt(x)为三权gmm概率密度函数,tra(k)为第k高斯成分的模糊权重值,为第k高斯成分的向量量纲消融均值,σk为第k高斯成分的三态协方差矩阵,为数据维度系数;

62、s42、基于模糊出行隶属参数集,定义三支gmm类簇划分阈值;

63、

64、其中,σtlv为划分三类出行状态的上界阈值,σllv为下界阈值,θtf、θsf、θaf分别为在模糊决策下划分到出行、静止以及小范围活动的损失代价,θtc、θsc、θac分别为在清晰决策下划分到出行、静止以及小范围活动的损失代价,ω为模糊状态决策指数,为清晰状态决策指数;

65、s43、对各点位数据进行聚类,按照s42所述阈值将数据划分到出行、静止以及边缘运动三个类集;

66、

67、其中,

68、tcu={tc1,tc2,tc3}

69、tcu为聚类结果集,tc1为出行集,tc2为静止集,tc3为边缘运动集;

70、s44、合并静止集与边缘运动集,构造停留点点集,计算各停留点点集的覆盖域加权半径sori,具体表示为:

71、su={tc2}∪{tc3}

72、

73、其中,su为停留点点集,sri为第i停留点点集的覆盖域加权半径,max<·>表示取最大值运算,srij表示第i停留点点集内的第j点位数据的二维覆盖半径,f(·)表示范围映射归一化运算,v为变换速率控制参数,τi为点集聚类归属系数,‖dj-di‖2表示为第i停留点点集内的第j点位数据与中心点di的欧式距离运算;

74、具体的,步骤s50中,双动态poi相似映射算法,包括以下步骤:

75、s51、以停留点点集中心点的经纬度坐标为中心,读取停留点点集覆盖域加权半径范围内的土地利用信息,包括人口数量、建筑物矩形度、城市化程度、poi数量、日均出行量,提出匹配域密度lρ,具体表达为:

76、

77、其中,lρ为匹配域密度,adt为域内日均出行量,ar为建筑物矩形度,npoi为域内poi数量,peo为域内人口数量,sr为覆盖域加权半径,cll为域内城市化系数,λ为量纲归一化系数;

78、s52、动态调整匹配域:根据s51所述匹配域密度修正停留点点集的匹配域半径srρ,具体表示为:

79、

80、其中,srρ为匹配域半径,sr(·)为覆盖域加权半径的运算,lρ为匹配域密度,sri为第i点位的二维覆盖半径,τi为聚类归属系数,δr为半径调整步长,tρ为密度量划分值;

81、s53、动态相似加权匹配:提取s52所述匹配域半径范围内的poi,构造poi备选集,提出动静集加权相似估计算法,输出各备选poi的相似估计值,最终匹配起讫点的poi点以及完整出行链,具体表达为:

82、

83、poiei=max<sim(k)>

84、pathus={poie1,poie2,…,poien}

85、其中,sim(k)为第i停留点点集对应匹配域内第kpoi点的相似估计值,为第i匹配域内第kpoi点的坐标向量,第i停留点点集内第j点位数据的坐标向量,‖·‖为向量范数运算表达,为第kpoi点的区域半径,srij表示第i停留点点集内的第j点位数据的二维覆盖半径,ωtj为状态集倾斜权重,ed(·)为相似调整欧式距离运算的表达,poiei取相似估计值最大者对应poi为第i起讫点的精确poi点,pathus为用户us的完整出行链;

86、具体的,步骤s60中,结束对所有用户数据进行读取与处理后,将用户完整的出行序列数据与运动状态模糊权重{tra},返回s10所述历史数据库中进行更新。

87、本发明技术方案还提供了:一种电子设备,包括:

88、一个或多个处理器;

89、存储装置,其上存储有一个或多个程序;

90、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现上述任一所述的基于手机信令历史数据强化学习的特征提取方法。

91、本发明技术方案还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时,实现上述任一项基于手机信令历史数据强化学习的特征提取方法中的步骤。

92、本发明采用以上技术方案与现有技术相比,具有以下技术效果:

93、本发明基于手机信令历史数据强化学习的特征提取方法,在两重强化学习的基础上进一步保证了手机信令数据作为交通出行研究的数据源的准确性与可靠性;提出的聚类算法增强了数据聚类的效果;采用的动态信息匹配机制进一步丰富了有关用户出行起讫点的信息量;同时,基于原有用户数据与处理后的用户数据所搭建的历史数据库还可用于未来其他目的的出行分析与研究,实现了用户手机信令数据利用率的提升,有效地解决了用户出行分析与数据统计精确度的问题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1