个性化场景预测方法及装置与流程

文档序号:12064451阅读:399来源:国知局
个性化场景预测方法及装置与流程

本发明涉及信息处理技术领域,尤其涉及一种个性化场景预测方法及装置。



背景技术:

随着互联网的发展,人们的生活越来越多地与互联网紧密联系在一起。随着人们日常生活节奏越来越快,人们日益希望通过互联网快速找到自己所需要的产品/服务,以达到节省时间的效果。相应地,产品/服务提供者在给目标用户提供产品/服务时,需对目标用户行为进行预测,以使产品/服务提供者给目标用户提供更符合其需求的产品/服务,以达到双赢目的。如在银行、保险等金融机构给目标用户提供风险类金融产品时,基于用户行为场景预测方法对目标用户进行实时跟踪并预测,以使金融机构基于目标用户当前时间所处场景预测下一时刻所处场景,在债务追讨或者其他业务推广中产生巨大作用。现有用户行为场景预测方法中,在行为预测时所需采集的用户行为数据量较大且价值密度低,导致行为预测过程效率慢且预测结果准确性较低。



技术实现要素:

本发明要解决的技术问题在于,针对现有技术的缺陷,提供一种个性化场景预测方法及装置。

本发明解决其技术问题所采用的技术方案是:一种个性化场景预测方法,包括:

基于位置服务获取用户的地理位置信息,所述地理位置信息包括与时间相关联的POI信息;

对用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量序列;

基于所述生活习惯轨迹向量序列,构建马尔科夫转移矩阵;

获取用户的当前场景,基于所述当前场景从所述马尔科夫转移矩阵中,获取对应的预测场景。

优选地,所述对用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量序列,包括:

采用DBSCAN算法对任一用户在预设期间内所有POI信息进行聚类,以获取若干子集群;

采用K-MEANS算法对每一所述子集群进行迭代聚合,获取每一所述子集群的质心POI信息,并将所述质心POI信息作为轨迹点输出;

基于所述轨迹点的时间序列,确定所述用户在所述预设期间内的生活习惯轨迹向量序列。

优选地,所述基于所述生活习惯轨迹向量序列,构建马尔科夫转移矩阵,包括:

基于所述生活习惯轨迹向量序列,获取所述生活习惯轨迹向量序列中出现的所有场景;

计算任一场景与下一场景的转移概率;

基于所述转移概率,构建所述马尔科夫转移矩阵。

优选地,基于所述马尔科夫转移矩阵,获取归一化转移矩阵;

所述基于所述马尔科夫转移矩阵,获取归一化转移矩阵,包括:

获取多个用户的马尔科夫转移矩阵,每一马尔科夫转移矩阵与用户ID相关联;

对多个所述马尔科夫转移矩阵进行逻辑回归处理,获取归一化转移矩阵;

将所述归一化转移矩阵与多个所述用户ID关联存储。

优选地,还包括:基于所述归一化转移矩阵进行场景预测;

所述基于所述归一化转移矩阵进行场景预测,包括:

获取场景预测请求,所述场景预测请求包括用户ID和当前场景;

基于所述场景预测请求中的用户ID,确定与用户ID相对应的归一化转移矩阵;

基于所述场景预测请求中的当前场景,从所述归一化转移矩阵中获取预测场景。

本发明还提供一种个性化场景预测装置,包括:

位置信息获取模块,用于基于位置服务获取用户的地理位置信息,所述地理位置信息包括与时间相关联的POI信息;

轨迹向量序列获取模块,用于对用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量序列;

转移矩阵构建模块,用于基于所述生活习惯轨迹向量序列,构建马尔科夫转移矩阵;

预测场景获取模块,用于获取用户的当前场景,基于所述当前场景从所述马尔科夫转移矩阵中,获取对应的预测场景。

优选地,所述轨迹向量序列获取模块包括:

子集群获取单元,用于采用DBSCAN算法对任一用户在预设期间内所有POI信息进行聚类,以获取若干子集群;

轨迹点获取单元,用于采用K-MEANS算法对每一所述子集群进行迭代聚合,获取每一所述子集群的质心POI信息,并将所述质心POI信息作为轨迹点输出;

向量序列获取单元,用于基于所述轨迹点的时间序列,确定所述用户在所述预设期间内的生活习惯轨迹向量序列。

优选地,所述转移矩阵构建模块包括:

场景获取单元,用于基于所述生活习惯轨迹向量序列,获取所述生活习惯轨迹向量序列中出现的所有场景;

概率计算单元,用于计算任一场景与下一场景的转移概率;

矩阵构建单元,用于基于所述转移概率,构建所述马尔科夫转移矩阵。

优选地,还包括归一化矩阵获取模块,用于基于所述马尔科夫转移矩阵,获取归一化转移矩阵;

所述归一化矩阵获取模块包括:

矩阵获取单元,用于获取多个用户的马尔科夫转移矩阵,每一马尔科夫转移矩阵与用户ID相关联;

逻辑回归处理单元,用于对多个所述马尔科夫转移矩阵进行逻辑回归处理,获取归一化转移矩阵;

矩阵关联存储单元,用于将所述归一化转移矩阵与多个所述用户ID关联存储。

优选地,还包括:归一化场景预测模块,用于基于所述归一化转移矩阵进行场景预测;

所述归一化场景预测模块,包括:

预测请求获取单元,用于获取场景预测请求,所述场景预测请求包括用户ID和当前场景;

归一化矩阵获取单元,用于基于所述场景预测请求中的用户ID,确定与用户ID相对应的归一化转移矩阵;

归一化场景预测单元,用于基于所述场景预测请求中的当前场景,从所述归一化转移矩阵中获取预测场景。

本发明与现有技术相比具有如下优点:本发明所提供的个性化场景预测方法及装置中,通过对用户在预设期间内获取的地理位置信息进行聚类分析,获取生活习惯轨迹向量序列,由于地理位置信息具有较强的客观性和可靠性,使其形成的生活习惯轨迹向量序列也具有较强的客观性和可靠性。基于生活习惯轨迹向量序列,构建马尔科夫转移矩阵,马尔科夫转移矩阵构建过程所需采集的数据量少,计算过程简单方便。由于马尔科夫转移矩阵可清楚显示从任一场景到下一场景的转移概率,使得基于马尔科夫转移矩阵获取预测场景时,所获取到的预测场景的准确性较高。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明实施例1中个性化场景预测方法的一流程图;

图2是本发明实施例1中个性化场景预测方法的另一流程图;

图3是本发明实施例2中个性化场景预测装置的一原理框图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。

实施例1

图1和图2示出本实施例中个性化场景预测方法的流程图。该个性化场景预测方法可由金融机构或者其他产品/服务提供者中的终端执行,用于实现对用户行为场景预测,以便于进行业务推广。如图1和图2所示,该个性化场景预测方法,包括如下步骤:

S10:基于位置服务获取用户的地理位置信息,地理位置信息包括与时间相关联的POI信息。

以任一用户一天的地理位置信息为例,该地理位置信息中包括0:00—24:00的POI信息,每一POI信息用于指示电子地图中的一点,包括POI点名称、经度和纬度等信息。基于用户的地理位置信息,可了解用户每天经过的家庭住址、办公场所、购物场所、娱乐场所、健身场所等信息。可以理解地,基于位置服务获取用户的地理位置信息,具有较强的客观性和可靠性。

基于位置服务(Location Based Service,简称LBS)是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部定位方式(如GPS)获取移动终端用户的位置信息(地理坐标,或大地坐标),在地理信息系统(Geographic Information System,简称GIS)平台的支持下,为用户提供相应服务的一种增值业务。总体来看,LBS由移动通信网络和计算机网络结合而成,两个网络之间通过网关实现交互。移动终端通过移动通信网络发出请求,经过网关传递给LBS服务平台;LBS服务平台根据用户请求和用户当前位置进行处理,并将结果通过网关返回给用户。POI(Point Of Interest,即兴趣点或信息点),包括名称、类型、经度、纬度等资料,以使POI可在电子地图上呈现,以标示电子地图上的某个地点信息。

本实施例中,基于位置服务的移动终端为智能手机,通过开启智能手机上的定位功能,以使LBS服务平台实时获取智能手机的地理位置信息,从而了解携带该智能手机的用户的地理位置信息。地理位置信息包括与时间相关联的POI信息中的时间包括日期和时刻,通过该地理位置信息可了解用户在任一时刻所处的POI信息。可以理解地,地理位置信息与用户ID相关联,用户ID用于识别唯一识别用户,可以是身份证号或手机号。

可以理解地,为了减少数据处理量,提高处理效率,可预先设置时间阈值,以使基于位置服务获取用户的地理位置信息时,只获取用户在任一地点停留时间达到该时间阈值的POI信息,以避免采集到的与时间相关联的POI信息的数据量较多,导致处理效率低的问题。

S20:对用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量序列。

其中,生活习惯轨迹向量序列由依据时间顺序排序的轨迹点组成。轨迹点是用户日常生活中经过的地点,可以是家庭住址、办公场所、购物场所、娱乐场所、健身场所等地点,可在电子地图中显示。其中,预设期间可以是当前系统时间之前的任意一段时间,可以为一周、一个月、三个月或半年,可根据需求自主设置。可以理解地,预设期间越长,其采集到的地理位置信息的数据量越多,处理结果的准确性越高;预设期间越短,其处理效率越高。为说明本实施例所提供的个性化场景预设方法的实现用户行为场景预测过程,可将预设期间设为1周,以便于计算。

进一步地,步骤S20具体包括如下步骤:

S21:采用DBSCAN算法对任一用户在预设期间内所有POI信息进行聚类,以获取若干子集群。

其中,DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。DBSCAN算法具有聚类速度快且能够有效处理噪声和发现任意形成的空间聚类的优点。

本实施例中,预先设置DBSCAN算法中的预设扫描半径(以下简称为eps)和最小包含点数(minPts),任选一个未被访问(unvisited)的POI信息开始,找出与其距离在eps之内(包括eps)的所有POI信息,将POI信息与距离在eps之内的所有POI信息作为一个子集群输出。

S22:采用K-MEANS算法对每一子集群进行迭代聚合,获取每一子集群的质心POI信息,并将质心POI信息作为轨迹点输出。

K-MEANS算法是很典型的基于距离的算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。其计算公式为其中,k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。若一次迭代前后,J的值没有发生变化,说明算法已经收敛。K-MEANS算法可快速简单地对数据进行聚类,对大数据集具有较高的效率且可伸缩性,时间复杂度近于线性,而且适合挖掘大规模数据集。

本实施例中,采用K-MEANS算法对每一子集群中的POI信息进行迭代聚合,直到最后一次迭代时,迭代前后数值没有发生变化,则获取该子集群的质心POI信息,该质心POI信息对应一轨迹点。

S23:基于轨迹点的时间序列,确定用户在预设期间内的生活习惯轨迹向量序列。

本实施例中,通过对用户在预设期间内每日采集到的地理位置信息进行聚类分析,获取每日由按时间顺序排序的轨迹点形成的生活习惯轨迹向量序列。该生活习惯轨迹向量序列可清楚体现用户每日经过的家庭住址、办公场所、购物场所、娱乐场所、健身场所等轨迹点,具有较强的客观性和可靠性。

在一具体实施方式中,若A为家庭住址,B为办公场所,C为购物场所,D为娱乐场所,E为健身场所,F为公园,G为医院等等;且A’和A”为A附近500m内的地点,B’和B”为B附近500m内的地点,C’和C”为C附近500m内的地点,D’和D”为D附近500m内的地点,D’和D”为D附近500m内的地点,D’和D”为D附近500m内的地点,……G’和G”为G附近500m内的地点。在1周内,第一天的地理位置信息包括A、A’、B’、B、C”、C、B”、B、E”、E、A”、A等POI信息;第二天的地理位置信息包括A、A’、B’、B、D”、D、B”、B、F”、F、A”、A等POI信息……依此类推。步骤S21中采用DBSCAN算法进行聚类时,将1周内所有POI信息,通过设置扫描半径(eps)为500m和最小包含点数(minPts)为1,以将A、A’、A”作为一子集群输出,将B,B’、B”作为一子集群输出……G,G’、G”作为一子集群输出。步骤S22中采用K-MEANS算法对每一子集群进行聚类,获取到子集群中的质心POI信息,对于子集群A、A’、A”而言,采用K-MEANS算法进行迭代聚类时,获取到的质心POI信息为A,将A作为轨迹点输出,依此类推,获取其他轨迹点B、C、D、E、F和G。本实施例中,任一子集群中质心POI信息出现的频率大于其他POI信息出现的频率。步骤S23中,基于轨迹点的时间序列,获取用户在预设期间内每日的生活习惯轨迹向量序列,如第一天的轨迹点为A、B、C、B、E、A,第二天的轨迹点为A、B、D、B、F、A……等。

S30:基于生活习惯轨迹向量序列,构建马尔科夫转移矩阵。

马尔科夫转移矩阵,即马尔科夫(Markov Process)链的转移概率(transition probability)矩阵,是一种利用马尔科夫分析方法基于概率建立的随机型的时序模型。马尔科夫分析方法的基本模型为:X(k+1)=X(k)*P,其中,X(k)为预测用户在t=k时刻的场景向量,P表示一步转移概率矩阵;X(k+1)为预测用户在t=k+1时刻的场景向量。本实施例中,所获取的马尔科夫转移矩阵如下:

进一步地,步骤S30具体包括如下步骤:

S31:基于生活习惯轨迹向量序列,获取生活习惯轨迹向量序列中出现的所有场景。

本实施例中,生活习惯轨迹向量序列中的每一轨迹点对应一场景。基于生活习惯轨迹向量序列,获取生活习惯轨迹向量序列中出现的所有场景,即统计用户在预设期间内所经过的所有轨迹点。若用户第一天生活习惯轨迹向量序列为A、B、C、B、E、A;第二天生活习惯轨迹向量序列为A、B、D、B、F、A等,则该用户两天的生活习惯轨迹向量序列中出现的所有场景包括A、B、C、D、E和F等轨迹点(即场景)。可以理解地,生活习惯轨迹向量序列中出现的所有场景,可限定最终形成的马尔科夫转移矩阵的大小,即限定马尔科夫转移矩阵的行数和列数。

S32:计算任一场景与下一场景的转移概率。

对任一场景而言,从预设期间内所有生活习惯轨迹向量序列中获取与该场景相对应的下一场景,统计所有下一场景的总数和每个下一场景出现的次数,以计算任一场景与下一场景的转移概率,以便利用该转移概率构建马尔科夫转移矩阵。

S33:基于转移概率,构建马尔科夫转移矩阵。

在马尔科夫转移矩阵构建过程中,以生活习惯轨迹向量序列中出现的所有场景作为矩阵的行数和列数,即将所有场景分别作为t=k时刻每一行的Xk场景,并将所有场景分别作为t=k+1时刻每一列的Xk+1场景,其中,Xk+1场景是Xk场景的下一场景。在矩阵内分别填写每一Xk场景到Xk+1场景的转移概率,以构建马尔科夫转移矩阵。该马尔科夫转移矩阵可清楚显示用户在预测期间内所经过的所有场景,每一场景基于用户的地理位置信息获取,具有客观性和准确性,还可清楚显示从任一场景到下一场景的转移概率,所需采集的数据量小且预测结果准确性较高,可实现对用户行为进行较准确预测,以便于更好地开展业务推广等。

在一具体实施方式中,若用户1周内的生活习惯轨迹向量序列如下表所示:

上表中,A为家庭住址,C为办公场所,B、D、E、F、G、H、I、K和L等对应除家庭住址和办公场所以外的其他活动场所,包括但不限于消费(包括吃饭消费)、娱乐、购物、健身等。上表中,用户在1周内的生活习惯轨迹向量序列中出现的所有场景包括A、B、C、D、E、F、G、H、I、J、K和L等12个,因此可构建12*12的马尔科夫转移矩阵。分别计算每一场景与下一场景的转移概率,以获取的马尔科夫转移矩阵如下所示。

该马尔科夫转移矩阵可清楚显示从任一场景到下一场景的转移概率,所需采集的数据量小且预测结果准确性较高,可实现对用户行为场景进行较准确预测,以便于更好地开展业务推广等。

进一步地,在马尔科夫转移矩阵构建过程中,还可以使每一轨迹点与轨迹点所处时刻相关联,基于与所处时刻相关联的轨迹点构建马尔科夫转移矩阵,可进一步提高马尔科夫转移矩阵中对用户行为场景预测的准确性和可靠性。如统计用户在预设期间内的生活习惯轨迹向量序列中,以小时为单位,分别计算预设期间内同一时间范围内(如上午10点)内所有轨迹点及每一轨迹点的概率,基于时间顺序获取任一场景与下一场景的转换概率,并构建马尔科夫转移矩阵,使得形成的马尔科夫转移矩阵与轨迹点所处时刻相关联,进一步提高用户行为场景预测的准确性和可靠性。

S40:获取用户的当前场景,基于当前场景从马尔科夫转移矩阵中,获取对应的预测场景。

可以理解地,马尔科夫转移矩阵可清楚显示从任一场景到下一场景的转移概率,在任一时刻,获取用户的当前场景,即可从马尔科夫转移矩阵中获取其可能转移的所有下一场景以及每个下一场景的转移概率,根据转移概率的高低,选择转移概率较高的下一场景作为预测场景,以便基于获取到的预测场景对该用户开展业务推广活动。

本实施例所提供的个性化场景预测方法中,通过对用户在预设期间内获取的地理位置信息进行聚类分析,获取生活习惯轨迹向量序列,由于地理位置信息具有较强的客观性和可靠性,使其形成的生活习惯轨迹向量序列也具有较强的客观性和可靠性。基于生活习惯轨迹向量序列,构建马尔科夫转移矩阵,马尔科夫转移矩阵构建过程所需采集的数据量少,计算过程简单方便。由于马尔科夫转移矩阵可清楚显示从任一场景到下一场景的转移概率,使得基于马尔科夫转移矩阵获取预测场景时,所获取到的预测场景的准确性较高。

在一具体实施方式中,该个性化场景预测方法还包括如下步骤:

S50:基于马尔科夫转移矩阵,获取归一化转移矩阵。

其中,归一化转移矩阵是与多个马尔科夫转移矩阵具有高度相似性的矩阵,可将多个马尔科夫转移矩阵转换成归一化转移矩阵并存储,以实现节省存储空间的目的。

步骤S50具体包括如下步骤:

S51:获取多个用户的马尔科夫转移矩阵,每一马尔科夫转移矩阵与用户ID相关联。

其中,用户ID用于唯一识别用户,使用户ID与马尔科夫转移矩阵相关联,以实现通过用户ID确定马尔科夫转移矩阵对应的用户,以实现对该用户行为场景进行个性化预测。

S52:对多个马尔科夫转移矩阵进行逻辑回归处理,获取归一化转移矩阵。

即采用逻辑回归(Logistic Regression)模型对多个马尔科夫转移矩阵进行逻辑回归处理,以获取归一化转移矩阵,该归一化转移矩阵与多个马尔科夫转移矩阵具有高度相似性,可基于该归一化转移矩阵对用户行为场景预测,其预测效果与相对应的马尔科夫转移矩阵的预测效果相似,且归一化转换矩阵可大量节省存储空间。

S53:将归一化转移矩阵与多个用户ID关联存储。

可以理解地,将归一化转移矩阵与用户ID关联存储,即将构建归一化转移矩阵的多个马尔科夫转移矩阵对应的用户ID与该归一化转移矩阵关联存储,以实现基于任一用户ID可获取到其对应的归一化转移矩阵,并基于该归一化转移矩阵进行用户行为场景预测。将归一化转移矩阵与多个用户ID关联存储,无需存储多个用户ID对应的马尔科夫转移矩阵,可极大地节省存储空间。

在一具体实施方式中,该个性化场景预测方法还包括如下步骤:

S60:基于归一化转移矩阵进行场景预测。

由于归一化转移矩阵是与多个马尔科夫转移矩阵具有高度相似性的矩阵,基于归一化转移矩阵对用户行为预测时,其预测结果与采用马尔科夫转移矩阵对用户行为场景预测的预测结果也具有高度相似性,使得基于归一化转移矩阵对用户行为场景预测时,预测结果也具有较高的准确性和客观性。

步骤S60具体包括如下步骤:

S61:获取场景预测请求,场景预测请求包括用户ID和当前场景。

本实施例中,金融机构或者其他产品/服务提供者可向终端输入所要进行行为预测的用户对应的用户ID,基于该用户ID对用户进行定位,以确定其对应的地理位置信息,从而确定用户的当前场景,以使终端获取场景预测请求。

S62:基于场景预测请求中的用户ID,确定与用户ID相对应的相似用户的归一化转移矩阵。

可以理解地,归一化转移矩阵与多个用户ID关联存储,终端基于获取到的场景预测请求可查询获取用户ID对应的归一化转移矩阵,以便于利用该归一化转移矩阵进行对用户进行场景预测。

S63:基于场景预测请求中的当前场景,从归一化转移矩阵中获取预测场景。

由于归一化转移矩阵是由多个用户的马尔科夫转移矩阵进行逻辑回归处理得到的,使得该归一化转移矩阵也可清楚显示任一场景到下一场景的转移概率,以便基于场景预测请求中的当前场景,获取其对应若干下一场景及每个下一场景的转移概率,以将转移概率较高的下一场景作为预测场景输出,以提高场景预测的准确性和客观性,并可达到节省存储空间的目的。

实施例2

图3示出本实施例中个性化场景预测装置的原理框图。该个性化场景预测装置可由金融机构或者其他产品/服务提供者中的终端执行,用于实现对用户行为场景预测,以便于进行业务推广。如图3所示,该个性化场景预测装置,包括位置信息获取模块10、轨迹向量序列获取模块20、转移矩阵构建模块30、预测场景获取模块40、归一化矩阵获取模块50和归一化场景预测模块60。

位置信息获取模块10,用于基于位置服务获取用户的地理位置信息,地理位置信息包括与时间相关联的POI信息。

以任一用户一天的地理位置信息为例,该地理位置信息中包括0:00—24:00的POI信息,每一POI信息用于指示电子地图中的一点,包括POI点名称、经度和纬度等信息。基于用户的地理位置信息,可了解用户每天经过的家庭住址、办公场所、购物场所、娱乐场所、健身场所等信息。可以理解地,基于位置服务获取用户的地理位置信息,具有较强的客观性和可靠性。

基于位置服务(Location Based Service,简称LBS)是通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部定位方式(如GPS)获取移动终端用户的位置信息(地理坐标,或大地坐标),在地理信息系统(Geographic Information System,简称GIS)平台的支持下,为用户提供相应服务的一种增值业务。总体来看,LBS由移动通信网络和计算机网络结合而成,两个网络之间通过网关实现交互。移动终端通过移动通信网络发出请求,经过网关传递给LBS服务平台;LBS服务平台根据用户请求和用户当前位置进行处理,并将结果通过网关返回给用户。POI(Point Of Interest,即兴趣点或信息点),包括名称、类型、经度、纬度等资料,以使POI可在电子地图上呈现,以标示电子地图上的某个地点信息。

本实施例中,基于位置服务的移动终端为智能手机,通过开启智能手机上的定位功能,以使LBS服务平台实时获取智能手机的地理位置信息,从而了解携带该智能手机的用户的地理位置信息。地理位置信息包括与时间相关联的POI信息中的时间包括日期和时刻,通过该地理位置信息可了解用户在任一时刻所处的POI信息。可以理解地,地理位置信息与用户ID相关联,用户ID用于识别唯一识别用户,可以是身份证号或手机号。

可以理解地,为了减少数据处理量,提高处理效率,可预先设置时间阈值,以使基于位置服务获取用户的地理位置信息时,只获取用户在任一地点停留时间达到该时间阈值的POI信息,以避免采集到的与时间相关联的POI信息的数据量较多,导致处理效率低的问题。

轨迹向量序列获取模块20,用于对用户在预设期间内所有的地理位置信息进行聚类分析,获取生活习惯轨迹向量序列。

其中,生活习惯轨迹向量序列由依据时间顺序排序的轨迹点组成。轨迹点是用户日常生活中经过的地点,可以是家庭住址、办公场所、购物场所、娱乐场所、健身场所等地点,可在电子地图中显示。其中,预设期间可以是当前系统时间之前的任意一段时间,可以为一周、一个月、三个月或半年,可根据需求自主设置。可以理解地,预设期间越长,其采集到的地理位置信息的数据量越多,处理结果的准确性越高;预设期间越短,其处理效率越高。为说明本实施例所提供的个性化场景预设装置的实现用户行为场景预测过程,可将预设期间设为1周,以便于计算。

进一步地,轨迹向量序列获取模块20具体包括子集群获取单元21、轨迹点获取单元22和向量序列获取单元23。

子集群获取单元21,用于采用DBSCAN算法对任一用户在预设期间内所有POI信息进行聚类,以获取若干子集群。

其中,DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间算法。该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。DBSCAN算法具有聚类速度快且能够有效处理噪声和发现任意形成的空间聚类的优点。

本实施例中,预先设置DBSCAN算法中的预设扫描半径(以下简称为eps)和最小包含点数(minPts),任选一个未被访问(unvisited)的POI信息开始,找出与其距离在eps之内(包括eps)的所有POI信息,将POI信息与距离在eps之内的所有POI信息作为一个子集群输出。

轨迹点获取单元22,用于采用K-MEANS算法对每一子集群进行迭代聚合,获取每一子集群的质心POI信息,并将质心POI信息作为轨迹点输出。

K-MEANS算法是很典型的基于距离的算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。其计算公式为其中,k个初始类聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机的选取任意k个对象作为初始聚类的中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离将每个对象重新赋给最近的簇。若一次迭代前后,J的值没有发生变化,说明算法已经收敛。K-MEANS算法可快速简单地对数据进行聚类,对大数据集具有较高的效率且可伸缩性,时间复杂度近于线性,而且适合挖掘大规模数据集。

本实施例中,采用K-MEANS算法对每一子集群中的POI信息进行迭代聚合,直到最后一次迭代时,迭代前后数值没有发生变化,则获取该子集群的质心POI信息,该质心POI信息对应一轨迹点。

向量序列获取单元23,用于基于轨迹点的时间序列,确定用户在预设期间内的生活习惯轨迹向量序列。

本实施例中,通过对用户在预设期间内每日采集到的地理位置信息进行聚类分析,获取每日由按时间顺序排序的轨迹点形成的生活习惯轨迹向量序列。该生活习惯轨迹向量序列可清楚体现用户每日经过的家庭住址、办公场所、购物场所、娱乐场所、健身场所等轨迹点,具有较强的客观性和可靠性。

在一具体实施方式中,若A为家庭住址,B为办公场所,C为购物场所,D为娱乐场所,E为健身场所,F为公园,G为医院等等;且A’和A”为A附近500m内的地点,B’和B”为B附近500m内的地点,C’和C”为C附近500m内的地点,D’和D”为D附近500m内的地点,D’和D”为D附近500m内的地点,D’和D”为D附近500m内的地点,……G’和G”为G附近500m内的地点。在1周内,第一天的地理位置信息包括A、A’、B’、B、C”、C、B”、B、E”、E、A”、A等POI信息;第二天的地理位置信息包括A、A’、B’、B、D”、D、B”、B、F”、F、A”、A等POI信息……依此类推。步骤S21中采用DBSCAN算法进行聚类时,将1周内所有POI信息,通过设置扫描半径(eps)为500m和最小包含点数(minPts)为1,以将A、A’、A”作为一子集群输出,将B,B’、B”作为一子集群输出……G,G’、G”作为一子集群输出。步骤S22中采用K-MEANS算法对每一子集群进行聚类,获取到子集群中的质心POI信息,对于子集群A、A’、A”而言,采用K-MEANS算法进行迭代聚类时,获取到的质心POI信息为A,将A作为轨迹点输出,依此类推,获取其他轨迹点B、C、D、E、F和G。本实施例中,任一子集群中质心POI信息出现的频率大于其他POI信息出现的频率。步骤S23中,基于轨迹点的时间序列,获取用户在预设期间内每日的生活习惯轨迹向量序列,如第一天的轨迹点为A、B、C、B、E、A,第二天的轨迹点为A、B、D、B、F、A……等。

转移矩阵构建模块30,用于基于生活习惯轨迹向量序列,构建马尔科夫转移矩阵。

马尔科夫转移矩阵,即马尔科夫(Markov Process)链的转移概率(transition probability)矩阵,是一种利用马尔科夫分析方法基于概率建立的随机型的时序模型。马尔科夫分析方法的基本模型为:X(k+1)=X(k)*P,其中,X(k)为预测用户在t=k时刻的场景向量,P表示一步转移概率矩阵;X(k+1)为预测用户在t=k+1时刻的场景向量。本实施例中,所获取的马尔科夫转移矩阵如下:

进一步地,转移矩阵构建模块30具体包括场景获取单元31、概率计算单元32和矩阵构建单元33。

场景获取单元31,用于基于生活习惯轨迹向量序列,获取生活习惯轨迹向量序列中出现的所有场景。

本实施例中,生活习惯轨迹向量序列中的每一轨迹点对应一场景。基于生活习惯轨迹向量序列,获取生活习惯轨迹向量序列中出现的所有场景,即统计用户在预设期间内所经过的所有轨迹点。若用户第一天生活习惯轨迹向量序列为A、B、C、B、E、A;第二天生活习惯轨迹向量序列为A、B、D、B、F、A等,则该用户两天的生活习惯轨迹向量序列中出现的所有场景包括A、B、C、D、E和F等轨迹点(即场景)。可以理解地,生活习惯轨迹向量序列中出现的所有场景,可限定最终形成的马尔科夫转移矩阵的大小,即限定马尔科夫转移矩阵的行数和列数。

概率计算单元32,用于计算任一场景与下一场景的转移概率。

对任一场景而言,从预设期间内所有生活习惯轨迹向量序列中获取与该场景相对应的下一场景,统计所有下一场景的总数和每个下一场景出现的次数,以计算任一场景与下一场景的转移概率,以便利用该转移概率构建马尔科夫转移矩阵。

矩阵构建单元33,用于基于转移概率,构建马尔科夫转移矩阵。

在马尔科夫转移矩阵构建过程中,以生活习惯轨迹向量序列中出现的所有场景作为矩阵的行数和列数,即将所有场景分别作为t=k时刻每一行的Xk场景,并将所有场景分别作为t=k+1时刻每一列的Xk+1场景,其中,Xk+1场景是Xk场景的下一场景。在矩阵内分别填写每一Xk场景到Xk+1场景的转移概率,以构建马尔科夫转移矩阵。该马尔科夫转移矩阵可清楚显示用户在预测期间内所经过的所有场景,每一场景基于用户的地理位置信息获取,具有客观性和准确性,还可清楚显示从任一场景到下一场景的转移概率,所需采集的数据量小且预测结果准确性较高,可实现对用户行为进行较准确预测,以便于更好地开展业务推广等。

在一具体实施方式中,若用户1周内的生活习惯轨迹向量序列如下表所示:

上表中,A为家庭住址,C为办公场所,B、D、E、F、G、H、I、K和L等对应除家庭住址和办公场所以外的其他活动场所,包括但不限于消费(包括吃饭消费)、娱乐、购物、健身等。上表中,用户在1周内的生活习惯轨迹向量序列中出现的所有场景包括A、B、C、D、E、F、G、H、I、J、K和L等12个,因此可构建12*12的马尔科夫转移矩阵。分别计算每一场景与下一场景的转移概率,以获取的马尔科夫转移矩阵如下所示。

该马尔科夫转移矩阵可清楚显示从任一场景到下一场景的转移概率,所需采集的数据量小且预测结果准确性较高,可实现对用户行为场景进行较准确预测,以便于更好地开展业务推广等。

进一步地,在马尔科夫转移矩阵构建过程中,还可以使每一轨迹点与轨迹点所处时刻相关联,基于与所处时刻相关联的轨迹点构建马尔科夫转移矩阵,可进一步提高马尔科夫转移矩阵中对用户行为场景预测的准确性和可靠性。如统计用户在预设期间内的生活习惯轨迹向量序列中,以小时为单位,分别计算预设期间内同一时间范围内(如上午10点)内所有轨迹点及每一轨迹点的概率,基于时间顺序获取任一场景与下一场景的转换概率,并构建马尔科夫转移矩阵,使得形成的马尔科夫转移矩阵与轨迹点所处时刻相关联,进一步提高用户行为场景预测的准确性和可靠性。

预测场景获取模块40,用于获取用户的当前场景,基于当前场景从马尔科夫转移矩阵中,获取对应的预测场景。

可以理解地,马尔科夫转移矩阵可清楚显示从任一场景到下一场景的转移概率,在任一时刻,获取用户的当前场景,即可从马尔科夫转移矩阵中获取其可能转移的所有下一场景以及每个下一场景的转移概率,根据转移概率的高低,选择转移概率较高的下一场景作为预测场景,以便基于获取到的预测场景对该用户开展业务推广活动。

本实施例所提供的个性化场景预测装置中,通过对用户在预设期间内获取的地理位置信息进行聚类分析,获取生活习惯轨迹向量序列,由于地理位置信息具有较强的客观性和可靠性,使其形成的生活习惯轨迹向量序列也具有较强的客观性和可靠性。基于生活习惯轨迹向量序列,构建马尔科夫转移矩阵,马尔科夫转移矩阵构建过程所需采集的数据量少,计算过程简单方便。由于马尔科夫转移矩阵可清楚显示从任一场景到下一场景的转移概率,使得基于马尔科夫转移矩阵获取预测场景时,所获取到的预测场景的准确性较高。

在一具体实施方式中,该个性化场景预测装置还包括归一化矩阵获取模块50,用于基于马尔科夫转移矩阵,获取归一化转移矩阵。

其中,归一化转移矩阵是与多个马尔科夫转移矩阵具有高度相似性的矩阵,可将多个马尔科夫转移矩阵转换成归一化转移矩阵并存储,以实现节省存储空间的目的。

归一化矩阵获取模块50具体包括矩阵获取单元51、逻辑回归处理单元52和矩阵关联存储单元53。

矩阵获取单元51,用于获取多个用户的马尔科夫转移矩阵,每一马尔科夫转移矩阵与用户ID相关联。

其中,用户ID用于唯一识别用户,使用户ID与马尔科夫转移矩阵相关联,以实现通过用户ID确定马尔科夫转移矩阵对应的用户,以实现对该用户行为场景进行个性化预测。

逻辑回归处理单元52,用于对多个马尔科夫转移矩阵进行逻辑回归处理,获取归一化转移矩阵。

即采用逻辑回归(Logistic Regression)模型对多个马尔科夫转移矩阵进行逻辑回归处理,以获取归一化转移矩阵,该归一化转移矩阵与多个马尔科夫转移矩阵具有高度相似性,可基于该归一化转移矩阵对用户行为场景预测,其预测效果与相对应的马尔科夫转移矩阵的预测效果相似,且归一化转换矩阵可大量节省存储空间。

矩阵关联存储单元53,用于将归一化转移矩阵与多个用户ID关联存储。

可以理解地,将归一化转移矩阵与用户ID关联存储,即将构建归一化转移矩阵的多个马尔科夫转移矩阵对应的用户ID与该归一化转移矩阵关联存储,以实现基于任一用户ID可获取到其对应的归一化转移矩阵,并基于该归一化转移矩阵进行用户行为场景预测。将归一化转移矩阵与多个用户ID关联存储,无需存储多个用户ID对应的马尔科夫转移矩阵,可极大地节省存储空间。

在一具体实施方式中,该个性化场景预测装置还包括归一化场景预测模块60,用于基于归一化转移矩阵进行场景预测。

由于归一化转移矩阵是与多个马尔科夫转移矩阵具有高度相似性的矩阵,基于归一化转移矩阵对用户行为预测时,其预测结果与采用马尔科夫转移矩阵对用户行为场景预测的预测结果也具有高度相似性,使得基于归一化转移矩阵对用户行为场景预测时,预测结果也具有较高的准确性和客观性。

归一化场景预测模块60具体包括预测请求获取单元61、归一化矩阵获取单元62和归一化场景预测单元63。

预测请求获取单元61,用于获取场景预测请求,场景预测请求包括用户ID和当前场景。

本实施例中,金融机构或者其他产品/服务提供者可向终端输入所要进行行为预测的用户对应的用户ID,基于该用户ID对用户进行定位,以确定其对应的地理位置信息,从而确定用户的当前场景,以使终端获取场景预测请求。

归一化矩阵获取单元62,用于基于场景预测请求中的用户ID,确定与用户ID相对应的相似用户的归一化转移矩阵。

可以理解地,归一化转移矩阵与多个用户ID关联存储,终端基于获取到的场景预测请求可查询获取用户ID对应的归一化转移矩阵,以便于利用该归一化转移矩阵进行对用户进行场景预测。

归一化场景预测单元63,用于基于场景预测请求中的当前场景,从归一化转移矩阵中获取预测场景。

由于归一化转移矩阵是由多个用户的马尔科夫转移矩阵进行逻辑回归处理得到的,使得该归一化转移矩阵也可清楚显示任一场景到下一场景的转移概率,以便基于场景预测请求中的当前场景,获取其对应若干下一场景及每个下一场景的转移概率,以将转移概率较高的下一场景作为预测场景输出,以提高场景预测的准确性和客观性,并可达到节省存储空间的目的。

本发明是通过几个具体实施例进行说明的,本领域技术人员应当明白,在不脱离本发明范围的情况下,还可以对本发明进行各种变换和等同替代。另外,针对特定情形或具体情况,可以对本发明做各种修改,而不脱离本发明的范围。因此,本发明不局限于所公开的具体实施例,而应当包括落入本发明权利要求范围内的全部实施方式。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1