一种群体用户的挖掘方法及装置与流程

文档序号:15385590发布日期:2018-09-08 00:31阅读:119来源:国知局
本发明涉及数据挖掘
技术领域
,尤其涉及一种群体用户的挖掘方法及装置。
背景技术
:移动智能设备和移动互联网的飞速发展,使得获取用户位置信息越来越方便。与此同时智能汽车的发展,使得汽车不仅仅是一个代步工具,更是互联网的一个节点,是产生历史轨迹数据的重要来源。由于对历史轨迹数据的深度挖掘将会产生很多有价值的知识,从而催生新的商业应用和商业价值,例如:交通流量管理,基于日程提醒的路径规划,好友发现,个性化广告推动服务等,因此,对历史轨迹数据的挖掘受到越来越多的关注。现有技术中,已开展的基于历史轨迹数据的挖掘工作,主要是对轨迹数据进行分类、聚类或频繁模式挖掘。但现有技术中仅从单一方面对历史轨迹数据进行挖掘,并未对历史轨迹数据的挖掘进行整体考虑,而且并未根据历史轨迹数据深度挖掘群体用户。因此,如何基于历史轨迹数据,更全面地实现对群体用户的挖掘,是目前亟需解决的技术问题。技术实现要素:本发明实施例提供一种群体用户的挖掘方法及装置,用以解决现有技术中存在的如何基于历史轨迹数据,更全面地实现对群体用户的挖掘的问题。本发明实施例提供一种群体用户的挖掘方法,包括:根据由轨迹点组成的多个用户的历史轨迹数据,将各所述用户的每天满足预设的时间阈值、距离阈值和方向变化阈值条件的轨迹点构成各所述用户每天的停留点,并将各所述用户每天的停留点按时间顺序排列构成各所述用户每天的停留点序列;根据各所述用户每天的停留点序列,统计各所述用户的最频繁的出行起始时间段轨迹特征属性和最频繁的结束行程时间段轨迹特征属性;将各所述用户每天的停留点归类为多个公共停留区域;为各所述公共停留区域赋予语义信息,并根据各所述公共停留区域和所述语义信息,统计各所述用户的公共停留区域列表;将各所述用户符合所述公共停留区域列表的停留点对应的公共停留区域作为该用户的停留区域列表;根据确定出的各所述用户的停留区域列表,统计各所述用户的最经常停留的区域列表轨迹特征属性;根据各所述用户每天的停留点序列和各所述用户的停留区域列表,确定各所述用户每天的停留区域轨迹;根据确定出的各所述用户每天的停留区域轨迹,采用预先设定的针对序列模式的挖掘算法,统计各所述用户的最频繁的重复轨迹模式轨迹特征属性;采用预先设定的聚类方法,对统计出的各所述用户的所述最频繁的出行起始时间段轨迹特征属性、所述最频繁的结束行程时间段轨迹特征属性、所述最经常停留的区域列表轨迹特征属性和所述最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户。在一种可能的实现方式中,在本发明实施例提供的上述挖掘方法中,所述将各所述用户每天的停留点归类为多个公共停留区域,具体包括:采用基于密度的聚类算法p-dbscan将各所述用户每天的停留点归类为多个公共停留区域。在一种可能的实现方式中,在本发明实施例提供的上述挖掘方法中,所述为各所述公共停留区域赋予语义信息,并根据各所述公共停留区域和所述语义信息,统计各所述用户的公共停留区域列表,具体包括:通过信息点poi数据库,为确定出的各所述公共停留区域赋予语义信息,并将赋予语义信息的各所述公共停留区域构成各所述用户的公共停留区域列表。在一种可能的实现方式中,在本发明实施例提供的上述挖掘方法中,所述根据确定出的各所述用户的停留区域列表,统计各所述用户的最经常停留的区域列表,具体包括:确定各所述用户的停留区域列表中的各停留区域的停留时间;将停留时间满足预设时长的各所述停留区域统计为各所述用户的最经常停留的区域列表。在一种可能的实现方式中,在本发明实施例提供的上述挖掘方法中,所述采用预先设定的聚类方法,对统计出的各所述用户的所述最频繁的出行起始时间段轨迹特征属性、所述最频繁的结束行程时间段轨迹特征属性、所述最经常停留的区域列表轨迹特征属性和所述最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户,具体包括:采用快速聚类的方法,对统计出的各所述用户的所述最频繁的出行起始时间段轨迹特征属性、所述最频繁的结束行程时间段轨迹特征属性、所述最经常停留的区域列表轨迹特征属性和所述最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户。在一种可能的实现方式中,在本发明实施例提供的上述挖掘方法中,在所述采用预先设定的聚类方法,对统计出的各所述用户的所述最频繁的出行起始时间段轨迹特征属性、所述最频繁的结束行程时间段轨迹特征属性、所述最经常停留的区域列表轨迹特征属性和所述最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户之后,还包括:结合词云获取各所述群体用户的特征;其中,所述词云为以下之一或组合:用户签到信息,用户调查问卷,用户注册信息;所述群体用户的特征为以下之一或组合:性别,年龄段,职业,长期偏好,短期需求,消费习惯,主要活动的地理区域。本发明实施例提供一种群体用户的挖掘装置,包括:统计单元,用于根据由轨迹点组成的多个用户的历史轨迹数据,将各所述用户的每天满足预设的时间阈值、距离阈值和方向变化阈值条件的轨迹点构成各所述用户每天的停留点,并将各所述用户每天的停留点按时间顺序排列构成各所述用户每天的停留点序列;根据各所述用户每天的停留点序列,统计各所述用户的最频繁的出行起始时间段轨迹特征属性和最频繁的结束行程时间段轨迹特征属性;将各所述用户每天的停留点归类为多个公共停留区域;为各所述公共停留区域赋予语义信息,并根据各所述公共停留区域和所述语义信息,统计各所述用户的公共停留区域列表;将各所述用户符合所述公共停留区域列表的停留点对应的公共停留区域作为该用户的停留区域列表;根据确定出的各所述用户的停留区域列表,统计各所述用户的最经常停留的区域列表轨迹特征属性;根据各所述用户每天的停留点序列和各所述用户的停留区域列表,确定各所述用户每天的停留区域轨迹;根据确定出的各所述用户每天的停留区域轨迹,采用预先设定的针对序列模式的挖掘算法,统计各所述用户的最频繁的重复轨迹模式轨迹特征属性;聚类单元,用于采用预先设定的聚类方法,对统计出的各所述用户的所述最频繁的出行起始时间段轨迹特征属性、所述最频繁的结束行程时间段轨迹特征属性、所述最经常停留的区域列表轨迹特征属性和所述最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户。在一种可能的实现方式中,在本发明实施例提供的上述挖掘装置中,所述统计单元,具体用于采用基于密度的聚类算法p-dbscan将各所述用户每天的停留点归类为多个公共停留区域。在一种可能的实现方式中,在本发明实施例提供的上述挖掘装置中,所述统计单元,具体用于通过信息点poi数据库,为确定出的各所述公共停留区域赋予语义信息,并将赋予语义信息的各所述公共停留区域构成各所述用户的公共停留区域列表。在一种可能的实现方式中,在本发明实施例提供的上述挖掘装置中,所述统计单元,具体用于确定各所述用户的停留区域列表中的各停留区域的停留时间;将停留时间满足预设时长的各所述停留区域统计为各所述用户的最经常停留的区域列表。在一种可能的实现方式中,在本发明实施例提供的上述挖掘装置中,所述聚类单元,具体用于采用快速聚类的方法,对统计出的各所述用户的所述最频繁的出行起始时间段轨迹特征属性、所述最频繁的结束行程时间段轨迹特征属性、所述最经常停留的区域列表轨迹特征属性和所述最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户。在一种可能的实现方式中,在本发明实施例提供的上述挖掘装置中,还包括:获取单元,用于结合词云获取各所述群体用户的特征;其中,所述词云为以下之一或组合:用户签到信息,用户调查问卷,用户注册信息;所述群体用户的特征为以下之一或组合:性别,年龄段,职业,长期偏好,短期需求,消费习惯,主要活动的地理区域。本发明有益效果如下:本发明实施例提供的群体用户的挖掘方法及装置,包括:根据由轨迹点组成的多个用户的历史轨迹数据,将各用户的每天满足预设的时间阈值、距离阈值和方向变化阈值条件的轨迹点构成各用户每天的停留点,并将各用户每天的停留点按时间顺序排列构成各用户每天的停留点序列;根据各用户每天的停留点序列,统计各用户的最频繁的出行起始时间段轨迹特征属性和最频繁的结束行程时间段轨迹特征属性;将各用户每天的停留点归类为多个公共停留区域;为各公共停留区域赋予语义信息,并根据各公共停留区域和语义信息,统计各用户的公共停留区域列表;将各用户符合公共停留区域列表的停留点对应的公共停留区域作为该用户的停留区域列表;根据确定出的各用户的停留区域列表,统计各用户的最经常停留的区域列表轨迹特征属性;根据各用户每天的停留点序列和各用户的停留区域列表,确定各用户每天的停留区域轨迹;根据确定出的各用户每天的停留区域轨迹,采用预先设定的针对序列模式的挖掘算法,统计各用户的最频繁的重复轨迹模式轨迹特征属性;采用预先设定的聚类方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户。由于根据由轨迹点组成的多个用户的历史轨迹数据,提取了各用户的每天满足预设的时间阈值、距离阈值和方向变化阈值条件的轨迹点构成各用户每天的停留点,并将各用户每天的停留点的归类为多个公共停留区域,且为各公共停留区域赋予语义信息;再基于满足预设的时间阈值、距离阈值和方向变化阈值条件的停留点,以及赋予语义信息的公共停留区域,统计出了各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性;并采用预设的聚类方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,从而得到了多个群体用户,因此,实现了基于历史轨迹数据,更全面地对群体用户的挖掘。附图说明图1为本发明实施例提供的群体用户的挖掘方法的流程图;图2为本发明实施例提供的停留点的示意图;图3为本发明实施例提供的具有语义信息的停留区域的示意图;图4为本发明实施例提供的群体用户特征的挖掘方法的流程图;图5为本发明实施例提供的群体用户的挖掘装置的结构示意图。具体实施方式下面结合附图,对本发明实施例提供的群体用户的挖掘方法及装置的具体实施方式进行详细地说明。本发明实施例提供的一种群体用户的挖掘方法,如图1所示,具体可以包括以下步骤:s101、根据由轨迹点组成的多个用户的历史轨迹数据,将各用户的每天满足预设的时间阈值、距离阈值和方向变化阈值条件的轨迹点构成各用户每天的停留点,并将各用户每天的停留点按时间顺序排列构成各用户每天的停留点序列;s102、根据各用户每天的停留点序列,统计各用户的最频繁的出行起始时间段轨迹特征属性和最频繁的结束行程时间段轨迹特征属性;s103、将各用户每天的停留点归类为多个公共停留区域;为各公共停留区域赋予语义信息,并根据各公共停留区域和语义信息,统计各用户的公共停留区域列表;将各用户符合公共停留区域列表的停留点对应的公共停留区域作为该用户的停留区域列表;根据确定出的各用户的停留区域列表,统计各用户的最经常停留的区域列表轨迹特征属性;s104、根据各用户每天的停留点序列和各用户的停留区域列表,确定各用户每天的停留区域轨迹;根据确定出的各用户每天的停留区域轨迹,采用预先设定的针对序列模式的挖掘算法,统计各用户的最频繁的重复轨迹模式轨迹特征属性;s105、采用预先设定的聚类方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户。具体地,在本发明实施例提供的上述挖掘方法中,由于根据由轨迹点组成的多个用户的历史轨迹数据,提取了各用户的每天满足预设的时间阈值、距离阈值和方向变化阈值条件的轨迹点构成各用户每天的停留点,并将各用户每天的停留点的归类为多个公共停留区域,且为各公共停留区域赋予语义信息;再基于满足预设的时间阈值、距离阈值和方向变化阈值条件的停留点,以及赋予语义信息的公共停留区域,统计出了各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性;并采用预设的聚类方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,从而得到了多个群体用户,因此,实现了基于历史轨迹数据,更全面地对群体用户的挖掘。需要说明的是,在本发明实施例提供的上述挖掘方法中的步骤s102和s103的顺序可以互换,并不限于上述描述的先后顺序。进一步地,在本发明实施例提供的上述挖掘方法中,不仅可以提取同时满足预设时间、空间和语义条件的各用户的多个轨迹特征属性,还可以根据实际需要,在此基础上适当增加或减少预设条件和轨迹特征属性,或重新设置预设条件和轨迹特征属性的含义和数量,在此不做限定。一般地,每个用户在每天、每月等持续运动中都会产生大量的历史轨迹数据。例如,用户uk某天的历史轨迹数据可以表示为ti=pm→pm+1→…→pn,轨迹点pk通常是一个带有时间戳的全球定位系统(globalpositioningsystem,gps)坐标点,定义为pk=(latk,lngtk,tk),其中,latk为纬度,lngtk为经度,tk为时间戳。于是,可根据由轨迹点pk组成的用户uk的大量历史轨迹数据(ti,ti+1,…,tj)来提取用户uk的轨迹特征属性。具体地,为了有效地将用户uk与其他用户区别开来,可以根据特征提取遵守的最有效性原则,即同类样本的不变性、不同样本的鉴别性、对噪声的鲁棒性,从历史轨迹数据(ti,ti+1,…,tj)中提取用户uk的最频繁的出行起始时间段,最频繁的结束行程时间段,最经常停留的区域列表,以及最频繁的重复轨迹模式等四个轨迹特征属性来表征用户uk。当然,在具体实施时,也可以根据实际情况选择其他轨迹特征属性来表征用户uk,在此不做限定。较佳地,为了更好地理解本发明实施例提供的上述挖掘方法的步骤s101至s104中获取各用户的最频繁的出行起始时间段,最频繁的结束行程时间段,最经常停留的区域列表,以及最频繁的重复轨迹模式等四个轨迹特征属性的详细过程,以下以获取用户uk的上述四个轨迹特征属性的过程为例进行说明。首先,提取用户uk每天的停留点。例如,以针对用户uk某天的历史轨迹数据ti=pm→pm+1→…→pn为例,使用预设的时间阈值τ,距离阈值ε和方向变化阈值δ这三个参数,提取满足以下三个条件的轨迹点构成停留点,其中,m<i≤n。1)轨迹点pi与轨迹点pm之间的距离(pm,pi)≤ε,2)轨迹点pn与轨迹点pm之间的时间差(pm,pn)≥τ,3)轨迹点pi与轨迹点pi+1之间的方向差(pi,pi+1)≥δ,具体地,若根据预设的上述条件提取到的用户uk某天的停留点包含一个轨迹点pk,则以pk=(latk,lngtk,tk)表示停留点;若根据预设的上述条件提取到的用户uk某天的停留点包含多个轨迹点,如图2中的s1包含四个轨迹点,s2包含三个轨迹点,则将停留点s1和s2分别表示为s1=(lat1,lngt1,t1start,t1stop),s2=(lat2,lngt2,t2start,t2stop),其中,latx,lngtx分别是停留点包含的各轨迹点的平均经度和平均纬度,txstart是停留开始的时间,txstop是停留结束时间。即对于图2中的s1=(lat1,lngt1,t1start,t2stop),lat1即为轨迹点p4、p5、p6和p7的经度的平均值,lngt1为轨迹点p4、p5、p6和p7的纬度的平均值,t1start为轨迹点p4的时间戳,t1stop为轨迹点p7的时间戳。然后,提取用户uk每天的停留点序列,并根据用户uk每天的停留点序列,统计用户uk的最频繁的出行起始时间段和最频繁的结束行程时间段。例如用户uk某天的历史轨迹数据ti=pm→pm+1→…→pn可以表示为ti=sm→sm+1→…→sn。由此,通过将时间划分为数量与停留点数量相同的多个时隙,进而可以获得用户uk某天出行起始的时间段sm.tstart和结束行程的时间段sn.tstop。基于相似的过程,可以获得用户uk每天的停留点序列,进而获得用户uk每天的出行起始的时间段和结束行程的时间段。进一步地,通过统计用户uk每天出行起始的时间段和每天结束行程的时间段,即可取得用户uk的发生率最高的最频繁的出行起始时间段轨迹特征属性和最频繁的结束行程时间段轨迹特征属性。之后,在提取出的用户uk的停留点和停留序列的基础上,可以获得用户uk最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性。由于在本发明实施例提供的挖掘方法中的停留区域表示很多用户有兴趣愿意停留的区域,而单个用户的停留点只是该用户有兴趣停留的地方,其他用户不一定有兴趣在该用户的停留点停留,因此,为了有利于后续获取各用户的停留区域列表,在本发明实施例提供的挖掘方法中还对所有用户的停留点进行了聚类,从而获取了带有语义的公共停留区域,进而可以将各用户符合公共停留区域列表的停留点对应的公共停留区域构成该用户的停留区域列表。具体地,在本发明实施例提供的上述挖掘方法中,可以采用基于密度的聚类算法p-dbscan将各用户每天的停留点归类为多个公共停留区域;再通过信息点poi数据库,为确定出的各公共停留区域赋予语义信息,并将赋予语义信息的各公共停留区域构成各用户的公共停留区域列表。在得到公共停留区域列表后,就可以将各用户符合公共停留区域列表的停留点对应的公共停留区域构成该用户的停留区域列表。例如如图3所示,用户uk的某天的停留点s1和s2分别与公共停留区域银行b和餐馆r对应,即用户uk某天的停留区域为银行b和餐馆r。如此,可得到用户uk每天的停留区域。统计用户uk每天的停留区域,从而可以得到用户uk的停留区域列表。进一步地,在得到用户uk的停留区域列表后,在本发明实施例提供的上述挖掘方法中,还可以确定用户uk的停留区域列表中的各停留区域的停留时间。例如如图3所示,用户uk在银行b和餐馆r的停留时间分别为轨迹点p5的时间戳与轨迹点p4的时间戳的差值和轨迹点p10的时间戳与轨迹点p8的时间戳的差值。如此确定停留时间后,再将停留时间满足预设时长的各停留区域统计为用户uk的最经常停留的区域列表。即在停留时间满足预设时长的各停留区域中统计用户uk的最经常停留的区域,其中,预设时长可以根据实际需要进行设定,在此不做限定。例如,可以在每次停留时间大于0.5h的各停留区域中,统计用户uk到达各停留区域的频率,以得到用户uk的最经常停留的区域。如表1所示,可以为用户uk的最经常停留的区域列表。表1停留区域位置语义停留时间location1:餐馆a地理范围1餐馆2hlocation2:银行a地理范围2银行1hlocation3:公园a地理范围3公园1.5hlocation4:学校a地理范围4学校0.5hlocation5:餐馆b地理范围4餐馆1h…………此外,根据如图2所示的用户uk某天的停留点得到的停留点序列ti=s1→s2和如图3所示的用户uk某天的停留区域列表银行b和餐馆r,可以确定用户uk某天的停留区域轨迹l2→l5;如此,可以确定出用户uk每天的停留区域轨迹。采用预先设定的针对序列模式的挖掘算法,例如prefixspan或者closespan算法,对确定出的用户uk每天的停留区域轨迹进行挖掘,最终统计出用户uk的最频繁的重复轨迹模式。例如,用户uk的最频繁的重复轨迹模式可以为家-学校-公园,或公园-电影院-餐馆等。在具体实施时,由于快速(k-means)聚类算法是硬聚类算法,以欧式距离作为相似度测度,求对应某一初始聚类中心向量v的最优分类,使得评价指标最小,是典型的基于原型的目标函数聚类方法的代表,因此,在本发明实施例提供的上述挖掘方法中,步骤s105采用预先设定的聚类方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户,具体可以通过以下方式实现:采用快速(k-means)聚类的方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户。当然,也可以采用其他聚类方法对各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,例如谱系(hierarchicalclustering)聚类方法、两阶段(two-step)聚类方法,在此不做限定。具体地,采用k-means聚类算法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,即首先从n个用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性数据对象中任意选择k个用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性数据对象作为初始聚类中心;而对于所剩下的其它用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性数据对象,则根据它们与这些聚类中心的相似度即距离,分别将它们分配给与其距离最短的聚类中心所代表的聚类;然后再计算每个所获新聚类的聚类中心,即该聚类中所有对象的均值;不断重复这一过程直到标准测度函数开始收敛为止,并且,一般地,采用均方差作为标准测度函数。具体k-means聚类算法描述如下:1.随机选取k个用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性数据对象作为聚类质心点(clustercentroids),并记为μ1,μ1,…,μk∈r;2.重复下面的过程直到收敛。{对于每一个样例i即作为聚类质心点的k个用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性数据对象之外的其它用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性数据对象i,计算其应该属于的类c(i):=argmin||x(i)-μj||2对于每一个类j,重新计算该类的质心}其中,k是预设的聚类数;c(i)代表作为聚类质心点的k个用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性数据对象之外的其它用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性数据对象i与k个类中距离最近的那个类,c(i)的值是1到k中的一个;质心μj代表对属于同一个类的样本中心点的猜测。为判断k-means聚类算法收敛,在这里设定结束条件/评价指标,定义畸变函数(distortionfunction)如下:j函数表示每个样本点到其质心的距离平方和。k-means聚类算法是要将j调整到最小。假设当前j没有达到最小值,那么首先可以固定每个类的质心μj,调整每个样例的所属的类别c(i)来让j函数减小;同样,固定c(i),调整每个类的质心μj也可以使j减小。这两个过程就是内循环中使j单调递减的过程。当j递减到最小时,μ和c也同时收敛。在理论上,可以有多组不同的μ和c值能够使得j取得最小值,但这种现象实际上很少见。值得注意的是,由于畸变函数j是非凸函数,意味着我们不能保证取得的最小值是全局最小值,也就是说k-means聚类算法对质心初始位置的选取比较敏感,但一般情况下k-means聚类算法达到的局部最优已经满足需求。但为防止陷入局部最优,较佳地,可以选取不同的初始值即不同的k个用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性数据对象试验k-means聚类算法,然后取其中最小的j对应的μ和c输出,从而将n个用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性划分为了k个不同的类。一般地,不同群体用户受自身行为习惯和兴趣爱好的影响,会逐渐形成有差异化的出行模式。通过挖掘群体的普遍特征,可以刻画出不同用户群体的画像和行为偏好,进而实现同一应用针对不同的用户群体提供不同的服务,或指定更有针对性、更有效的方案,全方位提升服务体验,以达到在增加用户粘性的同时实现高效的拓展用户群的效果。此外,根据挖掘出的不同群体用户的特征,亦可能开发新的商业应用和商业价值,例如线下营销推广、选地选址、城市人口研究等。鉴于上述用户群体特征的商业应用和商业价值,具体地,在本发明实施例提供的上述挖掘方法中的步骤s105采用预先设定的聚类方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户之后,如图4所示,还可以包括以下步骤:s106、结合词云获取各群体用户的特征;其中,词云为以下之一或组合:用户签到信息,用户调查问卷,用户注册信息;群体用户的特征为以下之一或组合:性别,年龄段,职业,长期偏好,短期需求,消费习惯,主要活动的地理区域。具体地,以根据用户注册信息获取词云信息,进而结合词云信息获取各群体用户的特征为例:应用在向用户提供服务前,一般会要求用户注册,并勾选性别,年龄,偏好或兴趣等信息,这样就可以生成一个用户的词云列表。将同一群体用户中的全部用户的词云列表进行统计,即可以辅助标定一个群体用户的特征。其中,群体用户的特征可以包括但不限于性别、年龄段、职业、长期偏好、短期需求、消费习惯、主要活动的地理区域等。较佳地,为了更全面丰富地体现群体用户的特征,可以同时根据用户签到信息,用户调查问卷,以及用户注册信息等获取词云信息。当然,还可以通过其他方式获取词云信息,在此不做限定。基于同一发明构思,本发明实施例提供了一种群体用户的挖掘装置,由于本发明实施例提供的挖掘装置与上述挖掘方法解决问题的原理相似,因此,该挖掘装置的实施可以参见上述挖掘方法的实施,重复之处不再赘述。本发明实施例提供的一种群体用户的挖掘装置,如图5所示,包括:统计单元501,用于根据由轨迹点组成的多个用户的历史轨迹数据,将各用户的每天满足预设的时间阈值、距离阈值和方向变化阈值条件的轨迹点构成各用户每天的停留点,并将各用户每天的停留点按时间顺序排列构成各用户每天的停留点序列;根据各用户每天的停留点序列,统计各用户的最频繁的出行起始时间段轨迹特征属性和最频繁的结束行程时间段轨迹特征属性;将各用户每天的停留点归类为多个公共停留区域;为各公共停留区域赋予语义信息,并根据各公共停留区域和语义信息,统计各用户的公共停留区域列表;将各用户符合公共停留区域列表的停留点对应的公共停留区域作为该用户的停留区域列表;根据确定出的各用户的停留区域列表,统计各用户的最经常停留的区域列表轨迹特征属性;根据各用户每天的停留点序列和各用户的停留区域列表,确定各用户每天的停留区域轨迹;根据确定出的各用户每天的停留区域轨迹,采用预先设定的针对序列模式的挖掘算法,统计各用户的最频繁的重复轨迹模式轨迹特征属性;聚类单元502,用于采用预先设定的聚类方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户。在具体实施时,在本发明实施例提供的上述挖掘装置中,统计单元501,具体用于采用基于密度的聚类算法p-dbscan将各用户每天的停留点归类为多个公共停留区域。在具体实施时,在本发明实施例提供的上述挖掘装置中,统计单元501,具体用于通过信息点poi数据库,为确定出的各公共停留区域赋予语义信息,并将赋予语义信息的各公共停留区域构成各用户的公共停留区域列表。在具体实施时,在本发明实施例提供的上述挖掘装置中,统计单元501,具体用于确定各用户的停留区域列表中的各停留区域的停留时间;将停留时间满足预设时长的各停留区域统计为各用户的最经常停留的区域列表。在具体实施时,在本发明实施例提供的上述挖掘装置中,聚类单元502,具体用于采用快速聚类的方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户。在具体实施时,在本发明实施例提供的上述挖掘装置中,如图5所示,还可以包括:获取单元503,用于结合词云获取各群体用户的特征;其中,词云为以下之一或组合:用户签到信息,用户调查问卷,用户注册信息;群体用户的特征为以下之一或组合:性别,年龄段,职业,长期偏好,短期需求,消费习惯,主要活动的地理区域。本发明实施例提供的上述群体用户的挖掘方法及装置,包括:根据由轨迹点组成的多个用户的历史轨迹数据,将各用户的每天满足预设的时间阈值、距离阈值和方向变化阈值条件的轨迹点构成各用户每天的停留点,并将各用户每天的停留点按时间顺序排列构成各用户每天的停留点序列;根据各用户每天的停留点序列,统计各用户的最频繁的出行起始时间段轨迹特征属性和最频繁的结束行程时间段轨迹特征属性;将各用户每天的停留点归类为多个公共停留区域;为各公共停留区域赋予语义信息,并根据各公共停留区域和语义信息,统计各用户的公共停留区域列表;将各用户符合公共停留区域列表的停留点对应的公共停留区域作为该用户的停留区域列表;根据确定出的各用户的停留区域列表,统计各用户的最经常停留的区域列表轨迹特征属性;根据各用户每天的停留点序列和各用户的停留区域列表,确定各用户每天的停留区域轨迹;根据确定出的各用户每天的停留区域轨迹,采用预先设定的针对序列模式的挖掘算法,统计各用户的最频繁的重复轨迹模式轨迹特征属性;采用预先设定的聚类方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,得到多个群体用户。由于根据由轨迹点组成的多个用户的历史轨迹数据,提取了各用户的每天满足预设的时间阈值、距离阈值和方向变化阈值条件的轨迹点构成各用户每天的停留点,并将各用户每天的停留点的归类为多个公共停留区域,且为各公共停留区域赋予语义信息;再基于满足预设的时间阈值、距离阈值和方向变化阈值条件的停留点,以及赋予语义信息的公共停留区域,统计出了各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性;并采用预设的聚类方法,对统计出的各用户的最频繁的出行起始时间段轨迹特征属性、最频繁的结束行程时间段轨迹特征属性、最经常停留的区域列表轨迹特征属性和最频繁的重复轨迹模式轨迹特征属性进行聚类,从而得到了多个群体用户,因此,实现了基于历史轨迹数据,更全面地对群体用户的挖掘。此外,在本发明实施例提供的上述群体用户的挖掘方法和装置中,在挖掘出多个群体用户后,还结合词云获取了各群体用户的特征。不仅实现了对群体用户的深度挖掘,而且根据各群体用户的特征可以刻画出不同用户群体的画像和行为偏好,进而实现同一应用针对不同的用户群体提供不同的服务,或指定更有针对性、更有效的方案,全方位提升服务体验,以达到在增加用户粘性的同时实现高效的拓展用户群的效果。并且,根据挖掘出的不同群体用户的特征,亦可能开发新的商业应用和商业价值,例如线下营销推广、选地选址、城市人口研究等。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1