用户属性信息的获取方法和装置与流程

文档序号:19883315发布日期:2020-02-11 09:06阅读:262来源:国知局
用户属性信息的获取方法和装置与流程

本申请涉及计算机技术领域,具体涉及终端技术领域,尤其涉及用户属性信息的获取方法和装置。



背景技术:

随着移动互联网技术的发展和位置服务应用的普及,产生了大量的用户轨迹数据。由于用户轨迹数据与用户的属性信息具有密切的关系,不同用户之间的移动特征具有较高的独立性,具有社交关系的用户之间的运动特征又具有一定的关联性,因此轨迹数据可以用来分析用户的个人属性信息和社交属性信息。

目前已提出了多种基于轨迹数据分析用户属性信息的方法。可以分析轨迹数据之间的相似性,从而确定轨迹数据对应的用户间的社交关系属性。这些方法通常对轨迹数据的质量有较高的要求,对于稀疏或不规则的轨迹数据分析结果的准确性较差。在大规模的轨迹数据分析中,由于轨迹数据的数据密度、采用频率、时间分布相差较大,且轨迹数据基于不同电子设备或不同用户标识获取,目前的轨迹特征提取方法无法针对大规模的轨迹数据提取出有效的、鲁棒性强的特征进行相似性分析,故而无法对用户属性信息进行准确的估计。



技术实现要素:

有鉴于此,期望能够提供一种适用于大规模轨迹数据分析的用户属性信息的获取方法,进一步地,还期望能够提供一种获取大量用户属性信息的轨迹数据分析方法。为了解决上述一个或多个问题,本申请提供了用户属性信息的获取方法和装置。

一方面,本申请提供了一种用户属性信息的获取方法,包括:获取轨迹数据,所述轨迹数据包括多个轨迹点的时间信息和位置信息;对所述轨迹数据进行预处理,得到待处理轨迹数据;分析所述待处理轨迹数据间的相关性,以提取出所述待处理轨迹数据的相关轨迹数据集合;计算所述待处理轨迹数据与所述相关轨迹数据集合的相似度;根据所述相似度确定所述待处理轨迹数据对应的用户属性信息。

在一些可选的实现方式中,所述对所述轨迹数据进行预处理,以得到待处理轨迹数据,包括:将地图划分为网格,构建多个分层图,其中,各分层图对应的网格尺寸互不相同;将所述轨迹数据映射到所述多个分层图中,得到所述待处理轨迹数据。

在一些可选的实现方式中,所述对所述轨迹数据进行预处理,以得到待处理轨迹数据,还包括:根据所述轨迹点的时间信息和位置信息计算所述轨迹数据对应的用户单位时间内的移动距离,并剔除所述移动距离超过第一距离阈值的轨迹点;根据所述时间信息和位置信息计算每个轨迹点的停留时间,剔除停留时间低于第一时间阈值的轨迹点。

在一些可选的实现方式中,所述分析所述待处理轨迹数据间的相关性,以提取出所述待处理轨迹数据的相关轨迹数据集合,包括:对每一个所述待处理轨迹数据执行以下操作:将与当前待处理轨迹共同出现的网格数量超过预设网格数量阈值的其他待处理轨迹添加至所述当前待处理轨迹数据的相关轨迹数据集合。

在一些可选的实现方式中,所述相似度包括第一相似度;所述计算所述待处理轨迹数据与所述相关轨迹数据集合的相似度,包括:对于所述相关轨迹数据集合中的每一个相关轨迹数据,在各分层图中基于所述待处理轨迹数据与所述相关轨迹数据集合中的每一条相关轨迹数据建立相关度观测信号;根据所述相关度观测信号计算各分层图对应的相关度激励信号;基于所述相关度激励信号计算各分层图中所述待处理轨迹数据与所述相关轨迹数据的分层相似度;对各分层图对应的分层相似度进行求和,得出所述待处理轨迹数据与所述相关轨迹数据的第一相似度。

在一些可选的实现方式中,所述根据所述相关度观测信号计算各分层图对应的相关度激励信号,包括:将所述相关度观测信号作为初始相关度激励信号,根据所述初始相关度激励信号以及距离衰减系数计算出多个所述相关度激励信号。

在一些可选的实现方式中,所述根据所述初始相关度激励信号以及距离衰减系数计算出多个所述相关度激励信号,包括:在所述相关度观测信号对应的地理位置周围的预设距离范围内设定多个地理位置点并按照所述地理位置点与所述相关度观测信号对应的地理位置之间的距离的升序对所述地理位置点进行排序;第i个地理位置点对应的相关度激励信号ji为:

其中,g1为初始相关度激励信号,gj为第j个地理位置点对应的相关度激励信号,lj第j个地理位置点与所述相关度观测信号对应的地理位置之间的距离,i≥1,1≤j≤i-1,r为距离衰减系数,0<r<1。

在一些可选的实现方式中,所述根据所述相似度确定所述待处理轨迹数据对应的用户属性信息,包括:根据所述第一相似度确定所述待处理轨迹数据对应的用户与所述相关轨迹数据集合中的各所述相关轨迹数据对应的用户之间的社交关系的等级;基于所述社交关系等级确定所述待处理轨迹数据对应的用户属性信息。

在一些可选的实现方式中,所述相似度还包括第二相似度;所述计算所述待处理轨迹数据与所述相关轨迹数据集合的相似度,还包括:基于所述待处理轨迹数据与所述相关轨迹数据的轨迹点的交集数量计算所述待处理轨迹数据与所述相关轨迹数据的第二相似度;以及所述根据所述相似度确定所述待处理轨迹数据对应的用户属性信息,还包括:根据所述第一相似度和所述第二相似度确定所述待处理轨迹数据与所述相关轨迹数据是否对应于同一用户。

在一些可选的实现方式中,所述根据所述第一相似度和所述第二相似度确定所述待处理轨迹数据与所述相关轨迹数据是否对应于同一用户,包括:判断所述第一相似度是否大于第一预设阈值以及所述第二相似度是否大于第二预设阈值;若所述第一相似度大于第一预设阈值且所述第二相似度大于第二预设阈值,确定所述待处理轨迹数据与所述相关轨迹数据对应于同一用户。

第二方面,本申请提供了一种用户属性信息的获取装置,包括:获取单元,用于获取轨迹数据,所述轨迹数据包括多个轨迹点的时间信息和位置信息;预处理单元,用于对所述轨迹数据进行预处理,得到待处理轨迹数据;提取单元,用于分析所述待处理轨迹数据间的相关性,以提取出所述待处理轨迹数据的相关轨迹数据集合;计算单元,用于计算所述待处理轨迹数据与所述相关轨迹数据集合的相似度;确定单元,用于根据所述相似度确定所述待处理轨迹数据对应的用户属性信息。

在一些可选的实现方式中,所述预处理单元用于按如下方式对所述轨迹数据进行预处理:将地图划分为网格,构建多个分层图,其中,各分层图对应的网格尺寸互不相同;将所述轨迹数据映射到所述多个分层图中,得到所述待处理轨迹数据。

在一些可选的实现方式中,所述预处理单元还用于按如下方式对所述轨迹数据进行预处理:根据所述轨迹点的时间信息和位置信息计算所述轨迹数据对应的用户单位时间内的移动距离,并剔除所述移动距离超过第一距离阈值的轨迹点;根据所述时间信息和位置信息计算每个轨迹点的停留时间,剔除停留时间低于第一时间阈值的轨迹点。

在一些可选的实现方式中,所述提取单元用于对每一个所述待处理轨迹数据执行以下操作:将与当前待处理轨迹共同出现的网格数量超过预设网格数量阈值的其他待处理轨迹添加至所述当前待处理轨迹数据的相关轨迹数据集合。

在一些可选的实现方式中,所述相似度包括第一相似度;所述计算单元包括:建立模块,用于对于所述相关轨迹数据集合中的每一个相关轨迹数据,在各分层图中基于所述待处理轨迹数据与所述相关轨迹数据集合中的每一条相关轨迹数据建立相关度观测信号;第一计算模块,用于根据所述相关度观测信号计算各分层图对应的相关度激励信号;第二计算模块,用于基于所述相关度激励信号计算各分层图中所述待处理轨迹数据与所述相关轨迹数据的分层相似度;求和模块,用于对各分层图对应的分层相似度进行求和,得出所述待处理轨迹数据与所述相关轨迹数据的第一相似度。

在一些可选的实现方式中,所述第一计算模块用于按如下方式计算各分层图对应的相关度激励信号:将所述相关度观测信号作为初始相关度激励信号,根据所述初始相关度激励信号以及距离衰减系数计算出多个所述相关度激励信号。

在一些可选的实现方式中,所述第一计算模块进一步按如下方式计算出多个所述相关度激励信号:在所述相关度观测信号对应的地理位置周围的预设距离范围内设定多个地理位置点并按照所述地理位置点与所述相关度观测信号对应的地理位置之间的距离的升序对所述地理位置点进行排序;第i个地理位置点对应的相关度激励信号ji为:

其中,g1为初始相关度激励信号,gj为第j个地理位置点对应的相关度激励信号,lj第j个地理位置点与所述相关度观测信号对应的地理位置之间的距离,i≥1,1≤j≤i-1,r为距离衰减系数,0<r<1。

在一些可选的实现方式中,确定单元用于按如下方式确定所述待处理轨迹数据对应的用户属性信息:根据所述第一相似度确定所述待处理轨迹数据对应的用户与所述相关轨迹数据集合中的各所述相关轨迹数据对应的用户之间的社交关系的等级;基于所述社交关系等级确定所述待处理轨迹数据对应的用户属性信息。

在一些可选的实现方式中,所述相似度还包括第二相似度;所述计算单元还用于:基于所述待处理轨迹数据与所述相关轨迹数据的轨迹点的交集数量计算所述待处理轨迹数据与所述相关轨迹数据的第二相似度;以及所述确定单元还用于:根据所述第一相似度和所述第二相似度确定所述待处理轨迹数据与所述相关轨迹数据是否对应于同一用户。

在一些可选的实现方式中,确定单元进一步用于按如下方式确定所述待处理轨迹数据与所述相关轨迹数据是否对应于同一用户:判断所述第一相似度是否大于第一预设阈值以及所述第二相似度是否大于第二预设阈值;若所述第一相似度大于第一预设阈值且所述第二相似度大于第二预设阈值,确定所述待处理轨迹数据与所述相关轨迹数据对应于同一用户。

本申请提供的用户属性信息的获取方法和装置,通过获取轨迹数据,随后对轨迹数据进行预处理,得到待处理轨迹数据,之后分析待处理轨迹数据间的相关性,以提取出待处理轨迹数据的相关轨迹数据集合,而后计算待处理轨迹数据与相关轨迹数据集合的相似度,最后根据相似度确定待处理轨迹数据对应的用户属性信息,提升了基于不同采样频率、不同时间分布、不规则或稀疏的轨迹数据分析得出用户属性信息的方法的鲁棒性,解决了由于产品线不同、用户刷机、用户更换硬件设备或用户未登陆造成的同一用户对应对个不同id的轨迹数据导致分析得出的用户属性信息不准确的问题。

附图说明

通过阅读参照以下附图所作的对非限制性实施例详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1是本申请可以应用于其中的示例性系统架构图;

图2是根据本申请的用户属性信息的获取方法的一个实施例的流程图;

图3是分层图的效果示意图;

图4是根据本申请的计算待处理轨迹数据与相关轨迹数据集合的第一相似度的一个实施例的流程图;

图5是本申请用户属性信息的获取装置的一个实施例的结构示意图;

图6是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户110、120可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种定位服务应用。

终端设备101、102、103可以是具有定位功能的各种电子设备,包括但不限于智能手机、平板电脑、车载导航仪、智能手表、膝上型便携计算机等等。终端设备101、102、103上可以安装有位置服务应用,例如地图类应用、导航类应用。

服务器105可以是用于分析用户属性的服务器,可以从终端设备101、102、103上的位置服务应用中提取定位数据和轨迹数据。服务器105可以对获取到的定位数据和轨迹数据进行分析处理,并根据处理结果做出推送消息等决策,将推送的消息反馈给终端设备。

需要说明的是,本申请实施例所提供的用户属性信息的获取方法一般由服务器105执行,相应地,用户属性信息的获取装置一般设置于服务器105中。

应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

继续参考图2,示出了根据本申请的用户属性信息的获取方法的一个实施例的流程200。所述的用户属性信息的获取方法,包括以下步骤:

步骤201,获取轨迹数据。

在本实施例中,用户属性信息的获取方法运行于其上的电子设备(例如图1所示的服务器105)可以从多个终端设备获取轨迹数据。在一些实施中,上述电子设备可以向终端设备发出轨迹数据请求,并接收终端设备响应于轨迹数据请求而发送的轨迹数据。终端设备也可以以一定的周期向上述电子设备上报轨迹数据。

轨迹数据可以包括多个轨迹点的时间信息和位置信息。轨迹点可以是终端设备停留的地理位置点。在一些实施中,轨迹点可以是停留时间超过一个阈值(例如30分钟)的地理位置点。可选地,轨迹数据还可以包括时间连续的运动轨迹。在本实施例中,轨迹点可以被映射在地图中,按照时间顺序相连接形成轨迹数据。

通常,用户在使用终端设备的定位功能或打开位置服务应用时,终端设备可以记录用户当前的位置信息,并保存位置信息与当前的时间信息。终端设备可以将保存的多个轨迹点的位置信息与对应的时间信息发送至服务器,还可以将轨迹点对应的终端设备标识和用户标识上报服务器。这样,服务器可以将轨迹数据与用户标识或终端设备标识对应。

需要说明的是,一个用户可以拥有多个终端设备或对应多个用户标识,上述电子设备从不同终端设备获取的轨迹数据可能对应于同一个用户,从同一个终端设备获取的轨迹数据也可能对应于不同的用户。所获取的轨迹数据也可以具有不同的时间分布和采样频率。

步骤202,对轨迹数据进行预处理,得到待处理轨迹数据。

上述步骤201中获取的轨迹数据采样频率、时间分布不相同,且可能包含一些噪声点。在本实施例中,可以对获取的轨迹数据进行预处理,将轨迹数据转换为与用户属性信息关联的待处理轨迹数据。具体的预处理操作可以包括将轨迹数据的采样频率和时间分布归一化、剔除噪声点等。

在一些实施中,对轨迹数据的预处理可以包括:将地图划分为网格,构建多个分层图,以及将轨迹数据映射到多个分层图中,得到待处理轨迹数据。可以按照不同的网格尺寸对地图进行划分,得到多个分层图。其中,每个分层图表示整个地图,各分层图对应的网格尺寸互不相同。例如可以以网格边长分别为10千米、5千米、1千米、500米、200米将地图划分为多个级别的网格图,即得到多个分层图。各分层图对地图的缩放比例、网格的数量均互不相同。

进一步地,可以按照时间信息将轨迹数据映射到多个分层图中,得出多个时间段对应的分层图。具体来说,对每一个时间段,可以将该时间段的轨迹数据映射到各分层图中,得出该时间段对应的多个分层图。也就是说,每一个时间段对应多个不同网格尺寸的分层图。时间段可以随机划分,也可以按照经验划分,例如可以按照工作时间和休息时间划分为9:00-18:00,18:00-23:00,23:00-次日7:00共三个时间段,也可以按照工作日和休息日划分为星期一到星期五、星期六到星期天共两个时间段,还可以按照月份、季度等进行划分。

图3示出了分层图的效果示意图。如图3所示,分层图31和32的对应于同一个地图,其网格尺寸不同,分层图32对应的每个网格的长度为分层图31的1.5倍。将获取的轨迹数据映射到分层图31和32中。可以看出,分层图31中网格g11、g12、g13内的轨迹点在分层图32中映射到同一个网格g21。可以看出,由于各分层图的网格尺寸不同,各分层图中一个网格内包含的轨迹点数量可能不相同。

在一些可选的实现方式中,可以基于分层图构建轨迹数据的索引和倒排索引,将轨迹数据按照一定的顺序存储在数据库中。例如可以按照网格尺寸的升序构建索引,按照网格尺寸的降序构建倒排索引。由此可以将所有待处理轨迹数据有序地进行存储,以便于提升数据处理效率。

在一些实施例中,还可以对轨迹数据进行如下预处理:根据轨迹点的时间信息和位置信息计算轨迹数据对应的用户单位时间内的移动距离,剔除所述的移动距离超过第一距离阈值的轨迹点。可以按照时间顺序连接轨迹点,并计算单位时间轨迹数据对应的用户移动的距离,即计算轨迹数据对应的用户的运动速度,当运动速度大于第一距离阈值,即单位时间内该用户的移动距离大于第一距离阈值时,可以将这些轨迹点从待处理轨迹数据中剔除。在实际场景中,如果轨迹点显示用户在较短的时间内移动较长的距离,例如1分钟内移动了1千米,可以认为这些轨迹点为设备故障或定位误差造成的噪声点,可以将其从用于确定用户属性信息的待处理轨迹数据中剔除。

在一些实施中,还可以对轨迹数据进行如下预处理:根据时间信息和位置信息计算每个轨迹点的停留时间,剔除停留时间低于第一时间阈值的轨迹点。可以将用户在一个地理位置或其附近一定距离内(例如200米内)停留时间超过第一时间阈值的轨迹点作为停留点,而在一个地理位置或其附近一定距离内停留时间未超过第一时间阈值的轨迹点,可以作为间断点从待处理轨迹数据中剔除。第一时间阈值可以为基于经验预设的值,也可以是经过机器学习后训练得出的值。

步骤203,分析待处理轨迹数据间的相关性,以提取出待处理轨迹数据的相关轨迹数据集合。

在对轨迹数据进行预处理得出待处理轨迹数据之后,可以根据时间信息和位置信息分析各待处理轨迹数据之间的相关性。具体地,对于每一个待处理轨迹数据,可以根据位置信息计算同一时间段内两个待处理轨迹数据中轨迹点之间的平均距离,并根据平均距离计算两待处理轨迹数据间的相关性度量,平均距离越小,相关性度量的值越高。之后可以将相关性度量的值高于预设的相关度阈值的两条待处理轨迹数据为相关轨迹数据。在分析每一个待处理轨迹数据与其他待处理轨迹数据间的相关性之后,可以得出每一个待处理轨迹数据对应的相关轨迹数据集合。

在一些实施例中,可以对每一个所述待处理轨迹数据执行以下操作,从而提取出每一个待处理轨迹数据的相关轨迹数据集合:将与当前待处理轨迹共同出现的网格数量超过预设网格数量阈值的其他待处理轨迹添加至当前待处理轨迹数据的相关轨迹数据集合。对于当前待处理轨迹数据,将其他待处理轨迹数据作为待判断轨迹数据。在一个分层图中,如果当前待处理轨迹数据与待判断轨迹数据共同出现的网格数量超过预设网格数量阈值,则可以将待判断轨迹数据作为当前待处理轨迹数据的相关轨迹数据添加至当前待处理轨迹数据的相关轨迹数据集合。

进一步地,由于网格尺寸不同,各分层图提取出同一待处理轨迹数据的相关轨迹数据集合不相同,还可以将当前待处理轨迹数据在各分层图的相关轨迹数据集合合并,从而减少由于网格尺寸不同造成的相关轨迹数据的漏判。

可选地或附加地,可以基于步骤202中构建的轨迹数据的索引和倒排索引依次确定出每一个待处理轨迹数据对应的相关轨迹数据集合。由此可以高效地提取出相关轨迹数据集合。

步骤204,计算待处理轨迹数据与相关轨迹数据集合的相似度。

相关轨迹数据集合包括至少一个相关轨迹数据。待处理轨迹数据与相关轨迹数据集合的相似度包括待处理轨迹数据与相关轨迹数据集合中每一个轨迹数据的相似度。在本实施例中,可以采用多种相似度计算方法来计算待处理轨迹数据与相关轨迹数据集合的相似度。一种可选的相似度方法为将待处理轨迹数据和相关轨迹数据向量化,采用欧氏距离、余弦相似度、皮尔森相关系数等计算两个向量之间的相似度。

在一些实施中,可以基于待处理轨迹数据与其对应的相关轨迹数据集合构建观测信号,基于观测信号计算所述的相似度。上述相似度可以包括第一相似度和第二相似度。其中第一相似度和第二相似度可以采用不同计算方法得出。具体地,请参考图4,其示出了根据本申请的计算待处理轨迹数据与相关轨迹数据集合的第一相似度的一个实施例的流程图。所述的计算待处理轨迹数据与相关轨迹数据集合的相似度的流程400,包括以下步骤:

步骤401,对于相关轨迹数据集合中的每一个相关轨迹数据,在各分层图中基于待处理轨迹数据与所述相关轨迹数据集合中的每一条相关轨迹数据建立相关度观测信号。

在本实施例中,为了提取出有效的关键点,可以在每一个分层图中建立待处理轨迹数据与相关轨迹数据的相关度观测信号。具体来说,可以将待处理轨迹数据与相关轨迹数据中重叠的部分作为一个观测信号,在一个分层图中,相关度观测信号的强度随轨迹数据的重叠次数而亚线性增加。

在一些可选的实现方式中,如果待处理轨迹数据与一个相关轨迹数据出现在同一网格,可以认为待处理轨迹数据与相关轨迹数据发生了重叠,同一网格中待处理轨迹数据的轨迹点相关轨迹数据的轨迹点共同出现的次数即为待处理轨迹数据与相关轨迹数据在该网格内发生重叠的次数。

在另一些可选的实现方式中,可以将待处理轨迹数据的轨迹点按照时间顺序连接为一条待处理运动轨迹曲线,将相关轨迹数据的轨迹点按照时间顺序连接为一条相关运动轨迹曲线。待处理轨迹数据与相关轨迹数据在某一网格的重叠次数即为待处理运动轨迹曲线与相关运动轨迹曲线的重叠次数。

在实际场景中,如果两条轨迹数据在某一地理位置达到一定数量的重叠次数,则可以确定该地理位置为两条轨迹数据对应的用户的共有常驻地。相应地,在上述建立相关度观测信号的过程中,当重叠次数增大到一定的次数阈值后,相关度观测信号的强度不再增大。重叠次数达到该次数阈值的网格即为相关度观测信号对应的地理位置。

步骤402,根据相关度观测信号计算各分层图对应的相关度激励信号。

如果待处理轨迹数据与相关轨迹数据在一个网格中多次重叠,则在周围网格中重叠的几率较大。也就是说,相关度观测信号可以由多个相关度激励信号相互影响而形成。在本实施例中,可以根据相关度观测信号推算出对应的相关度激励信号。

具体地,对于一个分层图,可以将相关度观测信号作为初始相关度激励信号。相关度激励信号随着其对应的地理位置点与相关度观测信号对应的地理位置间的距离而衰减。可以根据初始相关度激励信号和距离衰减系数计算出多个相关度激励信号。

进一步地,可以在相关度观测信号对应的地理位置周围的预设距离范围内设定多个地理位置点并按照这些地理位置点与相关度观测信号对应的地理位置间的距离的升序对地理位置点进行排序。

第i个地理位置点对应的相关度激励信号ji为:

其中,g1为初始相关度激励信号,gj为第j个地理位置点对应的相关度激励信号,lj第j个地理位置点与相关度观测信号对应的地理位置之间的距离,i≥1,1≤j≤i-1,r为距离衰减系数,0<r<1。

步骤403,基于相关度激励信号计算各分层图中所述待处理轨迹数据与所述相关轨迹数据的分层相似度。

在求得全部相关度激励信号之后,可以根据相关度激励信号计算该分层对应的待处理轨迹数据与所述相关轨迹数据的相似度,即分层相似度。可以采用多种方法计算分层相似度。

在一种可选的分层相似度计算方法中,分层相似度可以与各相关度激励信号的幅值正相关。进一步地,可以根据各相关度激励信号对应的地理位置点与相关度观测信号对应的地理位置间的距离确定相关度激励信号的权值,距离越长,权值越小。之后按照权值将各相关度激励信号的幅值进行加权求和,得出相关度激励信号幅值的加权和。然后根据分层相似度与相关度激励信号幅值的加权和之间的正相关关系(例如线性正比关系)计算出分层相似度。在另一种可选的分层相似度计算方法中,在确定相关度激励信号的权值之后,可以计算每个相关度激励信号对应的相似度,然后对各相关度激励信号对应的相似度进行加权求和,得出分层相似度。

步骤404,对各分层图对应的分层相似度进行求和,得出待处理轨迹数据与相关轨迹数据的第一相似度。

在本实施例中,可以将各分层图的分层相似度的和作为所述的第一相似度。可选地,还可以根据分层图对应的网格尺寸确定分层相似度的权重,将分层相似度的线性加权和作为第一相似度。

以上结合图4描述了待处理轨迹数据与相关轨迹数据的第一相似度的计算方法,基于所描述的第一相似度的计算方法,能够有效地提取出具有关联的轨迹数据中的关键特征,能够有效提升轨迹数据相似性度量的准确性。

返回图2,在步骤205中,根据相似度确定待处理轨迹数据对应的用户属性信息。

在本实施例中,可以根据待处理轨迹数据与各相关轨迹数据的相似度确定出待处理轨迹数据对应的用户属性信息。其中,用户属性信息包括用户的社交属性信息,例如用户与其他用户的社交关系信息,包括家人、同事、朋友等。具体地,如果待处理轨迹数据与某一相关轨迹数据的相似度较高,可以确定待处理轨迹数据对应的第一用户与该相关轨迹数据对应的第二用户之间具有比较密切的社交关系。如果待处理轨迹数据与某一相关轨迹数据的相似度较低,可以确定待处理轨迹数据对应的第一用户与该相关轨迹数据对应的第二用户之间的社交关系较弱。

在一些实施例中,可以根据待处理轨迹数据与相关轨迹数据的第一相似度确定待处理轨迹数据对应的用户与相关轨迹数据集合中的各相关轨迹数据对应的用户之间的社交关系的等级,之后可以基于社交关系等级确定待处理轨迹数据对应的用户属性信息。例如可以设定各社交关系等级对应的相似度取值范围,根据第一相似度所述的相似度取值范围确定待处理轨迹数据对应的用户与相关轨迹数据集合中的各相关轨迹数据对应的用户之间的社交关系的等级。作为示例,若设定强社交关系、中等社交关系以及弱社交关系的相似度取值范围分别为a、b、c,如果待处理轨迹数据与一个相关轨迹数据的第一相似度属于a,则可以确定待处理轨迹数据对应的用户与该相关轨迹数据的社交关系为强社交关系。

在一些实施例中,可以结合待处理轨迹数据与相关轨迹数据间的相似度及其相关度观测信号对应的地理位置和时间信息来进一步确定用户的社交属性信息。例如,如果在周一至周五的9:00-18:00的时间段内,轨迹数据1与轨迹数据2的相似度较高,二者对应的用户1与用户2之间具有强社会关系。若在计算轨迹数据1与轨迹数据2的相似度时观测信号对应的地理位置为办公楼,则可以确定用户1和用户2可能为同事关系。又例如,如果在20:00-次日7:00的时间段内,轨迹数据3和轨迹数据4的相似度较高,二者对应的用户3与用户4之间具有强社会关系。可以根据轨迹数据1与轨迹数据2的观测信号的时间段确定出用户3和用户4可能为家人关系。

在本实施例的一些可选的实现方式中,步骤204中还可以计算待处理轨迹数据与所述相关轨迹数据集合的第二相似度。具体地,可以基于待处理轨迹数据与相关轨迹数据的轨迹点的交集数量计算第二相似度。两轨迹数据的轨迹点的交集数量越多,相似度越高。可以将待处理轨迹数据和相关轨迹数据向量化,向量中的每一个元素表示一个网格中的轨迹点数量。可以计算两向量间的jaccard相似度或加权jaccard相似度作为所述的第二相似度。

这时,上述根据相似度确定待处理轨迹数据对应的用户属性信息的步骤,还包括:根据第一相似度和所述第二相似度确定待处理轨迹数据与相关轨迹数据是否对应于同一用户。具体地,可以判断第一相似度是否大于第一预设阈值以及第二相似度是否大于第二预设阈值;若第一相似度大于第一预设阈值且第二相似度大于第二预设阈值,可以确定待处理轨迹数据与所述相关轨迹数据对应于同一用户。这样,可以在获取的轨迹数据不包含用户标识或包含不同的设备标识时也可以识别出同一用户的轨迹数据,提升所获取的用户属性信息的准确性。

上述实施例中,通过对获取的迹数据预处理,得到待处理轨迹数据,之后分析待处理轨迹数据间的相关性,提取出待处理轨迹数据的相关轨迹数据集合,而后基于激励机制计算待处理轨迹数据与相关轨迹数据集合的相似度,最后根据相似度确定待处理轨迹数据对应的用户属性信息,提升了基于不同采样频率、不同时间分布、不规则或稀疏的轨迹数据分析得出用户属性信息的方法的鲁棒性。进一步地,还解决了由于产品线不同、用户刷机、用户更换硬件设备或用户未登陆造成的同一用户对应对个不同id的轨迹数据导致分析得出的用户属性信息不准确的问题。

继续参考图5,作为对上述各图所示方法的实现,本申请提供了一种用户属性信息的获取装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。

如图5所示,用户属性信息的获取装置500可以包括获取单元501、预处理单元502、提取单元503、计算单元504以及确定单元505。其中,获取单元501用于获取轨迹数据,所述的轨迹数据包括多个轨迹点的时间信息和位置信息;预处理单元502用于对轨迹数据进行预处理,得到待处理轨迹数据;提取单元503用于分析待处理轨迹数据间的相关性,以提取出待处理轨迹数据的相关轨迹数据集合;计算单元504用于计算待处理轨迹数据与相关轨迹数据集合的相似度;确定单元505用于根据相似度确定待处理轨迹数据对应的用户属性信息。

在本实施例中,获取单元501可以从多个终端设备获取轨迹数据。在一些实施中,获取单元501接收终端设备响应于轨迹数据请求而发送的轨迹数据。也可以接收终端设备以一定的周期上报的轨迹数据。其中,轨迹数据可以包括多个轨迹点的时间信息和位置信息。轨迹点可以是终端设备停留的地理位置点。

预处理单元502可以采用多种方法对获取单元501获取的轨迹数据进行预处理,得出待处理轨迹数据。例如可以将轨迹数据的采样频率和时间分布归一化、剔除轨迹数据中的噪声轨迹点等。

提取单元503可以分析待处理轨迹数据间的相关性。具体地,对于每一个待处理轨迹数据,提取单元503可以根据位置信息计算同一时间段内两个待处理轨迹数据中轨迹点之间的平均距离,并根据平均距离计算两待处理轨迹数据间的相关性度量,之后可以将相关性度量的值高于预设的相关度阈值的两条待处理轨迹数据为相关轨迹数据。

计算单元504可以计算待处理轨迹数据与提取单元503提取出的相关轨迹数据之间的相似度。其中相似度可以包括第一相似度和第二相似度。可以采用多种相似度计算方法来计算待处理轨迹数据与相关轨迹数据集合的相似度,例如可以将待处理轨迹数据与相关轨迹数据之间的余弦相关系数、皮尔森系数等作为所述的第一相似度,也可以采用上述结合图4描述的第一相似度的计算方法,计算出基于观测信号和激励信号的第一相似度。计算单元504可以基于待处理轨迹数据与相关轨迹数据的轨迹点的交集数量计算第二相似度。

确定单元505可以根据相似度确定出用户属性信息。具体地,如果待处理轨迹数据与某一相关轨迹数据的相似度较高,确定单元505可以确定出待处理轨迹数据对应的第一用户与该相关轨迹数据对应的第二用户之间具有比较密切的社交关系。如果待处理轨迹数据与某一相关轨迹数据的相似度较低,确定单元505可以确定出待处理轨迹数据对应的第一用户与该相关轨迹数据对应的第二用户之间社交关系较弱。

在本实施的一些可选的实现方式中,预处理单元502可以按照如下方式对轨迹数据进行预处理:将地图划分为网格,构建多个分层图,以及将轨迹数据映射到多个分层图中,得到待处理轨迹数据。进一步地,预处理单元502还可以根据轨迹点的时间信息和位置信息计算轨迹数据对应的用户单位时间内的移动距离,剔除所述的移动距离超过第一距离阈值的轨迹点,以及根据时间信息和位置信息计算每个轨迹点的停留时间,剔除停留时间低于第一时间阈值的轨迹点。

在本实施的一些可选的实现方式中,提取单元503可以对每一个待处理轨迹数据进行如下处理:将与当前待处理轨迹共同出现的网格数量超过预设网格数量阈值的其他待处理轨迹添加至所述当前待处理轨迹数据的相关轨迹数据集合。

在本实施的一些可选的实现方式中,确定单元505可以根据待处理轨迹数据与相关轨迹数据的第一相似度确定待处理轨迹数据对应的用户与相关轨迹数据集合中的各相关轨迹数据对应的用户之间的社交关系的等级,之后可以基于社交关系等级确定待处理轨迹数据对应的用户社交属性信息。进一步地,确定单元505还可以判断第一相似度是否大于第一预设阈值以及第二相似度是否大于第二预设阈值;若第一相似度大于第一预设阈值且第二相似度大于第二预设阈值,可以确定待处理轨迹数据与所述相关轨迹数据对应于同一用户。

本领域技术人员可以理解,上述用户属性信息的获取装置500还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图5中未示出。

应当理解,装置500中记载的诸单元与参考图2-图4描述的方法中的各个步骤相对应。由此,上文针对用户属性信息的获取方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。装置500中的相应单元可以与终端设备和/或服务器中的单元相互配合以实现本申请实施例的方案。

本申请上述实施例提供的用户属性信息的获取装置,可以针对不同采样频率、不同时间分布、不规则或稀疏的轨迹数据提取出有效的关键特征进行相似度计算,从而提升了用户属性信息的准确性。

下面参考图6,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统600的结构示意图。

如图6所示,计算机系统600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram)603中的程序而执行各种适当的动作和处理。在ram603中,还存储有系统600操作所需的各种程序和数据。cpu601、rom602以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。

以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。

附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、预处理单元、提取单元、计算单元和确定单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取轨迹数据的单元”。

作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:获取轨迹数据,所述轨迹数据包括多个轨迹点的时间信息和位置信息;对所述轨迹数据进行预处理,得到待处理轨迹数据;分析所述待处理轨迹数据间的相关性,以提取出所述待处理轨迹数据的相关轨迹数据集合;计算所述待处理轨迹数据与所述相关轨迹数据集合的相似度;根据所述相似度确定所述待处理轨迹数据对应的用户属性信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1