基于移动终端的用户行为相似度识别方法、系统及装置与流程

文档序号:15560690发布日期:2018-09-29 02:10阅读:127来源:国知局

本发明涉及大数据技术领域,具体涉及一种基于移动终端的用户行为相似度识别方法、系统及装置。



背景技术:

随着移动互联网的快速发展,中国手机网民的规模已达8亿多,占中国总体网民的96.3%。大量的移动终端用户每天的线上线下行为为我们提供了大量丰富的数据,而产生这些数据的主体之间的关联度一直缺乏精准的量化。

现有技术中,通常是利用开发好的几个标签数值化后加权求和得到一个分数,来计算用户间的相似度,这样计算出的结果往往很粗糙,不能体现用户当前状态下的行为偏好,这样的数据用于企业精准营销,效果差强人意。

目前对于用户相似性的研究项目大多简单使用用户的标签加权得到用户之间的相似度,由于标签的维度不全,实时性不佳,实际应用中诸多弊端。



技术实现要素:

本申请提供一种基于移动终端的用户行为相似度识别方法、系统及装置,旨在结合用户移动终端线上行为数据和线下lbs位置信息,量化用户之间行为特征关联关系。

根据第一方面,一种实施例中提供一种基于移动终端的用户行为相似度识别方法,包括:

数据获取步骤,获取至少两部移动终端的指纹信息、所述移动终端的lbs位置信息以及所述移动终端安装的app多维度行为数据信息,所述app多维度行为数据信息包括:app已装卸载行为数据、app卸载行为数据和wifi连接行为数据;

设备关联步骤,根据所述指纹信息和所述app多维度行为数据信息,对一人多机的移动终端进行关联并生成相应地标记信息;

线上行为相似度计算步骤,根据所述app多维度行为数据提取用户线上行为特征矩阵,根据所述用户线上行为特征矩阵,计算用户之间的线上行为相似度;

线下行为相似度计算步骤,根据所述lbs位置信息,聚合密度较高的报点,得到用户历史轨迹特征矩阵,根据所述用户历史轨迹特征矩阵,计算用户之间的线下行为相似度;

综合分析步骤,根据所述标记信息、线上行为相似度和线下行为相似度,量化用户行为相似度。

在一些实施例,所述设备关联步骤包括:

根据所述指纹信息和所述app多维度行为数据信息,建立用户指纹信息和app多维行为数据之间的对应关联关系,通过设备指纹和app多维标识的交叉定位分析,确定一人多机备关联度,在关联度高时,对相应地移动终端进行关联并生成相应地标记信息。

在一些实施例,所述线上行为相似度计算步骤包括计算app安装特征相似度和计算wifi特征关联度,其中,所述wifi特征关联度包括工作时段wifi使用特征关联度和休息时段wifi使用特征关联度。

在一些实施例,所述app安装特征相似度使用广义jaccard相关系数计算,其公式为:

其中,ci,cj为设备安装app的特征向量,m表示app的渗透率。

在一些实施例,所述wifi特征关联度采用余弦相似度计算,其公式为:

其中,xa、xb分别为用户a、用户b的wifi使用特征向量,表示用户连接使用某wifi的强度。

在一些实施例,所述线下行为相似度计算步骤:

根据用户历史行为特征剔除用户历史lbs信息中的lbs噪声报点,得到优化后的用户报点位置;

对所述优化后的用户报点位置进行聚类分析,得到用户聚合行为轨迹;

将所述用户聚合行为轨迹进行二进制编码,利用所述编码计算所述用户聚合行为轨迹的权重;

根据所述用户聚合行为轨迹的权重,计算两个用户之间任意两条轨迹的海明距离,将所述海明距离归一化处理,得到两条轨迹的相似度;

根据两个用户之间所有轨迹两两之间的海明距离,得到两个用户的聚合行为轨迹相似度。

在一些实施例,所述用户聚合行为轨迹的权重

其中,表示用户u的第i条轨迹的权重第k的位编码;

其中,

其中,r表示轨迹点,u为用户总数,tu表示用户u的所有轨迹点的集合,{u:r∈tu}为轨迹中包含轨迹点r的用户数目;

其中,为轨迹点的权重映射规则;

其中,表示用户u的轨迹i中轨迹点j的第k的位编码。

根据第二方面,一种实施例中提供一种基于移动终端的用户行为相似度识别的系统,包括:

数据获取模块,用于获取至少两部移动终端的指纹信息、所述移动终端的lbs位置信息以及所述移动终端安装的app多维度行为数据信息,所述app多维度行为数据信息包括:app安装/再装/卸载行为数据、app点击使用行为数据和wifi连接行为数据;

设备关联模块,用于根据所述指纹信息和所述app多维度行为数据信息,对一人多机的移动终端进行关联并生成相应地标记信息;

线上行为相似度计算模块,用于根据所述app多维度行为数据提取用户线上行为特征矩阵,根据所述用户线上行为特征矩阵,计算用户之间的线上行为相似度;

线下行为相似度计算模块,用于根据所述lbs位置信息,聚合密度较高的报点,得到用户历史轨迹特征矩阵,根据所述用户历史轨迹特征矩阵,计算用户之间的线下行为相似度;

综合分析模块,用于根据所述标记信息、线上行为相似度和线下行为相似度,量化用户行为相似度。

根据第三方面,一种实施例中提供一种基于移动终端的用户行为相似度识别的装置,包括:

存储器,用于存储程序;

处理器,用于通过执行所述存储器存储的程序以实现如第一方面任一项所述的方法。

根据第四方面,一种实施例中提供一种计算机可读存储介质,包括程序,所述程序能够被处理器执行以实现如第一方面任一项所述的方法。

依据上述实施例,由于本申请在数据分析时对一人多机的移动终端先进行了识别并关联,并结合用户移动终端线上行为数据和线下lbs数据,量化了用户之间行为特征关联关系,使得可准确判断多部移动终端是否为一人所用,准确提取用户线上行为特征,准确刻画用户的线下移动轨迹和精准计算任意终端间的线上、线下行为相似度,为企业定位目标用户提供数据支持。

附图说明

图1为一种基于移动终端的用户行为相似度识别方法流程图;

图2为一种实施例的线下行为相似度计算步骤流程图。

具体实施方式

下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。

另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。

用户行为之间的相似性在企业的数据运营管理和营销方面都大有用武之地,研究设备两两之间的相似性非常必要,而对于较大用户体量的移动端多维度的线上线下行为数据来说,整个模型处理计算量非常庞大,性能和精度也是我们不断优化的关键点。

现有一些算法在处理大规模用户线上线下数据的时候,计算用户两两之间的相似度涉及庞大的数据计算量,会占用大量的计算资源,在大规模应用的时候,效率和及时性都收到很大的制约;基于用户标签的相似度计算,评价的维度有限,有些标签无法细致地反应用户线上线下的行为特征,且度量的精度有限,会导致用户相似度的精度也会随之降低;基于用户标签的相似度计算,其算法的准确性受其用户标签的准确度影响较大,且算法的时效性较差。

在本发明实施例中,对于海量用户数据,先进行一人多机识别,先准确地识别出一人多机、用户换机等行为,将一人多机的移动终端进行关联并生成相应地标记信息,减少数据数据处理量。进行一人多机识别可利用移动终端标识(包括imei、mac地址或idfa)、app内部的标识(包括uid、ukey、alias或msg_id)或其他用户唯一标识(手机号或id)的对应关系,在一个具体实施例中,本申请通过建立了用户设备指纹和app多维标识之间的对应关联关系,通过设备指纹和app多维标识的交叉定位分析,确定一人多机备的关联关系,便于在后续分析时,进行数据数据关联。

具体地,请参考图1,本申请提供的一种基于移动终端的用户行为相似度识别方法,包括:

数据获取步骤s1,获取至少两部移动终端的指纹信息、所述移动终端的lbs位置信息以及所述移动终端安装的app多维度行为数据信息,所述app多维度行为数据信息包括:app新装/在装/卸载行为数据和wifi连接行为数据;

设备关联步骤s2,根据所述指纹信息和所述app多维度行为数据信息,对一人多机的移动终端进行关联并生成相应地标记信息;

线上行为相似度计算步骤s3,根据所述app多维度行为数据提取用户线上行为特征矩阵,根据所述用户线上行为特征矩阵,计算用户之间的线上行为相似度;

线下行为相似度计算步骤s4,根据所述lbs位置信息,聚合密度较高的报点,得到用户历史轨迹特征矩阵,根据所述用户历史轨迹特征矩阵,计算用户之间的线下行为相似度;

综合分析步骤s5,根据所述标记信息、线上行为相似度和线下行为相似度,量化用户行为相似度。在具体分析时,对于具有关联标记信息的同一个多机情况下的数据要关联分析。

对于步骤s3,主要通过app安装特征相似度和wifi特征关联度2个方面来衡量用户线上行为相似性。

app安装特征相似度:通过构造用户app安装行为特征矩阵,使用广义jaccard相关系数,计算用户app安装特征相似度。对于用户app安装特征,不同的app能够反映用户相似度的程度有很大差异,根据app的渗透率加权得到修正后的app安装特征相似度,具体表示为:

其中,ci,cj为设备安装app的特征向量,安装app的特征向量的特征值取值为0或1,0表示未安装,1表示已安装(包括新装或之前安装的),m表示不同app的渗透率。

wifi特征关联度:根据时间、空间、无线wifi属性等信息进行清洗加工,建立用户wifi使用特征矩阵;基于用户wifi特征矩阵,对于不同时段设备间的wifi连接特征,采用余弦相似度分别计算两两用户间的工作时段wifi使用特征关联度和休息时段wifi使用特征关联度。

wifi特征关联度计算公式为:

其中,xa、xb为用户a、用户b的wifi使用特征向量,wifi使用特征向量的特征值为一段时间内用户wifi连接频次。

根据上述公式,得到:

工作时段wifi使用特征关联度

休息时段wifi使用特征关联度

其中,ta、tb为工作时段用户a、用户b的wifi使用特征向量,ra、rb为工作时段用户a、用户b的wifi使用特征向量。

对于步骤s4,参考图2,所述线下行为相似度计算步骤包括:

步骤s401,对于一定时间段内的用户历史lbs信息,根据用户历史行为特征剔除其中的lbs噪声报点,得到优化后的用户报点位置。这是因为每个用户在不同时间内有大量的报点位置,其中包含了大量未能体现用户线下行为特征的噪声数据,不仅增加了计算量,而且干扰了对用户真实行为的分析,需要将其剔除无。

步骤s402,对所述优化后的用户报点位置进行聚类分析,得到用户聚合行为轨迹。具体地,使用基于密度的聚类算法对用户的报点位置进行聚类,将用户高密度报点的区域聚成一类,定义为一个兴趣区域,经过聚类分析之后,将所有用户的行为轨迹转化为用户兴趣区域表示的聚合行为轨迹,该轨迹中的轨迹点就是用户聚类后的兴趣区域。

步骤s403,将所述用户聚合行为轨迹进行二进制编码,利用所述编码计算所述用户聚合行为轨迹的权重。通过聚类分析得到了用户的聚合行为轨迹,而用户轨迹总的每个兴趣区域在计算用户轨迹相似度时的影响程度不一样,每个兴趣区域的权重与它们在历史轨迹所出现的次数成反比,即:出现次数越多的地方对用户轨迹相似度的影响越小,反之,出现次数越少的地方对用户轨迹相似度的影响越大。

本申请借鉴ir系统中的逆文档频率,定义了兴趣区域权重irw,用以反映聚合行为轨迹中的每个兴趣区域对于用户相似度的权重。其中,

其中,r表示轨迹点,u为用户总数,tu表示用户u的所有轨迹点的集合,{u:r∈tu}为轨迹中包含轨迹点r的用户数目。

为了计算所有用户之间的轨迹相似度,本申请先采用geohsah算法将用户聚合行为轨迹进行二进制编码,编码后用户u的聚合行为轨迹su,i中轨迹点r可以表示为

用户聚合行为轨迹的权重为轨迹中每个兴趣区域权重的反应,用户u的第i条轨迹的权重为wu,i,所述用户聚合行为轨迹的权重

其中,表示用户u的第i条轨迹的权重第k的位编码;

为轨迹点的权重映射规则;

其中,表示用户u的轨迹i中轨迹点j的第k的位编码,如果用户u的轨迹i中轨迹点j的第k位编码对应的二进制数字为1,则权重为正,否则,权重为负。

步骤s404,根据所述用户聚合行为轨迹的权重,计算两个用户之间任意两条轨迹的海明距离,将所述海明距离归一化处理,得到两条轨迹的相似度。本申请使用海明距离表示用户之间的差异性,海明距离越小表示两条轨迹的差异越小,将海明距离归一化处理后,可以得到轨迹x和y之间的相似度simx,y,

其中,h(wu,x,wv,y)表示两个用户(用户u与用户v)之间轨迹x和y这两条轨迹的海明距离。

步骤s405,根据两个用户之间所有轨迹两两之间的海明距离,得到两个用户的聚合行为轨迹相似度dsimu,v,

式中,|tu|、|tv|分别表示用户u和用户v的轨迹数量。

相应地,本申请还提供一种基于移动终端的用户行为相似度识别的系统,该系统包括:

数据获取模块,用于获取至少两部移动终端的指纹信息、所述移动终端的lbs位置信息以及所述移动终端安装的app多维度行为数据信息,所述app多维度行为数据信息包括:app安装/再装/卸载行为数据、app点击使用行为数据和wifi连接行为数据;

设备关联模块,用于根据所述指纹信息和所述app多维度行为数据信息,对一人多机的移动终端进行关联并生成相应地标记信息;

线上行为相似度计算模块,用于根据所述app多维度行为数据提取用户线上行为特征矩阵,根据所述用户线上行为特征矩阵,计算用户之间的线上行为相似度;

线下行为相似度计算模块,用于根据所述lbs位置信息,聚合密度较高的报点,得到用户历史轨迹特征矩阵,根据所述用户历史轨迹特征矩阵,计算用户之间的线下行为相似度;

综合分析模块,用于根据所述标记信息、线上行为相似度和线下行为相似度,量化用户行为相似度。

相应地,本申请还提供一种基于移动终端的用户行为相似度识别的装置,该装置包括:

存储器,用于存储程序;

处理器,用于通过执行所述存储器存储的程序以实现上述一种基于移动终端的用户行为相似度识别方法。

本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。

以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1