一种用户识别的方法和装置与流程

文档序号:14774207发布日期:2018-06-23 02:35阅读:266来源:国知局
一种用户识别的方法和装置与流程

本发明实施例涉及但不限于网络技术领域,尤指一种用户识别的方法和装置。



背景技术:

随着科技的发展和人们生活水平的逐渐提高,现在大部分的上网用户都拥有多个上网设备,比如个人电脑、平板和手机,他们的上网行为大量分散在各种设备上,而如果简单地认为不同的设备后面就是不同的人,以此来投放广告,会造成不少资源浪费,降低广告投放的ROI(Return On Investment,投资回报率),损失广告主的利益,因此,对于这种不论用户切换到哪种设备,都能知道是同一个人的跨屏识别技术,广告主有着强烈的需求。

目前,跨屏识别的技术主要依靠的是互联网产品的强帐号体系或者个人身份ID进行匹配,即用户用不同的设备登陆了同一个帐号,则说明这些设备属于同一个人,但这些技术依赖于大规模、跨平台的用户覆盖,国内只有少数几个巨头才可以使用,再者使用这些数据可能会牵涉到用户的隐私问题。



技术实现要素:

本发明实施例提供一种用户识别的方法及装置,以实现识别不同的设备ID属于同一用户。

一种用户识别的方法,包括:

获取用户的上网日志,从所述上网日志中提取出设备ID及其浏览行为信息;

针对每两个待定设备ID根据所述浏览行为信息确定指定特征值;

如所述指定特征值满足指定规则或者根据预先学习的分类模型被分类为指定类型,则识别所述两个待定设备ID属于同一个用户。

可选地,所述根据所述浏览行为信息,针对两个待定设备ID确定指定特征值,包括以下的一项或多项:

根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分天登录公共IP的个数之和;

根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分时段登录公共IP的个数之和;

根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分别在公共IP上的行为比例;

根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID各自有关联的其他设备ID的数量;

根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID在多个网站上的行为相似度。

可选地,所述确定在预定日期内,所述两个待定设备ID在多个网站上的行为相似度,包括:

分别统计所述两个待定设备ID在N个网站的访问次数,分别组成一个N维的特征向量(A1,A2,...,AN)和(B1,B2,...,BN),其中,每个分量的值依次表示所述两个待定设备ID在对应网站的访问次数,通过以下式子获取所述两个待定设备ID在多个网站上的行为相似度:

可选地,所述指定特征值满足指定规则包括:所述指定特征值在预定范围内。

可选地,所述浏览行为信息包括:

IP地址、上网时间和访问网址。

一种用户识别的装置,其中,包括:

获取模块,用于获取用户的上网日志,从所述上网日志中提取出设备ID及其浏览行为信息;

确定模块,用于针对每两个待定设备ID根据所述浏览行为信息确定指定特征值;

识别模块,用于如所述指定特征值满足指定规则或者根据预先学习的分类模型被分类为指定类型,则识别所述两个待定设备ID属于同一个用户。

可选地,所述确定模块,根据所述浏览行为信息,针对两个待定设备ID确定指定特征值,包括以下的一项或多项:根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分天登录公共IP的个数之和;根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分时段登录公共IP的个数之和;根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分别在公共IP上的行为比例;根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID各自有关联的其他设备ID的数量;根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID在多个网站上的行为相似度。

可选地,所述确定模块,确定在预定日期内,所述两个待定设备ID在多个网站上的行为相似度,包括:分别统计所述两个待定设备ID在N个网站的访问次数,分别组成一个N维的特征向量(A1,A2,...,AN)和(B1,B2,...,BN),其中,每个分量的值依次表示所述两个待定设备ID在对应网站的访问次数,通过以下式子获取所述两个待定设备ID在多个网站上的行为相似度:

可选地,所述指定特征值满足指定规则包括:所述指定特征值在预定范围内。

一种用户识别的装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现以下步骤:

获取用户的上网日志,从所述上网日志中提取出设备ID及其浏览行为信息;

针对每两个待定设备ID根据所述浏览行为信息确定指定特征值;

如所述指定特征值满足指定规则或者根据预先学习的分类模型被分类为指定类型,则识别所述两个待定设备ID属于同一个用户。

综上,本发明实施例提供一种用户识别的方法及装置,可以实现识别不同的设备ID属于同一用户,可以为广告主提高广告投放的ROI。

附图说明

图1为本发明实施例的一种用户识别的方法的流程图;

图2为本发明实施例的一种用户识别的装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白,下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。

图1为本发明实施例的一种用户识别的方法的流程图,如图1所示,本实施例的方法包括:

步骤11、获取用户的上网日志,从所述上网日志中提取出设备ID及其浏览行为信息;

步骤12、针对每两个待定设备ID根据所述浏览行为信息确定指定特征值;

步骤13、如所述指定特征值满足指定规则或者根据预先学习的分类模型被分类为指定类型,则识别所述两个待定设备ID属于同一个用户。

本发明实施例的方法能够判断两台联网的电子设备是否属于同一个用户。

其中,所述根据所述浏览行为信息,针对两个待定设备ID确定指定特征值,包括以下的一项或多项:

根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分天登录公共IP的个数之和;

根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分时段登录公共IP的个数之和;

根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分别在公共IP上的行为比例;

根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID各自有关联的其他设备ID的数量;

根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID在多个网站上的行为相似度。

同一个用户的不同设备(包括个人电脑和手机等移动设备,个人电脑通过cookie标识设备,手机等移动设备通过IDFA(Identifier ForIdentifier,广告标示符)、IMEI(International Mobile Station Equipment Identity,国际移动站设备标识)、ANDROIDID(安卓标识)等标识设备)会通过同一个路由器接入互联网,因此这些设备ID会在同一个IP下在同一段时间内都有上网行为,并且这种现象会经常发生,而且同一个用户使用不同设备进行上网行为时也有一定的相似性,比如使用不同的设备观看同一部电视剧或者浏览同一个新闻网站。同时两个设备ID与其他设备ID通过IP发生的关联越少,这两个设备ID越可能属于同一用户。而如果两个设备ID属于不同用户,上述情况发生的可能性就比较小。

基于如上思想,判断两个设备ID是否属于同一用户的特征集设计如下:

表1特征集设计

进一步地,对于任意两个设备,可以基于为其计算出来的特征值和一组确定的规则来判断这两个设备是否属于同一个用户。

基于以上5种特征,两个设备的特征集满足以下条件认为这两个设备属于同一个用户:

(1)在连续的30个自然日内,两个ID在公共IP上分天的关联次数在设定的阈值以上;

(2)在连续的30个自然日内,两个ID在公共IP上分时段的关联次数在设定的阈值以上;

(3)在连续的30个自然日内,两个ID各自在公共IP上的行为比例均在设定的阈值以上;

(4)在连续的30个自然日内,两个ID各自有关联的其他ID数(此处其他ID满足与当前ID在公共IP上分天的关联次数超过3次)均在设定的阈值以下;

(5)在连续的30个自然日内,两个ID在N个常用网站的行为相似度在设定的阈值以上。

其中,上述规则中的数字以及阈值可以根据实际情况进行调整。此外,也可以根据实际情况调整规则之间的组合方式。

对于任意两个设备ID,上述技术方案在计算完所有特征的数值之后,采用了基于规则的方法来判定两个设备ID是否为同一个用户。

在另一实施例中,还可以通过事先收集的一部分真实可靠的样本数据,应用机器学习方法取代基于规则的方法来进行同一个用户的判别。基于机器学习的方法包括如下两个步骤:

步骤A、将事先收集的样本数据进行整理,两个设备ID如果属于同一个用户则作为正类,不属于同一个用户则作为负类,应用机器学习方法训练出基于上述5类特征进行同一个用户判别的分类模型。

步骤B、应用训练出来的同一个用户判别的分类模型对两个设备ID进行分类,以判别两个设备ID是否属于同一个用户。其中,使用的机器学习模型可采用不同的机器学习分类模型,例如决策树、神经网络、支持向量机等等。

以下为一具体实施例,包括以下步骤:

步骤110:获取存储的用户上网行为日志,提取出设备ID、IP地址、上网时间和访问网址等信息。

本实施例中记录的用户上网信息如表2所示。

表2用户上网信息记录表

步骤120:根据行为日志中各ID的浏览行为信息,对两个设备ID(id0和id1)计算用于判断二者是否属于同一个用户的5类特征。本实施例中,计算出来的样例如表3所示。

表3

步骤130:基于对两个设备ID的特征计算结果,根据规则的方法,判别这两个ID是否属于同一个用户使用的5条规则为:

(1)在连续的30个自然日内,两个ID在公共IP上分天的关联次数在设定的阈值以上;

(2)在连续的30个自然日内,两个ID在公共IP上分时段的关联次数在设定的阈值以上;

(3)在连续的30个自然日内,两个ID各自在公共IP上的行为比例均在设定的阈值以上;

(4)在连续的30个自然日内,两个ID各自有关联的其他ID数(此处其他ID满足与当前ID在公共IP上分天的关联次数超过3次)均在设定的阈值以下;

(5)在连续的30个自然日内,两个ID在N个常用网站的行为相似度在设定的阈值以上。

其中,规则中使用的数字及阈值可以根据实际情况进行调整。在本实例中,为5条规则选择的阈值分别为:20,35,0.7,10,0.8。

根据上述规则来判断两个设备ID是否属于同一个用户,如表3所示,在2017-01-01到2017-11-30的30天内,这两个ID在公共IP上分天的关联次数大于20,在公共IP上分时段的关联次数大于35,在公共IP上的行为比例均大于0.7,与ID有关联的其他ID数均小于10,行为相似度大于0.8。因此,根据规则判定这两个ID属于同一个用户。

上述实施例中计算完所有特征的数值之后,也可以用机器学习方法取代规则判断,用如下所述的步骤131取代步骤130。基于机器学习的方法流程如下:

步骤110:与上述实例完全相同。

步骤120:与上述实例完全相同。

步骤131:采用机器学习方法替代规则进行判断这两个ID是否属于同一个用户。

首先使用收集到的真实ID对(其中,属于同一个用户的ID对标记为正类,不属于同一个用户的ID对标记为负类)训练出机器学习模型,然后将机器学习模型应用到步骤120为这两个ID所计算出来的特征结果上,得到这两个ID是否属于同一个用户的判定结果。

图2为本发明实施例的一种用户识别的装置的示意图,如图2所示,本实施的装置包括:

获取模块,用于获取用户的上网日志,从所述上网日志中提取出设备ID及其浏览行为信息;

确定模块,用于针对每两个待定设备ID根据所述浏览行为信息确定指定特征值;

识别模块,用于如所述指定特征值满足指定规则或者根据预先学习的分类模型被分类为指定类型,则识别所述两个待定设备ID属于同一个用户。

在一实施例中,所述确定模块,根据所述浏览行为信息,针对两个待定设备ID确定指定特征值,包括以下的一项或多项:根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分天登录公共IP的个数之和;根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分时段登录公共IP的个数之和;根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID分别在公共IP上的行为比例;根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID各自有关联的其他设备ID的数量;根据所述浏览行为信息,确定在预定日期内,所述两个待定设备ID在多个网站上的行为相似度。

在一实施例中,所述确定模块,确定在预定日期内,所述两个待定设备ID在多个网站上的行为相似度,包括:分别统计所述两个待定设备ID在N个网站的访问次数,分别组成一个N维的特征向量(A1,A2,...,AN)和(B1,B2,...,BN),其中,每个分量的值依次表示所述两个待定设备ID在对应网站的访问次数,通过以下式子获取所述两个待定设备ID在多个网站上的行为相似度:

在一实施例中,所述指定特征值满足指定规则包括:所述指定特征值在预定范围内。

本发明实施例还提供一种用户识别的装置,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现以下步骤:

获取用户的上网日志,从所述上网日志中提取出设备ID及其浏览行为信息;

针对每两个待定设备ID根据所述浏览行为信息确定指定特征值;

如所述指定特征值满足指定规则或者根据预先学习的分类模型被分类为指定类型,则识别所述两个待定设备ID属于同一个用户。

本发明实施例还提供了一种计算机可读存储介质,其存储有计算机可执行指令,所述计算机可执行指令被执行时实现所述用户识别的方法。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

以上仅为本发明的优选实施例,当然,本发明还可有其他多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1