识别智能设备用户的方法和装置的制造方法_3

文档序号:9810527阅读:来源:国知局
间,登录地点等;访问记录数据,例如,用户浏览的商品信息等;充值数据;支付行为数据;交易数据;提现数据;注册手机号、购物行为数据等中的一项或者多项。
[0078]特征变量是从用户的网络行为数据中提取出的预设个数的变量,是正样本和负样本差异较大的变量。
[0079]一个实施例中,参见图4,所述确定模块31包括:
[0080]第一单元311,用于选取所述正样本和负样本,并获取所述正样本的网络行为数据和所述负样本的网络行为数据,所述正样本是已知的智能设备用户,所述负样本是已知的非智能设备用户。
[0081]具体地,可以获取预设时间点之前预设时间段内,正样本的网络行为数据和负样本的网络行为数据。
[0082]例如,获取正样本在2012年初到2013年底的网络行为数据,以及负样本在2012年初到2013年底的网络行为数据。
[0083]网络行为数据可以包括:选取预设个数的网络行为变量,之后获取该选取的网络行为变量的数据,网络行为变量可以包括网站登录,访问记录,充值,支付,交易,提现,注册手机号,购物行为等。
[0084]预设个数例如为130个,则可以在上述的网络行为变量中选择130个变量,并获取相应变量的数据作为网络行为数据。选择时,可以随机选择,或者根据预设相关性算法,选择最相关的变量。
[0085]另一个实施例中,所述第一单元311具体用于根据服务端预先获取的历史数据,确定智能设备用户和非智能设备用户;
[0086]从所述智能设备用户中随机选取预设个数的用户确定为正样本,从所述非智能设备用户中随机选择所述预设个数的用户确定为负样本。
[0087]预设个数例如50万个。
[0088]另一个实施例中,所述第一单元311进一步具体用于从服务端预先获取的历史数据中获取设备信息和访问时间信息;将访问时间信息在预设时间点之前预设时间段内,且设备信息是智能设备信息的用户,确定为智能设备用户;将访问时间信息在所述预设时间点之后所述设备信息是智能设备信息,且在所述预设时间点之前所述设备信息是非智能设备信息,确定为非智能设备用户。
[0089]例如,预设时间点是2014年年初,预设时间段是2012年初到2013年底,当2012年初到2013年底有过智能设备访问记录的用户可以看作智能设备用户,而2014年之前没有过智能设备访问记录而2014年之后有过智能设备访问记录的用户可以看作非智能设备用户。
[0090]另一个实施例中,所述第一单元311进一步具体用于获取所述预设时间点之前预设时间段内,所述正样本的网络行为数据和所述负样本的网络行为数据。
[0091]第二单元312,对所述正样本的网络行为数据和所述负样本的网络行为数据进行差异化计算,获取所述网络行为数据中每个变量的差异化得分。
[0092]其中,差异化计算采用的算法可以包括:群体稳定性指标(Populat1n StabilityIndex, PSI)算法和/或有效距离(Effective Size, ES)算法。PSI算法和/或ES算法可以在信息检索系统(Sequence Retrieval System, SRS)中执行。
[0093]另一个实施例中,所述第二单元具体用于采用PSI算法和/或ES算法,对所述正样本的网络行为数据和所述负样本的网络行为数据进行差异化计算。
[0094]第三单元313,根据所述差异化得分,确定特征变量。
[0095]其中,特征变量是正样本和负样本具有较大差异的变量,例如,可以按照差异化得分从大到小的顺序对变量进行排序,在排序后变量中依次选择预设个数的变量作为特征变量。
[0096]另一个实施例中,当采用PSI算法和ES算法进行所述差异化计算时,所述第三单元313具体用于根据所述PSI算法,计算所述每个变量的差异化得分,并根据所述差异化得分降序选择第一组变量;
[0097]根据所述ES算法,计算所述每个变量的差异化得分,并根据所述差异化得分降序选择第二组变量;
[0098]按照重复变量、差异化得分的选择顺序,在所述第一组变量和所述第二组变量中选择预设个数的变量,确定为特征变量。
[0099]例如,根据PSI算法可以得到差异较大的30个变量作为第一组变量,根据ES算法,从ES>20的变量选择差异较大的30个变量作为第二组变量。之后,在第一组变量和第二组变量中选择20个重复变量,当重复变量不够20个时,可以根据差异值选择差异较大的变量,最终得到20个特征变量。
[0100]获取模块32用于获取第一变量值和第二变量值,所述第一变量值包括待检测的设备用户的所述特征变量的变量值,所述第二变量值包括预先确定的正样本的所述特征变量的变量值。
[0101]其中,在确定出特征变量后,从待检测的设备用户的用户访问日志中可以获取特征变量的变量值,得到第一变量值;从正样本的用户访问日志中可以获取特征变量的变量值,得到第二变量值。
[0102]预先确定的正样本是指从已知的智能设备用户中选取的预设个数的智能设备用户,已知的智能设备用户可以是预设时间段内的智能设备用户,选取时可以随机选择。具体的,可以根据服务端预先获取的历史数据,确定智能设备用户和非智能设备用户,从所述智能设备用户中随机选取预设个数的用户确定为正样本,从所述非智能设备用户中随机选择所述预设个数的用户确定为负样本。
[0103]以智能设备是智能手机为例,例如,根据用户访问日志,可以筛选出2012年初至2013年底有过智能手机访问记录的用户,这些用户是已知的智能设备用户,之后可以从这些已知的智能设备用户中随机挑取50万个用户作为正样本。
[0104]根据用户访问日志,可以筛选出2013年底之前没有过智能手机访问记录的用户,而2013年底之后有过智能手机访问记录的用户,这些用户在2013年底之间可以看作非智能设备用户,之后可以从这些非智能设备用户中随机选取50万个用户作为负样本。
[0105]计算模块33用于计算所述第一变量值与所述第二变量值之间的距离信息。
[0106]另一个实施例中,所述计算模块33具体用于根据每个正样本的所述特征变量的变量值,确定中心值,计算所述第一变量值与所述中心值之间的距离值。
[0107]例如,待检测设备是X,正样本包括Yl,Y2,Y3,特征变量是A,B, C,则可以计算Yl (A,B, C),Y2 (A, B, C),Y3 (A, B, C)的中心点,假设中心点是 O (A,B, C),进而计算 X(A,B,C)与0(A,B,C)的空间距离,得到距离值。
[0108]另一个实施例中,所述计算模块33进一步具体用于对每个正样本的所述特征变量的变量值,采用最小距离算法,确定中心值。
[0109]识别模块34用于根据所述距离信息,识别智能设备用户。
[0110]另一个实施例中,所述识别模块34具体用于将所述距离值确定为评分值;对所述评分值进行归一化处理,得到归一化后的评分值;当所述归一化后的评分值大于预设阈值时,确定所述待检测的设备用户是智能设备用户。
[0111]其中,预设阈值根据具体的业务需求来确定。例如,将评分值归一化到0-10之内,预设阈值例如6,如果评分值大于6,则可以确定为智能设备用户。
[0112]本实施例通过对用户的网络行为数据进行提取,确定网络行为数据中的特征变量,计算待检测的设备用户的特征变量的变量值,与预先确定的正样本的特征变量的变量值之间的距离信息,根据该距离信息,识别智能设备用户,可以实现基于用户的网络行为数据的智能设备用户识别,由于本实施例不依赖用户访问日志中的智能设备信息,因此,当用户访问日志中没有智能设备信息时,依然可以识别出智能设备用户,从而提高识别效果。
[0113]需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或
当前第3页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1