跨屏用户标识归一的方法及其系统与流程

文档序号：12121763阅读：237来源：国知局

本发明涉及互联网技术领域，尤其涉及一种跨屏用户标识归一的方法及其系统。

背景技术：

在互联网应用领域，用户行为分析指的是统计和分析用户接入网络服务过程中(包括访问和浏览网页、进行交互式操作、使用APP等)产生的实时性和历史性的用户行为信息。在用户接入网络服务的行为过程当中，包含着大量有价值的信息。其中，用户行为信息包括但不局限于以下内容：网络服务的访问次数、访问频度、访问停留时间、操作活跃时间、用户输入关键词、用户点击链接、用户交互操作(如加关注、取消关注、打分、保存为书签、加入购物车、取出购物车、形成订单、取消订单、付款、退款等等)。

通过对用户行为信息的研究，可以从中发现用户在接入网络服务时表现出来的规律分布，并且为提升用户体验、高效信息推送和促进目标营销提供科学、准确的客观依据。

大数据技术是以任何系统的全部数据资源为对象并从中发现数据之间表现的相关性关系的信息处理技术，目前已经广泛应用于互联网的流程优化、目标化消息及广告推送、用户个性化服务与改善等方面，成为了网络服务背后强大的后台支撑。

在面向用户行为信息进行大数据统计、分析与应用的现有技术当中，是将每一个用户行为及作为行为对象的内容都仅当作一个孤立的数据点，这样通过汇总全部用户行为及其对象所形成的海量数据点，从中发现统计分布规律。这种模式的缺陷是不能发现和利用不同的用户行为及其行为对象之间相互的关联性。

技术实现要素：

本发明的主要目的在于提供一种跨屏用户标识归一的方法及其系统，以解决现有技术的上述问题，其中：

根据本发明实施例提出一种跨屏用户标识归一的方法，其包括：

针对多个终端设备，分别根据每个终端设备的标识信息从预先建立的数据库中获取每个终端设备对应的行为属性信息；

根据终端设备的行为属性信息确定多个候选集合，其中每个候选集中包括相关联的多个终端设备；

提取所述多个候选集合的特征参数作为训练数据并构建分类模型；

根据所述分类模型确定待预测数据的分类信息，并将同一分类的终端设备生成统一的标识信息。

其中，所述相关联的多个终端设备包括：使用同一IP地址登录的终端设备。

其中，所述特征参数包括以下之一或其组合：终端设备类型、操作系统类型、应用程序信息、终端设备访问网站的信息、多个终端设备的共现行为特征、多个终端设备的共现场景特征、多个终端设备的潜在兴趣匹配度特征。

其中，所述构建分类模型包括：

从所述特征参数中分别提取出正样本数据和负样本数据，根据样本数据得到训练数据和待预测数据。

其中，根据所述分类模型确定待预测数据的分类信息包括：

确定待预测数据对应的多个终端设备的相关联的概率。

根据本发明实施例还提出一种跨屏用户标识归一的系统，其包括：

获取模块，用于针对多个终端设备，分别根据每个终端设备的标识信息从预先建立的数据库中获取每个终端设备对应的行为属性信息；

数据提取模块，用于根据终端设备的行为属性信息确定多个候选集合，其中每个候选集中包括相关联的多个终端设备；

分类模型构建模块，用于提取所述多个候选集合的特征参数作为训练数据并构建分类模型；

用户分类模块，用于根据所述分类模型确定待预测数据的分类信息，并将同一分类的终端设备生成统一的标识信息。

其中，所述相关联的多个终端设备包括：使用同一IP地址登录的终端设备。

其中，所述分类模型构建模块还用于，从所述特征参数中分别提取出正样本数据和负样本数据，根据样本数据得到训练数据和待预测数据。

其中，所述用户分类模块还用于，确定待预测数据对应的多个终端设备的相关联的概率。

根据本发明的技术方案，通过分析用户行为识别使用不同设备登录的用户，并确定相关联的终端设备，从而能够通过统一的角度分析及挖掘用户的行为信息。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的跨屏用户标识归一的方法的流程图；

图2是根据本发明实施例的跨屏用户标识归一的系统的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本发明作进一步地详细说明。

根据本发明的实施例，提供了一种跨屏用户标识归一的方法。

图1是根据本发明实施例的跨屏用户标识归一的方法的流程图，如图1所示，所述方法至少包括(步骤S102-S108)：

步骤S102，针对多个终端设备，分别根据每个终端设备的标识信息从预先建立的数据库中获取每个终端设备对应的行为属性信息。

在本实施例中，对通过数据库获取的原始数据进行过滤、提取和转换等相关操作，得到有效的用户标识及其对应的有效属性和行为信息，为特征提取提供数据基础。数据预处理主要划分为以下两个步骤：关系抽取及对象抽取。

关系抽取主要是从原始数据中去除掉无用的字段信息，保留对用户分类(id拉通)有帮助的字段，并做一些基础的过滤，生成关系表。关系表中主要存储有效的用户标识、设备属性、ip地址信息、行为信息(如时间戳，访问的url等)。关系表中的字段均做了基本的验证和过滤操作(比如长度验证、字符集验证、模式匹配等)，另外还会根据字段采集的规范进行逻辑校验。

对象抽取主要是对关系表中各种标识进行二次过滤，并对其事件数、去重数等进行统计。二次过滤是防止某些对象出现次数异常，过滤掉统计上的噪声数据。比如通过统计可以发现某些ip属于公共ip，对后续的拉通作用不明显，从而可以过滤掉；通过统计可以发现某些用户行为次数只有一次，那么可以认定这个用户标识是一个无效的用户标识，从而可以过滤掉。

步骤S104，根据终端设备的行为属性信息确定多个候选集合，其中每个候选集中包括相关联的多个终端设备。

特征构造和提取围绕两个用户标识和共现的场景而展开。比如在同一天(D1)，两个互联网用户标识U1和U2，均在同一IP地址(IP1)上有过行为，那么所有类似这种情况的两个用户标识构成的集合，可以作为拉通的候选集合。针对候选集中的每一个样本，会在多个维度进行特征的构造和提取。具体地，特征参数可以包括以下几类：

1、单个用户标识的静态属性特征；

(1)用户使用的设备类型、分辨率等级、操作系统类型；

设备类型如：手机、平板、个人电脑等。操作系统如iPhone，Android，Windows，Linux等。

(2)用户使用的软件种类、版本号；

例如电脑或者手机上网使用的不同的浏览器及其版本号，移动设备上使用的app名称等。

2、单个用户标识的动态属性特征；

(1)用户更换ip的频率；

(2)用户在各个网站/app上的浏览/使用时间分布；

(3)用户浏览最多的物品、类别、品牌等；

(4)用户经常上网的时间段。

3、用户标识对的共现行为特征；

(1)两个用户标识共现的ip次数；

(2)两个用户标识发生ip共现时，用户行为的平均间隔时间；

(3)两个用户标识共同浏览过的域名的个数；

(4)两个用户标识共同浏览过的物品、类别、品牌的个数。

4、用户标识对的共现场景特征；

(1)在两个用户标识共现的ip上，出现过的用户标识总数量；

(2)在两个用户标识共现的ip上，发生过的总事件数量；

(3)两个用户标识共现的时间属性(当天时间段、星期几等)。

5、用户标识对的潜在兴趣匹配度特征。

基于用户标识浏览过的域名、物品、类别、品牌数据，采用深度学习的方法，得到用户的潜在兴趣维度上的匹配度特征。

步骤S106，提取所述多个候选集合的特征参数作为训练数据并构建分类模型。

如果一个用户在多个用户标识下产生的行为之间存在相似性或者关联性，那么则选择不同用户标识之间的共性或者关联性行为等作为输入的特征，并利用GBDT算法训练得到模型，最后用于预测两个用户标识拉通的概率。

由于同一个用户在不同用户标识上的行为具有共性或者关联性，以IP共现(即不同用户标识出现在同一个IP地址下)作为训练数据的基础。之所以选择此特征作为基础是由于不同用户标识在同一个IP地址上出现既反映了这些用户标识之间存在共性，又由于IP地址由运营商分配而非用户能控制所以作为一个客观存在它对于拉通对象起了一个强有力的约束作用。例如两个用户标识在行为习惯上可能非常相似：偏好上同一类型网站，访问过同一个商品等。但由于他们的IP地址可能一个位于北京一个位于上海，则不认为他们是同一个人。

在实际应用中，将IP共现的数据与能够精确拉通的数据的交集作为训练集的正样本，并按照一定的比例抽取负样本，最终形成模型训练的输入。训练后会得到各个特征的权重值，据此可以进行预测计算得到两个或多个用户标识拉通的概率。

步骤S108，根据所述分类模型确定待预测数据的分类信息，并将同一分类的终端设备生成统一的标识信息。

用户标识是电子数字层面上的标识，一方面，模型预测的结果只是两个用户标识的拉通结果，事实上，一个真实的用户拥有的用户标识可能不止两个，需要通过聚类汇集一个真实用户的所有用户标识；另一方面，存在一个用户标识同时出现在多个设备，一个设备出现多个用户标识的实际情况，导致拉通的结果会出现类似社区关系图的多对多拉通的情况，使得拉通的结果发散化；最大限度的真实汇集一个真实用户的所有用户标识是聚类的目标。

在跨屏用户标识归一的应用场景中，一个个的用户标识就好比社区中一个个人；用户标识之间的关系汇聚成了一个用户标识的“社区关系图”，一个真实用户的所有用户标识是这个“社区关系图”的“社交圈”，这是运用社区发现算法调整聚类结果的理论基础。互联网背景下的社区关系图描述的是互联网用户之间关系图，或者说是一种社交网络的模型表述。社交圈描述的是如何用社区关系图中挖掘中一个个真实的社交圈。

社区发现算法是如何从社区关系图中挖掘出真实的社交圈的一类算法的统称，图分割是社区发现算法的核心内容，然而，分割必然带来边的丢失，同时如何衡量分割带来的损失和衡量分割后的效果是难点。本申请采用的是modularity聚类(分割)的思想。

通过构设衡量图分割的modularity程度从而得到一个图的最优二分结果，然后比较原图和二分结果的modularity从而判别图是否需要继续划分，最后得到一个图的最佳分割。

Modularity程度Q：

其中：N表示图的节点数，m表示图的边数，Aij表示节点i和节点j之间的边数，ki表示节点i的边数(出度)，si表示1或者-1(1和-1分别代表二分结果)，

Q可以写成以下的形式：

其中：

从而成功的把一个图分割问题转为数学问题(奇异值分解)：

图分割的临界点，分割后的Q没有更优：

至此，一个连通的“社区关系图”被最优的划分为若干个“社交圈”。每个“社交圈”内的用户标识是相互“拉通”的，即视为同一个用户。

根据本发明的实施例，还提供了一种跨屏用户标识归一的系统。

图2是根据本发明实施例的跨屏用户标识归一的系统的结构框图，如图2所示，该系统包括：

获取模块21，用于针对多个终端设备，分别根据每个终端设备的标识信息从预先建立的数据库中获取每个终端设备对应的行为属性信息；

数据提取模块22，用于根据终端设备的行为属性信息确定多个候选集合，其中每个候选集中包括相关联的多个终端设备；

分类模型构建模块23，用于提取所述多个候选集合的特征参数作为训练数据并构建分类模型；

用户分类模块24，用于根据所述分类模型确定待预测数据的分类信息，并将同一分类的终端设备生成统一的标识信息。

其中，所述相关联的多个终端设备包括：使用同一IP地址登录的终端设备。

进一步地，所述分类模型构建模块23还用于，从所述特征参数中分别提取出正样本数据和负样本数据，根据样本数据得到训练数据和待预测数据。

进一步地，所述用户分类模块24还用于，确定待预测数据对应的多个终端设备的相关联的概率。

本发明的方法的操作步骤与系统的结构特征对应，可以相互参照，不再一一赘述。

综上所述，根据本发明的技术方案，通过分析用户行为识别使用不同设备登录的用户，并确定相关联的终端设备，从而能够通过统一的角度分析及挖掘用户的行为信息。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：苏萌;苏海波;向延超;陈浩;戚伟杰;董萍;
技术所有人：北京百分点信息科技有限公司;
我是此专利的发明人

上一篇：一种蓄电池安装机构的制作方法与工艺
上一篇：一种用于电池箱的密封结构的制作方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。