一种识别用户身份标识的方法和装置的制造方法

文档序号:9379986阅读:814来源:国知局
一种识别用户身份标识的方法和装置的制造方法
【技术领域】
[0001] 本申请涉及互联网领域,更具体地涉及一种识别用户身份标识的方法和装置。
【背景技术】
[0002] 用户身份标识是用于识别用户身份的名字。例如,每个网站有各自的用户体系的 用户名、浏览器中有记录用户足迹的cookie (小型文本文件),无线终端设备上有手机imei (国际移动设备身份码),每个手机用户有各自的手机号码等。目前对人群的身份识别通常 限于单系统内的识别,具体来说,通常只能对单系统内具有直接关系的用户身份标识进行 识别。例如,通过解析A网站的网站访问记录和登录日志,识别浏览器中cookie和A网站 用户身份标识之间的直接关系。
[0003] 但是,目前的用户身份标识识别体系主要存在以下缺陷:首先,由于不同系统的用 户身份标识的数据结构和数据格式都不同,所以只能进行单系统内的数据收集和分析,很 难对不同系统的用户身份标识做数据集成和整合分析;其次,由于只能识别用户身份标识 之间的直接关系,更深层的间接关系无法打通,所以只能对用户身份标识形成单边关系,无 法形成网状关系图。以上缺陷导致现有技术无法识别不同系统的用户身份标识,并且同一 系统的同一个自然人或同一类人群的用户标身份标识的识别程度不高。
[0004] 因此,由于不同系统的用户身份标识在各系统中都自成体系,没有连通性,无法判 断在不同系统中这些用户身份标识是否属于同一类人群或者同一个自然人。在本领域中, 需要一种识别用户身份标识的方法,其能够识别不同系统的用户身份标识,从而解决无法 将各类用户身份标识映射为同一类人群或者同一个自然人的问题。

【发明内容】

[0005] 本申请的主要目的在于提供一种识别用户身份标识的技术,以解决现有技术中无 法将各类用户身份标识映射为同一类人群或者同一个自然人的问题。
[0006] 根据本申请的第一方面,提供了一种识别用户身份标识的方法,包括:基于收集的 各类用户身份标识以及用户身份标识之间的关联关系,获取各类用户身份标识之间的关联 关系权重;以及根据获取的用户身份标识之间的关联关系权重,确定各用户身份标识的用 户统一身份标识。
[0007] 根据本申请的第二方面,提供了一种用于识别用户身份标识的装置,包括:获取模 块,用于基于收集的各类用户身份标识以及用户身份标识之间的关联关系,获取各类用户 身份标识之间的关联关系权重;以及确定模块,用于根据获取的用户身份标识之间的关联 关系权重,确定各用户身份标识的用户统一身份标识。
[0008] 与现有技术相比,根据本申请的技术方案,能够基于收集的各类用户身份标识以 及用户身份标识之间的关联关系,获取各类用户身份标识之间的关联关系权重,并且根据 获取的用户身份标识之间的关联关系权重,可以确定各用户身份标识的用户统一身份标识 (也称,UnilD),从而解决现有技术中无法将各类用户身份标识映射为同一对象(同一类人 群或者同一个自然人)的问题。
【附图说明】
[0009] 此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申 请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0010] 图1是根据本申请一个实施例的识别用户身份标识的方法的流程图;
[0011] 图2是根据本申请的更详细实施例的识别用户身份标识的方法的流程图;
[0012] 图3为根据本申请一个实施例的表示各用户身份标识和各用户身份标识之间的 关联关系类型的图表;以及
[0013] 图4是根据本申请一个实施例的用于识别用户身份标识的装置的框图。
【具体实施方式】
[0014] 本申请的主要思想在于,基于收集的各类用户身份标识以及用户身份标识之间的 关联关系,获取各类用户身份标识之间的关联关系权重,并且根据获取的用户身份标识之 间的关联关系权重,可以确定各用户身份标识的用户统一身份标识。该技术方案通过对每 个用户身份标识都分配一个用户统一身份标识,可以对具有相同用户统一身份标识的用户 身份标识进行聚类,从而可以将各类用户身份标识映射为同一对象(同一类人群或者同一 个自然人)。
[0015] 为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及 相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一 部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0016] 参考图1,图1是根据本申请一个实施例的识别用户身份标识的方法100的流程 图。如图1所示,方法100开始于步骤101。
[0017] 在步骤101,基于收集的各类用户身份标识以及用户身份标识之间的关联关系,获 取各类用户身份标识之间的关联关系权重。
[0018] 具体而言,不同系统的用户身份标识可以包括:互联网中不同系统的用户体系的 用户名、记录用户登陆的cookie (小型文本文件)、用户手机号码、手机imei (国际移动设备 身份码)、用户的email (电子邮件地址)等。
[0019] 由于用户身份标识具有各种类型,比如:imei、手机号码、网站用户名,等等,各类 用户身份标识对其具体标识组成的数据结构要求不同,如中国大陆手机号的组成数据结构 要求为:11位数字组成,等等。
[0020] 而同一个自然人或同一类人群,可以有多个不同的用户身份标识,如用户A在B网 站的用户名与其手机号码绑定,而每个手机对应唯一的手机imei,则用户A在B网站的用户 名与其手机号码以及该手机对应的手机imei之间具有关联关系。从一些可以体现用户身 份标识关联关系的数据中,可以获取不同用户身份标识之间的关联关系。例如,通过解析B 网站的网络访问和登录日志,可以识别浏览器中cookie和B网站用户名之间的关联关系。
[0021] 对所收集的各类用户身份标识及用户身份标识之间的关联关系进行分析和计算, 例如,通过计算用户身份标识之间的共现概率,可以获取各类用户身份标识之间的关联关 系权重。其中,关联关系权重,用于表示用户身份标识之间所存在的关联关系的程度。用户 身份标识之间的关联关系权重越大,表示他们之间的关联关系程度越高,用户身份标识之 间的关联关系权重越小,表示他们之间的关联关系程度越低。
[0022] 在步骤102,根据获取的用户身份标识之间的关联关系权重,确定各用户身份标识 的用户统一身份标识。
[0023] 具体而言,根据获取的用户身份标识之间的关联关系权重,可以先对一部分用户 身份标识生成相应的用户统一身份标识,在已生成的用户统一身份标识的基础上,计算其 他用户身份标识与各用户统一身份标识之间的关联关系,从而确定其他用户身份标识的用 户统一身份标识。其中,所述用户统一身份标识比如:对属于同一个自然人的各类用户身份 标识所提供的一个标识,和/或,对同一类人群的各类用户身份标识所提供的一个标识。
[0024] 由于两个用户身份标识之间的关联关系权重越大,其代表两个用户身份标识属于 同一对象(如同一自然人、同一类人群)的可能性越大。因此,可以先对所有用户身份标识中 具有关联关系权重较大的用户身份标识生成相应的用户统一身份标识,在此基础上,计算 其他关联关系权重较小的用户身份标识与已生成的各用户统一身份标识之间的关联关系, 例如,计算与已生成的各用户统一身份标识之间的条件概率。然后,可以将计算的结果与预 先设定的阈值进行比较,以确定该用户身份标识的用户统一身份标识。
[0025] 至此,描述了根据本申请一个实施例的识别用户身份标识的方法100的流程图。 根据本申请的技术方案,能够基于收集的各类用户身份标识以及用户身份标识之间的关联 关系,获取各类用户身份标识之间的关联关系权重,并且根据获取的用户身份标识之间的 关联关系权重,可以确定各用户身份标识的用户统一身份标识,从而解决现有技术中无法 将各类用户身份标识映射为同一对象(同一类人群或者同一个自然人)的问题。
[0026] 图2是根据本申请的更详细实施例的识别用户身份标识的方法200的流程图;如 图2所示,方法200开始于步骤201。
[0027] 在步骤201,基于各类用户身份标识的数据结构,构建相应的数据合法性规则,以 对所收集的用户身份标识进行过滤。
[0028] 由于在收集的不同系统的用户身份标识中,有时会出现如缺损数据、重复数据、数 据格式不一致等情况。为了保证数据的质量,可以根据各类用户身份标识的数据结构,构建 相应的数据合法性规则,以对所收集的用户身份标识进行过滤。数据合法性规则是确定数 据是否正常的标准。
[0029] 例如,数据合法性规则可以包括以下规则:
[0030] (1)邮箱:tolower (trim(email))rlike,~\\w+[~@]*@\\w+(\\· [~@]+)*$'
[0031] (2)手机imei :1
当前第1页1 2 3 4 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1