唯一地识别网络连接实体的制作方法_3

文档序号:9438919阅读:来源:国知局
码。然后,例程在 步骤304处继续,以执行实体检测。优选地,检测通过对签名数据的逻辑决定处理完成,逻 辑涉及一个或多个专家规则的集合、以及一个或多个概率规则。因此,在步骤306处,确定 性关键字被检验用于查找,以找到匹配。该步骤可以经由散列查找等,通过关键字值查找执 行。如果找到匹配,则在步骤308处,返回与关键字相关联的标识符。与步骤306同时,在 步骤310处检验概率规则,具有多个可能结果之一。如果应用规则返回已知标识符,则在步 骤312处,返回该标识符。如果应用规则不返回已知标识符,则新标识符被生成,并且然后 在步骤314处被添加至数据库。在步骤316处,将新标识符返回到客户端。如果不进行标 识,则在步骤318处,实体被登记用于进一步检验。优选地,步骤306和310并行地完成,但 是这不是必要条件。
[0033] 以下提供关于被估计以生成唯一实体身份的数据库和规则的附加详情。
[0034] 如上所述,优选地,数据库中的每个实体通过唯一地识别实体的字符串属性ID与 可以被单独或一起使用以唯一地限定ID的值的特征集合一起被识别。第一子系统通过应 用一个或多个签名提取器以提供对由客户端或结合客户端提供的对特征数据之一或集合 编码的特征集合,来创建实体签名104(在图1中)。根据特征的类型,以不同格式对不同特 征编码。因此,在一个示例实施例中,通过变换集合,即,从特征空间F= {ID,FyTimestamp : i = 1,2, · · ·,η}到表示空间 H = {ID,H(F1) :1 = 1,2, · · ·,n},完成编码。变换 HO 可以 是简单变换、包括一个或多个值的标量或矢量诸如:值、近因、频率、概率分布、分布的一个 或多个参数等。
[0035] 如上所述,一种类型的确定性标识符可以是(或包括)"关键字"。关键字是可以 用于唯一地查找实体的ID的单个属性。关键字通常是由提供商分配给用户的标识符(例 如,cookie、设备标识符、MSISDN、电话号码、电子邮件地址、用户标识符等)。关键字通常采 用字符串格式。为了快速访问,变换可以使用诸如MD5、SHA-1等的散列函数实现。在该情况 下,散列函数可以用于对原始关键字编码。例如,以下规则可以用于产生新关键字。从而,例 如,使HASH (SEED)是散列函数(诸如,SHAl、MD5),产生具有关键字值"SEED (种子)"的字 符串散列。然后,函数HASH (SEED)被用作新值。在不限于以上的情况下,以下种子关键字可 以由默认值使用,用于特定流行移动设备0S,这导致0DNI-1等效关键字:用于iOS的MAC/ UUID,用于 Android 的 Anddroid_ID,以及用于基于 Windows 的电话的 DeviceUniqueld。如 果关键字不可用,则作为代替,可以生成并且使用随机种子。根据应用环境,应用数据传输 机制的一些形式(诸如,i〇S中的UIPasteboard)被用于发射散列值,以确保所有应用都使 用相同ID。除了散列关键字之外,关于如何生成散列值的信息(例如,诸如MAC、頂EI等的 关键字类型)还可以被发射至系统,以便于处理。
[0036] 通过很多客户端设备,通常从单个设备同时使用多个应用并且甚至web浏览器实 例。如在此描述的,特征收集的主要目标在于,生成可以用于将所有应用和web用法链接至 相同用户(或所限定用户组)的统一标识符。对于web浏览器,通常cookie被用作默认关 键字。为了将散列ID链接至浏览器cookie,可以从具有到服务器的URL的应用打开浏览 器,然后如果其还未退出,则设置cookie。在处理中,散列关键字使用已知机制(例如,URL 装饰机制)与cookie -起被发送至服务器。在移动设备中,诸如用于iOS的UDID的设备 ID、以及MAC、MEID、頂EI、以及ESN可以被用作这样的关键字。
[0037] 转到非关键字数据,优选地,诸如访问持续时间、时区偏移等的数值特征变量被编 码为数值,并且特别是为数值属性的格式。诸如设备模型的种类特征被用作这样的数据,并 且优选地被编码为字符串或整数种类编码。另一种编码类型是范围,诸如,星期几、时刻、以 及呼叫持续时间。种类特征还可以被分组为集合,集合优选地被用作单个特征实体。诸如 访问图案的其他特征可以以概率分布的形式表示。一个这样的属性可以是以下之一:典型 访问图案、应用的使用持续时间、以及网站内容。概率分布可以被参数表示,或者变量可以 被分组,并且使用累积分布。特征集合可以包括通过一个或多个变换的以上属性的直接编 码。而且,还可以包括诸如用户到行为种类的分类、社会团体和家庭的推断属性。
[0038] 当相同实体使用不同设备访问相同内容时,来自不同设备的标识符可以使用诸如 电子邮件的共享关键字或其他关键字匹配,或者联合通过用法和其他外部特征,链接至相 同实体。优选地,并且如在以下更详细描述的,这通过查找步骤完成,查找步骤包括对所选 特征子集应用包括专家规则和概率规则的规则集合。
[0039] 如图1中所示,标识服务子系统使用现在描述的标识规则集合。实时地或者作为 后端处理,优选使用一个或多个距离度量的集合,以测量每个编码特征属性H(F1)与输入属 性的亲密度。根据属性的类型,以下类型的距离度量可以被使用:数值距离(欧几里得距 离)、种类距离、字符串距离(包括基于令牌环的距离,诸如TF-IDF)、集合成员、以及概率距 离(用于与诸如访问持续时间、时刻等的属性一起使用)。
[0040] 有利地,在单个架构中一起使用多个距离度量。从而,例如,可以对设备模型和用 户代理商使用字符串度量;可以对上下文种类和一些典型人口统计属性使用种类度量。可 以对访问时间、行为特征等使用概率距离。特别是,期望限定关于距离度量的规则集合,其 然后使用专家和概率规则被混合,以识别并且检索唯一实体身份。
[0041] 例如,在移动广告的情况下,可以由具有或不具有诸如cookie、设备ID、客户端IP 地址、炜度或经度等的确定性数据的系统,接收对广告的请求("广告请求")、以及指示内 容的URL。可以存在多个专家规则,诸如:对诸如cookie、设备ID、或电子邮件地址的确定 性数据使用快速字符串匹配;对诸如经度和炜度等的其他类型的确定性数据使用距离匹配 (例如,使用数值距离度量)。以上可以生成一个或多个候选实体身份。优选地,还存在至 少一个概率性匹配规则,其然后被应用以过滤进一步跨越数据库中的窄搜索窗口的实体身 份(并且以更细粒度方式)。一个这样的概率规则可以是:计算关于包括以下一个或多个 的用法的联合分布的匹配:内容类型、时刻、使用持续时间等。针对数据库或者针对从数据 库返回的结果,可以存在一个或很多通道(pass)。在以此方式应用专家和概率规则之后,返 回对广告请求的响应。该响应可以是实体身份或者基于从数据库搜索返回的实体身份选择 的给定内容(例如,广告)。
[0042] 在不限制的情况下,结合规则使用的距离度量可以是二进制匹配距离。最简单规 则是关于关键字值的二进制匹配。在该情况下,如果并且只有两个属性的编码准确地匹配, 则Distance (H(FKey),H(Skey) =0。传统上,二进制匹配得分被用于具有字符串属性的记录 链接。该方法可以使用距离度量扩展至其他类型的属性。通常,为每个特征属性,设置阈值。 如果属性高于阈值,则规则匹配得分被设置为1 (不匹配)和〇 (其他)。这允许子系统将二 进制匹配规则扩展至任何类型的属性,并且得出同时涉及更多属性的实际概率规则。例如, 并且使用对关于集合的距离的二进制规则,如果传入属性是集合成员,则考虑匹配(值〇), 否则考虑不匹配(值1)。作为另一个实例,二进制得分可以扩展至概率分布。从而,当属性 是概率分布时,二进制规则被用于优选地通过置信度,描述特征属性是否来自分布函数。
[0043] 更通常情况是分配表示匹配度的标量得分(例如,[0, 1]之间的连续变量)。使用 得分来通过建模限定规则。匹配规则确定如何使用签名数据识别唯一实体身份。对于每个 输入特征集合(S1,1 <= I <= η},系统针对数据库中的候选匹配记录的子集,计算每个特 征的距离。匹配规则将该距离作为输入,并且作出特征是否被映射至数据库中的现有实体 身份的决定。
[0044] 确定性规则是返回一个或多个实体身份(每个都与标识符相关联)的规则:
[0045] 规则:{Di stanceOf (H(Fi),H(Si)) :1< = Ι< = η} - ID0
[0046] 简单实例是当输入特征3;是cookie时。在这样的情况下,DistanceOf函数然后 使用准确字符串匹配规则,采用为1(其中,不存在匹配)和〇(当存在匹配时)的值估计。 在另一个实例中,使用IP地址和位置参数,专家规则可以规定设备模型被一起使用;当参 数返回DistanceOf = 0时,找到匹配。当然,这些实例仅是代表性的。
[0047] 然而,当不存在将被用作用于查找标识符的关键字的特征时,优选地使用一个或 多个概率规则。优选方法实现记录链接定向调节的概念。记录链接(RL)是指找到数据集合 中的记录的任务,数据集合中的记录是指跨越不同数据源(例如,数据文件、书、网站、数据 库)的相同实体。当基于可能或可能不共享公共标识符的实体,结合数据集合时,记录链接 是必须的。该类型的数学理论在由Fellegi和Sunter作出的名为"A theory for record linkage"的文章和由其他人作出的随后工作中描述。一种类型的记录链接是基于确定性或 规则的记录链接,其基于在可用数据集合之间匹配的各个标识符的数量生成链接。更复杂 方法、概率记录链接考虑更广泛范围的可能标识符,基于正确识别匹配或不匹配的其估计 能力,计算用于每个标识符的权重,并且使用这些权重计算两个给定记录是指相同实体的 概率。在该方法中,具有超过特
当前第3页1 2 3 4 5 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1