一种基于贪心子图切分的IDMapping身份融合方法与流程

文档序号:37510324发布日期:2024-04-01 14:17阅读:14来源:国知局
一种基于贪心子图切分的IDMapping身份融合方法与流程

本发明属于云计算领域,尤其涉及一种基于贪心子图切分的idmapping身份融合方法。


背景技术:

1、互联网技术的迅猛发展,使人们的上网便利性不断提升,互联网已经成为我们日常生活中不可或缺的一部分。在这个数字时代,人们在社交软件、电商平台等网络空间留下大量个人数据,包括注册数据、关联信息等,形成了庞大而复杂的数据网络。然而,正式这些数据的丰富性和多样性,也带来了身份管理挑战,尤其是涉及多源数据融合和身份融合的情况下。为了解决以上问题,有一套可靠的思想和方法,那就是oneid,其做法是通过统一的属性连接和识别,同时使得数据管理方便快捷。简单来说,就是身份证、手机、虚拟身份、设备信息等,在对应的业务数据中,会被映射为唯一全局标识—guid上,其各个维度的数据通过这个guid进行关联,对所有数据进行彻底贯通。其中idmapping是oneid方法论中的关键实现技术。

2、目前idmapping技术的实现可概括为以下两种方法:

3、1、使用kv数据库,借助外部存储实现idmapping。首先设计键值模型,将身份要素与唯一全局标识存储在数据库中,然后建立查询接口支持身份要素和唯一全局标识的快速检索。该方法存在的问题是有些身份要素可能属于同一个实体,但是在某个阶段,它们之间没有任何联系,那么这个实体的要素可能会被打上不同的全局标识。若定期对kv数据库的映射进行整理合并,则有可能带来另一个问题,两个不同的的实体被映射到同一个全局标识,也就是说,kv数据库处理冲突关系能力较差;

4、2、使用机器学习和数据挖掘方法实现idmapping。通过提取特征,利用机器学习模型学习身份要素之间的相似性,以确定最可能匹配的用户;或者身份要素数据聚类,从而发现潜在的群组结构,有助于识别同一实体的不同要素;也可以利用深度神经网络进行端到端的学习,可以直接从原始数据中提取特征,并学习身份要素之间复杂的关联映射关系。然而机器学习方法对于大量、高质量的训练数据敏感,如果数据不足或质量不高,模型可能产生过拟合或欠拟合,导致准确率下降。而深度学习等复杂模型通常需要大量资源进行训练和推荐,部署模型也较为复杂。此外,机器学习模型缺乏可解释性可能也会成为一个问题。


技术实现思路

1、本发明所要解决的技术问题是针对背景技术的不足提供一种基于贪心子图切分的idmapping身份融合方法,针对现有idmapping身份融合技术方法存在的问题,解决多源关联数据融合、用户画像构建难题。

2、本发明为解决上述技术问题采用以下技术方案:

3、一种基于贪心子图切分的idmapping身份融合方法,具体包含如下步骤;

4、步骤1,基于贪心算法和图算法,对多源关联数据进行预处理,抽取出身份要素两两关系数据,根据关系的累计发现天数、最近发现时间、数据来源以及当前时间计算出关系之间的初始链接权重,接着把身份要素和两两关系抽象成点和边,构建无向连通图;

5、步骤2,根据连通图的自身结构和连接状态对初始链接权重进行更新;

6、步骤3,采用贪心算法对更新了边权重的连通图进行子图切分;

7、步骤4,根据手机的备注名属性进行子图合并处理;

8、步骤5,将属于同一实体的各个身份要素赋予相同的全局唯一标识。

9、作为本发明一种基于贪心子图切分的idmapping身份融合方法的进一步优选方案,在步骤1中,对多源关联数据进行预处理,具体包含如下步骤:

10、步骤1.1,从多源数据中抽取符合条件的两两关系数据,包括身份证-手机、手机-虚拟身份、手机-设备信息,获取每条关系数据的累计发现天数、最近发现时间、数据来源;

11、步骤1.2,计算每条关系的初始链接权重,公式如下:

12、

13、其中,表示节点vi与vj之间关联关系的初始链接权重,td是累计发现天数,ct是当前时间绝对秒,lt是最近发现时间绝对秒,tsource是数据来源可信度,α、β、γ是可配置的影响因子;

14、步骤1.3,将身份要素作为节点,要素类型作为节点属性,备注名作为手机节点属性,两两关系作为边,构建出无向连通图;

15、步骤1.4,构建出连通图后,根据连通图的连接状态和各边的初始链接权重对边进行权重更新;具体更新公式为:

16、

17、其中,为边(vi,vj)初始链接强度,为该边的邻域重叠度,为该边的介数,为节点属性的影响因子,α、β、γ、δ分别是初始链接强度、邻域重叠度、边介数、节点属性的影响因子的权重。

18、作为本发明一种基于贪心子图切分的idmapping身份融合方法的进一步优选方案,在步骤2中,根据连通图的自身结构与连接状态,计算图中各边的邻域重叠度、边介数、节点属性影响因子,再结合初始链接权重,对各边的链接权重进行更新。

19、作为本发明一种基于贪心子图切分的idmapping身份融合方法的进一步优选方案,在步骤3中,贪心子图切分,具体包含如下步骤;

20、步骤3.1,查询连通图中所有锚定节点作为锚点集,记作a;所述锚定节点包含优先身份证和手机号;

21、步骤3.2,找到其余节点与锚点集a中节点有边且权重最大的一个节点v1,假设v1与a1的边权重最大,则更新a为{{a1,v1},{a2},{a3},…},同时需要更新v1与a中其它锚点子集中要素的边权重为0;

22、步骤3.3,将锚定子集作为一个整体进行权重,重复第2步的贪心搜索,直至非锚定节点集合为空,也即所有的节点都已加入锚定子集中;

23、步骤3.4,按照锚定集的子集进行子图切分,将节点存在不同子集中的所有边全部断开。

24、作为本发明一种基于贪心子图切分的idmapping身份融合方法的进一步优选方案,在步骤4中,子图合并,具体包含如下步骤:

25、步骤4.1,对不含身份证要素的连通图切图结果进行校验检测,获取所有连通子图中手机号的备注名、将其转为拼音,并计算两个子图中姓名集合的jaccard系数作为相似度合并指标;

26、步骤4.2,将相似度合并指标超过设定阈值的多个子图进行合并,重新归为为同一个主体;

27、步骤4.3,赋予归属于同一实体的各个身份要素相同的全局唯一标识。

28、本发明采用以上技术方案与现有技术相比,具有以下技术效果:

29、本发明基于贪心算法和图算法,首先对多源关联数据进行预处理,抽取出身份要素两两关系数据,根据关系的累计发现天数、最近发现时间、数据来源以及当前时间计算出关系之间的初始链接权重,接着把身份要素和两两关系抽象成点和边,构建无向连通图;然后根据连通图的自身结构和连接状态对初始链接权重进行更新;采用贪心算法对更新了边权重的连通图进行子图切分,再根据手机的备注名属性进行子图合并处理,最后将属于同一实体的各个身份要素赋予相同的全局唯一标识;有效解决多源关联数据融合、用户画像构建难题。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1