用户画像数据过滤方法及装置与流程

文档序号:16781702发布日期:2019-02-01 19:11阅读:252来源:国知局
用户画像数据过滤方法及装置与流程

本公开涉及数据处理技术领域,尤其涉及用户画像数据过滤方法及装置。



背景技术:

目前在数据统计领域,因为统计的维度不同,一定会涉及到用户标识(id)和设备id这两种id的关联,推送面对海量的用户id数据和复杂的统计逻辑,需要在数据清洗和数据分析层面对不同id进行映射整合。

相关技术中,通过将各类用户id和设备id进行关联映射和聚合,以提升数据质量。



技术实现要素:

为克服相关技术中存在的问题,本公开实施例提供一种用户画像数据过滤方法及装置。所述技术方案如下:

根据本公开实施例的第一方面,提供一种用户画像数据过滤方法,方法包括:

将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据;所述待处理用户画像数据包括所述用户标识及加密后的设备标识;

根据预先确定的至少两个不同机型的型号核准号码tac,批量生成基于各所述tac的两个以上的批量国际移动设备识别码imei,并搜索所述第一用户画像数据中与各所述批量imei对应的第一加密后的imei;

根据生成各所述批量imei所使用的tac、及与各所述第一加密后的imei所关联的机型信息,筛选出各所述第一加密后的imei中的脏数据;

将所述脏数据从所述第一用户画像数据中过滤,得到第二用户画像数据。

本公开的实施例提供的技术方案可以包括以下有益效果:该技术方案通过批量生成基于多个机型的tac的批量imei,并从第一用户画像数据中找到与各批量imei对应的imeimd5,然后根据生成各批量imei所使用的tac、及与各批量imei对应的imeimd5所关联的机型信息,筛选出与各批量imei对应的imeimd5中的脏数据,进而从第一用户画像数据中过滤掉脏数据,提高数据质量,提高信息推送的准确性和可靠性。

在一个实施例中,所述搜索所述第一用户画像数据中与各所述批量imei对应的第一加密后的imei,包括:

将各所述批量imei分别加密,得到分别与各所述批量imei对应的第二加密后的imei;

将所述第二加密后的imei与所述第一用户画像数据中加密后的设备标识进行匹配;

将所述第一用户画像数据中与所述第二加密后的imei匹配的加密后的设备标识,确定为所述第一用户画像数据中与各所述批量imei对应的第一加密后的imei。

在一个实施例中,所述根据生成各所述批量imei所使用的tac、及与各所述第一加密后的imei所关联的机型信息,筛选出各所述第一加密后的imei中的脏数据,包括:

判断生成各所述批量imei所使用的tac与各所述第一加密后的imei所关联的机型信息是否匹配;

将各所述第一加密后的imei中所关联的机型信息与生成各所述批量imei所使用的tac不匹配的加密后的imei,确定为各所述第一加密后的imei中的脏数据。

在一个实施例中,所述将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据,包括:

分别以各所述加密后的设备标识为关键字对所述待处理用户画像数据进行拆分并重新聚合;

将上述拆分并重新聚合的步骤迭代执行多次,得到各所述加密后的设备标识各自对应的值;

根据各所述加密后的设备标识各自对应的值,生成以设备标签为关键字的第一用户画像数据;所述设备标签对应于具有相同值的加密后的设备标识。

在一个实施例中,所述加密后的设备标识,包括:加密后的imei、加密后的移动设备识别码meid、及加密后的媒体接入控制。

根据本公开实施例的第二方面,提供一种用户画像数据过滤装置,装置包括:

聚合模块,用于将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据;所述待处理用户画像数据包括所述用户标识及加密后的设备标识;

生成模块,用于根据预先确定的至少两个不同机型的型号核准号码tac,批量生成基于各所述tac的两个以上的批量国际移动设备识别码imei,并搜索所述第一用户画像数据中与各所述批量imei对应的第一加密后的imei;

筛选模块,用于根据生成各所述批量imei所使用的tac、及与各所述第一加密后的imei所关联的机型信息,筛选出各所述第一加密后的imei中的脏数据;

过滤模块,用于将所述脏数据从所述第一用户画像数据中过滤,得到第二用户画像数据。

在一个实施例中,所述生成模块,包括:

加密子模块,用于将各所述批量imei分别加密,得到分别与各所述批量imei对应的第二加密后的imei;

匹配子模块,用于将所述第二加密后的imei与所述第一用户画像数据中加密后的设备标识进行匹配;

第一确定子模块,用于将所述第一用户画像数据中与所述第二加密后的imei匹配的加密后的设备标识,确定为所述第一用户画像数据中与各所述批量imei对应的第一加密后的imei。

在一个实施例中,所述筛选模块,包括:

判断子模块,用于判断生成各所述批量imei所使用的tac与各所述第一加密后的imei所关联的机型信息是否匹配;

第二确定子模块,用于将各所述第一加密后的imei中所关联的机型信息与生成各所述批量imei所使用的tac不匹配的加密后的imei,确定为各所述第一加密后的imei中的脏数据。

在一个实施例中,所述聚合模块,包括:

聚合子模块,用于分别以各所述加密后的设备标识为关键字对所述待处理用户画像数据进行拆分并重新聚合;

迭代子模块,用于将上述拆分并重新聚合的步骤迭代执行多次,得到各所述加密后的设备标识各自对应的值;

生成子模块,用于根据各所述加密后的设备标识各自对应的值,生成以设备标签为关键字的第一用户画像数据;所述设备标签对应于具有相同值的加密后的设备标识。

根据本公开实施例的第三方面,提供一种用户画像数据过滤装置,包括:

处理器;

用于存储处理器可执行指令的存储器;

其中,所述处理器被配置为:

将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据;所述待处理用户画像数据包括所述用户标识及加密后的设备标识;

根据预先确定的至少两个不同机型的型号核准号码tac,批量生成基于各所述tac的两个以上的批量国际移动设备识别码imei,并搜索所述第一用户画像数据中与各所述批量imei对应的第一加密后的imei;

根据生成各所述批量imei所使用的tac、及与各所述第一加密后的imei所关联的机型信息,筛选出各所述第一加密后的imei中的脏数据;

将所述脏数据从所述第一用户画像数据中过滤,得到第二用户画像数据。

根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述第一方面中任意一项所述方法实施例的步骤。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的用户画像数据过滤方法的流程图。

图2是根据一示例性实施例示出的用户画像数据过滤方法的流程图。

图3是根据一示例性实施例示出的用户画像数据过滤方法的流程图。

图4是根据一示例性实施例示出的用户画像数据过滤装置的框图。

图5是根据一示例性实施例示出的用户画像数据过滤装置的框图。

图6是根据一示例性实施例示出的用户画像数据过滤装置的框图。

图7是根据一示例性实施例示出的用户画像数据过滤装置的框图。

图8是根据一示例性实施例示出的用户画像数据过滤装置的框图。

图9是根据一示例性实施例示出的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

相关技术中,通过将各类用户id和设备id进行关联映射和聚合,以此提升数据质量。但是,相关技术只是将各类用户id和设备id进行关联映射和聚合,却并不能保证聚合的正确性,无法过滤掉错误的国际移动设备识别码(imei,internationalmobileequipmentidentificationnumber)信息-摘要算法5(md5,message-digestalgorithm5),数据质量依然较差,造成信息推送的准确性和可靠性较差。

为了解决上述问题,本公开实施例提供了一种用户画像数据过滤方法,方法包括:将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据;待处理用户画像数据包括用户标识及加密后的设备标识;根据预先确定的至少两个不同机型的型号核准号码(tac),批量生成基于各tac的两个以上的批量imei,并搜索第一用户画像数据中与各批量imei对应的第一加密后的imei;根据生成各批量imei所使用的tac、及与各第一加密后的imei所关联的机型信息,筛选出各第一加密后的imei中的脏数据;将脏数据从第一用户画像数据中过滤,得到第二用户画像数据。本公开实施例通过批量生成基于多个机型的tac的批量imei,并从第一用户画像数据中找到与各批量imei对应的imeimd5,然后根据生成各批量imei所使用的tac、及与各批量imei对应的imeimd5所关联的机型信息,筛选出与各批量imei对应的imeimd5中的脏数据,进而从第一用户画像数据中过滤掉脏数据,提高数据质量,提高信息推送的准确性和可靠性。

在上述分析的基础上,下面介绍本公开方法实施例。

图1是根据一示例性实施例示出的一种用户画像数据过滤方法的流程图;该方法的执行主体可以为服务器;如图1所示,该方法包括以下步骤101-104:

在步骤101中,将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据;待处理用户画像数据包括用户标识及加密后的设备标识。

示例的,加密后的移动设备识别码包括:加密后的imei、和加密后的移动设备识别码(meid,mobilestationequipmentidentifier)。加密后的imei例如为imeimd5,加密后的meid例如为meidmd5,加密后的媒体接入控制例如为macmd5。

示例的,待处理用户画像数据,包括:新增的用户画像数据、及历史的用户画像数据。例如,可以每天将日志中新增的用户画像数据按照用户标识(uuid)为key存储起来,接着和历史的用户画像数据组合起来形成全部的以uuid为key的待处理用户画像,待处理用户画像数据包括uuid、imeimd5、meid及macmd5。可选的,待处理用户画像数据还可以包括国际移动用户识别码(imsi,internationalmobilesubscriberidentificationnumber)。需要说明的是,处于用户隐私保护的原因,服务器不能直接采集设备的imei,只能采集加密的imei然后存储,例如imeimd5。

示例的,待处理用户画像数据的维度可以包括用户标识、加密后的移动设备识别码及加密后的媒体接入控制。示例的,分别以各加密后的设备标识为关键字对待处理用户画像数据进行拆分并重新聚合;将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值;根据各加密后的设备标识各自对应的值,生成以设备标签为关键字的第一用户画像数据;设备标签对应于具有相同值的加密后的设备标识。在一实施例中,上述拆分并重新聚合的步骤迭代执行的次数例如为两次,但本公开实施例不以此为限。这样经过三轮的打散及聚合处理之后,各加密后的设备标识都有了聚合之后的值,而设备标签与具有相同值的加密后的设备标识建立一对多的映射关系;从而通过将待处理用户画像数据拆分并重新聚合,迭代三次后生成以设备标签为关键字的第一用户画像数据。

需要说明的是,通常双卡双待设备可能会有2个imeimd5和1个meidmd5,在此种情形下最多只需3轮聚合即可实现用户画像数据的数据存储形式的转变。

在步骤102中,根据预先确定的至少两个不同机型的tac,批量生成基于各tac的两个以上的批量imei,并搜索第一用户画像数据中与各批量imei对应的第一加密后的imei。

例如,对于市面上的设备,由于前十大品牌占据了新增设备量的绝大多数份额,因此通过有效清洗前十大品牌的设备所对应的数据,即可大幅度提高数据质量。由于数据采集的时候通常也会采集设备的机型,因此可以在第一用户画像数据中通过imeimd5找到关联的机型、品牌等信息。同时,imei是由tac、snr、sp等组成,其中tac为前8位数字,可以唯一标识一类机型;snr为后6位数字,可以标识生产顺序号;sp为预留备用。通过分析公开渠道获取的imei可以获知这些imei对应的tac,进而获知市面杀青都有哪些tac存在,将这些tac作为预先确定的至少两个不同机型的tac。根据这些tac,批量生成基于各tac的两个以上的批量imei。可选的,也可以直接从网络或特定的社会组织(例如负责分配tac的组织)获取前十大品牌的机型的tac。

然后,在第一用户画像数据中搜索与各批量imei对应的第一加密后的imei。例如,将各批量imei分别加密,得到分别与各批量imei对应的第二加密后的imei;将第二加密后的imei与第一用户画像数据中加密后的设备标识进行匹配;将第一用户画像数据中与第二加密后的imei匹配的加密后的设备标识,确定为第一用户画像数据中与各批量imei对应的第一加密后的imei,并在第一用户画像数据中查找与各第一加密后的imei所关联的机型信息。

在步骤103中,根据生成各批量imei所使用的tac、及与各第一加密后的imei所关联的机型信息,筛选出各第一加密后的imei中的脏数据。

示例的,判断生成各批量imei所使用的tac与各第一加密后的imei所关联的机型信息是否匹配;将各第一加密后的imei中所关联的机型信息与生成各批量imei所使用的tac不匹配的加密后的imei,确定为各第一加密后的imei中的脏数据。例如,由于每个tac唯一标识一种机型,以tac1为例,批量生成基于tac1的两个以上的批量imei,并搜索第一用户画像数据中与各批量imei对应的imeimd5及机型信息;考虑到脏数据毕竟是少数,因此将基于tac1的大部分imei所对应的同一机型信息,确定为该tac1所对应的机型信息1。如果某个基于tac1的imei1所对应的机型信息不是机型信息1,那么可以确定第一用户画像数据中与该imei1对应的imeimd5是错误的。

举例如下:假设35226005这个tac对应的大部分机型都是设备商a的机型a,但是发现35226005这个tac对应的某几个imeimd5对应的机型是设备商b的机型b,那说明这几台机器的imeimd5是有问题的,可能是被刷过机,需要当做脏数据处理。

在步骤104中,将脏数据从第一用户画像数据中过滤,得到第二用户画像数据。

可选的,可以将这些脏数据单独抽取并存储起来,一方面可以用于后期问题排查及回溯,另一方面,积累的脏数据可以用于黑产识别等领域。

本公开实施例提供的技术方案,通过批量生成基于多个机型的tac的批量imei,并从第一用户画像数据中找到与各批量imei对应的imeimd5,然后根据生成各批量imei所使用的tac、及与各批量imei对应的imeimd5所关联的机型信息,筛选出与各批量imei对应的imeimd5中的脏数据,进而从第一用户画像数据中过滤掉脏数据,能够提高数据质量,如此,能够提高信息推送的准确性和可靠性。

图2是根据一示例性实施例示出的一种用户画像数据过滤方法的流程图。如图2所示,在图1所示实施例的基础上,本公开涉及的用户画像数据过滤方法可以包括以下步骤201-205:

在步骤201中,将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据;待处理用户画像数据包括用户标识及加密后的设备标识。

在步骤202中,根据预先确定的至少两个不同机型的tac,批量生成基于各tac的两个以上的批量imei,并搜索第一用户画像数据中与各批量imei对应的第一加密后的imei。

在步骤203中,判断生成各批量imei所使用的tac与各第一加密后的imei所关联的机型信息是否匹配。

在步骤204中,将各第一加密后的imei中所关联的机型信息与生成各批量imei所使用的tac不匹配的加密后的imei,确定为各第一加密后的imei中的脏数据。

在步骤205中,将脏数据从第一用户画像数据中过滤,得到第二用户画像数据。

本公开实施例提供的技术方案,通过将生成各批量imei所使用的tac与各批量imei对应的imeimd5所关联的机型信息进行匹配,筛选出与各批量imei对应的imeimd5中的脏数据,并从第一用户画像数据中过滤掉脏数据,提高数据质量。

图3是根据一示例性实施例示出的一种用户画像数据过滤方法的流程图。如图3所示,在图1所示实施例的基础上,本公开涉及的用户画像数据过滤方法可以包括以下步骤301-307:

在步骤301中,将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据;

待处理用户画像数据包括用户标识及加密后的设备标识。

在步骤302中,根据预先确定的至少两个不同机型的tac,批量生成基于各tac的两个以上的批量imei。

在步骤303中,将各批量imei分别加密,得到分别与各批量imei对应的第二加密后的imei。

在步骤304中,将第二加密后的imei与第一用户画像数据中加密后的设备标识进行匹配;将第一用户画像数据中与第二加密后的imei匹配的加密后的设备标识,确定为第一用户画像数据中与各批量imei对应的第一加密后的imei。

在步骤305中,判断生成各批量imei所使用的tac与各第一加密后的imei所关联的机型信息是否匹配。

在步骤306中,将各第一加密后的imei中所关联的机型信息与生成各批量imei所使用的tac不匹配的加密后的imei,确定为各第一加密后的imei中的脏数据。

在步骤307中,将脏数据从第一用户画像数据中过滤,得到第二用户画像数据。

本公开实施例提供的技术方案,通过将批量生成的批量imei分别加密得到分别与各批量imei对应的第二加密后的imei,将第二加密后的imei与第一用户画像数据中加密后的设备标识进行匹配,这就可以建立“tac-批量imei-第二加密后的imei-第一加密后的imei-机型”的映射关系,进而利用tac与机型的映射关系识别并过滤第一用户画像数据中错误的imeimd5,从而提高数据质量,能够提高信息推送的准确性和可靠性。

下述为本公开装置实施例,可以用于执行本公开方法实施例。

图4是根据一示例性实施例示出的一种用户画像数据过滤装置的框图;该装置可以采用各种方式来实施,例如在服务器中实施装置的全部组件,或者,在服务器侧以耦合的方式实施装置中的组件;该装置可以通过软件、硬件或者两者的结合实现上述本公开涉及的方法;

如图4所示,该用户画像数据过滤装置包括:聚合模块401、生成模块402、筛选模块403及过滤模块404,其中:

聚合模块401被配置为将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据;待处理用户画像数据包括用户标识及加密后的设备标识;

生成模块402被配置为根据预先确定的至少两个不同机型的tac,批量生成基于各tac的两个以上的批量imei,并搜索第一用户画像数据中与各批量imei对应的第一加密后的imei;

筛选模块403被配置为根据生成各批量imei所使用的tac、及与各第一加密后的imei所关联的机型信息,筛选出各第一加密后的imei中的脏数据;

过滤模块404被配置为将脏数据从第一用户画像数据中过滤,得到第二用户画像数据。

本公开实施例提供的装置能够用于执行图1所示实施例的技术方案,其执行方式和有益效果类似,此处不再赘述。

在一种可能的实施方式中,如图5所示,图4示出的用户画像数据过滤装置还可以包括把生成模块402配置成包括:加密子模块501、匹配子模块502及第一确定子模块503,其中:

加密子模块501被配置为将各批量imei分别加密,得到分别与各批量imei对应的第二加密后的imei;

匹配子模块502被配置为将第二加密后的imei与第一用户画像数据中加密后的设备标识进行匹配;

第一确定子模块503被配置为将第一用户画像数据中与第二加密后的imei匹配的加密后的设备标识,确定为第一用户画像数据中与各批量imei对应的第一加密后的imei。

在一种可能的实施方式中,如图6所示,图4示出的用户画像数据过滤装置还可以包括把筛选模块403配置成包括:判断子模块601及第二确定子模块602,其中:

判断子模块601被配置为判断生成各批量imei所使用的tac与各第一加密后的imei所关联的机型信息是否匹配;

第二确定子模块602被配置为将各第一加密后的imei中所关联的机型信息与生成各批量imei所使用的tac不匹配的加密后的imei,确定为各第一加密后的imei中的脏数据。

在一种可能的实施方式中,如图7所示,图4示出的用户画像数据过滤装置还可以包括把聚合模块401配置成包括:聚合子模块701、迭代子模块702及生成子模块703,其中:

聚合子模块701被配置为分别以各加密后的设备标识为关键字对待处理用户画像数据进行拆分并重新聚合;

迭代子模块702被配置为将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值;

生成子模块703被配置为根据各加密后的设备标识各自对应的值,生成以设备标签为关键字的第一用户画像数据;设备标签对应于具有相同值的加密后的设备标识。

在一实施例中,上述拆分并重新聚合的步骤迭代执行的次数例如为两次,但本公开实施例不以此为限。

图8是根据一示例性实施例示出的一种用户画像数据过滤装置800的框图,用户画像数据过滤装置800适用于服务器,用户画像数据过滤装置800包括:

处理器801;

用于存储处理器可执行指令的存储器802;

其中,处理器801被配置为:

将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据;待处理用户画像数据包括用户标识及加密后的设备标识;

根据预先确定的至少两个不同机型的tac,批量生成基于各tac的两个以上的批量imei,并搜索第一用户画像数据中与各批量imei对应的第一加密后的imei;

根据生成各批量imei所使用的tac、及与各第一加密后的imei所关联的机型信息,筛选出各第一加密后的imei中的脏数据;

将脏数据从第一用户画像数据中过滤,得到第二用户画像数据。

在一个实施例中,上述处理器801还可被配置为:

将各批量imei分别加密,得到分别与各批量imei对应的第二加密后的imei;

将第二加密后的imei与第一用户画像数据中加密后的设备标识进行匹配;

将第一用户画像数据中与第二加密后的imei匹配的加密后的设备标识,确定为第一用户画像数据中与各批量imei对应的第一加密后的imei。

在一个实施例中,上述处理器801还可被配置为:

判断生成各批量imei所使用的tac与各第一加密后的imei所关联的机型信息是否匹配;

将各第一加密后的imei中所关联的机型信息与生成各批量imei所使用的tac不匹配的加密后的imei,确定为各第一加密后的imei中的脏数据。

在一个实施例中,上述处理器801还可被配置为:

分别以各加密后的设备标识为关键字对待处理用户画像数据进行拆分并重新聚合;

将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值;

根据各加密后的设备标识各自对应的值,生成以设备标签为关键字的第一用户画像数据;设备标签对应于具有相同值的加密后的设备标识。

在一实施例中,上述拆分并重新聚合的步骤迭代执行的次数例如为两次,但本公开实施例不以此为限。

在一个实施例中,加密后的设备标识,包括:加密后的imei、加密后的移动设备识别码meid、及加密后的媒体接入控制。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

图9是根据一示例性实施例示出的一种装置的框图。例如,装置900可以被提供为一服务器。装置900包括处理组件902,其进一步包括一个或多个处理器,以及由存储器903所代表的存储器资源,用于存储可由处理组件902的执行的指令,例如应用程序。存储器903中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件902被配置为执行指令,以执行上述方法。

装置900还可以包括一个电源组件906被配置为执行装置900的电源管理,一个有线或无线网络接口905被配置为将装置900连接到网络,和一个输入输出(i/o)接口908。装置900可以操作基于存储在存储器903的操作系统,例如windowsservertm,macosxtm,unixtm,linuxtm,freebsdtm或类似。

一种非临时性计算机可读存储介质,当存储介质中的指令由装置900的处理器执行时,使得装置900能够执行如下方法:

将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据;待处理用户画像数据包括用户标识及加密后的设备标识;

根据预先确定的至少两个不同机型的tac,批量生成基于各tac的两个以上的批量imei,并搜索第一用户画像数据中与各批量imei对应的第一加密后的imei;

根据生成各批量imei所使用的tac、及与各第一加密后的imei所关联的机型信息,筛选出各第一加密后的imei中的脏数据;

将脏数据从第一用户画像数据中过滤,得到第二用户画像数据。

在一个实施例中,搜索第一用户画像数据中与各批量imei对应的第一加密后的imei,包括:

将各批量imei分别加密,得到分别与各批量imei对应的第二加密后的imei;

将第二加密后的imei与第一用户画像数据中加密后的设备标识进行匹配;

将第一用户画像数据中与第二加密后的imei匹配的加密后的设备标识,确定为第一用户画像数据中与各批量imei对应的第一加密后的imei。

在一个实施例中,根据生成各批量imei所使用的tac、及与各第一加密后的imei所关联的机型信息,筛选出各第一加密后的imei中的脏数据,包括:

判断生成各批量imei所使用的tac与各第一加密后的imei所关联的机型信息是否匹配;

将各第一加密后的imei中所关联的机型信息与生成各批量imei所使用的tac不匹配的加密后的imei,确定为各第一加密后的imei中的脏数据。

在一个实施例中,将以用户标识为关键字的待处理用户画像数据的每个维度都单独拆分并重新聚合,生成以设备标签为关键字的第一用户画像数据,包括:

分别以各加密后的设备标识为关键字对待处理用户画像数据进行拆分并重新聚合;

将上述拆分并重新聚合的步骤迭代执行多次,得到各加密后的设备标识各自对应的值;

根据各加密后的设备标识各自对应的值,生成以设备标签为关键字的第一用户画像数据;设备标签对应于具有相同值的加密后的设备标识。

在一实施例中,上述拆分并重新聚合的步骤迭代执行的次数例如为两次,但本公开实施例不以此为限。

在一个实施例中,加密后的设备标识,包括:加密后的imei、加密后的移动设备识别码meid、及加密后的媒体接入控制。

本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。

应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1