一种异常用户识别方法、装置和计算设备与流程

文档序号:17938606发布日期:2019-06-18 22:51阅读:110来源:国知局
一种异常用户识别方法、装置和计算设备与流程
本发明涉及互联网
技术领域
,尤其涉及一种异常用户识别方法、装置和计算设备。
背景技术
:随着移动通信技术的快速发展,人们越来越多的通过上网获取信息,来满足日常的学习工作和生活需求。在这些过程中会产生各种各样的用户标识供应用商收集,以便通过对应用标识进行分析来确定其中的异常用户、刷量数据等。但当前用户标识之间的联系通常是通过行列关系进行存储和处理,导致数据查询及关系运算耗时耗力。而且也难以发现数据中存在的异常值,该异常值会加大数据处理问题及业务问题的难度,比如容易出现数据溢出、程序崩溃、任务频繁重试、业务过多映射、匹配率错误和关系错误的问题。另外,也难以追溯和清洗剔除数据中存在的刷量等“假数据”。因此,需要一种更好的能够识别异常用户的方法。技术实现要素:为此,本发明提供一种异常用户识别方法、装置和计算设备,以力图解决或至少缓解上面存在的问题。根据本发明的一个方面,提供一种异常用户识别方法,适于在计算设备中执行,该方法包括:收集多个设备在业务请求中产生的用户标识记录,每条用户标识记录包括多个用户标识;将每条用户标识记录中的多个用户标识两两生成一个用户标识关系;将用户标识作为网络节点,用户标识关系作为网络路径,生成相应的用户关系网络,用户关系网络包括网络节点的可靠性和网络路径的强度;识别用户关系网络中的正常网络,并监测正常网络被感染为异常网络的感染时间和感染节点;以及将该感染节点所对应的用户标识标记为异常用户标识。可选地,在根据本发明的方法中,还包括步骤:对该感染节点、以及该感染节点在感染时间后所增加的网络节点和网络路径进行删除和记录。可选地,在根据本发明的方法中,还包括用户标识的清洗步骤:根据每个网路节点所对应的用户标识的属性特征计算该网路节点的属性特征分值,并根据属性特征分值对获取到的刷量用户标识进行数据清洗。可选地,在根据本发明的方法中,用户标识的属性特征包括该用户标识的文本类型、文本长度、标识数量、与其他用户标识的距离中的至少一种。可选地,在根据本发明的方法中,还包括用户标识记录的清洗步骤:计算用户标识记录的逻辑评估分值和时间评估分值,并结合该记录中每个用户标识的属性特征分值计算该用户标识记录的总评分;以及根据用户标识记录的总评分对收集到的多条用户标识记录进行数据清洗。可选地,在根据本发明的方法中,逻辑评估分值根据用户标识记录中的各用户标识的类型逻辑计算;时间评估分值根据用户标识记录的采集时间和当前时间的时间差计算得到。可选地,在根据本发明的方法中,还包括用户关系网络的清洗步骤:获取一个用户关系网络中的多个用户标识,并计算该多个用户标识之间的逻辑评估分值;以及结合各用户标识的属性特征分值计算该用户关系网络的总评分,并根据该总评分对生成的用户关系网络进行数据清洗。可选地,在根据本发明的方法中,网络路径的强度根据该网络路径的生成频次和纠偏系数计算得到;网络节点的可靠性根据该网络节点的属性特征分值和该网络节点所连接的节点个数计算得到。可选地,在根据本发明的方法中,用户关系网络还包括网络路径的可靠性,网络路径的可靠性根据该网络路径所对应的两个网络节点的综合属性特征分值和该网络路径的强度计算得到。可选地,在根据本发明的方法中,用户关系网络中正常网络的识别条件包括:每种类型的用户标识数量不超过该类型的额定值;特定时间内的用户标识数量不超过额定值;网络路径的强度与网络路径的生成频次成正比;以及预定时间内的网络节点总数不超过经验最大值。可选地,在根据本发明的方法中,监测正常网络被感染为异常网络的时间点和感染节点的步骤包括:通过对所生成的用户关系网络进行时序监测来确定正常网络被感染为异常网络的感染时间和感染节点。可选地,在根据本发明的方法中,时序监测的方法为基于时间梯度的动态差分方法或图数据的病毒传播路径算法。可选地,在根据本发明的方法中,还包括步骤:对于一个正常网络中的节点a,若节点b出现后满足以下条件,则判定节点b所在网络与节点a所在网络属于同一个设备:节点b所在用户关系网络为正常网络;节点b与节点a的关系节点的交集比例满足预定值;节点b新增后用户关系网络的总节点数依然不超过经验最大值;以及节点b所在的网络路径的强度与该网络路径的生成频次正相关。可选地,在根据本发明的方法中,用户标识包括设备标识、企业标识、imei、mac、androidid、idfa、idfv中的至少一种。根据本发明的另一个方面,提供一种异常用户识别装置,适于驻留在计算设备中,该装置包括:数据收集模块,适于收集多个设备在业务请求中产生的用户标识记录,每条用户标识记录包括多个用户标识;关系生成模块,适于将每条用户标识记录中的多个用户标识两两生成一个用户标识关系;网络生成模块,适于将用户标识作为网络节点,用户标识关系作为网络路径,生成相应的用户关系网络,用户关系网络包括网络节点的可靠性和网络路径的强度;网络监测模块,适于识别用户关系网络中的正常网络,并监测正常网络被感染为异常网络的感染时间和感染节点;以及异常处理模块,适于将该感染节点所对应的用户标识标记为异常用户标识。可选地,在根据本发明的装置中,异常处理模块还适于对感染节点、以及该感染节点在该感染时间后所增加的网络节点和网络路径进行删除和记录。可选地,在根据本发明的装置中,用户关系网络中正常网络的识别条件包括:每种类型的用户标识数量不超过该类型的额定值;特定时间内的用户标识数量不超过额定值;网络路径的强度与网络路径的生成频次成正比;以及预定时间内的网络节点总数不超过经验最大值。可选地,在根据本发明的装置中,网络监测模块适于通过对所生成的用户关系网络进行时序监测来确定正常网络被感染为异常网络的感染时间和感染节点。根据本发明的又一个方面,提供一种计算设备,包括至少一个处理器;以及包括计算机程序指令的至少一个存储器;所述至少一个存储器和所述计算机程序指令被配置为与所述至少一个处理器一起使得所述计算设备执行如上所述的异常用户识别方法。根据本发明的又一个方面,提供一种存储一个或多个程序的可读存储介质,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行如上所述的异常用户识别方法。根据本发明的技术方案,综合所有收集到的用户标识记录生成用户标识关系,并以用户标识为网络节点,以用户标识关系为网络路径,生成相应的用户关系网络。其中该用户关系网络中包括每个网络节点的可靠性和网络路径的强度。之后,根据正常网络的识别条件来识别正常网络,并监测正常网络被感染为异常网络的感染时间和感染节点。这样就可以很清楚的抓住作为问题源的异常标识,判断出异常标识的病毒传播路径,从而可以按需求恢复健康数据,如只删除该感染节点、以及该感染节点在该感染时间后所增加的网络节点和路径,避免一刀切误杀正确数据造成的损失。进一步地,本发明还可以分别用户标识、用户标识记录和用户关系网络进行数据清洗,识别出其中的刷量数据、假数据或虚假关系网络等,解决异常标识给业务和数据加工带来的困扰,增加反作弊业务的数据质量,提高了数据运算的有效性。而且,本发明还可以根据用户关系网络之间的变化过程判断出两个网络是否属于同一设备,这样就可把两个网络进行数据整合,得到更全面的用户信息,提高当前设备上的信息丰富程度。附图说明为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。图1示出了根据本发明一个实施例的计算设备100的结构框图;图2示出了根据本发明一个实施例的异常用户识别方法200的流程图;图3a-3c分别示出了根据本发明一个实施例的正常网络、异常网络和归一化网络的示意图;图4示出了根据本发明一个实施例的异常用户识别方法的详细示意图;以及图5示出了根据本发明一个实施例的异常用户识别装置500的结构框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。图1是根据本发明一个实施例的计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μp)、微控制器(μc)、数字信息处理器(dsp)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(alu)、浮点数单元(fpu)、数字信号处理核心(dsp核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如ram)、非易失性存储器(诸如rom、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令,在根据本发明的计算设备100中,程序数据124包含用于执行异常用户识别方法200的指令。计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个a/v端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个i/o端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(rf)、微波、红外(ir)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和web服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(pda)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备100被配置为执行异常用户识别方法200。图2示出了根据本发明一个实施例的异常用户识别方法200的流程图,适于在计算设备100中执行。如图2所示,该方法始于步骤s210。在步骤s210中,收集多个设备在业务请求中产生的用户标识记录,每条用户标识记录包括多个用户标识。其中,用户标识通常可以包括设备标识、企业标识(tdid)、imei、mac、androidid、idfa、idfv、会员号、电话号码、cookie中的一种或一种,其中企业标识是数据采集商在采集端遵循一定规则为设备生成的唯一标识,其一般在数据处理过程不会新生成,而在系统重置后生成。根据一个实施例,还可以对获取到的数据进行哈希映射即将任意长度的消息映射成为一个长度较短且长度固定的哈希值。另外还可以进行脱敏过程,即对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。这两种都是目前比较成熟的技术,这里不再赘述。根据另一个实施例,还可以对所获取到的用户标识进行一级数据清洗,对所获取到的用户标识记录进行二级数据清洗,其目的主要是将最多、最容易识别其对网络生成影响又重的问题进行初步过滤。一级数据清洗主要是为了得到基础信息的质量状况,二级数据主要是为了得到整条记录的信息质量状况。具体地,对用户标识的一级数据清洗主要通过业务属性和业务评估方法来进行,其步骤可包括:根据每个网路节点所对应的用户标识的属性特征计算该网路节点的属性特征分值,并根据各网络节点属性特征分值对获取到的刷量用户标识进行数据清洗。其中,属性特征包括该用户标识的文本类型、文本长度、标识数量、与其他用户标识的距离中的至少一种。每一项都有其对应的特征分值,如文本类型分值、文本长度分值等,再将计算到的单个特征分值进行综合,得到最终的属性特征分值。根据一个实施例,可对这些单个特征分值进行加权求和以得到该网络节点最终的属性特征分值。例如,对于imei这一类型用户标识,其一般定义为15位0-9的数字组成,因此其文本类型特征为纯数字,值域为0-9;文本长度特征为15位,前14位进行重复验证,最后一位为校验位通过算法检查;标识数量特征为同一设备imei为1~2个,过多则疑似刷量;与其他用户标识的距离如与mac的距离,该距离主要代表该用户标识与其他用户标识的联系紧密度,如同一条记录中同时出现对应这两个用户标识的频次等,可以通过机器学习方法计算该距离。应当理解,本领域技术人员可以自行选择相应算法来计算每个单项的具体分值,如相似度算法、距离计算方法等,评分规则和每个单项的权重比例也可以自行定义,本发明对此均不作限制。对于其他类型用户标识如mac等,其同样有对应的各单项属性特征,本领域技术人员可以根据规则自行定义或确定其特征量,这里不再赘述。以imei=869765022986119为例,其属性特征分值=文本类型分值×权重1+文本长度分值×权重2+标识数量分值×权重3+距离分值×权重4=1×10%+1×20%+0.93×30%+0.87×40%=0.927。此外,根据该属性特征分值,还可以对不同id进行信用等级评分,分值高的等级高,相应可增加该标识所对应用户的数据可信度。对于二级数据清洗,其步骤主要包括:计算用户标识记录的逻辑评估分值和时间评估分值,并结合该记录中每个用户标识的属性特征分值计算该用户标识记录的总评分;以及根据用户标识记录的总评分对收集到的多条用户标识记录进行数据清洗。其中,逻辑评估分值根据用户标识记录中的各用户标识的类型逻辑计算,时间评估分值根据用户标识记录的采集时间和当前时间的时间差计算得到。其中,计算总评分时可对各用户标识的属性特征分值、逻辑评估分值和时间评估分值进行加权求和得到,其权重比例可以自行设定,本发明对此不作限制。具体地,逻辑评估分值是通过逻辑关系的规则判断,如某条用户标识记录中idfa不能与android并存,因为idfa是苹果ios设备上的标识,androidid那是谷歌安卓系统上的标识,该记录信息不符合现实世界的认知,所以会生成负分值。时间评估分值主要是考虑移动数据需要网络联通时才能传输到服务器,存在采集时间与当前时间的时间差,所以会计算该时间差以确认数据鲜度,时间越近则相应分值越高。另外有一些刷量的假数据或者其它问题数据的时间不符合常识,如210年、4028年等,同样会生成负分值。应当理解,本领域技术人员可以自行设定逻辑评估和时间鲜度的评分计算方法,如设定时间差与时间分值的线性关系公式等,不合逻辑的次数与逻辑分值的关系等,本发明对此不作限制。对于一条用户标识记录,若计算得到的各标识的属性特征分值(imei、mac、androidid)、时间评估分值(time)和逻辑评估分值(struct)的分值为{imei:-2;mac:1;androidid:1;time:-100;struct:-100….},对这些分值进行加权求和等综合处理可得到该用户标识记录的总评分。随后,在步骤s220中,将每条用户标识记录中的多个用户标识两两生成一个用户标识关系。用户标识关系,代表用户在一次访问请求中出现的用户标识之间具有关联关系。例如,若一条用户标识记录中同时有imei、mac和androidid这三个用户标识,那这三个用户标识就两两组成一个用户标识关系,共可生成三个用户标识关系。随后,在步骤s230中,将用户标识作为网络节点,用户标识关系作为网络路径,生成相应的用户关系网络,该用户关系网络包括网络节点的可靠性和网络路径的强度。用户关系网络图可以参考图3a-3c所示,将每个用户标识作为一个节点,将用户标识关系作为两个节点之间的边,则该用户的所有用户标识可以构成一个如无向图。根据本发明的一个实施例,网络节点的可靠性根据该网络节点的属性特征分值和该网络节点所连接的节点个数计算得到,例如可将属性特征分值和节点个数加权求和得到,网络节点=869765022986119的属性特征分值为0.927,连接其它节点的个数为5,则该网络节点的可靠性=0.927×权重+5×权重。网络路径的强度根据该网络路径的生成频次和纠偏系数计算得到,例如强度=生成频次×纠偏系数。其中,网络路径的生成频次也就是该网络路径所对应的用户关系的生成频次,纠偏系数可以是一个经验值。此外,用户关系网络还可以包括网络路径的可靠性,该网络路径的可靠性可根据该网络路径所对应的两个网络节点的综合属性特征分值和该网络路径的强度计算得到,综合属性特征分值可以是两个属性特征分值的平均值。根据一个实施例,可靠性=强度×两个网络节点的属性特征分值的平均值。例如,若网络路径两端的对应用户标识为imei864251030611671和mac38:29:5a:a9:c0:61,该网络路径强度为12,单个属性特征分值分别为0.927和0.593,则该网络路径的可靠性为12×(0.927+0.593)/2=9.12。根据本发明的另一个实施例,还可以对所生成的用户关系网络进行三级数据清洗,主要是为了区分不同业务对数据质量的需求,例如一个虚假的关系网络如在正常业务中要屏蔽,但在黑名单业务中就需要输出。具体可包括步骤:获取一个用户关系网络中的多个用户标识,并计算该多个用户标识之间的逻辑评估分值,以及结合各用户标识的属性特征分值计算该用户关系网络的总评分,并根据该总评分对生成的用户关系网络进行数据清洗。例如,某个网络关系2014的基础数据表中,包括下表中五个用户标识,那么可以这几个用户标识之间的逻辑评估分值,并与每项的属性特征分值进行加权求和等综合处理操作即可得到用户关系网络的总评分,其权重比例可以根据需要自行设定,本发明对此不作限制。netimeimacandroidididfatdid201486425103061167138:29:5a:a9:c0:6111b1f02f5d35a3f3eac7362c73255在上述例子中,androidid与idfa并存,tdid不符合规定,这两项比重又大,计算得出该记录的判定为虚假关系网络{net:2014,false}。当在处理正常业务时需要删除并记录该虚假关系网络、及该网络所对应的用户标识和记录;而在黑名单业务,在可以保留该虚假网络及该网络所对应的用户标识和记录。经过以上三级数据清洗,可以计算得到整个网络的基础信息,基础信息包括网络节点的种类、可靠性、时间等属性信息;网络路径的种类、强度、可靠性、时间等属性信息。其中,网络节点的种类如imei、mac、idfa、tdid等;网络路径的种类由该路径两端的用户标识表示,其可以包括同一设备上的标识关系,以及设备与设备上的标识关系(登录账号、访问行为等)。网络节点的时间属性可以包括该网络节点所对应的用户标识的采集时间;网络路径的时间属性可以包括该网络路径所对应的用户标识关系的生成时间,当然不限于此。随后,在步骤s240中,识别用户关系网络中的正常网络,并监测正常网络被感染为异常网络的感染时间和感染节点。根据一个实施例,正常网络是一个有限孤立网络,如图3a所示,其特定属性节点小于n,关系强度与采集频度成正比,且全部节点在一定时期内的个数有最大值。因此,根据一个实施例,当满足以下识别条件时,通常可判定网络为正常网络:1)网络路径的强度与网络路径的生成频次成正比。2)特定时间内的用户标识数量不超过额定值,该额定值可以根据经验设定。例如,同一个日期内,idfa、androidid不能超过1个;连续的时间内,idfa、androidid、tdid不能密集变更(刷量行为)。该特定时间和额定值,本领域技术人员可以根据实际经验自行设定,本发明对此不作限制。3)预定时间内的网络节点总数m不超过经验最大值max。这里主要是考虑使用“手机墙”的广告或者应用推广的刷量行为,会通过频繁变换注册账户或者软件id(刷机或者系统重置引起的,id变化)来进行;正常的设备软件id的变化遵从市场规律;如ios新版本发布后的几周;androidid的变化也是缓慢而且周期性的;所以在一个版本周期内,总量m一定小于业务上的经验最大值max。4)每种类型的用户标识数量不超过该类型的额定值。一般地,网络节点数根据不同的平台和业务场景不同但不会超过额定范围,额定值视业务与采集能力而定。一个正常的id不会出现在其它的设备上;当一个id引发的二度以上关系时仍然在该闭环的网络中,不与其它设备的id发生关系。例如设备硬件id的成员包括imei、mac、tdid三种,软件id的成员包括idfa、idfv、androdid;其中imei与idfv单台设备上的id数量>1;idfa/idfv与androdid不能同时存在,基本情况参考下表示意:id类型基准数量浮动数量imei3±2mac1±1tdid1±xandroidid1±1idfa1±xidfv1±x根据另一个实施例,异常网络是一种病毒感染网络,其主要包括以下特征:感染网络会桥接一片孤立网,感染爆发不会是个例,会有多片感染网出现,感染网络节点和线数远大于正常网络数m,清除感染节点可以切断感染网络并保留健康信息,清除病毒宿主可将感染网络治愈。异常网络如图3b所示,0是为表示逻辑绘制的虚拟连线,它的两端实际上是同一个节点,可以将其理解是被盗用的id形成,有一个假数据记录(圆形区域)使用的是节点5-7这些设备上的真实的id数据,导致该网络可能会顺利通过前文中的层层清洗过程。实际业务需求是发现这些桥接正常网络的路径连接(即节点1到2、3、4的关系)进行处理以挽救正常的用户信息,但目前大多做法是把这些问题id均纳入黑名单范围成为删除对像,无疑会导致正常信息的损失。因此,本发明通过对所生成的用户关系网络进行时序监测来确定正常网络被感染为异常网络的感染时间和感染节点,也就是通过时间序列上的变化可以得知某个正常的网络在某个时点基于某个节点变成了异常网络,这样能明显区分正常用户信息和被感染后的异常用户信息。考虑到感染会使网络产生较大变动,因此时序监测可使用基于时间梯度的动态差分方法,其可有效识别出问题爆发时间点、感染源及感染者,也可以使用图数据的病毒传播路径相关算法来确定,其具体算法参数本领域技术人员可以根据需要自行设定,本发明对此不作限制。随后,在步骤s250中,将该感染节点所对应的用户标识标记为异常用户标识。进一步地,还可对该感染节点,以及该感染节点在感染时间后所增加的网络节点和网络路径进行删除和记录,如进行逆时序的递归删除操作。具体地,可基于已缩小范围的异常数据网络进行逆时序的递归删除操作,删除原正常结构后续增加的所有网络节点和路径,同时对删除的网络节点、路径和时间信息生成一份记录以供征信业务调用。此外,根据本发明的另一个实施例,还可通过归一化网络来判断同属设备。如图3c所示,对于一个正常网络中的节点a,若节点b出现后满足以下条件,则可判定节点b所在网络与节点a所在网络属于同一个设备,这样就可将节点a和节点b所在网络进行数据全面整合,并可以节点b所在网络进行数据输出:1)节点b所在用户关系网络为正常网络;2)节点b新增后用户关系网络的总节点数依然不超过经验最大值max;3)节点b所在的网络路径的强度与该网络路径的生成频次正相关;以及4)节点b与节点a的关系节点的交集比例满足预定值,关系节点就是与节点a形成网络路径的节点,这里实际是指节点b也与节点a的大部分关系节点形成了网络路径。预定值可以根据需要设定(如60%),在此不做限制。当然还可以包括节点b与节点a可能并存活跃这一条件。这里,主要是考虑手机重置或者系统升级会引起androidid、tdid的变换但是设备的imei和mac不会变化,即这些数据与节点a的路径强度会减弱,而与节点b的强度会增强。根据一个实施例,节点b和节点a可以是同一类型用户标识,比如都是imei标识,节点a的imei与网络中其他用户标识(关系节点)形成多条路径,而节点b也为imei标识,其新增后与节点a的多个关系节点也同样形成了多条路径,结合其他条件可判定可节点b和a属于同一设备。现实的意义就是新的id会取代旧的id,业务上使用图数据进行输出时会选用路径更好的b输出。根据本发明的异常用户识别方法200,还可结合图4中的详细示意图进行理解,如用户标识的提取与根据规范映射评分计算,冗杂信息和垃圾信息去重,各层评估映射,三级数据的清洗过程,网络关系的生成,异常标识识别,刷量数据识别和归一化设备识别等,这里不再赘述。图5示出了根据本发明一个实施例的异常用户识别装置500的结构示意图,适于驻留在计算设备100中。如图5所示,该装置包括数据收集模块510、关系生成模块520、网络生成模块530、网络监测模块540和异常处理模块550。数据收集模块510收集多个设备在业务请求中产生的用户标识记录,每条用户标识记录包括多个用户标识。关系生成模块520将每条用户标识记录中的多个用户标识两两生成一个用户标识关系。网络生成模块530将用户标识作为网络节点,用户标识关系作为网络路径,生成相应的用户关系网络,该用户关系网络包括网络节点的可靠性和网络路径的强度。其中,网络路径的强度根据该网络路径的生成频次和纠偏系数计算得到,网络节点的可靠性根据该网络节点的属性特征分值和该网络节点所连接的节点个数计算得到。此外,用户关系网络还可以包括网络路径的可靠性,所述网络路径的可靠性根据该网络路径所对应的两个网络节点的综合属性特征分值和该网络路径的强度计算得到。网络监测模块540识别用户关系网络中的正常网络,并监测正常网络被感染为异常网络的感染时间和感染节点。其中,用户关系网络中正常网络的识别条件包括:每种类型的用户标识数量不超过该类型的额定值;特定时间内的用户标识数量处于额定值范围;网络路径的强度与网络路径的生成频次成正比;以及预定时间内的网络节点总数不超过经验最大值。网络监测模块540可以通过对所生成的用户关系网络进行时序监测来确定正常网络被感染为异常网络的感染时间和感染节点。异常处理模块550将该感染节点所对应的用户标识标记为异常用户标识。根据一个实施例,异常处理模块还可以对该感染节点、以及该感染节点在感染时间后所增加的网络节点和网络路径进行删除和记录。根据一个实施例,装置500还可以包括数据清洗模块(图中未示出),用于对收集到的用户标识、用户标识记录和生成的用户关系网络进行数据清洗,具体清洗步骤和归一化步骤可参见方法200中的描述,这里步骤赘述。根据另一个实施例,装置500还可以包括数据归一化模块(图中未示出),用于识别同属一个设备的多个用户关系网络。具体地,对于一个正常网络中的节点a,若节点b出现后满足以下条件,则判定节点b所在网络与节点a所在网络属于同一个设备:节点b所在用户关系网络为正常网络;节点b与节点a的关系节点的交集比例满足预定值;节点b新增后用户关系网络的总节点数依然不超过经验最大值;以及节点b所在的网络路径的强度与该网络路径的生成频次正相关。根据本发明的异常用户识别装置500,其具体细节已在基于其他附图的描述中详细公开,在此不再进行赘述。根据本发明的技术方案,实现了基于id关系网络的数据处理、异常识别处理、异常过滤、问题追溯和剔除、以及设备的归一化。其中,判断id的信用等级与问题id能够解决问题id给业务和数据加工带来的困扰,增加反作弊业务的数据质量。判断问题id的病毒传播路径能够抓住问题源,按需求恢复健康数据,避免一刀切误杀正确数据造成的损失。追溯问题数据可以识别信息来源,进行有针对的反制措施,帮助广告主识别刷量问题渠道,避免费用损失。判断id是否归属同一设备能够解决识别唯一设备的难题,并提供一套可行的数据整合方案,提高当前设备上的信息丰富程度。a8、如a3所述的方法,其中,所述网络路径的强度根据该网络路径的生成频次和纠偏系数计算得到;所述网络节点的可靠性根据该网络节点的属性特征分值和该网络节点所连接的节点个数计算得到。a9、如a3所述的方法,其中,所述用户关系网络还包括网络路径的可靠性,所述网络路径的可靠性根据该网络路径所对应的两个网络节点的综合属性特征分值和该网络路径的强度计算得到。a10、如a1-a9中任一项所述的方法,其中,用户关系网络中正常网络的识别条件包括:每种类型的用户标识数量不超过该类型的额定值;特定时间内的用户标识数量不超过额定值;网络路径的强度与网络路径的生成频次成正比;以及预定时间内的网络节点总数不超过经验最大值。a11、如a1-a10中任一项所述的方法,所述监测正常网络被感染为异常网络的时间点和感染节点的步骤包括:通过对所生成的用户关系网络进行时序监测来确定正常网络被感染为异常网络的感染时间和感染节点。a12、如a11所述的方法,所述时序监测的方法为基于时间梯度的动态差分方法或图数据的病毒传播路径算法。a13、如a1-a12中任一项所述的方法,其中,还包括步骤:对于一个正常网络中的节点a,若节点b出现后满足以下条件,则判定节点b与节点a属于同一个设备:节点b所在用户关系网络为正常网络;节点b与节点a的关系节点的交集比例满足预定值;节点b新增后用户关系网络的总节点数依然不超过经验最大值;以及节点b所在的网络路径的强度与该网络路径的生成频次正相关。a14、如a1所述的方法,其中,用户标识包括设备标识、企业标识、imei、mac、androidid、idfa、idfv中的至少一种。b16、如b15所述的装置,其中,所述异常处理模块还适于对所述感染节点、以及所述感染节点在所述感染时间后所增加的网络节点和网络路径进行删除和记录。b17、如b15所述的装置,其中,用户关系网络中正常网络的识别条件包括:每种类型的用户标识数量不超过该类型的额定值;特定时间内的用户标识数量不超过额定值;网络路径的强度与网络路径的生成频次成正比;以及预定时间内的网络节点总数不超过经验最大值。b18、如b15-b17中任一项所述的装置,其中,网络监测模块适于通过对所生成的用户关系网络进行时序监测来确定正常网络被感染为异常网络的感染时间和感染节点。这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、cd-rom、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的异常用户识别方法。以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以任意的组合方式来使用。此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本
技术领域
内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本
技术领域
的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1