确定潜在黑用户特征的方法、装置、设备和存储介质与流程

文档序号:17722186发布日期:2019-05-22 02:14阅读:118来源:国知局
确定潜在黑用户特征的方法、装置、设备和存储介质与流程
本发明涉及大数据
技术领域
,特别是涉及一种用于确定潜在黑用户特征的方法、装置、计算设备和计算机可读存储介质。
背景技术
:在互联网应用领域,为了降低风险和减小损失,通常需要建立黑用户名单,以屏蔽黑用户的不良行为。现有的风险规避方式一般是将用户的特征与黑用户名单中的特征进行比对,并根据比对结果通过和拒绝用户的请求。通过这种方式可以识别出具有已知黑用户特征的用户。但是,黑用户特征名单具有一定的局限性,其仅包括已被确认了的黑用户特征,过滤范围较小,无法满足需要。技术实现要素:为解决以上问题中的一个或多个,本发明实施例提供了一种用于确定潜在黑用户特征的方法、装置、计算设备和计算机可读存储介质。根据本申请的第一方面,提供一种用于确定潜在黑用户特征的方法,其包括:根据多条历史访问记录,确定所述多条历史访问记录中包含的多个用户特征之间的关联,其中将每条历史访问记录中所包含的一组用户特征视为两两之间均具有一条关联;根据已有的黑用户特征列表,将所述多个用户特征中在所述黑用户特征列表中的用户特征标记为黑用户特征,将所述多个用户特征中与所述黑用户特征具有关联的用户特征标记为灰用户特征;根据所确定的所述多个用户特征之间的关联,计算所述灰用户特征中每个灰用户特征与所述黑用户特征之间的关联强度;将所述关联强度超过第一预定阈值的灰用户特征确定为潜在黑用户特征。根据一示例性实施例,所述计算所述灰用户特征中每个灰用户特征与所述黑用户特征之间的关联强度包括如下中的一个或多个:对于每个灰用户特征,统计该灰用户特征与每个所述黑用户特征之间具有的关联条数,并将统计出的所述关联条数中最大的关联条数作为该灰用户特征与所述黑用户特征之间的关联强度;对于每个灰用户特征,统计该灰用户特征与所有所述黑用户特征之间具有的关联条数之和,作为该灰用户特征与所述黑用户特征之间的关联强度;对于每个灰用户特征,统计该灰用户特征与其他用户特征之间具有的关联总条数以及该灰用户特征与所有所述黑用户特征之间具有的关联条数之和,将所述关联条数之和与所述关联总条数的比值作为该灰用户特征与所述黑用户特征之间的关联强度;对于每个灰用户特征,统计与该灰用户特征具有关联的用户特征中为所述黑用户特征的个数,作为该灰用户特征与所述黑用户特征之间的关联强度;对于每个灰用户特征,统计与该灰用户特征具有关联的所有用户特征的总个数以及所述所有用户特征中为所述黑用户特征的个数,将所述个数与所述总个数的比值作为该灰用户特征与所述黑用户特征之间的关联强度;对于每个灰用户特征,将所述关联条数之和与所述关联总条数的比值以及所述个数与所述总个数的比值的加权和作为该灰用户特征与所述黑用户特征之间的关联强度;对于每个灰用户特征,根据tf-idf算法,计算该灰用户特征关于与其有关联的每个黑用户特征的tf*idf值,并将所计算出的tf*idf值中最大的tf*idf值作为所述关联强度,其中tf为该灰用户特征关于该黑用户特征的关联频次,idf为所述多条历史访问记录的条数与所述多个用户特征中属于第一用户特征类别的用户特征的个数的比值的对数,其中第一用户特征类别为该黑用户特征所属于的用户特征类别。根据一示例性实施例,所述计算该灰用户特征和与其有关联的每个黑用户特征之间的tf*idf值作为所述关联强度包括:通过计算该灰用户特征与该黑用户特征之间具有的关联条数与所述多条历史访问记录中包含该黑用户特征的历史访问记录的条数的比值,作为所述频次。根据一示例性实施例,在所述根据所确定的所述多个用户特征之间的关联,计算所述灰用户特征中每个灰用户特征与所述黑用户特征之间的关联强度之前,还包括:根据tf-idf算法,计算所述多个用户特征中每个用户特征关于与其有关联的每个其他用户特征的tf*idf值,其中tf为该用户特征关于该其他用户特征的关联频次,idf为所述多条历史访问记录的条数与所述多个用户特征中属于第一用户特征类别的用户特征的个数的比值的对数,其中第一用户特征类别为该其他用户特征所属于的用户特征类别;将tf*idf值小于第二预定阈值的关联从所确定的所述多个用户特征之间的关联中去除。根据一示例性实施例,所述方法还包括:根据已有的白用户特征列表,将所述潜在黑用户特征中在所述白用户特征列表中的用户特征确定为不是潜在黑用户特征。根据一示例性实施例,所述方法还包括:从所确定的所述多个用户特征之间的关联中筛选出所述黑用户特征与所述潜在黑用户特征之间的关联;根据所筛选出来的关联和所述已有的黑用户特征列表中的所有黑用户特征之间的关联,形成关联图谱,其中,在所述关联图谱中,将所述黑用户特征和所述潜在黑用户特征中的每个用户特征表示为一个节点,将两个用户特征之间的一条关联表示为代表所述两个用户特征的两个节点之间的一条连线。根据一示例性实施例,所述用户特征包括手机号、ip地址、mac地址、设备id、访问时间中的一个或多个。根据本申请的第二方面,提供一种确定潜在黑用户特征的装置,其包括:关联确定模块,其被配置为:根据多条历史访问记录,确定所述多条历史访问记录中包含的多个用户特征之间的关联,其中将每条历史访问记录中所包含的一组用户特征视为两两之间均具有一条关联;特征标记模块,其被配置为:根据已有的黑用户特征列表,将所述多个用户特征中在所述黑用户特征列表中的用户特征标记为黑用户特征,将所述多个用户特征中与所述黑用户特征具有关联的用户特征标记为灰用户特征;关联强度计算模块,其被配置为:根据所确定的所述多个用户特征之间的关联,计算所述灰用户特征中每个灰用户特征与所述黑用户特征之间的关联强度;潜在黑特征确定模块,其被配置为:将所述关联强度超过第一预定阈值的灰用户特征确定为潜在黑用户特征。根据一示例性实施例,所述关联强度计算模块包括如下中的一个或多个:第一计算单元,其被配置为:对于每个灰用户特征,统计该灰用户特征与每个所述黑用户特征之间具有的关联条数,并将统计出的所述关联条数中最大的关联条数作为该灰用户特征与所述黑用户特征之间的关联强度;第二计算单元,其被配置为:对于每个灰用户特征,统计该灰用户特征与所有所述黑用户特征之间具有的关联条数之和,作为该灰用户特征与所述黑用户特征之间的关联强度;第三计算单元,其被配置为:对于每个灰用户特征,统计该灰用户特征与其他用户特征之间具有的关联总条数以及该灰用户特征与所有所述黑用户特征之间具有的关联条数之和,将所述关联条数之和与所述关联总条数的比值作为该灰用户特征与所述黑用户特征之间的关联强度;第四计算单元,其被配置为:对于每个灰用户特征,统计与该灰用户特征具有关联的用户特征中为所述黑用户特征的个数,作为该灰用户特征与所述黑用户特征之间的关联强度;第五计算单元,其被配置为:对于每个灰用户特征,统计与该灰用户特征具有关联的所有用户特征的总个数以及所述所有用户特征中为所述黑用户特征的个数,将所述个数与所述总个数的比值作为该灰用户特征与所述黑用户特征之间的关联强度;第六计算单元,其被配置为:对于每个灰用户特征,将所述关联条数之和与所述关联总条数的比值以及所述个数与所述总个数的比值的加权和作为该灰用户特征与所述黑用户特征之间的关联强度;tf-idf计算单元,其被配置为:对于每个灰用户特征,根据tf-idf算法,计算该灰用户特征关于与其有关联的每个黑用户特征的tf*idf值,并将所计算出的tf*idf值中最大的tf*idf值作为所述关联强度,其中tf为该灰用户特征关于该黑用户特征的关联频次,idf为所述多条历史访问记录的条数与所述多个用户特征中属于第一用户特征类别的用户特征的个数的比值的对数,其中第一用户特征类别为该黑用户特征所属于的用户特征类别。根据一示例性实施例,所述装置还包括tf-idf计算模块,所述tf-idf计算模块包括:tf-idf算法单元,其被配置为:根据tf-idf算法,计算所述多个用户特征中每个用户特征关于与其有关联的每个其他用户特征的tf*idf值,其中tf为该用户特征关于该其他用户特征的关联频次,idf为所述多条历史访问记录的条数与所述多个用户特征中属于第一用户特征类别的用户特征的个数的比值的对数,其中第一用户特征类别为该其他用户特征所属于的用户特征类别;去除单元,其被配置为:将tf*idf值小于第二预定阈值的关联从所确定的所述多个用户特征之间的关联中去除。根据一示例性实施例,所述装置还包括:白名单模块,其被配置为:根据已有的白用户特征列表,将所述潜在黑用户特征中在所述白用户特征列表中的用户特征确定为不是潜在黑用户特征。根据一示例性实施例,所述装置还包括关联图谱生成模块,所述关联图谱生成模块包括:关联筛选单元,其被配置为:从所确定的所述多个用户特征之间的关联中筛选出所述黑用户特征与所述潜在黑用户特征之间的关联;关联图谱生成单元,其被配置为:根据所筛选出来的关联和所述已有的黑用户特征列表中的所有黑用户特征之间的关联,形成关联图谱,其中,在所述关联图谱中,将所述黑用户特征和所述潜在黑用户特征中的每个用户特征表示为一个节点,将两个用户特征之间的一条关联表示为代表所述两个用户特征的两个节点之间的一条连线。根据本申请的第三方面,提供一种计算设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令在被所述处理器执行时,使得所述计算设备执行如上所述的方法实施例中的任一个。根据本申请的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被一个或多个处理器执行时实现如上所述的方法实施例中的任一个。本申请的实施例提供的技术方案可以包括以下有益效果:通过本申请如上所述以及如下所述的各实施例,可以实现对潜在黑用户特征的挖掘,以便防风险于未然,避免可能造成的损失。在一些实施例中,通过计算用户特征之间的tf*idf值来过滤出关联强度较高的用户特征间关联,从而得出与黑用户特征具有强关联的潜在黑用户特征,使得潜在黑用户特征的列表更精确。在一些实施例中,还将黑用户特征以及潜在黑用户特征的用户特征关联用关联图谱的方式表现出来,使得用户特征间的关系更加直观,更易于快速地通过人眼观察来识别出新增数据中的潜在黑用户特征。应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。附图说明图1是根据本申请一示例性实施例示出的用于确定潜在黑用户特征的方法的示意流程图。图2是根据本申请一示例性实施例示出的用户特征之间的示例关联图谱的示意图。图3-9分别是与图1对应的实施例中步骤s130和140的示例性具体实现方式的示意流程图。图10是与图1对应的方法实施例在步骤s130之前还包括的步骤的示意流程图。图11是根据本申请一示例性实施例示出的潜在黑用户特征确定方法所包括的关联图谱生成过程的示意流程图。图12是根据本申请一示例性实施例示出的在图11的步骤s1120中所生成的关联图谱的示意图。图13是根据本申请一示例性实施例示出的确定潜在黑用户特征的装置的示意组成框图。图14是根据本申请一示例性实施例示出的计算设备的示意组成框图。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明的示例性实施例进行进一步详细说明。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。图1根据本申请一示例性实施例示出的用于确定潜在黑用户特征的方法的示意流程图。该方法实施例可以由任意机器设备来执行,该机器设备可以是如下所述的用于确定潜在黑用户特征的装置或计算设备。如图1所示,该方法实施例可以包括步骤:s110,根据多条历史访问记录,确定所述多条历史访问记录中包含的多个用户特征之间的关联,其中将每条历史访问记录中所包含的一组用户特征视为两两之间均具有一条关联。所述历史访问记录为用户操作历史数据,其可以是网站或应用的流量记录(用户访问数或点击率),也可以是机器设备的操作日志、浏览记录等。每条历史访问记录中包含用户(即访问者)在执行该条访问记录所代表的访问操作时所使用的用户特征。用户特征可以是用户在执行访问操作时所使用的设备信息、环境信息等,例如,所使用的设备id、mac地址、ip地址、用户帐号、用户帐号所关联的手机号或邮箱、访问时间等等。在一个示例中,历史访问记录为预先确定的可疑历史访问记录。在另一示例中,历史访问记录为一个或多个可疑用户的历史访问记录。在又一示例中,历史访问记录包括以上两者。可疑历史访问记录或可疑用户可以是与一个或多个可疑用户特征或黑用户特征相关的历史访问记录或用户,也可以是经过风险评分系统筛选出来的高风险历史访问记录或用户。在本申请的各实施例中,是根据用户特征之间的关联强度来确定潜在的黑用户特征,因此,在步骤s110中,需要先确定用户特征之间的关联,即,哪些用户特征之间相互具有关联。在一个示例中,将每条历史访问记录中所包含的一组用户特征视为两两之间均具有一条关联。例如,一条历史访问记录显示所使用的用户特征包括:用户特征a:设备mac地址为b0:95:8e:3e:e5:38;用户特征b:ip地址为111.40.102*;用户特征c:用户账号所关联的手机号为15845355687。那么,认为用户特征a、b、c之间两两具有关联,即,存在如下关联:a与b的相互关联、b与c的相互关联、a与c的相互关联。在本申请各实施例中,将关联视为是无方向的,或者说视为是双向的,即两者之间的关联是相互的,例如,a与b之间的关联也是b与a之间的关联。为便于进行下一步操作,可以将关联用各种形式表示出来。例如,可以将所确定的用户特征之间的关联以二维或三维形式表示出来,例如,以二维图表的形式、以三维关联图谱的方式,等等。二维图表可以是将关联以表格的方式表示,例如,在表格中列出每一条关联及该关联的双方用户特征,或者可以列出每个用户特征以及与其具有关联的相应用户特征。三维关联图谱是更直观的用户特征之间的关联图。例如,可以用节点来表示用户特征,一个节点表示对应的一个用户特征,用节点之间的连线来表示用户特征之间的关联,一条关联对应一条连线。图2示出了用户特征的关联图谱的一个示例。在图2的示例中,各用户特征被表示为代表节点的圆圈,两个节点之间的连线表示用户特征之间的关联,连线的条数表示关联的条数。在一个示例中,可以将用户特征间的关联数据输入图形数据库工具neo4j中以得到如图2所示的关联图谱。s120,根据已有的黑用户特征列表,将所述多个用户特征中在所述黑用户特征列表中的用户特征标记为黑用户特征,将所述多个用户特征中与所述黑用户特征具有关联的用户特征标记为灰用户特征。已有的黑用户特征列表是之前积累的已确定的黑用户特征的数据,其可以仅仅是黑用户特征的集合,也可以不仅包括黑用户特征的集合,还包括这些黑用户特征之间的关联数据。这些黑用户特征可以是根据已确定黑用户的历史访问记录或者用户的已确定黑操作而收集、分析、确定出来的。可以根据已有的黑用户特征列表,将上面提到的多条历史访问记录中所包含的多个用户特征中在已有的黑用户特征列表中的用户特征标记为黑用户特征。与黑用户特征有关联的用户特征被怀疑是潜在的黑用户特征,可以将其标记为灰用户特征。例如,可以在关联的二维图表表示或三维关联图谱表示中将黑用户特征或其对应节点标记为红色,将灰用户特征或其对应节点标记为黄色。在图2的示例中,在在黑用户特征后面标记有“(黑)”这样的标记,在灰用户特征后面标记有“(灰)”这样的标记。s130,根据所确定的所述多个用户特征之间的关联,计算所述灰用户特征中每个灰用户特征与所述黑用户特征之间的关联强度。用户特征之间的关联的强弱可以用关联强度来表征,关联强度越大,说明该关联的可信度越高。因此,一灰用户特征与黑用户特征之间的关联强度越大,说明该灰用户特征越可疑,其就越可能是潜在黑用户特征。s140,将所述关联强度超过第一预定阈值的灰用户特征确定为潜在黑用户特征。在步骤s140中,可以筛选出与黑用户特征的关联强度超过第一预定阈值的灰用户特征,作为潜在黑用户特征。第一预定阈值可以是根据经验、根据统计结果、通过机器学习等方式预先确定的。有关步骤s130与s140的具体实施方式,将在下面参考图3-9进行详细说明。图3-9分别是与图1对应的实施例中步骤s130和140的示例性具体实现方式的示意流程图。图3示出了步骤s130和140的一示例性具体实施方式,即如何确定用户特征间的关联强度,以及如何根据预定阈值筛选出潜在黑用户特征。如图3所示,该示例过程包括步骤:s310,对于每个灰用户特征,统计该灰用户特征与每个所述黑用户特征之间具有的关联条数,并将统计出的所述关联条数中最大的关联条数作为该灰用户特征与所述黑用户特征之间的关联强度。在图3的实施例中,将用户特征之间发生关联的次数(关联条数)作为关联强度的表征,并将一灰用户特征与每个黑用户特征之间的关联条数中最大的关联条数作为该灰用户特征与黑用户特征之间的关联强度,或者说作为该灰用户特征为潜在黑用户特征的可能性度量。例如,以图2中示出的情况为例,可以看出,黑用户特征有d、e、h三个,灰用户特征有b、e、f、g、j、k、l,各用户特征之间的关联如图2中的连线所示。由图2可以看出,每个灰用户特征的关联条数统计结果和关联强度确定如下表1所示:表1灰用户特征的关联强度统计结果示例1s320,将所述关联强度大于预定关联条数的灰用户特征确定为潜在黑用户特征。作为步骤s140中的第一预定阈值的预定关联条数可以根据经验、根据统计结果、根据机器学习等来确定。在一个示例中,将预定关联条数定为1,即,关联强度大于1的灰用户特征可以被确定为是潜在黑用户特征。由此,根据表1可知,灰用户特征b、e、f、g、j、k、l中可被确定为潜在黑用户特征的为b和f。图4示出了步骤s130和140的另一示例性具体实施方式。如图4所示,该示例过程包括步骤:s410,对于每个灰用户特征,统计该灰用户特征与所有所述黑用户特征之间具有的关联条数之和,作为该灰用户特征与所述黑用户特征之间的关联强度。在图4的实施例中,相似地也是将用户特征之间的关联条数作为关联强度的表征,但与图3的实施例不同的是,图4的实施例是将一灰用户特征与所有黑用户特征之间的关联条数总和作为该灰用户特征与黑用户特征之间的关联强度,或者说作为该灰用户特征为潜在黑用户特征的可能性度量。仍以图2为例,可以得到每个灰用户特征的关联强度统计结果如下表2所示:表2灰用户特征的关联强度统计结果示例2s420,将所述关联强度大于预定关联条数的灰用户特征确定为潜在黑用户特征。与步骤s320相似,在一个示例中,可以将预定关联条数定为1,即,关联强度大于1的灰用户特征可以被确定为是潜在黑用户特征。根据表2可知,灰用户特征b、e、f、g、j、k、l中可被确定为潜在黑用户特征的为b和f。图5示出了步骤s130和140的又一示例性具体实施方式。如图5所示,该示例过程包括步骤:s510,对于每个灰用户特征,统计该灰用户特征与其他用户特征之间具有的关联总条数以及该灰用户特征与所有所述黑用户特征之间具有的关联条数之和,将所述关联条数之和与所述关联总条数的比值作为该灰用户特征与所述黑用户特征之间的关联强度。在图5的实施例中,将一灰用户特征和黑用户特征之间的关联条数与该灰用户特征所具有的关联条数之和的比值作为其与黑用户特征之间的关联强度的度量,或者说作为该灰用户特征为潜在黑用户特征的可能性度量。仍以图2为例,可以得到每个灰用户特征的关联强度统计结果如下表3所示:表3灰用户特征的关联强度统计结果示例3s520,将所述关联强度大于第一预定比值的灰用户特征确定为潜在黑用户特征。在一个示例中,可以将作为第一预定阈值的第一预定比值定为0.3,即,关联强度大于0.3的灰用户特征可以被确定为是潜在黑用户特征。根据表3可知,灰用户特征b、e、f、g、j、k、l中可被确定为潜在黑用户特征的为b和f。图6示出了步骤s130和140的又一示例性具体实施方式。如图6所示,该示例过程包括步骤:s610,对于每个灰用户特征,统计与该灰用户特征具有关联的用户特征中为黑用户特征的个数,作为该灰用户特征与所述黑用户特征之间的关联强度。在图6的实施例中,将一灰用户特征所关联的黑用户特征的个数作为其与黑用户特征的关联强度的度量,或者说作为该灰用户特征为潜在黑用户特征的可能性度量。仍以图2为例,可以得到每个灰用户特征的关联强度统计结果如下表4所示:表4灰用户特征的关联强度统计结果示例4s620,将所述关联强度大于预定个数的灰用户特征确定为潜在黑用户特征。在一个示例中,可以将作为第一预定阈值的预定个数定为1,即,关联强度大于1的灰用户特征可以被确定为是潜在黑用户特征。根据表4可知,灰用户特征b、e、f、g、j、k、l中可被确定为潜在黑用户特征的为b。图7示出了步骤s130和140的又一示例性具体实施方式。如图7所示,该示例过程包括步骤:s710,对于每个灰用户特征,统计与该灰用户特征具有关联的所有用户特征的总个数以及所述所有用户特征中为所述黑用户特征的个数,将所述个数与所述总个数的比值作为该灰用户特征与所述黑用户特征之间的关联强度。在图7的示例中,将一灰用户特征所关联的黑用户特征的个数与该灰用户特征所关联的用户特征的总数的比值作为其与黑用户特征的关联强度的度量,或者说作为该灰用户特征为潜在黑用户特征的可能性度量。仍以图2为例,可以得到每个灰用户特征的关联强度统计结果如下表5所示:表5灰用户特征的关联强度统计结果示例5s720,将所述关联强度大于第二预定比值的灰用户特征确定为潜在黑用户特征。在一个示例中,可以将作为第一预定阈值的第二预定比值定为0.3,即,关联强度大于0.3的灰用户特征可以被确定为是潜在黑用户特征。根据表5可知,灰用户特征b、e、f、g、j、k、l中可被确定为潜在黑用户特征的为b、k和l。图8示出了步骤s130和140的又一示例性具体实施方式。如图8所示,该示例过程包括步骤:s810,对于每个灰用户特征,将所述关联条数之和与所述关联总条数的比值以及所述个数与所述总个数的比值的加权和作为该灰用户特征与所述黑用户特征之间的关联强度。在图8的示例中,将在步骤s510和s710中得到的两个比值的加权和作为该灰用户特征与黑用户特征的关联强度的度量,或者说作为该灰用户特征为潜在黑用户特征的可能性度量。仍以图2为例,可以得到每个灰用户特征的关联强度统计结果如下表6所示,其中第一比值为所述关联条数之和与所述关联总条数的比值(即表3中的比值),第二比值为所述个数与所述总个数的比值(即表5中的比值)。在表6中,两个比值的各自的权重值分别取0.7和0.3,权重值可以根据经验、根据统计结果或根据机器学习来确定。表6灰用户特征的关联强度统计结果示例5灰用户特征第一比值第二比值关联强度b5/122/50.412e1/41/40.25f2/61/40.308g1/41/40.25j1/61/40.192k1/61/30.217l1/41/30.275s820,将所述关联强度大于第一预定值的灰用户特征确定为潜在黑用户特征。在一个示例中,可以将作为第一预定阈值的第一预定值定为0.3,即,关联强度大于0.3的灰用户特征可以被确定为是潜在黑用户特征。根据表6可知,灰用户特征b、e、f、g、j、k、l中可被确定为潜在黑用户特征的为b和f。图9示出了步骤s130和140的又一示例性具体实施方式。如图9所示,该示例过程包括步骤:s910,对于每个灰用户特征,根据tf-idf算法,计算该灰用户特征关于与其有关联的每个黑用户特征的tf*idf值,并将所计算出的tf*idf值中最大的tf*idf值作为所述关联强度。tf*idf是一种用于信息检索与数据挖掘的常用加权技术。在一般应用中,使用tf*idf值来评估一个字词对于一份文件的重要程度(即计算该字词关于这份文件的tf*idf值),tf即词频(termfrequency),idf即逆文本频率指数(inversedocumentfrequency)。一个字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。在本申请图9的实施例中,计算某个灰用户特征在多条关联中关于黑用户特征的tf*idf值来作为该灰用户特征与该黑用户特征之间的关联强度的衡量。其中,tf为该灰用户特征关于该黑用户特征的关联频次,idf为所述多条历史访问记录的条数与所述多个用户特征中属于第一用户特征类别的用户特征的个数的比值的对数,其中第一用户特征类别为该黑用户特征所属于的用户特征类别。在一个示例中,可以通过计算该灰用户特征与该黑用户特征之间具有的关联条数与所述多条历史访问记录中包含该黑用户特征的历史访问记录的条数的比值,作为所述频次,即tf值。下面以示例的方式来说明如何计算tf*idf值。假设要计算用户特征b关于用户特征c的tf*idf值,其中用户特征b为灰用户特征,其是ip地址111.40.102*;用户特征c为黑用户特征,其是用户账号所关联的手机号15845355687。假设步骤s110中使用的历史访问记录为n条,其中,使用/包含用户特征c(即手机号15845355687)的历史访问记录为r条,共同使用/包含用户特征b(即ip地址111.40.102*)和用户特征c(即手机号15845355687)的历史访问记录有m条,这表明用户特征b与用户特征c之间的关联条数为m。则用户特征b关于用户特征c的tf=m/r。用户特征可以分成几大类,例如如前所述分成预定的几类:设备id、mac地址、ip地址、用户帐号、用户帐号所关联的手机号、用户帐号所关联的邮箱、访问时间等。用户特征c为手机号15845355687,由此可以确定其所属于的用户特征类别为用户账号所关联的手机号。假设在上面的示例中,经统计,这n条历史访问记录中共包含不同的手机号s个,则用户特征b关于用户特征c的idf=lg(n/s)。然后,可以计算用户特征b关于用户特征c的tf*idf值:tf*idf=m/r·lg(n/s)根据以上原理,可以计算一灰用户特征关于与其有关联的每个黑用户特征的tf*idf值,并将所计算出的tf*idf值中最大的tf*idf值作为该灰用户特征与黑用户特征的关联强度。s920,将所述关联强度大于第二预定值的灰用户特征确定为潜在黑用户特征。作为第一预定阈值的第二预定值可以根据经验、根据统计结果、根据机器学习等方式来确定。应当理解的是,可以组合地使用如上所述的用于计算灰用户特征与黑用户特征之间的关联强度的几种示例方式,以起到交叉过滤的效果。在另一实施例中,在计算灰用户特征与黑用户特征之间的关联强度(s130)之前,还可以先根据tf*idf算法把步骤s110中所确定的关联中关联强度(tf*idf值)不够大的关联去除掉。图10示出了这样在步骤s130之前包括的筛选过程的示意流程图。如图10所示,该过程包括步骤:s1010,根据tf-idf算法,计算所述多个用户特征中每个用户特征关于与其有关联的每个其他用户特征的tf*idf值,其中tf为该用户特征关于该其他用户特征的关联频次,idf为所述多条历史访问记录的条数与所述多个用户特征中属于第一用户特征类别的用户特征的个数的比值的对数,其中第一用户特征类别为该其他用户特征所属于的用户特征类别。关于如何计算tf*idf值,其原理与步骤s910中相同,可以参见对步骤s910的详细说明,在此不再赘述。s1020,将tf*idf值小于第二预定阈值的关联从所确定的所述多个用户特征之间的关联中去除。在一个示例中,可以针对不同的用户特征类别设定不同的第二预定阈值。例如,计算一用户特征关于属于同一用户特征类别的每个其他用户特征的tf*idf值,并取这些tf*idf值的中位数,作为该用户特征关于该用户特征类别的第二预定阈值。例如,假设一用户特征i关于用户ip地址类别的每个其他用户特征的tf*idf值分别是0.1,0.56,0.36…,并且这些值的中位数为0.5,则将0.5定为用户特征i关于用户ip地址类别的第二预定阈值,并将用户特征i的关于用户ip地址类别的其他用户特征的tf*idf值小于0.5的关联去除掉。通过步骤s1010和s1020,可以去除掉关联强度(tf*idf值)较小的关联,由于这样的关联可信度较小,从而可以根据剩下的关联进一步筛选出可能性更大的潜在黑用户特征。在一些实施例中,还可以使用白用户特征列表来进一步过滤潜在黑用户特征。白用户特征列表可以是确定不是黑用户特征的用户特征集合。因此,如果发现所确定出的潜在黑用户特征中有在白用户特征列表中的用户特征,则可以将该用户特征从潜在黑用户特征列表中去除。在另一些实施例中,对于在步骤s140中所确定出来的潜在黑用户特征,还可以生成如前所述的关联图谱,作为风险用户画像,以便于更直观地观察。图11示出了根据本申请一示例性实施例的潜在黑用户特征确定方法所包括的关联图谱生成过程的示意流程图。如图11所示,该过程可以包括:s1110,从所确定的所述多个用户特征之间的关联中筛选出所述黑用户特征与所述潜在黑用户特征之间的关联。在步骤s1110中之所以进行筛选,是因为想要生成只包含黑用户特征和潜在黑用户特征的关联的关联图谱,以便直观地观察新增加的可以数据与它们之间的关联。s1120,根据所筛选出来的关联和所述已有的黑用户特征列表中的所有黑用户特征之间的关联,形成关联图谱,其中,在所述关联图谱中,将所述黑用户特征和所述潜在黑用户特征中的每个用户特征表示为一个节点,将两个用户特征之间的一条关联表示为代表所述两个用户特征的两个节点之间的一条连线。图12示出了在步骤s1120中所生成的关联图谱的示意图。在图12的示例中,以图2中的关联图谱为基础,去掉了不是黑用户特征和潜在黑用户特征的节点(假设通过步骤s110-140确定用户特征b、f、j为潜在黑用户特征,在图12中标记为“(潜黑)”),并且新增了包含用户特征q、r、s、t(在图12中标记为“(新增)”)的关联数据。新增的关联在图12中以虚线来表示。由图12可以看出,新增用户特征q与黑用户特征或潜在黑用户特征有紧密关联,具有高度可疑性,可以将其作为重点观察对象继续搜集相关数据并形成新的关联图谱。根据本申请的另一方面,还提供用于确定潜在黑用户特征的装置。图13是根据本申请一示例性实施例示出的确定潜在黑用户特征的装置的示意组成框图。该装置1301用于执行如上所述的确定潜在黑用户特征的方法的各实施例。如图13所示,示例装置1301包括:关联确定模块1310,其被配置为:根据多条历史访问记录,确定所述多条历史访问记录中包含的多个用户特征之间的关联,其中将每条历史访问记录中所包含的一组用户特征视为两两之间均具有一条关联;特征标记模块1320,其被配置为:根据已有的黑用户特征列表,将所述多个用户特征中在所述黑用户特征列表中的用户特征标记为黑用户特征,将所述多个用户特征中与所述黑用户特征具有关联的用户特征标记为灰用户特征;关联强度计算模块1330,其被配置为:根据所确定的所述多个用户特征之间的关联,计算所述灰用户特征中每个灰用户特征与所述黑用户特征之间的关联强度;潜在黑特征确定模块1340,其被配置为:将所述关联强度超过第一预定阈值的灰用户特征确定为潜在黑用户特征。根据图13所示的实施例,所述关联强度计算模块1330可以包括如下中的一个或多个:第一计算单元1331,其被配置为:对于每个灰用户特征,统计该灰用户特征与每个所述黑用户特征之间具有的关联条数,并将统计出的所述关联条数中最大的关联条数作为该灰用户特征与所述黑用户特征之间的关联强度;第二计算单元1332,其被配置为:对于每个灰用户特征,统计该灰用户特征与所有所述黑用户特征之间具有的关联条数之和,作为该灰用户特征与所述黑用户特征之间的关联强度;第三计算单元1333,其被配置为:对于每个灰用户特征,统计该灰用户特征与其他用户特征之间具有的关联总条数以及该灰用户特征与所有所述黑用户特征之间具有的关联条数之和,将所述关联条数之和与所述关联总条数的比值作为该灰用户特征与所述黑用户特征之间的关联强度;第四计算单元1334,其被配置为:对于每个灰用户特征,统计与该灰用户特征具有关联的用户特征中为所述黑用户特征的个数,作为该灰用户特征与所述黑用户特征之间的关联强度;第五计算单元1335,其被配置为:对于每个灰用户特征,统计与该灰用户特征具有关联的所有用户特征的总个数以及所述所有用户特征中为所述黑用户特征的个数,将所述个数与所述总个数的比值作为该灰用户特征与所述黑用户特征之间的关联强度;第六计算单元1336,其被配置为:对于每个灰用户特征,将所述关联条数之和与所述关联总条数的比值以及所述个数与所述总个数的比值的加权和作为该灰用户特征与所述黑用户特征之间的关联强度;tf-idf计算单元1337,其被配置为:对于每个灰用户特征,根据tf-idf算法,计算该灰用户特征关于与其有关联的每个黑用户特征的tf*idf值,并将所计算出的tf*idf值中最大的tf*idf值作为所述关联强度,其中tf为该灰用户特征关于该黑用户特征的关联频次,idf为所述多条历史访问记录的条数与所述多个用户特征中属于第一用户特征类别的用户特征的个数的比值的对数,其中第一用户特征类别为该黑用户特征所属于的用户特征类别。根据图13所示的实施例,装置1301还可以包括tf-idf计算模块1350,所述tf-idf计算模块1350可以包括:tf-idf算法单元1351,其被配置为:根据tf-idf算法,计算所述多个用户特征中每个用户特征关于与其有关联的每个其他用户特征之间的tf*idf值,其中tf为该用户特征关于该其他用户特征的关联频次,idf为所述多条历史访问记录的条数与所述多个用户特征中属于第一用户特征类别的用户特征的个数的比值的对数,其中第一用户特征类别为该其他用户特征所属于的用户特征类别;去除单元1352,其被配置为:将tf*idf值小于第二预定阈值的关联从所确定的所述多个用户特征之间的关联中去除。根据图13所示的实施例,装置1301还可以包括:白名单模块1360,其被配置为:根据已有的白用户特征列表,将所述潜在黑用户特征中在所述白用户特征列表中的用户特征确定为不是潜在黑用户特征。根据图13所示的实施例,装置1301还可以包括关联图谱生成模块1370,所述关联图谱生成模块1370可以包括:关联筛选单元1371,其被配置为:从所确定的所述多个用户特征之间的关联中筛选出所述黑用户特征与所述潜在黑用户特征之间的关联;关联图谱生成单元1372,其被配置为:根据所筛选出来的关联和所述已有的黑用户特征列表中的所有黑用户特征之间的关联,形成关联图谱,其中,在所述关联图谱中,将所述黑用户特征和所述潜在黑用户特征中的每个用户特征表示为一个节点,将两个用户特征之间的一条关联表示为代表所述两个用户特征的两个节点之间的一条连线。上述装置中各个单元/模块的功能和作用的实现过程以及相关细节具体详见上述方法实施例中对应步骤的实现过程,在此不再赘述。以上各实施例中的装置实施例可以通过硬件、软件、固件或其组合的方式来实现,并且其可以被实现为一个单独的装置,也可以被实现为各组成单元/模块分散在一个或多个计算设备中并分别执行相应功能的逻辑集成系统。以上各实施例中组成该装置的各单元/模块是根据逻辑功能而划分的,它们可以根据逻辑功能被重新划分,例如可以通过更多或更少的单元/模块来实现该装置。这些组成单元/模块分别可以通过硬件、软件、固件或其组合的方式来实现,它们可以是分别的独立部件,也可以是多个组件组合起来执行相应的逻辑功能的集成单元/模块。所述硬件、软件、固件或其组合的方式可以包括:分离的硬件组件,通过编程方式实现的功能模块、通过可编程逻辑器件实现的功能模块,等等,或者以上方式的组合。根据一个示例性实施例,该装置可被实现为一种计算设备,该计算设备包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序在被所述处理器执行时,使得所述处理器执行如上所述的各方法实施例中的任一个,或者,所述计算机程序在被所述处理器执行时使得该计算设备实现如上所述的用户权限管理装置各实施例的组成单元/模块所实现的功能。上面的实施例中所述的处理器可以指单个的处理单元,如中央处理单元cpu,也可以是包括多个分散的处理单元的分布式处理器系统。上面的实施例中所述的存储器可以包括一个或多个存储器,其可以是计算设备的内部存储器,例如暂态或非暂态的各种存储器,也可以是通过存储器接口连接到计算设备的外部存储装置。图14示出了这样的计算设备1401的一个示例性实施例的示意组成框图。如图14所示,计算设备1401可以包括:处理器1410、通信接口1420、存储器1430和总线1440。存储器1430内存储有可被处理器1410执行的计算机程序。处理器1410执行所述计算机程序时实现上述实施例中的方法及装置的功能。存储器1430和处理器1410的数量分别可以为一个或多个。通信接口1420用于处理器1410与外部设备之间的通信。其中,处理器1410可以是中央处理单元、通用处理器、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的流程步骤、功能单元/模块和/或电路。所述处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合、数字信号处理器等等。存储器1430可以包括易失性存储器和/或非易失性存储器,例如非易失性动态随机存取存储器、相变随机存取存储器、磁阻式随机存取存储器、磁盘存储器、电子可擦除可编程只读存储器、闪存器件、半导体器件(例如固态硬盘)等。存储器1430可选地还可以是外部远程存储装置。总线1440可以是工业标准体系结构(isa,industrystandardarchitecture)总线、外部设备互连(pci,peripheralcomponent)总线或扩展工业标准体系结构(eisa,extendedindustrystandardcomponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。可选地,如果存储器1430、处理器1410及通信接口1420集成在一块芯片上,则存储器1430、处理器1410及通信接口1420可以通过内部接口完成相互间的通信。以上各方法和装置实施例还可以被实现为计算机程序的形式,被存储在存储介质上,并且可被分发。因此,根据本公开的另一方面,还提供一种计算机程序产品,该计算机程序产品被存储在计算机可读存储介质上,并且在被处理器执行时实现如上所述的各方法和装置实施例中的任一个。根据本公开的又一方面,还提供一种计算机可读存储介质,其上存储有可供处理器执行的计算机程序,所述计算机程序在被处理器执行时实现如上所述的各方法和装置实施例中的任一个。该计算机可读存储介质可以是任何可以保持和存储可由指令执行设备使用的指令的有形设备。例如,其可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、静态随机存取存储器(sram)、便携式压缩盘只读存储器(cd-rom)、数字多功能盘(dvd)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所描述的计算机程序/计算机指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。本公开中所述的计算机程序指令可以是汇编指令、指令集架构(isa)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如smalltalk、c++等,以及常规的过程式编程语言—诸如“c”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(fpga)或可编程逻辑阵列(pla),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。但本领域技术人员应当清楚的是,上述各实施例可以根据需要单独使用或者相互结合使用。另外,对于装置实施例而言,由于其是与方法实施例相对应,所以描述得比较简单,相关之处参见方法实施例的对应部分的说明即可。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1