用户识别方法及其系统与流程

文档序号:15802012发布日期:2018-11-02 21:30阅读:1542来源:国知局
用户识别方法及其系统与流程

本公开涉及数据处理领域,更具体地,涉及一种用户识别方法及其系统。

背景技术

随着人工智能、电子商务、大数据系统的快速发展,在电子商务领域,企业之间的竞争日渐激烈,甚至出现恶意竞争现象,以给竞争对手造成潜在风险。例如,为了打击、遏制竞争对手,企业a可能会冒充用户,针对企业b的商品在电商平台上执行恶意下单、恶意占库存等操作,以给企业b造成潜在风险。为了降低或者消除这种潜在风险,各企业需要全面、有效地识别具有恶意下单、恶意占库存等潜在风险的恶意用户。



技术实现要素:

有鉴于此,本公开提供了一种能够全面、有效地识别恶意用户的用户识别方法及其系统。

本公开的一个方面提供了一种用户识别方法,包括:获取目标用户的第一用户信息,其中,上述目标用户属于目标用户群,上述目标用户群中各用户的交易数据之间的第一相似度满足相似度阈值;获取上述目标用户群的第一用户群信息,上述第一用户群信息至少包含用于描述上述各用户的第二用户信息之间关系的信息;以及根据上述第一用户信息和上述第一用户群信息识别上述目标用户。

根据本公开的实施例,其中,根据上述第一用户信息和上述第一用户群信息识别上述目标用户包括:加载用户识别模型;以及将上述第一用户信息和上述第一用户群信息输入上述用户识别模型,以使上述用户识别模型基于上述第一用户信息和上述第一用户群信息识别上述目标用户。

根据本公开的实施例,在加载用户识别模型之前,上述方法还包括:获取用户训练样本;获取上述用户训练样本中各用户的第三用户信息;获取上述用户训练样本的第二用户群信息,上述第二用户群信息至少包含用于描述上述第三用户信息之间关系的信息;以及根据上述第三用户信息和上述第二用户群信息进行训练,得到上述用户识别模型。

根据本公开的实施例,在根据上述第三用户信息和上述第二用户群信息进行训练,得到上述用户识别模型之后,上述方法还包括:获取用户测试样本;获取上述用户测试样本中各用户的第四用户信息;获取上述用户测试样本的第三用户群信息,上述第三用户群信息至少包含用于描述上述第四用户信息之间关系的信息;将上述第四用户信息和上述第三用户群信息输入上述用户识别模型,以使上述用户识别模型基于上述第四用户信息和上述第三用户群信息对识别上述用户测试样本中的各用户,得到识别结果;以及根据上述识别结果验证上述用户识别模型能否准确识别用户。

根据本公开的实施例,在获取上述目标用户群的第一用户群信息之前,上述方法还包括:获取上述目标用户的第一交易数据;获取至少一个指定用户的第二交易数据;计算上述第一交易数据和上述第二交易数据的第二相似度;判断上述第二相似度是否满足上述相似度阈值;以及若是,则将上述目标用户和上述至少一个指定用户作为上述目标用户群中的用户,以确定出上述目标用户群。

根据本公开的实施例,获取上述目标用户的第一交易数据包括获取上述目标用户在预设时间段内交易时产生的交易数据。

本公开的另一个方面提供了一种用户识别系统,包括:第一获取模块,用于获取目标用户的第一用户信息,其中,上述目标用户属于目标用户群,上述目标用户群中各用户的交易数据之间的第一相似度满足相似度阈值;第二获取模块,用于获取上述目标用户群的第一用户群信息,上述第一用户群信息至少包含用于描述上述各用户的第二用户信息之间关系的信息;以及识别模块,用于根据上述第一用户信息和上述第一用户群信息识别上述目标用户。

根据本公开的实施例,上述识别模块包括:加载单元,用于加载用户识别模型;以及输入单元,用于将上述第一用户信息和上述第一用户群信息输入上述用户识别模型,以使上述用户识别模型基于上述第一用户信息和上述第一用户群信息识别上述目标用户。

根据本公开的实施例,上述系统还包括:第三获取模块,用于在加载用户识别模型之前,获取用户训练样本;第四获取模块,用于获取上述用户训练样本中各用户的第三用户信息;第五获取模块,用于获取上述用户训练样本的第二用户群信息,上述第二用户群信息至少包含用于描述上述第三用户信息之间关系的信息;以及训练模块,用于根据上述第三用户信息和上述第二用户群信息进行训练,得到上述用户识别模型。

根据本公开的实施例,上述系统还包括:第六获取模块,用于在根据上述第三用户信息和上述第二用户群信息进行训练,得到上述用户识别模型之后,获取用户测试样本;第七获取模块,用于获取上述用户测试样本中各用户的第四用户信息;第八获取模块,用于获取上述用户测试样本的第三用户群信息,上述第三用户群信息至少包含用于描述上述第四用户信息之间关系的信息;输入模块,用于将上述第四用户信息和上述第三用户群信息输入上述用户识别模型,以使上述用户识别模型基于上述第四用户信息和上述第三用户群信息对识别上述用户测试样本中的各用户,得到识别结果;以及验证模块,用于根据上述识别结果验证上述用户识别模型能否准确识别用户。

根据本公开的实施例,上述系统还包括:第九获取模块,用于在获取上述目标用户群的第一用户群信息之前,获取上述目标用户的第一交易数据;第十获取模块,用于获取至少一个指定用户的第二交易数据;计算模块,用于计算上述第一交易数据和上述第二交易数据的第二相似度;判断模块,用于判断上述第二相似度是否满足上述相似度阈值;以及确定模块,用于在是的情况下,将上述目标用户和上述至少一个指定用户作为上述目标用户群中的用户,以确定出上述目标用户群。

根据本公开的实施例,上述第九获取模块还用于获取上述目标用户在预设时间段内交易时产生的交易数据。

本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。

根据本公开的实施例,因为采用了结合目标用户的用户信息以及目标用户所在的相似群(即目标用户群)的用户群信息来识别用户的技术手段,一方面克服了仅仅使用单一维度的用户信息进行识别而导致无法全面、有效地识别恶意用户的缺陷,另一方面克服了仅仅使用用户群信息进行识别而导致的可能将具有相似购买行为的正常用户误识别为恶意用户的缺陷,所以至少部分地降低了由于恶意用户恶意下单、恶意占库存等而给企业运营带来潜在风险的技术问题,实现全面、有效地识别恶意用户以防止其恶意下单、恶意占库存等的技术效果。

附图说明

通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:

图1示意性示出了根据本公开实施例的用户识别方法及其系统的应用场景;

图2示意性示出了根据本公开实施例的用户识别方法的流程图;

图3a示意性示出了根据本公开实施例的基于用户信息和用户群信息识别用户的流程图;

图3b示意性示出了根据本公开实施例的训练用户识别模型的流程图;

图3c示意性示出了根据本公开实施例的验证用户识别模型的流程图;

图3d示意性示出了根据本公开实施例的确定目标用户群的流程图;

图4示意性示出了根据本公开实施例的用户识别系统的框图;以及

图5示意性示出了根据本公开另一实施例的用户识别系统的框图。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

附图中示出了一些方框图和/或流程图。应理解,方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。

因此,本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外,本公开的技术可以采取存储有指令的计算机可读介质上的计算机程序产品的形式,该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。在本公开的上下文中,计算机可读介质可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,计算机可读介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。计算机可读介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。

本公开的实施例提供了一种用户识别方法及其系统。该方法包括信息获取过程和用户识别过程。在信息获取过程中,既需要获取目标用户(即被识别用户)自身的用户信息,又需要获取该目标用户所属的相似群(即目标用户群)的用户群信息。在完成信息获取之后,进入用户识别过程,此时可以根据获取的上述两种信息来识别目标用户,如判断该目标用户是否是恶意用户等。

图1示意性示出了根据本公开实施例的用户识别方法及其系统的应用场景。

如图1所示,在该应用场景中,多个用户如用户a、用户b、用户c和用户d等都在使用某购物平台购买商品,其中,用户a购买了商品a、b、c各一件,用户b购买了商品a、c各一件,用户c购买了商品b、c各一件,用户d购买了商品c、d、e各一件。企业为了规避风险,防止某些用户恶意下单、恶意占库存等,在面对上述用户时,一般需要从中识别出哪些是恶意用户、哪些是正常用户。

所谓恶意用户是指电子商务领域的非正常交易用户,如具有恶意下单、恶意占库存等操作行为的潜在风险用户。

图2示意性示出了根据本公开实施例的用户识别方法的流程图。

如图2所示,该方法包括操作s201~操作s203,其中:

操作s201,获取目标用户的第一用户信息,其中,目标用户属于目标用户群,目标用户群中各用户的交易数据之间的第一相似度满足相似度阈值。

需要说明的是,目标用户是指待识别的用户,他(或她)可以是正常用户,也可以是恶意用户。每个用户都有自己的用户信息,其中,用户信息包括但不限于用户进行交易时所使用的账号的与注册、登陆、领券相关的信息。一般情况下,不同用户具有不同的用户信息。换言之,不同正常用户在注册时间、登陆时间,领券时间等方面一般不具有规律性,但是不同恶意用户在注册时间、登陆时间,领券时间等方面往往具有明显的规律性。

用户群即相似群。对于任何一个用户群而言,该用户群中的所有用户在交易时往往表现出一定的相似性。例如,一个用户群中,所有用户都具有相似的交易行为,如他们倾向于购买几种相同的商品,并且其购买数量也可能类似。

恶意用户之间往往具有相似的交易行为,但是由于正常用户之间也可能具有相似的交易行为,因此一个用户群中的用户可能有3中情况:情况1,即可能有正常用户,也可能有恶意用户;情况2,可能只有正常用户;情况3,可能只有恶意用户。

操作s202,获取目标用户群的第一用户群信息,第一用户群信息至少包含用于描述各用户的第二用户信息之间关系的信息。

需要说明的是,一个用户群中可以包括多个用户,每个用户都具有自己的用户信息,而用户群信息则可以是用户群中所有用户的用户信息之间关系的信息,它可以由这些用户信息生成。前述的第二用户信息是指目标用户群中所有用户的用户信息的总和。

当一个用户群中的用户符合上述情况1时,该用户群中各用户的用户信息之间会具有一定的规律性。比如,一些用户注册账号时使用了相同的ip地址,注册时间相同或相近,登陆时间相同或者满足某种周期,等等。

当一个用户群中的用户符合上述情况2时,该用户群中各用户的用户信息之间不具有任何规律性。比如,用户注册账号时使用了不同的ip地址,注册时间、登陆时间都千差万别,等等。

当一个用户群中的用户符合上述情况3时,该用户群中各用户的用户信息之间会具有明显的规律性。比如,所有用户注册账号时使用了相同的ip地址,并且是在极短的时间内批量注册的,他们的登陆时间一般相同或者满足某种周期,等等。

在操作s203,根据第一用户信息和第一用户群信息识别目标用户。

在实现本发明构思的过程中,发明人发现,相关技术中提供了一种用户识别方案,即只依据用户信息进行识别。这种方案由于识别所依据的维度比较单一,忽略了恶意用户之间在用户信息上表现出的规律性,导致无法全面、有效地识别恶意用户。

在实现本发明构思的过程中,发明人发现,相关技术中还提供了另一种用户识别方案,即只依据用户群信息进行识别。这种方案由于正常用户也可能有其相似用户群体,而仅依据群体相关信息可能会将正常用户误识别为恶意用户,因而该方案不足以准确识别潜在的恶意用户。

与前述相关技术相比,本公开实施例因为采用了结合目标用户的用户信息以及该目标用户所在的相似群(即目标用户群)的用户群信息来识别用户的技术手段,一方面克服了仅仅使用单一维度的用户信息进行识别而导致无法全面、有效地识别恶意用户的缺陷,另一方面克服了仅仅使用用户群信息进行识别而导致的可能将具有相似购买行为的正常用户误识别为恶意用户的缺陷,所以至少部分地降低了由于恶意用户恶意下单、恶意占库存等而给企业运营带来潜在风险的技术问题,实现全面、有效地识别恶意用户以防止其恶意下单、恶意占库存等的技术效果。

下面参考图3a~图3d,结合具体实施例对图2所示的方法做进一步说明。

作为一种可选的实施例,根据第一用户信息和第一用户群信息识别目标用户可以包括多种方式。譬如,直接基于这两种信息与恶意用户的相关信息进行比对。再譬如,可以预先训练一个用于识别恶意用户的模型,在有识别任务时,直接加载这个模型进行识别。后者与前者相比,由于预先训练了一个用户识别模型,每次识别时只需要加载这个模型,并输入相应的用户信息和用户群信息就可以实现识别目的,因而可以提高识别效率。

图3a示意性示出了根据本公开实施例的基于用户信息和用户群信息识别用户的流程图。

如图3a所示,根据第一用户信息和第一用户群信息识别目标用户可以包括操作s301~操作s302,其中:

操作s301,加载用户识别模型;以及

操作s302,将第一用户信息和第一用户群信息输入用户识别模型,以使用户识别模型基于第一用户信息和第一用户群信息识别目标用户。

需要说明的是,用户识别模型是使用专门的用户训练样本预先训练得到并存储在本地或者云端的,使用时直接加载即可。在本公开实施例中,用户识别模型的识别依据可以包括但不限于:用户的用户信息和用户所属用户群的用户群信息。

另外,对于待识别的用户,可以将其用户信息和对应的用户群信息作为宽表预先存储在宽表中。

使用该方案,可以从上述宽表中加载待识别的目标用户的第一用户信息和第一用户群信息,并将其输入用户识别模型,该用户识别模型就会基于自身的识别依据依据输入的相关信息对目标用户进行分类,从而确定其是正常用户还是恶意用户。

本公开实施例,因为采用了用户识别模型进行用户识别技术手段,以用户信息和用户群信息为识别依据进行恶意用户识别,可以实现对大规模数据进行处理的目的,达到简化识别流程、提高识别效率的技术效果。

作为一种可选的实施例,为了实现简化识别流程、提高识别效率的目的,在加载用户识别模型之前,上述方法还可以包括:训练出能够全面、有效地识别用户的用户识别模型。其中,训练用户识别模型可以包括多种方式/手段,在此不做限定。例如,可以使用计算引擎apachespark,并利用spark框架的机器算法包(ml)提供的随机森林算法和mahout提供的一些可扩展的机器学习领域的经典算法进行训练。其中:

apachespark是专为大规模数据处理而设计的快速通用的计算引擎,可以用来进行分布式的流式计算、机器模型训练、图计算。sparkml包是其中的机器模型训练模块。

mahout提供的可扩展的机器学习领域经典算法可以包括但不限于:聚类、分类、推荐过滤、频繁子项挖掘等。

随机森林算法是一个包含多个决策树的分类器,其输出的类别是由个别树输出的类别的众数而定。使用sparkml包提供的随机森林算法进行数据建模包括:读取模型训练数据到spark内存中;设置目标变量,选取特征数据,选用随机森林算法并合理设置参数;基于训练集进行模型训练,拟合随机森林模型;输出潜在恶意用户识别模型。

图3b示意性示出了根据本公开实施例的训练用户识别模型的流程图。

如图3b所示,在加载用户识别模型之前,上述方法还可以包括操作s401~操作s404,其中:

操作s401,获取用户训练样本;

操作s402,获取用户训练样本中各用户的第三用户信息;

操作s403,获取用户训练样本的第二用户群信息,第二用户群信息至少包含用于描述第三用户信息之间关系的信息;以及

操作s404,根据第三用户信息和第二用户群信息进行训练,得到用户识别模型。

需要说明的是,用户训练样本也可以称为训练集。训练集中的所有用户可以都是恶意用户,此时该训练集对应的用户群信息(即训练集中的所有用户的用户信息)满足特定规律。训练集中的所有用户也可以都是正常用户,此时该训练集对应的用户群信息(即训练集中的所有用户的用户信息)不满足任何规律。前述第三用户信息是训练集中各用户的用户信息的总和。

本公开实施例,因为采用了使用专门的训练集训练用户识别模型的技术手段,达到了使用户识别模型能够以用户信息和用户群信息为依据全面、有效地识别恶意用户的技术效果。

作为一种可选的实施例,为了保证能够准确无误的识别用户,在根据第三用户信息和第二用户群信息进行训练,得到用户识别模型之后,上述方法还可以包括验证用户识别模型是否有效(即是否能够准确识别用户)的相关方式/手段。其中,验证用户识别模型是否有效可以包括多种方式/手段,在此不做限定。

图3c示意性示出了根据本公开实施例的验证用户识别模型的流程图。

如图3c所示,在根据第三用户信息和第二用户群信息进行训练,得到用户识别模型之后,上述方法还可以包括操作s501~操作s505,其中:

操作s501,获取用户测试样本;

操作s502,获取用户测试样本中各用户的第四用户信息;

操作s503,获取用户测试样本的第三用户群信息,第三用户群信息至少包含用于描述第四用户信息之间关系的信息;

操作s504,将第四用户信息和第三用户群信息输入用户识别模型,以使用户识别模型基于第四用户信息和第三用户群信息对识别用户测试样本中的各用户,得到识别结果;以及

操作s505,根据识别结果验证用户识别模型能否准确识别用户。

用户测试样本也可以称为测试集。测试集中的所有用户可以都是恶意用户,也可以都是正常用户,还可以既有恶意用户又有正常用户。但是,测试集中每个用户无论是正常用户还是恶意用户,其身份是确定的。前述第四用户信息是训练集中各用户的用户信息的总和。

具体地,假设测试集包含用户a和用户b,且用户a和用户b都是恶意用户。在测试过程中,分别将用户a的用户信息和测试集的用户群信息、用户b的用户信息和测试集的用户群信息输入被测试的用户识别模型中,经识别后,如果输出结果显示用户a和用户b都是恶意用户,则表明用户识别模型能够准确识别用户;如果输出结果显示用户a是正常用户,用户b是恶意用户,或者如果输出结果显示用户a是恶意用户,用户b是正常用户,则表明用户识别模型识别用户的准确性不高;如果输出结果显示用户a和用户b都是正常用户,则表明用户识别模型基本无法准确识别用户。

进一步,在验证用户识别模型识别用户的准确性之后,若准确,则后续可以使用该用户识别模型识别用户,若不准确,则后续需要修正或者重新训练后再使用,因而可以提高识别用户的准确度。

本公开实施例,因为采用了使用专门的测试集测试用户识别模型的技术手段,达到了验证用户识别模型识别用户是否准确以保证用户识别模型能够全面、有效地识别用户的技术效果。

作为一种可选的实施例,在获取目标用户群的第一用户群信息之前,上述方法还可以包括确定出目标用户群(即确定出相似群)

图3d示意性示出了根据本公开实施例的确定目标用户群的流程图。

如图3d所示,在获取目标用户群的第一用户群信息之前,上述方法还可以包括操作s601~操作s605,其中:

操作s601,获取目标用户的第一交易数据;

操作s602,获取至少一个指定用户的第二交易数据;

操作s603,计算第一交易数据和第二交易数据的第二相似度;

操作s604,判断第二相似度是否满足相似度阈值;以及

操作s605,若是,则将目标用户和至少一个指定用户作为目标用户群中的用户,以确定出目标用户群。

需要说明的是,交易数据可以包括但不限于所购买商品的名称以及购买数量等。在本公开实施例中,计算两组交易数据的第二相似度方式/手段可以包括多种,在此不做限定。例如,可以通过mahout中提供的rowsimilarity方法计算出用户的交易数据之间的相似度,也可以通过用户的协同过滤模型计算用户的交易数据之间的相似度。进一步,通过用户的协同过滤模型计算用户的交易数据之间的相似度至少可以使用以下公式:jaccard公式,余弦相似度计算公式等。

基于用户的协同过滤算法一般应用在推荐场景,例如,把与用户a有相似爱好的其它用户的物品清单推荐给用户a。在本公开中,主要利用该算法获取与用户具有高相似度的用户群,再根据用户群中各用户的用户信息生成该用户群的用户群信息,从而识别用户群中的恶意用户。

一般地,假设用户近期购买过某商品,则用户对该商品的评分设置为1,否则设置为0。计算目标用户和其它用户的相似度,找到与目标用户相似度高的目标用户群。例如,给定用户u和v,令nu表示用户u曾经购买过的商品集合,令nv表示用户v曾经购买过的商品集合。

通过jaccard公式计算用户u和v的相似度,如公式(1)所示。

通过余弦相似度计算,如公式(2)所示。

下面以图1所示的用户交易记录为例,说明基于用户的协同过滤算法计算用户相似度。如图1所示,用户a购买过商品{a,b,d},用户b购买过商品{a,c},利用余弦相似度计算用户a和b的相似度如公式(3)所示。

本公开实施例,因为采用了协同过滤等算法计算用户间的相似关系技术手段,确定相似用户群,进而在相似用户群上再基于该用户群中各用户的用户信息生成对应的用户群信息,能够更有效地识别恶意用户。

作为一种可选的实施例,获取目标用户的第一交易数据包括获取目标用户在预设时间段内交易时产生的交易数据。

本公开实施例,因为采用了获取预设时间段内的交易数据技术手段,所以至少部分地克服了获取所有时间段内的交易数据导致的数据量大、数据存在冗余等技术问题,进而达到了合理获取有意义的交易数据的技术效果。

图4示意性示出了根据本公开实施例的用户识别系统的框图。

如图4所示,该用户识别系统包括:第一获取模块410、第二获取模块420、识别模块430。

第一获取模块410用于获取目标用户的第一用户信息,其中,目标用户属于目标用户群,目标用户群中各用户的交易数据之间的第一相似度满足相似度阈值。

需要说明的是,目标用户是指待识别的用户,他(或她)可以是正常用户,也可以是恶意用户。每个用户都有自己的用户信息,其中,用户信息包括但不限于用户进行交易时所使用的账号的与注册、登陆、领券相关的信息。一般情况下,不同用户具有不同的用户信息。换言之,不同正常用户在注册时间、登陆时间,领券时间等方面一般不具有规律性,但是不同恶意用户在注册时间、登陆时间,领券时间等方面往往具有明显的规律性。

用户群即相似群。对于任何一个用户群而言,该用户群中的所有用户在交易时往往表现出一定的相似性。例如,一个用户群中,所有用户都具有相似的交易行为,如他们倾向于购买几种相同的商品,并且其购买数量也可能类似。

恶意用户之间往往具有相似的交易行为,但是由于正常用户之间也可能具有相似的交易行为,因此一个用户群中的用户可能有3中情况:情况1,即可能有正常用户,也可能有恶意用户;情况2,可能只有正常用户;情况3,可能只有恶意用户。

第二获取模块420用于获取目标用户群的第一用户群信息,第一用户群信息至少包含用于描述各用户的第二用户信息之间关系的信息。

需要说明的是,一个用户群中可以包括多个用户,每个用户都具有自己的用户信息,而用户群信息则可以是用户群中所有用户的用户信息之间关系的信息,它可以由这些用户信息生成。前述的第二用户信息是指目标用户群中所有用户的用户信息的总和。

当一个用户群中的用户符合上述情况1时,该用户群中各用户的用户信息之间会具有一定的规律性。比如,一些用户注册账号时使用了相同的ip地址,注册时间相同或相近,登陆时间相同或者满足某种周期,等等。

当一个用户群中的用户符合上述情况2时,该用户群中各用户的用户信息之间不具有任何规律性。比如,用户注册账号时使用了不同的ip地址,注册时间、登陆时间都千差万别,等等。

当一个用户群中的用户符合上述情况3时,该用户群中各用户的用户信息之间会具有明显的规律性。比如,所有用户注册账号时使用了相同的ip地址,并且是在极短的时间内批量注册的,他们的登陆时间一般相同或者满足某种周期,等等。

识别模块430,用于根据第一用户信息和第一用户群信息识别目标用户。

在实现本发明构思的过程中,发明人发现,相关技术中提供了一种用户识别方案,即只依据用户信息进行识别。这种方案由于识别所依据的维度比较单一,忽略了恶意用户之间在用户信息上表现出的规律性,导致无法全面、有效地识别恶意用户。

在实现本发明构思的过程中,发明人发现,相关技术中还提供了另一种用户识别方案,即只依据用户群信息进行识别。这种方案由于正常用户也可能有其相似用户群体,而仅依据群体相关信息可能会将正常用户误识别为恶意用户,因而该方案不足以准确识别潜在的恶意用户。

与前述相关技术相比,本公开实施例因为采用了结合目标用户的用户信息以及该目标用户所在的相似群(即目标用户群)的用户群信息来识别用户的技术手段,一方面克服了仅仅使用单一维度的用户信息进行识别而导致无法全面、有效地识别恶意用户的缺陷,另一方面克服了仅仅使用用户群信息进行识别而导致的可能将具有相似购买行为的正常用户误识别为恶意用户的缺陷,所以至少部分地降低了由于恶意用户恶意下单、恶意占库存等而给企业运营带来潜在风险的技术问题,实现全面、有效地识别恶意用户以防止其恶意下单、恶意占库存等的技术效果。

作为一种可选的实施例,上述识别模块可以包括:加载单元,用于加载用户识别模型;以及输入单元,用于将第一用户信息和第一用户群信息输入用户识别模型,以使用户识别模型基于第一用户信息和第一用户群信息识别目标用户。

作为一种可选的实施例,上述系统还可以包括:第三获取模块,用于在加载用户识别模型之前,获取用户训练样本;第四获取模块,用于获取用户训练样本中各用户的第三用户信息;第五获取模块,用于获取用户训练样本的第二用户群信息,第二用户群信息至少包含用于描述第三用户信息之间关系的信息;以及训练模块,用于根据第三用户信息和第二用户群信息进行训练,得到用户识别模型。

作为一种可选的实施例,上述系统还可以包括:第六获取模块,用于在根据第三用户信息和第二用户群信息进行训练,得到用户识别模型之后,获取用户测试样本;第七获取模块,用于获取用户测试样本中各用户的第四用户信息;第八获取模块,用于获取用户测试样本的第三用户群信息,第三用户群信息至少包含用于描述第四用户信息之间关系的信息;输入模块,用于将第四用户信息和第三用户群信息输入用户识别模型,以使用户识别模型基于第四用户信息和第三用户群信息对识别用户测试样本中的各用户,得到识别结果;以及验证模块,用于根据识别结果验证用户识别模型能否准确识别用户。

作为一种可选的实施例,上述系统还可以包括:第九获取模块,用于在获取目标用户群的第一用户群信息之前,获取目标用户的第一交易数据;第十获取模块,用于获取至少一个指定用户的第二交易数据;计算模块,用于计算第一交易数据和第二交易数据的第二相似度;判断模块,用于判断第二相似度是否满足相似度阈值;以及确定模块,用于在是的情况下,将目标用户和至少一个指定用户作为目标用户群中的用户,以确定出目标用户群。

作为一种可选的实施例,上述第九获取模块还可以用于获取目标用户在预设时间段内交易时产生的交易数据。

需要说明的是,装置部分各实施例中的模块/单元/子单元的实现方式/手段、所实现的功能、所解决的技术问题、以及所达到的技术效果与方法部分各实施例中对应的操作的实现方式/手段、所实现的功能、所解决的技术问题、以及所达到的技术效果相同或类似,在此不再赘述。

本公开的另一方面提供了一种非易失性存储介质,存储有计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。

图5示意性示出了根据本公开另一实施例的用户识别系统的框图。

如图5所示,用户识别系统包括处理器510和计算机可读存储介质520。该用户识别系统可以执行上面参考图2~图3d描述的方法,以实现识别用户是否是恶意用户的目的。

具体地,处理器510例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器510还可以包括用于缓存用途的板载存储器。处理器510可以是用于执行参考图2~图3d描述的根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质520,例如可以是能够包含、存储、传送、传播或传输指令的任意介质。例如,可读存储介质可以包括但不限于电、磁、光、电磁、红外或半导体系统、装置、器件或传播介质。可读存储介质的具体示例包括:磁存储装置,如磁带或硬盘(hdd);光存储装置,如光盘(cd-rom);存储器,如随机存取存储器(ram)或闪存;和/或有线/无线通信链路。

计算机可读存储介质520可以包括计算机程序521,该计算机程序521可以包括代码/计算机可执行指令,其在由处理器510执行时使得处理器510执行例如上面结合图2~图3d所描述的方法流程及其任何变形。

计算机程序521可被配置为具有例如包括计算机程序模块的计算机程序代码。例如,在示例实施例中,计算机程序521中的代码可以包括一个或多个程序模块,例如包括521a、模块521b、……。应当注意,模块的划分方式和个数并不是固定的,本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合,当这些程序模块组合被处理器510执行时,使得处理器510可以执行例如上面结合图2~图3d所描述的方法流程及其任何变形。

以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1