用户账号检测方法、装置、计算机设备和存储介质与流程

文档序号:16090065发布日期:2018-11-27 22:54阅读:121来源:国知局

本申请涉及计算机技术领域,特别是涉及一种用户账号检测方法、装置、计算机设备和存储介质。



背景技术:

在多数互联网平台,为了提高平台用户的活跃度,会设置运营策略,如注册送红包、送优惠券,以及消费返现、返优惠券、活动折扣价等。但是这些活动的福利可能会被异常用户账号批量操作或利用漏洞进行领取,并未直接到达正常用户账号手中,给平台带来了巨大的经济损失。为防止被异常用户账号批量领取福利或利用平台漏洞领取福利,目前采用各种防护措施,比如验证码、短信验证码校验等方式,但是这些方式都存在着缺陷,异常用户账号使用方都非常容易绕过这些防护措施获取福利,给互联网平台造成大量损失。



技术实现要素:

基于此,有必要针对上述技术问题,提供一种能够有效检测异常用户账号的用户账号检测方法、装置、计算机设备和存储介质。

一种用户账号检测方法,所述方法包括:

获取用户账号数据,根据用户账号数据得到用户特征属性;

将用户特征属性输入到预设用户账号分类器中,得到输出特征;

根据输出特征得到用户账号检测结果。

在其中一个实施例中,所述预设用户账号分类器的生成步骤包括:

获取历史用户账号数据和对应的检测结果,检测结果包括历史正常用户账号和历史异常用户账号;

根据历史用户账号数据和对应的检测结果统计历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算历史正常用户账号频率和历史异常用户账号频率;

根据历史用户账号数据得到对应的历史用户特征,并对历史用户特征按照预设条件进行划分,得到待分类项;

统计待分类项对应的历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算待分类项对应的历史用户账号为历史正常用户账号的条件概率和历史用户账号为历史异常用户账号的条件概率,得到预设用户账号分类器。

在其中一个实施例中,所述将所述用户特征属性输入到预设用户账号分类器中,得到输出特征,包括:

获取用户特征属性对应的目标待分类项;

获取目标待分类项对应的条件概率,根据条件概率使用贝叶斯定理分别计算用户账号为正常用户账号概率和用户账号为异常用户账号概率;

比较正常用户账号概率和异常用户账号概率,根据比较结果得到输出特征。

在其中一个实施例中,所述方法,还包括:

根据用户账号数据得到用户账号收货地址信息;

对用户账号收货地址信息进行分词,得到分词结果,将分词结果输入到聚类模型中得到分类结果,根据分类结果得到收货地址相似度;

根据收货地址相似度得到疑似异常用户账号;

则获取用户账号数据,包括:

获取疑似异常用户账号的用户账号数据。

在其中一个实施例中,所述将所述分词结果输入到聚类模型中得到分类结果,包括:

将用户账号收货地址信息按照预设条件进行分组,计算分组总数,根据分组总数计算聚类数目;

从分词结果中获取聚类数目的目标词作为初始簇中心,将初始簇中心作为当前簇中心;

获取分词结果中除目标词以外的其它词,计算除目标词以外的其它词到当前簇中心的距离;

根据距离将除目标词以外的其它词分配到当前簇中心对应的簇中,得到聚类数目的目标簇;

计算目标簇的目标簇中心,将目标簇中心作为当前簇中心,返回计算除目标词以外的其它词到当前簇中心的距离的步骤进行重复聚类,直到满足收敛条件时,得到分类结果。

在其中一个实施例中,所述方法,还包括:

根据用户账号数据得到输入特征向量,将输入特征向量输入到预设用户账号检测模型中,得到输出特征向量;

根据输出特征向量得到用户账号检测结果。

在其中一个实施例中,所述预设用户账号检测模型的生成步骤,包括:

获取历史用户账号数据和对应的检测结果,根据历史用户账号数据得到历史输入特征向量,根据检测结果得到历史输出特征向量;

将历史输入特征向量作为逻辑回归模型的输入,将历史输出特征向量作为逻辑回归模型的标签进行训练;

当逻辑回归模型的代价函数达到预设阈值时,得到预设用户账号检测模型。

一种用户账号检测装置,所述装置包括:

特征属性得到模块,用于获取用户账号数据,根据用户账号数据得到用户特征属性;

输出特征得到模块,用于将用户特征属性输入到预设用户账号分类器中,得到输出特征;

检测结果得到模块,用于根据输出特征得到用户账号检测结果。

一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取用户账号数据,根据用户账号数据得到用户特征属性;

将用户特征属性输入到预设用户账号分类器中,得到输出特征;

根据输出特征得到用户账号检测结果。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取用户账号数据,根据用户账号数据得到用户特征属性;

将用户特征属性输入到预设用户账号分类器中,得到输出特征;

根据输出特征得到用户账号检测结果。

上述用户账号检测方法、装置、计算机设备和存储介质,通过获取用户账号数据,根据用户账号数据得到用户特征属性;将用户特征属性输入到预设用户账号分类器中,得到输出特征;根据输出特征得到用户账号检测结果,能够使用预设用户账号分类器检测用户账号数据得到用户账号检测结果,能够有效的检测出异常用户账号。

附图说明

图1为一个实施例中用户账号检测方法的应用场景图;

图2为一个实施例中用户账号检测方法的流程示意图;

图3为一个实施例中得到预设用户账号分类器的流程示意图;

图4为一个实施例中得到输出特征的流程示意图;

图5为一个实施例中得到疑似异常用户账号的流程示意图;

图6为一个实施例中根据用户账号收货地址聚类的流程示意图;

图7为另一个实施例中用户账号检测方法的流程示意图;

图8为一个实施例中得到预设用户账号检测模型的流程示意图;

图9为一个实施例中用户账号检测装置的结构框图;

图10为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的用户账号检测方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取到终端102发送的用户账号数据,根据用户账号数据得到用户特征属性;将用户特征属性输入到预设用户账号分类器中,得到输出特征;根据输出特征得到用户账号检测结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种用户账号检测方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

S202,获取用户账号数据,根据用户账号数据得到用户特征属性。

其中,用户账号数据包括账号基础属性、设备信息、用户行为数据和业务数据。其中,账号基础属性用于反映用户的个人信息,可以包括账户名、手机号、银行卡号、姓名、年龄、性别、身份证和地址等。设备信息用于描述用户使用的设备参数信息,可以包括手机、平板电脑、笔记本和PC等各类设备的参数,也可以是用户经常使用设备的设备指纹。用户行为数据是指用户在网页或者客户端上进行各种操作时产生的各类数据,可以包括用户页面停留时长、用户的访问顺序、操作频率和按键信息等。业务数据是指进行业务活动时产生的数据,比如,有秒杀商品的业务活动时,则业务数据就是该商品的维度属性。

用户特征属性是指用户特征对应的值集合,该值集合是对用户账号数据经过处理得到的,用户特征包括基础属性特征、设备信息特征、用户行为特征和业务特征等,用户特征是根据历史用户账号数据进行特征提取得到的。其中,经过处理可以是根据用户账号数据进行计算得到用户特征属性,也可以是预先设置好用户账号数据与用户特征属性的对应关系得到用户特征属性,比如:基础属性特征a1为若一个用户账号数据中好友数量为100个好友,注册天数为400天,则该用户特征a1对应的用户特征属性可以计算得到为0.25。又比如设备信息特征b1为设备芯片型号,若一个用户账号数据中设备芯片型号为X86芯片,则该根据预先设置好的设备芯片型号和用户特征属性的对应关系得到该用户特征b1对应的用户特征属性为1。

具体地,在获得用户授权的情况下,可以采用不同的数据采集方法去获取用户账号数据,可以通过在用户终端进行业务埋点来获取用户账号数据,也可以通过在用户终端预设数据采集脚本,在平台页面加载时启动脚本来获取用户账号数据,也可以通过获取到服务器中日志信息,从日志信息中获取用户账号数据。然后对获取到的数据进行数据清洗,数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。将清洗后的数据特征提取,得到用户特征,根据用户账号数据获取到用户特征对应的用户特征属性,得到用户特征属性。

S204,将用户特征属性输入到预设用户账号分类器中,得到输出特征。

其中,预设用户账号分类器使根据朴素贝叶斯算法预先训练历史用户账号数据得到的。输出特征是用于判断检测结果的特征值,预先根据历史用户账号检测结果设置好不同检测结果对应的不同的输出特征,即对应不同的特征值,比如预先设置好检测结果为正常用户账号对应的输出特征即特征值为1,预先设置好检测结果为异常用户账号对应的输出特征即特征值为0。则得到的输出特征就可以是1或者0。

具体地,将根据用户账号数据得到的用户特征属性输入到预先根据朴素贝叶斯算法训练的用户账号分类器中,得到了检测结果对应的输出特征。其中,朴素贝叶斯算法是基于贝叶斯定理与特征条件独立假设的分类方法。

S206,根据输出特征得到用户账号检测结果。

具体地,根据预设的输出特征和历史用户账号检测结果的对应关系,得到此时输出特征对应的用户账号检测结果。例如,若预先设置好用户账号检测结果为正常用户账号时对应的输出特征为1,当用户账号检测结果为异常用户账号时对应的输出特征为0。则当输出特征为1时,说明此时的用户账号为正常用户账号,若输出特征为0,则说明此时的用户账号为异常用户账号。此时,当用户账号为异常用户账号时可以对该异常用户账号的各种操作请求进行实时拦截。

上述用户账号检测方法中,通过获取用户账号数据,根据用户账号数据得到用户特征属性;将用户特征属性输入到预设用户账号分类器中,得到输出特征;根据输出特征得到用户账号检测结果。能够使用预设用户账号分类器检测用户账号数据得到用户账号检测结果,能够有效的检测出异常用户账号。当检测出为异常用户账号时,可以对异常用户账号的各种操作请求进行拦截,可以有效降低异常用户账号给平台造成的经济利益损失。

在一个实施例中,如图3所示,所述预设用户账号分类器的生成步骤包括:

S302,获取历史用户账号数据和对应的检测结果,检测结果包括历史正常用户账号和历史异常用户账号。

其中,历史正常用户账号是指通过历史用户账号数据进行检测没有异常现象的用户账号为历史正常用户账号。历史异常用户账号是指通过历史用户账号数据进行检测发现了异常现象的用户账号为历史异常用户账号。异常现象是指在业务活动中用户的操作请求和操作行为不符合预设的行为规则的现象或则用户账号使用异常设备登录,在异地登录等现象。

具体地,获取到历史用户账号数据和对应的检测结果,该历史用户账号数据和对应的检测结果可以是通过人工或者专家规则进行检测历史用户账号数据得到的检测结果数据然后进行保存的,将得到的历史用户账号数据和对应的检测结果作为样本数据。

S304,根据历史用户账号数据和对应的检测结果统计历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算历史正常用户账号频率和历史异常用户账号频率。

具体地,统计样本数据中的历史用户账号数、历史正常用户账号数和历史异常用户账号数。根据历史用户账号数和历史正常用户账号数计算历史正常用户账号频率,根据历史用户账号数和历史异常用户账号数计算历史异常用户账号频率。

S306,根据历史用户账号数据得到对应的历史用户特征,并对历史用户特征按照预设条件进行划分,得到待分类项。

其中,待分类项是指将用户特征按照预设条件划分之后得到不同的划分结果,每个用户特征可以对应多个划分,即可以对应多个待分类项。预设条件可以是按照人为的经验设置的历史用户特征的划分条件。比如,提取到的历史用户特征可以是则该用户特征的待分类项可以为a1<=0.05、0.05<a1<0.2和a1>=0.2。。若一个历史用户账号数据中的日志数据和注册天数之比为0.15,用户头像为真是头像,则其用户特征属性为0.15,其属于的待分类项为0.05<a1<0.2。历史用户特征可以是a2=用户头像,则该用户特征的待分类项可以是用户头像为真实头像或者其他头像。

具体地,根据历史用户账号数据进行特征提取得到对应的历史用户特征,并对提取到的每个历史用户特征按照预设条件进行划分,得到每个用户特征对应的待分类项。

S308,统计待分类项对应的历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算待分类项对应的历史用户账号为历史正常用户账号的条件概率和历史用户账号为历史异常用户账号的条件概率,得到预设用户账号分类器。

具体地,统计每个待分类项的历史用户账号数、历史正常用户账号数和历史异常用户账号数。并计算每个待分类项对应的历史用户账号为历史正常用户账号的条件概率和历史用户账号为历史异常用户账号的条件概率,即计算历史用户账号为历史正常用户账号或者历史异常用户发生的条件下,对应每个待分类项发生的概率,就得到了预设用户账号分类器。

在一个实施例中,可以将样本数据分为训练样本数据和测试样本数据,使用训练样本数据进行训练得到初始用户账号分类器,在得到预设用户账号分类器之后,使用测试样本数据对初始用户账号分类器进行测试,当测试结果达到预设准确度时,测试完成,得到预设用户账号分类器。当测试结果没有达到预设准确度时,则重新进行初始用户账号分类器的训练,可以获取更多的训练样本数据进行训练,直到测试结果达到预设准确度。

在上述实施例中,通过获取历史用户账号数据和对应的检测结果,所述检测结果包括历史正常用户账号和历史异常用户账号;根据所述历史用户账号数据和对应的检测结果统计历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算历史正常用户账号频率和历史异常用户账号频率;根据历史用户账号数据得到对应的历史用户特征,并对所述历史用户特征按照预设条件进行划分,得到待分类项;统计所述待分类项对应的历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算所述待分类项对应的历史用户账号为历史正常用户账号的条件概率和历史用户账号为历史异常用户账号的条件概率,得到预设用户账号分类器。通过预先设置好用户账号分类器,在进行用户账号检测时,可以直接使用,提高了用户账号检测的效率。

在一个实施例中,如图4所示,步骤S204,即所述将所述用户特征属性输入到预设用户账号分类器中,得到输出特征,包括步骤:

S402,获取用户特征属性对应的目标待分类项。

具体地,根据预先划分好的待分类项获取用户特征属性对应的目标待分类项,每一个用户特征都会有一个对应的目标待分类项。

S404,获取目标待分类项对应的条件概率,根据条件概率使用贝叶斯定理分别计算用户账号为正常用户账号概率和用户账号为异常用户账号概率。

具体地,获取到待分类项对应的条件概率,该条件概率根据预先训练好的用户账号分类器得到的,根据该条件概率和历史正常用户账号频率使用贝叶斯定理计算用户账号为正常用户账号概率,根据该条件概率和历史异常用户账号频率使用贝叶斯定理计算用户账号为异常用户账号概率。其中,贝叶斯定理的计算公式为其中,P(B|A)是指待分类项A发生的条件下,用户账号为正常用户账号或异常用户账号的概率,P(A|B)是指待分类项对应的条件概率,P(B)是指历史正常用户账号频率或者历史异常用户账号频率。又因为分母为常数,则当待分类项为多项时,根据贝叶斯定理得到的计算公式为P(B|A)=P(A1|B)P(A2|B)...P(Am|B)P(B),其中Am表示第m个待分类项的条件概率。

S406,比较正常用户账号概率和异常用户账号概率,根据比较结果得到输出特征。

具体地,比较正常用户账号概率和异常用户账号概率,则将概率大的作为输出特征。比如,当正常用户账号对应的输出特征为1,异常用户账号对应的输出特征为0,若比较结果为正常用户账号概率大,则得到的输出特征为1,若比较结果为异常用户账号概率大,则得到的输出特征为0。

上述实施例中,通过获取用户特征属性对应的目标待分类项;获取目标待分类项对应的条件概率,根据条件概率使用贝叶斯定理分别计算用户账号为正常用户账号概率和用户账号为异常用户账号概率;比较正常用户账号概率和异常用户账号概率,根据比较结果得到输出特征,能够更加方便和准确的得到输出特征。

在一个实施例中,如图5所示,所述方法,还包括以下步骤,以下步骤用于得到疑似异常用户账号:

S502,根据用户账号数据得到用户账号收货地址信息。

其中,用户账号收货地址信息是指用户账号在进行交易时商品的收货地址信息。

具体的,根据得到的用户账号数据中的账号基础属性中获取的收取货物的详细地址信息,或者从业务数据中获取到的业务活动商品的收货详细地址信息。不同的用户账号有不同的收货地址。比如:用户账号收货地址可以是XX省XX市XX县XX大道XX花园XX号。

S504,对用户账号收货地址信息进行分词,得到分词结果,将分词结果输入到聚类模型中得到分类结果,根据分类结果得到收货地址相似度。

其中,聚类模型是指使用聚类算法建立的分类模型,收货地址相似度用户描述收货地址的相似程度。

具体的,对用户账号收货地址信息进行分词,得到分词结果,将分词结果作为词集合输入到聚类模型中得到分类结果,根据分类结果得到收货地址相似度。比如,:上述用户账号收货地址分词之后得到的分词结果为XX省、XX市、XX县、XX大道、XX花园和XX号。

S506,根据收货地址相似度得到疑似异常用户账号。

具体的,当收货地址相似度比较高时,说明这些收货地址相似度比较高的用户账号异常的可能性较高,则将收货地址相似度较高的用户账号作为疑似异常用户账号。

则步骤S202,即获取用户账号数据包括步骤:

获取疑似异常用户账号的用户账号数据。

具体的,获取疑似异常用户账号的用户账号数据,可以使用预设用户账号分类器疑似异常用户账号进行检测,确定疑似异常用户账号是否为异常用户账号。

在上述实施例中,根据用户账号数据得到用户账号收货地址信息;对用户账号收货地址信息进行分词,得到分词结果,将分词结果输入到聚类模型中得到分类结果,根据分类结果得到收货地址相似度;根据收货地址相似度得到疑似异常用户账号,然后在使用预设用户账号分类器时检测疑似异常用户账号的用户账号数据,可以减少用户账号的检测量,提高用户账号的检测效率。

在一个实施例中,如图6所示,步骤S504,即所述将所述分词结果输入到聚类模型中得到分类结果,包括步骤:

S602,将用户账号收货地址信息按照预设条件进行分组,计算分组总数,根据分组总数计算聚类数目。

其中,聚类数目是指聚类模型中用来可进行分类的类别数。

具体地,将用户账号收货地址信息按照省份、城市、县和区等进行分组,即不同省份、不同市、不同县和区分别为不同的组,统计分组后的组数,得到分组总数。则根据计算公式N=M*1.1计算聚类数目。其中,M为分组总数,N为聚类数目。

S604,从分词结果中获取聚类数目的目标词作为初始簇中心,将初始簇中心作为当前簇中心。

具体的,在确定聚类数目为N个后,随机初始化N个聚类中心,即从分词结果中获取N个目标词作为作为初始簇中心,将该初始簇中心作为当前簇中心。

S606,获取分词结果中除目标词以外的其它词,计算除目标词以外的其它词到当前簇中心的距离。

具体的,从分词结果中获取分词结果中除目标词以外的其它词,使用欧氏距离计算除目标词以外的其它词到当前簇中心的距离。

S608,根据距离将除目标词以外的其它词分配到当前簇中心对应的簇中,得到聚类数目的目标簇。

具体的,根据除目标词以外的其它词到所有当前簇中心的距离,将除目标词以外的其它词分配到距离最小的簇中,就得到了聚类数目的目标簇。即得到一个其它词到所有当前簇中心的距离,判断到那个当前簇中心的距离最短,就将该词分配到该当前簇中。

S610,计算目标簇的目标簇中心,将目标簇中心作为当前簇中心,返回计算除目标词以外的其它词到当前簇中心的距离的步骤进行重复聚类,直到满足收敛条件时,得到分类结果。

具体的,重新计算目标簇的目标簇中心,将目标簇中心作为当前簇中心,返回计算除目标词以外的其它词到当前簇中心的距离的步骤进行重复聚类,直到满足收敛条件时,即当前簇中心与上一次的簇中心一致时,即满足收敛条件,即将目标簇作为分类结果。其中,可以使用SEE(误差平方和,Sum of Squared Error,简称SSE),每个样本点与其所属质心的距离的平方和,作为度量聚类质量的目标函数作为代价函数,当代价函数达到最小值时,当前簇中心与上一次的簇中心一致。

在一个实施例中,可以重新选择聚类数目的目标词作为初始簇中心,进行聚类计算,得到分类结果,比较代价函数值,将代价函数值最小的分类结果作为聚类模型。

上述实施例中,通过将用户账号收货地址信息按照预设条件进行分组,计算分组总数,根据分组总数计算聚类数目;从分词结果中获取聚类数目的目标词作为初始簇中心,将初始簇中心作为当前簇中心;获取分词结果中除目标词以外的其它词,计算除目标词以外的其它词到当前簇中心的距离;根据距离将除目标词以外的其它词分配到当前簇中心对应的簇中,得到聚类数目的目标簇;计算目标簇的目标簇中心,将目标簇中心作为当前簇中心,返回计算除目标词以外的其它词到当前簇中心的距离的步骤进行重复聚类,直到满足收敛条件时,得到分类结果,使得能够更加方便和准确的得到分类结果。

在一个实施例中,如图7所示,用户账号检测方法,还包括步骤:

S702,根据用户账号数据得到输入特征向量,将输入特征向量输入到预设用户账号检测模型中,得到输出特征向量。

其中,预设用户账号检测模型是预先使用样本数据采用逻辑回归算法进行训练得到的,用来进行用户账号检测。输入特征向量包括账号基础属性向量、设备信息向量、用户行为向量和业务信息向量,输出特征向量包括检测结果向量。

具体的,根据历史用户账号数据进行特征提取,得到输入特征,其中,输入特征包括账号基础属性特征、设备信息特征、用户行为特征和业务信息特征,账号基础属性特征用于描述该用户的基本信息,比如账号名特征、性别特征、年龄特征、地址特征、和手机号特征等。设备信息特征用于描述登录用户账号的设备参数信息,比如设备操作系统版本号特征、设备指纹特征、身边芯片特征、硬件特征和设备处于越狱或者破解模式特征等。用户行为特征用于描述用户使用户账号在网页或者客户端进行各种操作时产生的数据。比如,用户页面停留时长特征、用户的访问顺序特征、操作频率特征和按键信息特征等。业务信息特征用于描述平台咋进行业务活动时产生的信息特征。比如,在有优惠券活动时,则业务信息特征可以是优惠券信息特征,优惠规则特征等。在根据用户账号数据得到输入特征对应的用户账号数据,根据输入特征对应的用户账号数据得到输入特征向量,将得到的输入特征向量输入到预设用户账号检测模型中,得到输出特征向量。

S704,根据输出特征向量得到用户账号检测结果。

具体的,预先根据检测结果得到各种检测结果对应的输出特征,然后根据数据特征得到对应的输出特征向量,当在检测时,根据检测得到的输出特征向量得到输出特征向量对应的输出特征,根据输出特征得到对应的检测结果。例如,预先得到用户账号检测结果为正常用户账号时对应的输出特征为1,当用户账号检测结果为异常用户账号时对应的输出特征为0,得到的正常用户账号对应的输出特征向量为[1],异常用户账号对应的异常用户账号[0]。

在上述实施例中,通过根据用户账号数据得到输入特征向量,将输入特征向量输入到预设用户账号检测模型中,得到输出特征向量;根据输出特征向量得到用户账号检测结果,使用预设用户账号检测模型,可以有效检测出异常用户账号。

在一个实施例中,如图8所示,所述预设用户账号检测模型的生成步骤,包括步骤:

S802,获取历史用户账号数据和对应的检测结果,根据历史用户账号数据得到历史输入特征向量,根据检测结果得到历史输出特征向量。

具体的,根据历史用户账号数据得到预先提取到的输入特征对应的输入特征数据,根据输入特征数据得到输入特征向量,根据检测结果得到对应的输出特征,根据输出特征得到历史输出特征向量。

S804,将历史输入特征向量作为逻辑回归模型的输入,将历史输出特征向量作为逻辑回归模型的标签进行训练。

具体的,将历史输入特征向量作为逻辑回归模型的输入,该逻辑回归模型是使用Sigmoid函数建立的,其中,Sigmoid函数为将历史输出特征向量作为逻辑回归模型的标签进行训练。

S806,当逻辑回归模型的代价函数达到预设阈值时,得到预设用户账号检测模型。

其中,代价函数是用于衡量模型预测出来的值与真实值之间的差异的函数。

具体的,逻辑回归模型的代价函数可以使用交叉熵作为代价函数,其中交叉熵函数为其中C为差异值,y为期望的输出,a为实际输出。当C达到预设阈值时,说明训练完成,此时就得到了预设用户账号检测模型。

在上述实施例中,通过获取历史用户账号数据和对应的检测结果,根据历史用户账号数据得到历史输入特征向量,根据检测结果得到历史输出特征向量,将历史输入特征向量作为逻辑回归模型的输入,将历史输出特征向量作为逻辑回归模型的标签进行训练,当逻辑回归模型的代价函数达到预设阈值时,得到预设用户账号检测模型,可以预先训练好用户账号检测模型,可以在检测时直接进行使用提高了用户账号检测的效率。

在一个具体的实施例中,当用户在注册用户账号时,可以对用户注册的用户账号进行检测,防止用户批量注册用户账号。具体的,获取用户账号数据,包括用户账号基础信息和设备信息,根据用户账号数据得到用户特征属性,具体的,用户特征属性包括用户手机号、设备芯片信息、设备指纹信息、硬件信息、设备模式信息和设备操作系统型号等,将将用户特征属性输入到预设用户账号分类器中,得到输出特征,若输出特征对应的检测结果为异常用户账号,则说明该注册的用户账号为用户批量注册的用户账号,此时,可以向用户发送注册失败的信息,防止客户批量注册用户账号。

应该理解的是,虽然图2-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图9所示,提供了一种用户账号检测装置900,包括:特征属性得到模块902、输出特征得到模块904和检测结果得到模块906,其中:

特征属性得到模块902,用于获取用户账号数据,根据用户账号数据得到用户特征属性;

输出特征得到模块904,用于将用户特征属性输入到预设用户账号分类器中,得到输出特征;

检测结果得到模块906,用于根据输出特征得到用户账号检测结果。

在上述实施例中,通过特征属性得到模块902中根据用户账号数据得到用户特征属性,然后在输出特征得到模块904中将用户特征属性输入到预设用户账号分类器中得到输出特征,最后在检测结果得到模块906中根据输出特征得到用户账号检测结果,能够有效检测异常出用户账号。

在一个实施例中,用户账号检测装置900,还包括:

历史数据获取模块,用于获取历史用户账号数据和对应的检测结果,检测结果包括历史正常用户账号和历史异常用户账号;

频率计算模块,用于根据历史用户账号数据和对应的检测结果统计历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算历史正常用户账号频率和历史异常用户账号频率;

划分模块,用于根据历史用户账号数据得到对应的历史用户特征,并对历史用户特征按照预设条件进行划分,得到待分类项;

条件概率计算模块,用于统计待分类项对应的历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算待分类项对应的历史用户账号为历史正常用户账号的条件概率和历史用户账号为历史异常用户账号的条件概率,得到预设用户账号分类器。

在一个实施例中,输出特征得到模块904,包括:

目标获取模块,用于获取用户特征属性对应的目标待分类项;

贝叶斯计算模块,用于获取目标待分类项对应的条件概率,根据条件概率使用贝叶斯定理分别计算用户账号为正常用户账号概率和用户账号为异常用户账号概率;

比较模块,用于比较正常用户账号概率和异常用户账号概率,根据比较结果得到输出特征。

在一个实施例中,用户账号检测装置900,还包括:

地址得到模块,用于根据用户账号数据得到用户账号收货地址信息;

分类模块,用于对用户账号收货地址信息进行分词,得到分词结果,将分词结果输入到聚类模型中得到分类结果,根据分类结果得到收货地址相似度;

疑似账号得到模块,用于根据收货地址相似度得到疑似异常用户账号;

特征属性得到模块902,包括:

疑似异常数据获取模块,用于获取疑似异常用户账号的用户账号数据。

在一个实施例中,分类模块,包括:

聚类数计算模块,用于将用户账号收货地址信息按照预设条件进行分组,计算分组总数,根据分组总数计算聚类数目;

簇中心确定模块,用于从分词结果中获取聚类数目的目标词作为初始簇中心,将初始簇中心作为当前簇中心;

距离计算模块,用于获取分词结果中除目标词以外的其它词,计算除目标词以外的其它词到当前簇中心的距离;

目标簇得到模块,用于根据距离将除目标词以外的其它词分配到当前簇中心对应的簇中,得到聚类数目的目标簇;

分类结果得到模块,用于计算目标簇的目标簇中心,将目标簇中心作为当前簇中心,返回计算除目标词以外的其它词到当前簇中心的距离的步骤进行重复聚类,直到满足收敛条件时,得到分类结果。

在一个实施例中,用户账号检测装置900,还包括:

用户账号检测模块,用于根据用户账号数据得到输入特征向量,将输入特征向量输入到预设用户账号检测模型中,得到输出特征向量;

检测结果得到模块,用于根据输出特征向量得到用户账号检测结果。

在一个实施例中,用户账号检测装置900,还包括:

历史向量得到模块,用于获取历史用户账号数据和对应的检测结果,根据历史用户账号数据得到历史输入特征向量,根据检测结果得到历史输出特征向量;

训练模块,用于将历史输入特征向量作为逻辑回归模型的输入,将历史输出特征向量作为逻辑回归模型的标签进行训练;

检测模型得到模块,用于当逻辑回归模型的代价函数达到预设阈值时,得到预设用户账号检测模型。

关于用户账号检测装置的具体限定可以参见上文中对于用户账号检测方法的限定,在此不再赘述。上述用户账号检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户账号数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种用户账号检测方法。

本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:获取用户账号数据,根据用户账号数据得到用户特征属性;将用户特征属性输入到预设用户账号分类器中,得到输出特征;根据输出特征得到用户账号检测结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取历史用户账号数据和对应的检测结果,检测结果包括历史正常用户账号和历史异常用户账号;根据历史用户账号数据和对应的检测结果统计历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算历史正常用户账号频率和历史异常用户账号频率;根据历史用户账号数据得到对应的历史用户特征,并对历史用户特征按照预设条件进行划分,得到待分类项;统计待分类项对应的历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算待分类项对应的历史用户账号为历史正常用户账号的条件概率和历史用户账号为历史异常用户账号的条件概率,得到预设用户账号分类器。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取用户特征属性对应的目标待分类项;获取目标待分类项对应的条件概率,根据条件概率使用贝叶斯定理分别计算用户账号为正常用户账号概率和用户账号为异常用户账号概率;比较正常用户账号概率和异常用户账号概率,根据比较结果得到输出特征。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据用户账号数据得到用户账号收货地址信息;对用户账号收货地址信息进行分词,得到分词结果,将分词结果输入到聚类模型中得到分类结果,根据分类结果得到收货地址相似度;根据收货地址相似度得到疑似异常用户账号;则处理器执行计算机程序时还实现以下步骤:获取疑似异常用户账号的用户账号数据。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:将用户账号收货地址信息按照预设条件进行分组,计算分组总数,根据分组总数计算聚类数目;从分词结果中获取聚类数目的目标词作为初始簇中心,将初始簇中心作为当前簇中心;获取分词结果中除目标词以外的其它词,计算除目标词以外的其它词到当前簇中心的距离;根据距离将除目标词以外的其它词分配到当前簇中心对应的簇中,得到聚类数目的目标簇;计算目标簇的目标簇中心,将目标簇中心作为当前簇中心,返回计算除目标词以外的其它词到当前簇中心的距离的步骤进行重复聚类,直到满足收敛条件时,得到分类结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据用户账号数据得到输入特征向量,将输入特征向量输入到预设用户账号检测模型中,得到输出特征向量;根据输出特征向量得到用户账号检测结果。

在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取历史用户账号数据和对应的检测结果,根据历史用户账号数据得到历史输入特征向量,根据检测结果得到历史输出特征向量;将历史输入特征向量作为逻辑回归模型的输入,将历史输出特征向量作为逻辑回归模型的标签进行训练;当逻辑回归模型的代价函数达到预设阈值时,得到预设用户账号检测模型。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取用户账号数据,根据用户账号数据得到用户特征属性;将用户特征属性输入到预设用户账号分类器中,得到输出特征;根据输出特征得到用户账号检测结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取历史用户账号数据和对应的检测结果,检测结果包括历史正常用户账号和历史异常用户账号;根据历史用户账号数据和对应的检测结果统计历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算历史正常用户账号频率和历史异常用户账号频率;根据历史用户账号数据得到对应的历史用户特征,并对历史用户特征按照预设条件进行划分,得到待分类项;统计待分类项对应的历史用户账号数、历史正常用户账号数和历史异常用户账号数,并计算待分类项对应的历史用户账号为历史正常用户账号的条件概率和历史用户账号为历史异常用户账号的条件概率,得到预设用户账号分类器。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取用户特征属性对应的目标待分类项;获取目标待分类项对应的条件概率,根据条件概率使用贝叶斯定理分别计算用户账号为正常用户账号概率和用户账号为异常用户账号概率;比较正常用户账号概率和异常用户账号概率,根据比较结果得到输出特征。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据用户账号数据得到用户账号收货地址信息;对用户账号收货地址信息进行分词,得到分词结果,将分词结果输入到聚类模型中得到分类结果,根据分类结果得到收货地址相似度;根据收货地址相似度得到疑似异常用户账号;则计算机程序被处理器执行时还实现以下步骤:获取疑似异常用户账号的用户账号数据。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将用户账号收货地址信息按照预设条件进行分组,计算分组总数,根据分组总数计算聚类数目;从分词结果中获取聚类数目的目标词作为初始簇中心,将初始簇中心作为当前簇中心;获取分词结果中除目标词以外的其它词,计算除目标词以外的其它词到当前簇中心的距离;根据距离将除目标词以外的其它词分配到当前簇中心对应的簇中,得到聚类数目的目标簇;计算目标簇的目标簇中心,将目标簇中心作为当前簇中心,返回计算除目标词以外的其它词到当前簇中心的距离的步骤进行重复聚类,直到满足收敛条件时,得到分类结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据用户账号数据得到输入特征向量,将输入特征向量输入到预设用户账号检测模型中,得到输出特征向量;根据输出特征向量得到用户账号检测结果。

在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取历史用户账号数据和对应的检测结果,根据历史用户账号数据得到历史输入特征向量,根据检测结果得到历史输出特征向量;将历史输入特征向量作为逻辑回归模型的输入,将历史输出特征向量作为逻辑回归模型的标签进行训练;当逻辑回归模型的代价函数达到预设阈值时,得到预设用户账号检测模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1