账号检测模型的获取方法、装置、设备、介质、识别方法与流程

文档序号：32655513发布日期：2022-12-23 21:26阅读：46来源：国知局

1.本发明涉及互联网技术领域，尤其是涉及一种账号检测模型的获取方法、装置、设备、介质、识别方法。

背景技术：

2.在游戏领域，困扰产业界及司法领域的新型问题主要集中在游戏黑灰产。在当前游戏业态的发展背景下，常见的游戏黑灰产业包括打破或绕开游戏系统的限制，提供工具和账号、买卖个人信息等寄生于网络游戏行业的产业链，游戏黑灰产对游戏产业生态造成了严重的影响。为保障游戏业务安全运营，识别游戏中的异常账号对精准有效地打击游戏黑灰产有着重要意义。
3.目前在对异常账号的识别方式上，依赖人工根据经验进行识别，效率较低。

技术实现要素：

4.有鉴于此，本发明提供一种账号检测模型的获取方法、装置、设备、介质、识别方法，便于提高对异常账号识别的效率。
5.第一方面，本发明实施例提供一种账号检测模型的获取方法，所述账号检测模型用于检测异常账号，所述方法包括：获取包含多个标签的训练数据，所述多个标签关联注册信息、实名认证信息、或登录信息中的至少一种；构建待训练变分自编码器模型；以及通过所述训练数据对所述待训练变分自编码器模型进行训练，得到所述账号检测模型。
6.根据本发明第一方面的前述实施方式，所述获取包含多个标签的训练数据的步骤包括：获取原始数据集，所述原始数据集包括与多个账号对应的多个原始数据，每个所述原始数据包含所述多个标签；将每个所述原始数据处理为正样本数据或负样本数据，其中所述正样本数据对应正常账号，所述负样本数据对应异常账号；将所述正样本数据的集合作为所述训练数据。
7.根据本发明第一方面的前述任一实施方式，所述多个标签包括以下中的两者以上：账号注册的互联网协议地址、账号注册的设备、账号注册的手机号、账号的角色名称、账号登录的客户端、账号登录的系统类型、账号的登录次数，账号对应用户的出生日期、账号应用付费的时间间隔、账号实名认证的时间间隔。
8.根据本发明第一方面的前述任一实施方式，所述将每个所述原始数据处理为正样本数据或负样本数据的步骤包括：将所述原始数据集预处理；根据所述多个标签处理所述原始数据集包括的多个所述原始数据，生成所述正样本数据、所述负样本数据。
9.根据本发明第一方面的前述任一实施方式，所述将所述原始数据集预处理的步骤包括以下中的至少一者：对所述原始数据集去数据异常值处理；对所述原始数据集去空值处理；对所述原始数据集去重复值处理；对所述原始数据集归一化处理。
10.根据本发明第一方面的前述任一实施方式，所述根据所述多个标签处理所述原始数据集包括的多个所述原始数据，生成所述正样本数据、所述负样本数据的步骤包括：
根据所述多个标签配置多个异常判定条件；若所述原始数据满足多个异常判定条件中的至少一个，生成负样本数据；否则，生成正样本数据。
11.根据本发明第一方面的前述任一实施方式，所述多个异常判定条件包括以下中的两者以上：账号对应证件的累计实名认证账号数大于等于第一阈值；第一预设期间内账号对应证件的实名认证账号数大于等于第二阈值；第二预设期间内账号对应证件的实名认证设备数大于等于第三阈值；第三预设期间内账号对应证件的实名认证账号登录的互联网协议地址数大于等于第四阈值；一天内账号对应证件的实名认证账号数大于等于第五阈值；一天内账号对应证件的实名认证设备数大于等于第六阈值；一天内账号对应证件的实名认证账号登录的互联网协议地址数大于等于第七阈值；一天内账号登录的设备数大于等于第八阈值；一天内账号登录的城市数大于等于第九阈值；一天内账号登录的产品数大于等于第十阈值。
12.根据本发明第一方面的前述任一实施方式，所述通过所述训练数据对所述待训练变分自编码器模型进行训练，得到所述账号检测模型的步骤包括：采用所述训练数据中的一部分所述正样本数据训练所述待训练变分自编码器模型；采用所述训练数据中的另一部分所述正样本数据对训练后的变分自编码器模型验证；在训练后的变分自编码器模型的损失函数趋于保持不变时，保存训练后的变分自编码器模型为所述账号检测模型。
13.根据本发明第一方面的前述任一实施方式，所述还包括：定期更新所述训练数据；通过更新的所述训练数据对所述待训练变分自编码器模型进行训练，更新所述账号检测模型。
14.第二方面，本发明实施例提供一种异常账号识别方法，其包括：获取账号检测模型，包括：获取包含多个标签的训练数据，所述多个标签关联注册信息、实名认证信息、或登录信息中的至少一种；构建待训练变分自编码器模型；以及通过所述训练数据对所述待训练变分自编码器模型进行训练，得到所述账号检测模型；获取待识别账号的待识别数据，所述待识别数据包含所述多个标签；以及通过所述账号检测模型对所述待识别数据识别，判断所述待识别账号是否为异常账号。
15.第三方面，本发明实施例提供一种账号检测模型的获取装置，其包括：训练数据获取模块，用于获取包含多个标签的训练数据，所述多个标签关联注册信息、实名认证信息、或登录信息中的至少一种；模型构件模块，用于构建待训练变分自编码器模型；以及训练模块，用于通过所述训练数据对所述待训练变分自编码器模型进行训练，得到所述账号检测模型。
16.第四方面，本发明实施例提供一种电子设备，包括处理器和存储器，所述存储器存储有能够被所述处理器执行的机器可执行指令，所述处理器执行所述机器可执行指令以实现根据本发明第一方面的前述任一实施方式的账号检测模型的获取方法。
17.第五方面，本发明实施例提供一种机器可读存储介质，其特征在于，所述机器可读存储介质存储有机器可执行指令，所述机器可执行指令在被处理器调用和执行时，所述机器可执行指令促使所述处理器实现根据本发明第一方面的前述任一实施方式的账号检测模型的获取方法。
18.根据本发明实施例的账号检测模型的获取方法、装置、设备、介质、识别方法，账号检测模型通过训练变分自编码器模型得到，在训练中，采用的训练数据包含多个标签，
该多个标签关联注册信息、实名认证信息、或登录信息中的至少一种，即训练数据是关联注册信息、实名认证信息、或登录信息中的至少一种的多维信息。变分自编码器模型是一种无监督的深度生成模型，能够学习到数据在高维空间的概率分布。在账号检测模型的训练过程中，利用训练数据包含多个标签的属性，可以进一步引导变分自编码器模型在不同标签层面上捕捉到数据的隐藏规律，使得账号检测模型具有准确率高、泛化能力强的优点。在将该账号检测模型用于异常账号识别后，能够节省大量人力成本，且能提高对异常账号识别的效率。
19.本发明的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
20.为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。
附图说明
21.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
22.图1为本发明一种实施例提供的账号检测模型的获取方法的流程图；
23.图2为本发明一种实施例提供的账号检测模型的获取方法中获取包含多个标签的训练数据步骤的流程图；
24.图3为本发明一种实施例提供的账号检测模型的获取方法中通过训练数据对待训练变分自编码器模型进行训练，得到账号检测模型步骤的流程图；
25.图4为本发明一种实施例提供的异常账号识别方法的流程图；
26.图5为本发明一种实施例提供的账号检测模型的获取装置的结构框图；
27.图6为本发明一种实施例提供的电子设备的结构框图。
具体实施方式
28.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
29.在游戏领域，困扰产业界及司法领域的新型问题主要集中在游戏黑灰产。在当前游戏业态的发展背景下，常见的游戏黑灰产业包括打破或绕开游戏系统的限制，提供工具和账号、买卖个人信息等寄生于网络游戏行业的产业链，游戏黑灰产对游戏产业生态造成了严重的影响。为保障游戏业务安全运营，识别游戏中的异常账号对精准有效地打击游戏黑灰产有着重要意义。
30.目前在对异常账号的识别方式上，依赖人工根据经验进行识别，该识别方式强依赖于运营相关的人工经验，且比较耗费运营人力成本去进行验证，效率较低。
31.基于此，本发明实施例提供的一种账号检测模型的获取方法、装置、设备、介质、识别方法，账号检测模型用于异常账号识别后，能够节省大量人力成本。本发明实施例的账号检测模型的获取方法、装置、设备、介质、识别方法可以用于对网络游戏中的游戏账号进行异常账号识别。
32.本发明其中一种实施例中的账号检测模型的获取方法，以及本发明其中一种实施例中的异常账号识别方法，分别可以运行于触控本地终端设备或者是服务器。当账号检测模型的获取方法运行于服务器时，该方法则可以基于云交互系统来实现与执行，其中，云交互系统包括服务器和客户端设备。
33.在一些可选的实施方式中，云交互系统下可以运行各种云应用，例如：云游戏。以云游戏为例，云游戏是指以云计算为基础的游戏方式。在云游戏的运行模式下，游戏程序的运行主体和游戏画面呈现主体是分离的，账号检测模型的获取方法或者异常账号识别方法的储存与运行是在云游戏服务器上完成的，客户端设备的作用用于数据的接收、发送以及游戏画面的呈现，举例而言，客户端设备可以是靠近用户侧的具有数据传输功能的显示设备，如，移动终端、电视机、计算机、掌上电脑等；但是进行信息处理的为云端的云游戏服务器。在进行游戏时，玩家操作客户端设备向云游戏服务器发送操作指令，云游戏服务器根据操作指令运行游戏，将游戏画面等数据进行编码压缩，通过网络返回客户端设备，最后，通过客户端设备进行解码并输出游戏画面。
34.在一些可选的实施方式中，以游戏为例，本地触控终端设备存储有游戏程序并用于呈现游戏画面。本地触控终端设备用于通过图形用户界面与玩家进行交互，即，常规的通过电子设备下载安装游戏程序并运行。该本地触控终端设备将图形用户界面提供给玩家的方式可以包括多种，例如，可以渲染显示在终端的显示屏上，或者，通过全息投影提供给玩家。举例而言，本地触控终端设备可以包括显示屏和处理器，该显示屏用于呈现图形用户界面，该图形用户界面包括游戏画面，该处理器用于运行该游戏、生成图形用户界面以及控制图形用户界面在显示屏上的显示。
35.在一种可能的实施方式中，本发明实施例提供了一种异常账号识别方法，通过触控终端设备提供一图形用户界面，其中，触控终端设备可以是前述提到的本地触控终端设备，也可以是前述提到的云交互系统中的客户端设备。通过该触控终端设备提供一图形用户界面，该图形用户界面上可以根据启动的应用程序的类型，显示界面内容，例如，游戏场景画面、通信交互窗口等等。
36.为便于对本实施例进行理解，首先对本发明实施例所公开的一种账号检测模型的获取方法进行详细介绍，图1为本发明一种实施例提供的账号检测模型的获取方法的流程图。
37.账号检测模型用于检测异常账号，在本实施例中，以账号检测模型应用于对网络游戏的游戏账号进行异常账号识别为例进行说明，该账号检测模型也可以应用于其它应用程序中的账号进行异常账号识别。在本实施例中，异常账号指一些影响到游戏安全的危险游戏玩家账号，例如一些工作室、租赁平台等相关游戏黑灰产使用的游戏账号。在本实施例中，账号检测模型的获取方法包括步骤s110至步骤s130。
38.在步骤s110中，获取包含多个标签的训练数据，该多个标签关联注册信息、实名认证信息、或登录信息中的至少一种。
39.多个标签可以是关联上述注册信息、实名认证信息、或登录信息中的其中一种的多个标签。例如，多个标签都是关联实名认证信息。当然，多个标签也可以是关联注册信息、实名认证信息、或登录信息中的至少两种的多个标签。例如多个标签中，一部分数量的标签关联注册信息，一部分数量的标签关联实名认证信息，一部分数量的标签关联登录信息。
40.本文中，训练数据可以是与用户的注册信息、实名认证信息、或登录信息等相关的数据。该训练数据涉及隐私数据或不涉及隐私数据时，该训练数据能够在用户授权的条件下获取。
41.在步骤s120中，构建待训练变分自编码器(variational autoencoder， vae)模型。
42.在步骤s130中，通过训练数据对待训练变分自编码器模型进行训练，得到账号检测模型。
43.根据本发明实施例的账号检测模型的获取方法，账号检测模型通过训练变分自编码器模型得到，在训练中，采用的训练数据包含多个标签，该多个标签关联注册信息、实名认证信息、或登录信息中的至少一种，即训练数据是关联注册信息、实名认证信息、或登录信息中的至少一种的多维信息。变分自编码器模型是一种无监督的深度生成模型，能够学习到数据在高维空间的概率分布。在账号检测模型的训练过程中，利用训练数据包含多个标签的属性，可以进一步引导变分自编码器模型在不同标签层面上捕捉到数据的隐藏规律，使得账号检测模型具有准确率高、泛化能力强的优点。在将该账号检测模型用于异常账号识别后，能够节省大量人力成本，且能提高对异常账号识别的效率。
44.图2为本发明一种实施例提供的账号检测模型的获取方法中获取包含多个标签的训练数据步骤的流程图。在一些实施方式中，获取包含多个标签的训练数据的步骤s110包括步骤s111至步骤s113。
45.在步骤s111中，获取原始数据集，原始数据集包括与多个账号对应的多个原始数据，每个原始数据包含多个标签。
46.在一些实施方式中，采用spark大数据处理框架提取原始数据，以得到原始数据集。
47.在一些实施方式中，原始数据包含的多个标签包括以下中的两者以上：账号注册的互联网协议(internet protocol，ip)地址、账号注册的设备、账号注册的手机号、账号的角色名称、账号登录的客户端、账号登录的系统类型、账号的登录次数，账号对应用户的出生日期、账号应用付费的时间间隔、账号实名认证的时间间隔。
48.在一个示例中，多个标签以下全部：账号注册的互联网协议地址、账号注册的设备、账号注册的手机号、账号的角色名称、账号登录的客户端、账号登录的系统类型、账号的登录次数，账号对应用户的出生日期、账号应用付费的时间间隔、账号实名认证的时间间隔。
49.在步骤s112中，将每个原始数据处理为正样本数据或负样本数据，其中正样本数据对应正常账号，负样本数据对应异常账号。
50.在一些实施方式，将每个原始数据处理为正样本数据或负样本数据的步骤s112包括：将原始数据集预处理；根据多个标签处理原始数据集包括的多个原始数据，生成正
样本数据、负样本数据。
51.可选地，将原始数据集预处理的步骤包括以下中的至少一者：对原始数据集去数据异常值处理；对原始数据集去空值处理；对原始数据集去重复值处理；对原始数据集归一化处理。
52.在一个示例中，将原始数据集预处理包括以下全部步骤：对原始数据集去数据异常值处理；对原始数据集去空值处理；对原始数据集去重复值处理；对原始数据集归一化处理。
53.可选地，根据多个标签处理原始数据集包括的多个原始数据，生成正样本数据、负样本数据的步骤包括：根据多个标签配置多个异常判定条件；若原始数据满足多个异常判定条件中的至少一个，生成负样本数据；否则，生成正样本数据。
54.在一些可选的实施方式中，多个异常判定条件包括以下中的两者以上：账号对应证件的累计实名认证账号数大于等于第一阈值；第一预设期间内账号对应证件的实名认证账号数大于等于第二阈值；第二预设期间内账号对应证件的实名认证设备数大于等于第三阈值；第三预设期间内账号对应证件的实名认证账号登录的互联网协议地址数大于等于第四阈值；一天内账号对应证件的实名认证账号数大于等于第五阈值；一天内账号对应证件的实名认证设备数大于等于第六阈值；一天内账号对应证件的实名认证账号登录的互联网协议地址数大于等于第七阈值；一天内账号登录的设备数大于等于第八阈值；一天内账号登录的城市数大于等于第九阈值；一天内账号登录的产品数大于等于第十阈值。
55.在一个示例中，多个异常判定条件包括以下条件：账号对应证件的累计实名认证账号数大于等于第一阈值；30天内账号对应证件的实名认证账号数大于等于第二阈值；30天内账号对应证件的实名认证设备数大于等于第三阈值；30天内账号对应证件的实名认证账号登录的互联网协议地址数大于等于第四阈值；一天内账号对应证件的实名认证账号数大于等于第五阈值；一天内账号对应证件的实名认证设备数大于等于第六阈值；一天内账号对应证件的实名认证账号登录的互联网协议地址数大于等于第七阈值；一天内账号登录的设备数大于等于第八阈值；一天内账号登录的城市数大于等于第九阈值；一天内账号登录的产品数大于等于第十阈值。其中，第一阈值至第十阈值可以根据账号检测模型的应用环境的异常账号确定阈值来设置，例如第一阈值是80，此时，若账号对应证件的累计实名认证账号数大于等于80，生成负样本数据。例如第二阈值是60，此时，若30天内账号对应证件的实名认证账号数大于等于60，生成负样本数据。
56.在步骤s113中，将正样本数据的集合作为训练数据。
57.图3为本发明一种实施例提供的账号检测模型的获取方法中通过训练数据对待训练变分自编码器模型进行训练，得到账号检测模型步骤的流程图。在一些实施方式中，通过训练数据对待训练变分自编码器模型进行训练，得到账号检测模型的步骤s130包括步骤s131至步骤s133。
58.在步骤s131中，采用训练数据中的一部分正样本数据训练待训练变分自编码器模型。
59.在步骤s132中，采用训练数据中的另一部分正样本数据对训练后的变分自编码器模型验证。
60.在步骤s133中，在训练后的变分自编码器模型的损失函数趋于保持不变时，保存
训练后的变分自编码器模型为账号检测模型。
61.在一些可选的实施方式中，账号检测模型的获取方法还包括：定期更新训练数据；通过更新的训练数据对待训练变分自编码器模型进行训练，更新账号检测模型。
62.以下将对变分自编码器模型的模型原理进行说明。
63.变分自编码器模型与标准自动编码器模型类似，变分自编码器模型是一种由编码器和解码器组成的架构，经过训练以最小化编码解码数据与初始数据之间的重构误差。变分自编码器模型的目标是学习到一个函数，使得输出数据的分布能够尽可能的逼近原始数据x的分布：
64.p(x)＝∫p
θ
(x|z；θ)p(z)dz
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
65.式(1)中，z是模型引入的隐变量，θ是模型参数。
66.由于上式(1)包含了积分，积分的引入增加了梯度求解的难度。为了替换掉积分，我们需要尽可能多的采样z，然后用采样得到的z去估计真实 z的分布。凭空采样z是困难的，我们引入函数q
φ
(z|x)作为p(z|x)的估计来辅助采样。用kulback-leibler散度(kl散度)来度量q
φ
(z|x)和 p(x|x)之间的差别：
[0067][0068]
对上面的式(2)使用贝叶斯定理和变形，得到：
[0069][0070]
式(3)中，等式的右边是极大似然函数的下确界(evidence lowerbound，elbo)，是变分自编码器的目标函数。elbo函数的第一项是似然的期望，值越大说明重构的数据越逼近原始数据；第二项是z的分布与先验的差别，值越小说明分布之间的差别越小。所以，最大化elbo就是在保证隐变量对观测数据的解释最佳的同时，使得变分分布q更靠近先验。其中，p
θ
和q
φ
都是通过神经网络得到的。在重参数技巧的帮助下，整个模型的训练可以通过反向传播来完成。
[0071]
训练变分自编码器模型的过程如下进行说明。
[0072]
变分自编码器模型引入了潜在空间(latent space)的一些正则化，对编码解码过程进行了轻微修改：不再将输入编码为单个点，而是将其编码为潜在空间上的分布。然后按如下方式训练模型：首先，输入被编码为潜在空间上的分布；其次，从该分布中采样来自潜在空间的一个点；之后，对采样点进行解码，可以计算重构误差；最后，重构误差通过网络反向传播。
[0073]
在实践中，编码分布被选择为正态分布，以便使得训练的编码器返回描述这些高斯分布的均值和协方差矩阵。输入数据被编码为具有一定方差而不是单点的分布的原因是它可以非常自然地表达潜在空间正则化，其中编码器返回的分布被强制接近标准正态分布，以确保潜在空间的局部和全局正则化(方差控制是局部，均值控制是全局)。
[0074]
因此，训练变分自编码器模型时，倾向于通过使编码器返回的分布接近标准正态分布来规范潜在空间的分布。正则化项表示为返回分布与标准高斯分布之间的kulback-leibler散度，两个高斯分布之间的 kullback-leibler散度具有封闭形式，可以直接用两
个分布的均值和协方差矩阵表示。在变分自动编码器中，损失函数由重构项(使编码解码方案有效)和正则化项(kulback-leibler散度使潜在空间规则)组成。
[0075]
如上所述，变分自编码器模型的主要组成部分损失函数，试图在两个优化任务之间取得平衡：其一是最小化重建误差，这可以通过误差项来完成；另一是最小化kl散度，这实质上迫使z的分布趋于正态分布，这可能要根据输出结果进行调整参数，两者之间的适当平衡将强z中的分布趋于正态分布，同时确保网络能够重现输入向量，从而创建一个平滑和连续的潜在空间，用来检测异常和测量相似性。
[0076]
在本发明实施例中，用于异常账号检测的变分自编码器模型在训练过程中，训练的代数(epoch)设为20轮，当变分自编码器模型的训练集和验证集的损失函数(loss)从下降到趋于不变，可知模型收敛，得到最优模型，保存训练后的变分自编码器模型参数，用于后续模型部署和预测。
[0077]
变分自编码器模型可以可视化潜在空间数据的重建误差变化趋势，在异常检测阶段，变分自编码器模型通过计算测试集中有相对较高的重建误差来识别异常数据。在一些实施方式中，判断数据异常的步骤为：计算原始训练集与模型输出之间的误差，并生成表示每个样本的误差项的误差向量；在该误差向量上找到一个相对极值来判断数据是否异常的阈值：假设训练集中可能会有一些噪声，常见的选择第99个百分位数作为阈值；在测试数据或真实数据上运行变分自编码器模型，其中异常数据可能与正常数据混合；测量重构误差并将误差项高于误差阈值的样本标记为异常。
[0078]
根据本发明实施例的账号检测模型的获取方法，账号检测模型通过训练变分自编码器模型得到，在训练中，采用的训练数据包含多个标签，该多个标签关联注册信息、实名认证信息、或登录信息中的至少一种，即训练数据是关联注册信息、实名认证信息、或登录信息中的至少一种的多维信息。变分自编码器模型是一种无监督的深度生成模型，能够学习到数据在高维空间的概率分布。在账号检测模型的训练过程中，利用训练数据包含多个标签的属性，可以进一步引导变分自编码器模型在不同标签层面上捕捉到数据的隐藏规律，使得账号检测模型具有准确率高、泛化能力强的优点。在将该账号检测模型用于异常账号识别后，能够节省大量人力成本，且能提高对异常账号识别的效率。
[0079]
本发明实施例还提供一种异常账号识别方法。图4为本发明一种实施例提供的异常账号识别方法的流程图。在本实施例中，以该异常账号识别方法应用于对网络游戏的游戏账号进行异常账号识别为例进行说明，该异常账号识别方法也可以应用于其它应用程序中的账号进行异常账号识别。在本实施例中，账号检测模型的获取方法包括步骤s100至步骤s300。
[0080]
在步骤s100中，获取账号检测模型。
[0081]
在一些实施方式中，获取账号检测模型包括根据本发明前述任一实施方式的账号检测模型的获取方法获取该账号检测模型。
[0082]
获取账号检测模型的步骤s100可以包括：获取包含多个标签的训练数据，多个标签关联注册信息、实名认证信息、或登录信息中的至少一种；构建待训练变分自编码器模型；以及通过训练数据对待训练变分自编码器模型进行训练，得到账号检测模型。
[0083]
在步骤s200中，获取待识别账号的待识别数据，待识别数据包含多个标签。
[0084]
本实施例中，待识别数据包含的多个标签与获取账号检测模型步骤中的多个标
签对应。
[0085]
本文中，待识别数据可以是与用户的注册信息、实名认证信息、或登录信息等相关的数据。该待识别数据涉及隐私数据或不涉及隐私数据时，该待识别数据能够在用户授权的条件下获取。
[0086]
在步骤s300中，通过账号检测模型对待识别数据识别，判断待识别账号是否为异常账号。
[0087]
在一些实施例中，可以设置定时任务，例如每周提取最新账号信息数据，作为待识别数据识别，根据该账号检测模型，推理识别出异常账号。
[0088]
根据本发明实施例的异常账号识别方法，账号检测模型通过训练变分自编码器模型得到，在训练中，采用的训练数据包含多个标签，该多个标签关联注册信息、实名认证信息、或登录信息中的至少一种，即训练数据是关联注册信息、实名认证信息、或登录信息中的至少一种的多维信息。变分自编码器模型是一种无监督的深度生成模型，能够学习到数据在高维空间的概率分布。在账号检测模型的训练过程中，利用训练数据包含多个标签的属性，可以进一步引导变分自编码器模型在不同标签层面上捕捉到数据的隐藏规律，使得账号检测模型具有准确率高、泛化能力强的优点。通过账号检测模型对待识别数据识别，能够节省大量人力成本，且能提高对异常账号识别的效率。
[0089]
根据本发明实施例的异常账号识别方法，通过变分自编码器模型进行异常账号检测，可以快速精确的识别异常账号，解决了传统异常账号检测方案中的强依赖于运营经验的问题，使得识别模型更智能化，更具有说服力，且节省了大量的人力成本。
[0090]
本发明实施例还提供一种账号检测模型的获取装置。图5为本发明一种实施例提供的账号检测模型的获取装置的结构框图。该账号检测模型的获取装置包括训练数据获取模块110、模型构件模块120以及训练模块130。
[0091]
训练数据获取模块110用于获取包含多个标签的训练数据，多个标签关联注册信息、实名认证信息、或登录信息中的至少一种。模型构件模块 120用于构建待训练变分自编码器模型。训练模块130用于通过训练数据对待训练变分自编码器模型进行训练，得到账号检测模型。
[0092]
根据本发明实施例的异常账号识别装置，训练数据获取模块110取包含多个标签的训练数据，该多个标签关联注册信息、实名认证信息、或登录信息中的至少一种，即训练数据是关联注册信息、实名认证信息、或登录信息中的至少一种的多维信息。模型构件模块120能够构建待训练变分自编码器模型，变分自编码器模型是一种无监督的深度生成模型，能够学习到数据在高维空间的概率分布。训练模块130对待训练变分自编码器模型训练过程中，利用训练数据包含多个标签的属性，可以进一步引导变分自编码器模型在不同标签层面上捕捉到数据的隐藏规律，使得得到的账号检测模型具有准确率高、泛化能力强的优点。通过得到的账号检测模型对待识别数据识别，能够节省大量人力成本，且能提高对异常账号识别的效率。
[0093]
本实施例还提供一种电子设备，包括处理器和存储器，存储器存储有能够被处理器执行的机器可执行指令，处理器执行机器可执行指令以实现上述账号检测模型的获取方法。该电子设备可以是服务器，也可以是终端设备。
[0094]
图6为本发明一种实施例提供的电子设备的结构框图，该电子设备包括处理器
901和存储器902，该存储器902存储有能够被处理器901执行的机器可执行指令，该处理器901执行机器可执行指令以实现上述账号检测模型的获取方法。
[0095]
账号检测模型用于检测异常账号，该账号检测模型的获取方法包括：获取包含多个标签的训练数据，多个标签关联注册信息、实名认证信息、或登录信息中的至少一种；构建待训练变分自编码器模型；以及通过训练数据对待训练变分自编码器模型进行训练，得到账号检测模型。
[0096]
进一步地，电子设备还可以包括通信接口903和总线904，处理器901、通信接口903和存储器902通过总线904连接。
[0097]
其中，存储器902可能包含高速随机存取存储器(ram，random accessmemory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口903(可以是有线或者无线) 实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。总线904可以是isa总线、pci总线或eisa 总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。
[0098]
处理器901可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器901中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器901可以是通用处理器，包括中央处理器(central processing unit，简称cpu)、网络处理器(networkprocessor，简称np)等；还可以是数字信号处理器(digital signalprocessor，简称dsp)、专用集成电路(application specific integratedcircuit，简称asic)、现场可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器902，处理器901读取存储器902中的信息，结合其硬件完成前述实施例的方法的步骤。
[0099]
本实施例还提供一种机器可读存储介质，机器可读存储介质存储有机器可执行指令，机器可执行指令在被处理器调用和执行时，机器可执行指令促使处理器实现上述账号检测模型的获取方法。
[0100]
账号检测模型用于检测异常账号，该账号检测模型的获取方法包括：获取包含多个标签的训练数据，多个标签关联注册信息、实名认证信息、或登录信息中的至少一种；构建待训练变分自编码器模型；以及通过训练数据对待训练变分自编码器模型进行训练，得到账号检测模型。
[0101]
本发明实施例所提供的账号检测模型的获取方法、装置、电子设备及机器可读存储介质的计算机程序产品，包括存储了程序代码的计算机可读存储介质，程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。
[0102]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统
和装置的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0103]
另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语
ꢀ“
安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。
[0104]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0105]
在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、
ꢀ“
右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。
[0106]
最后应说明的是：以上实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：曹慧霞梁兆豪
技术所有人：网易（杭州）网络有限公司
我是此专利的发明人