信息处理方法及装置、电子设备和计算机可读存储介质与流程

文档序号:25345737发布日期:2021-06-08 11:49阅读:107来源:国知局
信息处理方法及装置、电子设备和计算机可读存储介质与流程
信息处理方法及装置、电子设备和计算机可读存储介质
【技术领域】
1.本公开涉及信息处理技术领域,尤其涉及一种信息处理方法及装置、电子设备和计算机可读存储介质。


背景技术:

2.随着网络的发展,虚假信息、非法信息可被规模化生产,比如,同一设备使用相似的方式生成大量账号,大量账号发布相似内容,造成网络资源的浪费。由于这些账号之间存在关联性,一般可通过图算法对这种关联性进行捕捉,从而识别非法账号。
3.然而,现有的图算法仅可对账号所在设备id、唯一识别码等单一信息进行关联,在查找非法账号的过程中会出现遗漏的问题,且这一手段过于单一,若非法账号规避了使用同一设备,则现有的图算法无法对其进行识别。
4.因此,如何进一步准确有效地识别非法账号,成为目前亟待解决的技术问题。


技术实现要素:

5.本公开实施例提供了一种信息处理方法及装置、电子设备和计算机可读存储介质,旨在解决相关技术中非法账号的识别缺乏准确性的技术问题。
6.第一方面,本公开实施例提供了一种信息处理方法,包括:获取待识别用户集合中每个用户的用户特征信息,所述用户特征信息包括用户身份唯一标识信息、用户账户登录态信息、用户发布信息和用户行为分布信息中的一项或多项;基于所述每个用户的所述用户特征信息,为所述待识别用户集合建立异常用户有权图,其中,所述异常用户有权图的节点用于表征所述待识别用户集合中的异常用户,所述异常用户有权图中任两个节点间的边的权重用于表征所述两个节点表征的异常用户之间的关联程度。
7.在本公开上述实施例中,可选地,还包括:当所述用户特征信息包括所述用户身份唯一标识信息和/或所述用户账户登录态信息时,基于所述用户特征信息,获取与所述用户特征信息关联设置的预设离散值,作为所述用户特征信息的特征值;以及当所述用户特征信息包括所述用户发布信息和/或所述用户行为分布信息时,基于向量转换模型,将所述用户特征信息转换为向量信息,其中,所述向量转换模型是基于历史用户特征信息和所述历史用户特征信息对应的历史向量训练得到的,用于反映所述用户特征信息与所述向量信息的映射关系;通过量化算法对所述向量信息进行量化,得到所述用户特征信息的特征值;以及所述基于所述每个用户的所述用户特征信息,为所述待识别用户集合建立异常用户有权图,包括:基于所述每个用户的所述用户特征信息的特征值,为所述待识别用户集合建立异常用户有权图。
8.在本公开上述实施例中,可选地,所述基于所述每个用户的所述用户特征信息的特征值,为所述待识别用户集合建立异常用户有权图,包括:基于所述待识别用户集合中全部用户的所述用户特征信息的特征值,确定所述用户特征信息中所述第一用户特征信息的第一特征值直方图,以及确定所述用户特征信息内多个第二用户特征信息中每个所述第二
用户特征信息之特征值的聚合特征值;在多个所述聚合特征值中随机选择目标聚合特征值;基于所述目标聚合特征值,获取所述第一用户特征信息的第二特征值直方图;基于多个所述聚合特征值中所述目标聚合特征值以外的其他聚合特征值、所述第一特征值直方图和所述第二特征值直方图,确定所述第一用户特征信息的第三特征值直方图;在基于所述第二特征值直方图求得的第一数值和基于所述第三特征值直方图求得的第二数值的差值大于第一指定差值时,或所述差值的归一化数值大于第二指定差值时,为使得所述多个第二用户特征信息的特征值之聚合特征值为所述目标聚合特征值的用户两两建边,并基于所述差值确定所述边的第一权重。
9.在本公开上述实施例中,可选地,还包括:当所述边具有多个所述第一权重时,在多个所述第一权重中选择最大权重作为所述边的目标第一权重,或将多个所述第一权重的均值作为所述边的目标第一权重。
10.在本公开上述实施例中,可选地,所述基于所述每个用户的所述用户特征信息的特征值,为所述待识别用户集合建立异常用户有权图,包括:在所述待识别用户集合中确定所述用户特征信息中第三用户特征信息的特征值相同的多个用户;若所述多个用户的数量大于指定数量,以所述多个用户中的每两个所述用户为节点建立边,并为所述边设置第二权重。
11.在本公开上述实施例中,可选地,所述基于所述每个用户的所述用户特征信息的特征值,为所述待识别用户集合建立异常用户有权图,包括:对于所述待识别用户集合中的每两个用户,若所述两个用户的所述用户特征信息中第四用户特征信息的特征值相同,且所述特征值具有异常标识,为所述两个用户建立边,其中,所述第四用户特征信息包括所述用户发布信息和/或所述用户行为分布信息;将所述两个用户的所述第四用户特征信息的特征值的预定异常度确定为所述边的第三权重,其中,所述异常标识和所述预定异常度是基于预定的异常检测算法对所述特征值进行处理得到的。
12.第二方面,本公开实施例提供了一种信息处理装置,包括:用户特征信息获取单元,用于获取待识别用户集合中每个用户的用户特征信息,所述用户特征信息包括用户身份唯一标识信息、用户账户登录态信息、用户发布信息和用户行为分布信息中的一项或多项;有权图建立单元,用于基于所述每个用户的所述用户特征信息,为所述待识别用户集合建立异常用户有权图,其中,所述异常用户有权图的节点用于表征所述待识别用户集合中的异常用户,所述异常用户有权图中任两个节点间的边的权重用于表征所述两个节点表征的异常用户之间的关联程度。
13.在本公开上述实施例中,可选地,还包括:特征获取单元,用于当所述用户特征信息包括所述用户身份唯一标识信息和/或所述用户账户登录态信息时,基于所述用户特征信息,获取与所述用户特征信息关联设置的预设离散值,作为所述用户特征信息的特征值;以及当所述用户特征信息包括所述用户发布信息和/或所述用户行为分布信息时,基于向量转换模型,将所述用户特征信息转换为向量信息,其中,所述向量转换模型是基于历史用户特征信息和所述历史用户特征信息对应的历史向量训练得到的,用于反映所述用户特征信息与所述向量信息的映射关系;通过量化算法对所述向量信息进行量化,得到所述用户特征信息的特征值;所述有权图建立单元用于:基于所述每个用户的所述用户特征信息的特征值,为所述待识别用户集合建立异常用户有权图。
14.在本公开上述实施例中,可选地,所述有权图建立单元用于:基于所述待识别用户集合中全部用户的所述用户特征信息的特征值,确定所述用户特征信息中所述第一用户特征信息的第一特征值直方图,以及确定所述用户特征信息内多个第二用户特征信息中每个所述第二用户特征信息之特征值的聚合特征值;在多个所述聚合特征值中随机选择目标聚合特征值;基于所述目标聚合特征值,获取所述第一用户特征信息的第二特征值直方图;基于多个所述聚合特征值中所述目标聚合特征值以外的其他聚合特征值、所述第一特征值直方图和所述第二特征值直方图,确定所述第一用户特征信息的第三特征值直方图;在基于所述第二特征值直方图求得的第一数值和基于所述第三特征值直方图求得的第二数值的差值大于第一指定差值时,或所述差值的归一化数值大于第二指定差值时,为使得所述多个第二用户特征信息的特征值之聚合特征值为所述目标聚合特征值的用户两两建边,并基于所述差值确定所述边的第一权重。
15.在本公开上述实施例中,可选地,还包括:权重设置单元,用于当所述边具有多个所述第一权重时,在多个所述第一权重中选择最大权重作为所述边的目标第一权重,或将多个所述第一权重的均值作为所述边的目标第一权重。
16.在本公开上述实施例中,可选地,所述有权图建立单元用于:在所述待识别用户集合中确定所述用户特征信息中第三用户特征信息的特征值相同的多个用户;若所述多个用户的数量大于指定数量,以所述多个用户中的每两个所述用户为节点建立边,并为所述边设置第二权重。
17.在本公开上述实施例中,可选地,所述有权图建立单元用于:对于所述待识别用户集合中的每两个用户,若所述两个用户的所述用户特征信息中第四用户特征信息的特征值相同,且所述特征值具有异常标识,为所述两个用户建立边,其中,所述第四用户特征信息包括所述用户发布信息和/或所述用户行为分布信息;将所述两个用户的所述第四用户特征信息的特征值的预定异常度确定为所述边的第三权重,其中,所述异常标识和所述预定异常度是基于预定的异常检测算法对所述特征值进行处理得到的。
18.第三方面,本公开实施例提供了一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被设置为用于执行上述第一方面中任一项所述的方法。
19.第四方面,本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述第一方面中任一项所述的方法流程。
20.以上技术方案,首先,获取待识别用户集合中每个用户的用户特征信息,待识别用户集合包括多个用户,这里所述的用户通过账号、电子设备或者其他信息来表征。每个用户的用户特征信息反映了该用户使用客户端时的实际信息,包括但不限于用户身份唯一标识信息、用户账户登录态信息、用户发布信息和用户行为分布信息中的一项或多项。在实际应用中,获取用户授权的这些用户特征信息。
21.其中,用户身份唯一标识信息包括但不限于账号id、电子设备id等。用户账户登录态信息包括用户登录时依赖的硬件设备的硬件/操作系统层面的信息以及登录时账户的基础信息,其中,硬件/操作系统层面的信息包括但不限于电子设备型号、系统版本号等,账户的基础信息包括但不限于用户代理、ip地址、头像,昵称等。用户发布信息为用户发布的内容,包括但不限于文字、图像、音频、视频等任何类型的多媒体信息,比如,社交账号发布的
头像、昵称或短视频;用户行为分布信息包括用户的多种行为以及每种行为出现的次数,反映了用户的行为模式和行为规律等。
22.多维度的用户特征信息可更加全面地反映该用户的实际情况,便于发现待识别用户集合中的各用户在不同维度下的关联性。
23.接着,基于所述每个用户的所述用户特征信息,为所述待识别用户集合建立异常用户有权图。以用户发布信息为例,一般地,普通用户间其用户发布信息的关联性低,比如,作家a的社交账号发布的内容,与学生b的社交账号发布的内容不同,没有规律可循。而在用户发布信息包括虚假信息、非法信息等内容的情况下,实际场景中相同或相似的虚假信息、非法信息等往往由多个异常用户在相同或相近时间发布,因此,这多个异常用户的用户发布信息高度相似,具有强关联性。由此可知,用户的用户特征信息可反映其与其他用户是否具有强关联性,因此,基于每个用户的所述用户特征信息,可在待识别用户集合中识别具有强关联性的异常用户,进而生成以异常用户为节点的异常用户有权图。异常用户有权图反映了异常用户间的强关联性,其节点用于表征所述待识别用户集合中的异常用户,异常用户有权图中任两个节点间的边的权重用于表征所述两个节点表征的异常用户之间的关联程度,该权重越大,两个节点所属异常用户的关联性越强。
24.通过以上技术方案,能够以多个维度的用户特征信息为条件全面、准确地识别异常用户,避免漏识别异常用户。
【附图说明】
25.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
26.图1示出了根据本公开的一个实施例的信息处理方法的流程图;
27.图2示出了根据本公开的另一个实施例的信息处理方法的流程图;
28.图3示出了根据本公开的再一个实施例的信息处理方法的流程图;
29.图4示出了根据本公开的又一个实施例的信息处理方法的流程图;
30.图5示出了根据本公开的一个实施例的信息处理装置的框图;
31.图6示出了根据本公开的一个实施例的电子设备的框图。
【具体实施方式】
32.为了更好的理解本公开的技术方案,下面结合附图对本公开实施例进行详细描述。
33.应当明确,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
34.在本公开实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
35.实施例一
36.图1示出了根据本公开的一个实施例的信息处理方法的流程图。
37.如图1所示,根据本公开的一个实施例的信息处理方法的流程包括:
38.步骤102,获取待识别用户集合中每个用户的用户特征信息,所述用户特征信息包括用户身份唯一标识信息、用户账户登录态信息、用户发布信息和用户行为分布信息中的一项或多项。
39.待识别用户集合包括多个用户,这里所述的用户通过账号、电子设备或者其他信息来表征。每个用户的用户特征信息反映了该用户使用客户端时的实际信息,包括但不限于用户身份唯一标识信息、用户账户登录态信息、用户发布信息和用户行为分布信息中的一项或多项。在实际应用中,获取用户授权的这些用户特征信息。
40.其中,用户身份唯一标识信息包括但不限于账号id、电子设备id等。
41.用户账户登录态信息包括用户登录时依赖的硬件设备的硬件/操作系统层面的信息以及登录时账户的基础信息,其中,硬件/操作系统层面的信息包括但不限于电子设备型号、系统版本号等,账户的基础信息包括但不限于用户代理、ip地址、头像,昵称等。
42.用户发布信息为用户发布的内容,包括但不限于文字、图像、音频、视频等任何类型的多媒体信息,比如,社交账号发布的头像、昵称或短视频。
43.用户行为分布信息包括用户的多种行为以及每种行为出现的次数,反映了用户的行为模式和行为规律等。
44.多维度的用户特征信息可更加全面地反映该用户的实际情况,便于发现待识别用户集合中的各用户在不同维度下的关联性。
45.步骤104,基于所述每个用户的所述用户特征信息,为所述待识别用户集合建立异常用户有权图。
46.其中,所述异常用户有权图的节点用于表征所述待识别用户集合中的异常用户,所述异常用户有权图中任两个节点间的边的权重用于表征所述两个节点表征的异常用户之间的关联程度。
47.以用户发布信息为例,一般地,普通用户间其用户发布信息的关联性低,比如,作家a的社交账号发布的内容,与学生b的社交账号发布的内容不同,没有规律可循。而在用户发布信息包括虚假信息、非法信息等内容的情况下,实际场景中相同或相似的虚假信息、非法信息等往往由多个异常用户在相同或相近时间发布,因此,这多个异常用户的用户发布信息高度相似,具有强关联性。
48.由此可知,用户的用户特征信息可反映其与其他用户是否具有强关联性,因此,基于每个用户的所述用户特征信息,可在待识别用户集合中识别具有强关联性的异常用户,进而生成以异常用户为节点的异常用户有权图。
49.异常用户有权图反映了异常用户间的强关联性,其节点用于表征所述待识别用户集合中的异常用户,异常用户有权图中任两个节点间的边的权重用于表征所述两个节点表征的异常用户之间的关联程度,该权重越大,两个节点所属异常用户的关联性越强。
50.通过以上技术方案,能够以多个维度的用户特征信息为条件全面、准确地识别异常用户,避免漏识别异常用户。
51.在一种可能的设计中,确定用户特征信息的特征值的方式包括:当所述用户特征信息包括所述用户身份唯一标识信息和/或所述用户账户登录态信息时,基于所述用户特
征信息,获取与所述用户特征信息关联设置的预设离散值,作为所述用户特征信息的特征值。
52.用户身份唯一标识信息和用户账户登录态信息往往为离散取值的特征,设置有对应的预设离散值,由此,可将用户特征信息对应的预设离散值作为其特征值。而用户发布信息和用户行为分布信息不是离散取值的特征,未对应有离散值,此时,可通过神经网络方式处理得到其特征值。
53.对此,在一种可能的设计中,当所述用户特征信息包括所述用户发布信息和/或所述用户行为分布信息时,基于向量转换模型,将所述用户特征信息转换为向量信息;通过量化算法对所述向量信息进行量化,得到所述用户特征信息的特征值。
54.其中,所述向量转换模型是基于历史用户特征信息和所述历史用户特征信息对应的历史向量训练得到的,用于反映所述用户特征信息与所述向量信息的映射关系。对此,可通过向量转换模型将用户特征信息转化为向量。
55.在一种可能的设计中,通过向量转换模型将用户特征信息转化为固定维度的embedding向量。具体来说,在用户特征信息为文本信息时,使用bert等预训练神经网络模型将其转化为embedding向量,在用户特征信息为图片、视频等多媒体信息时,可基于在大规模数据集上训练得到的分类网络中间层作为其embedding向量。若用户特征信息包括多种用户发布信息,即若用户发布多项内容,可取多种用户发布信息各自对应的embedding向量的均值作为该用户特征信息的向量。比如,社交账号的用户发布信息包括文本和视频,基于该文本获得第一向量,基于该视频获得第二向量,并将第一向量和第二向量的均值确定为该社交账号的用户发布信息对应的向量。
56.最终,对得到的向量进行量化,从而将其转化为一个特征值,量化所使用的算法包括但不限于pq算法、transform coding算法。需要知晓,用户特征信息的相似性越高,其量化得到的特征值越相近,换言之,不同用户的量化得到的特征值的差异能够反映不同用户间的用户特征信息的关联性。
57.当然,获取用户特征信息的特征值的方式包括但不限于上述实现方式。
58.在获得了用户特征信息的特征值的基础上,基于所述每个用户的所述用户特征信息的特征值,通过多种图绘制方式为所述待识别用户集合建立异常用户有权图。下面通过实施例二至四介绍三种图绘制方式。
59.实施例二
60.图2示出了根据本公开的另一个实施例的信息处理方法的流程图。
61.如图2所示,根据本公开的另一个实施例的信息处理方法的流程包括:
62.步骤202,获取待识别用户集合中每个用户的用户特征信息,所述用户特征信息包括用户身份唯一标识信息、用户账户登录态信息、用户发布信息和用户行为分布信息中的一项或多项。
63.步骤204,确定所述待识别用户集合中全部用户的所述用户特征信息的特征值。
64.步骤206,基于所述待识别用户集合中全部用户的所述用户特征信息的特征值,确定所述用户特征信息中所述第一用户特征信息的第一特征值直方图,以及确定所述用户特征信息内多个第二用户特征信息中每个所述第二用户特征信息之特征值的聚合特征值。
65.其中,所述第一用户特征信息为全部所述用户特征信息中的一种,比如,可选定设
备id作为第一用户特征信息。第一特征值直方图示出了待识别用户集合中所有用户的第一用户特征信息的特征值的分布情况。
66.多个第二用户特征信息为全部所述用户特征信息中第一用户特征信息以外的多种用户特征信息,比如,选定设备id作为第一用户特征信息,并选择系统版本号和用户发布信息作为第二用户特征信息。
67.每个用户自身的系统版本号和用户发布信息分别对应第一特征值和第二特征值,待识别用户集合包括多个用户,对于整个待识别用户集合来说,第一特征值具有多种,第二特征值也具有多种,将一个用户的第一特征值和第二特征值进行聚合,得到该用户对应的聚合特征值,最终,每个用户均对应自身的聚合特征值。
68.步骤208,在多个所述聚合特征值中随机选择目标聚合特征值。
69.步骤210,基于所述目标聚合特征值,获取所述第一用户特征信息的第二特征值直方图。
70.第二特征值直方图示出了在多个第二用户特征信息聚合后取目标聚合特征值时,第一用户特征信息的特征值的分布情况。具体来说,对多种第一特征值和多种第二特征值分别进行聚合,得到多个聚合特征值,多个聚合特征值中的目标聚合特征值是由一第一特征值和一第二特征值聚合得到。若该第一特征值对应的系统版本号为7.0.6,该第二特征值对应的用户发布信息为文本x,在第一用户特征信息为设备id的情况下,第二特征值直方图示出了待识别用户集合中所用系统的系统版本号为7.0.6、用户发布信息包括文本x的用户的设备id对应的特征值的分布情况。
71.步骤212,基于多个所述聚合特征值中所述目标聚合特征值以外的其他聚合特征值、所述第一特征值直方图和所述第二特征值直方图,确定所述第一用户特征信息的第三特征值直方图。
72.通过第一特征值直方图与第二特征值直方图的差异,获得第三特征值直方图,第三特征值直方图反映了在多个第二用户特征信息组合对应所述聚合特征值中所述目标聚合特征值以外的其他聚合特征值时待识别用户集合中第一用户特征信息的特征值的分布情况。
73.步骤214,在基于所述第二特征值直方图求得的第一数值和基于所述第三特征值直方图求得的第二数值的差值大于第一指定差值时,或所述差值的归一化数值大于第二指定差值时,为使得所述多个第二用户特征信息的特征值之聚合特征值为所述目标聚合特征值的用户两两建边,并基于所述差值确定所述边的第一权重。
74.第二特征值直方图和第三特征值直方图的数据偏离程度越大,第二特征值直方图对应的特征值和所述第三特征值直方图对应的特征值的差值越大,换言之,该差值体现了第二特征值直方图和第三特征值直方图的数据偏离程度。该差值越大,说明得到目标聚合特征值的多个第二用户特征信息的关联性越大,多个第二用户特征信息可取目标聚合特征值的用户间相似性越高,越有可能为异常用户。
75.第一指定差值为多个第二用户特征信息可取目标聚合特征值的用户非异常用户时第二特征值直方图和第三特征值直方图的最大特征值差值,第二指定差值为多个第二用户特征信息可取目标聚合特征值的用户非异常用户时第二特征值直方图和第三特征值直方图的最大特征值差值的归一化数值。因此,当差值大于第一指定差值时,或该差值的归一
化数值大于第二指定差值时,说明多个第二用户特征信息可取目标聚合特征值的用户具有高相似性,为异常用户。此时,可为这些异常用户两两建边,并并基于所述差值确定所述边的第一权重。
76.在一种可能的设计中,当所述边具有多个所述第一权重时,在多个所述第一权重中选择最大权重作为所述边的目标第一权重,或将多个所述第一权重的均值作为所述边的目标第一权重。
77.其中,对于一条边来说,连接其的两个节点所属异常用户可在多种用户特征信息的组合下存在关联,即连接其的两个节点所属异常用户可能存在多种关联。在一种可能的设计中,可选择多组多个第二用户特征信息,每组多个第二用户特征信息均可求得对应的第一权重。那么,当所述边具有多个所述第一权重时,在多个所述第一权重中选择最大权重作为所述边的目标第一权重,其中,多个第一权重中的最大权重反映了两个节点所属异常用户的最高关联性,以此最大权重为边的权重,可真实反映异常用户间的最高关联程度。
78.若将多个所述第一权重的均值作为所述边的目标第一权重,则可反映两个节点所属异常用户的多种关联性的平均水平。
79.通过以上技术方案,基于多种用户特征信息的组合进行有权图的建立,可深度挖掘具有关联性的异常用户,以多个维度的用户特征信息组合为条件全面、准确地识别异常用户,避免漏识别异常用户。
80.实施例三
81.图3示出了根据本公开的再一个实施例的信息处理方法的流程图。
82.如图3所示,根据本公开的再一个实施例的信息处理方法的流程包括:
83.步骤302,获取待识别用户集合中每个用户的用户特征信息,所述用户特征信息包括用户身份唯一标识信息、用户账户登录态信息、用户发布信息和用户行为分布信息中的一项或多项。
84.步骤304,确定所述待识别用户集合中全部用户的所述用户特征信息的特征值。
85.步骤306,在所述待识别用户集合中确定所述用户特征信息中第三用户特征信息的特征值相同的多个用户。
86.第三用户特征信息为用户特征信息中的任一用户特征信息,可选取用户身份唯一标识信息、用户账户登录态信息中的任意一项或多种作为第三用户特征信息。用户身份唯一标识信息包括账号id、电子设备id等;用户账户登录态信息包括但不限于用户的电子设备型号、用户代理、系统版本号、ip地址等于用户身份唯一标识信息相关联的信息。
87.比如,以电子设备id作为第三用户特征信息,对于用户来说,电子设备id相同则电子设备id的特征值相同,那么,在用户为账号的情况下,可在所述待识别用户集合中确定电子设备id为dmijw418f185的多个账号。
88.步骤308,若所述多个用户的数量大于指定数量,以所述多个用户中的每两个所述用户为节点建立边,并为所述边设置第二权重。
89.一般地,在用户为账号的情况下,一个用户或两个用户可能共用一个设备。例如,同一人通过自己的手机切换两个账号登录社交应用。而若一电子设备的账号过多,则该电子设备以及该群账号很可能为发布虚假信息、非法信息的规模化信息发布集群。对此,在检测到第三用户特征信息的特征值相同的多个用户后,需要判断这多个用户的数量。其中,设
置有指定数量,所述指定数量为共有第三用户特征信息的多个普通用户的最大数量,在第三用户特征信息的特征值相同的多个用户的数量超过指定数量时,确定该多个用户为异常用户组成的规模化信息发布集群,可为其两两建边,并设置第二权重。
90.在一种可能的设计中,由于用户身份唯一标识信息、用户账户登录态信息没有特征值高低之分,只有相同或不同之分,一旦两个用户的用户身份唯一标识信息、用户账户登录态信息中的任一项相同,说明两个用户关联性极强。对此,在为第三用户特征信息的特征值相同的多个用户建立边后设置权重时,可统一设置第二权重为指定值。比如,设置第三用户特征信息为电子设备id,设置指定数量为9,在待识别用户集合中确定电子设备id为dmijw418f185的多个账号,若多个账号的数量为16,超过指定数量9,则为多个账号两两建立边,设置每个边的权重为1。
91.通过以上技术方案,基于用户身份唯一标识信息、用户账户登录态信息进行有权图的建立,可有效识别复用设备资源、复用网络资源的异常用户,提升了异常用户识别的全面性和准确性。
92.实施例四
93.图4示出了根据本公开的又一个实施例的信息处理方法的流程图。
94.如图4所示,根据本公开的又一个实施例的信息处理方法的流程包括:
95.步骤402,获取待识别用户集合中每个用户的用户特征信息,所述用户特征信息包括用户身份唯一标识信息、用户账户登录态信息、用户发布信息和用户行为分布信息中的一项或多项。
96.步骤404,确定所述待识别用户集合中全部用户的所述用户特征信息的特征值。
97.步骤406,对于所述待识别用户集合中的每两个用户,若所述两个用户的所述用户特征信息中第四用户特征信息的特征值相同,且所述特征值具有异常标识,为所述两个用户建立边,其中,所述第四用户特征信息包括所述用户发布信息和/或所述用户行为分布信息。
98.步骤408,将所述两个用户的所述第四用户特征信息的特征值的预定异常度确定为所述边的第三权重,其中,所述异常标识和所述预定异常度是基于预定的异常检测算法对所述特征值进行处理得到的。
99.在初始设置过程中,可基于预定的异常检测算法对第四用户特征信息的特征值进行检测,在判定第四用户特征信息的特征值异常时,为其生成异常标识。进一步地,若两个用户的第四用户特征信息的特征值相同且具有异常标识,为所述两个用户建立边,其中,所述第四用户特征信息包括所述用户发布信息和/或所述用户行为分布信息。
100.具体地,可通过k

近邻方式检测第四用户特征信息的特征值是否异常,第四用户特征信息的特征值作为样本,将对每个样本计算距离它第k远的样本与其自身的距离,作为离群程度的指标。其中,若样本对应的距离为全部样本中最高,或样本对应的距离大于指定距离,确定该样本离群程度足够高,为异常样本。对此,可为该样本设置异常标识,另外,可对所有样本对应的距离进行归一化处理,将归一化处理得到的数值作为样本的预定异常度。
101.基于此,若两个用户的第四用户特征信息的特征值相同,且所述特征值具有异常标识,说明该两个用户为发布相同或相近内容、或具有相同行为模式的异常用户,此时,可
为所述两个用户建立边,并将两个用户的第四用户特征信息的特征值的预定异常度确定为所述边的第三权重。
102.需要知晓,第四用户特征信息包括用户发布信息和/或用户行为分布信息,可分别以用户发布信息和用户行为分布信息为第四用户特征信息建边和计算第三权重。
103.另外,在所述第四用户特征信息包括所述用户发布信息时,由于用户发布多种多样,对于一条边来说,连接其的两个节点所属异常用户可在多种用户发布下存在关联,即连接其的两个节点所属异常用户可能存在多种关联。故可基于多种用户发布信息分别计算第三权重。
104.对此,若所述边具有所述用户发布信息对应的多个所述第三权重时,在多个所述第三权重中选择最大权重作为所述边的目标第三权重。多个所述第三权重中的最大权重反映了两个节点所属异常用户在多个用户发布信息的维度下的最高关联性,以此最大权重为边的权重,可真实反映异常用户间的最高关联程度。
105.在另一种可能的设计中,可将多个所述第三权重的均值作为所述边的目标第三权重。由此,可反映两个节点所属异常用户在多个用户发布信息的维度下的多种关联性的平均水平。
106.通过以上技术方案,基于用户发布信息和用户行为分布信息等用户特征信息进行有权图的建立,可有效识别批量生产相同或相似行为、发布相同或相似内容的各种异常用户,全部覆盖在不同维度发生异常的异常用户的识别,提升了异常用户识别的全面性和准确性。
107.实施例五
108.在上述实施例的基础上,可基于实施例二至实施例四中所述的任多种方案为所述待识别用户集合中的异常用户两两建边,并将该多种方案所得的边的权重的和作为该边的最终权重。
109.通过以上技术方案,基于用户身份唯一标识信息、用户账户登录态信息、用户发布信息和用户行为分布信息等用户特征信息进行有权图的建立,可有效识别复用设备资源、复用网络资源、批量生产相同或相似行为、发布相同或相似内容的各种异常用户。并且,可基于多种用户特征信息的组合进行有权图的建立,可深度挖掘具有关联性的异常用户,以多个维度的用户特征信息组合为条件全面、准确地识别异常用户,避免漏识别异常用户,提升了异常用户识别的全面性和准确性。
110.另外,本申请中生成的异常用户有权图仅设置异常用户作为节点,过滤掉了大量非异常用户,换言之,所得的异常用户有权图仅体现异常用户间的关联性,是相对稀疏和关系简洁的,从而减轻了后续计算的负担,节省计算资源,有助于提升计算效率。
111.图5示出了根据本公开的一个实施例的信息处理装置的框图。
112.如图5所示,根据本公开的一个实施例的信息处理装置500包括:用户特征信息获取单元502,用于获取待识别用户集合中每个用户的用户特征信息,所述用户特征信息包括用户身份唯一标识信息、用户账户登录态信息、用户发布信息和用户行为分布信息中的一项或多项;有权图建立单元504,用于基于所述每个用户的所述用户特征信息,为所述待识别用户集合建立异常用户有权图,其中,所述异常用户有权图的节点用于表征所述待识别用户集合中的异常用户,所述异常用户有权图中任两个节点间的边的权重用于表征所述两
个节点表征的异常用户之间的关联程度。
113.在本公开上述实施例中,可选地,还包括:特征值获取单元,用于当所述用户特征信息包括所述用户身份唯一标识信息和/或所述用户账户登录态信息时,基于所述用户特征信息,获取与所述用户特征信息关联设置的预设离散值,作为所述用户特征信息的特征值;以及当所述用户特征信息包括所述用户发布信息和/或所述用户行为分布信息时,基于向量转换模型,将所述用户特征信息转换为向量信息,其中,所述向量转换模型是基于历史用户特征信息和所述历史用户特征信息对应的历史向量训练得到的,用于反映所述用户特征信息与所述向量信息的映射关系;通过量化算法对所述向量信息进行量化,得到所述用户特征信息的特征值;所述有权图建立单元用于:基于所述每个用户的所述用户特征信息的特征值,为所述待识别用户集合建立异常用户有权图。
114.在本公开上述实施例中,可选地,所述有权图建立单元504用于:基于所述待识别用户集合中全部用户的所述用户特征信息的特征值,确定所述用户特征信息中所述第一用户特征信息的第一特征值直方图,以及确定所述用户特征信息内多个第二用户特征信息中每个所述第二用户特征信息之特征值的聚合特征值;在多个所述聚合特征值中随机选择目标聚合特征值;基于所述目标聚合特征值,获取所述第一用户特征信息的第二特征值直方图;基于多个所述聚合特征值中所述目标聚合特征值以外的其他聚合特征值、所述第一特征值直方图和所述第二特征值直方图,确定所述第一用户特征信息的第三特征值直方图;在基于所述第二特征值直方图求得的第一数值和基于所述第三特征值直方图求得的第二数值的差值大于第一指定差值时,或所述差值的归一化数值大于第二指定差值时,为使得所述多个第二用户特征信息的特征值之聚合特征值为所述目标聚合特征值的用户两两建边,并基于所述差值确定所述边的第一权重。
115.在本公开上述实施例中,可选地,还包括:权重设置单元,用于当所述边具有多个所述第一权重时,在多个所述第一权重中选择最大权重作为所述边的目标第一权重,或将多个所述第一权重的均值作为所述边的目标第一权重。
116.在本公开上述实施例中,可选地,所述有权图建立单元504用于:在所述待识别用户集合中确定所述用户特征信息中第三用户特征信息的特征值相同的多个用户;若所述多个用户的数量大于指定数量,以所述多个用户中的每两个所述用户为节点建立边,并为所述边设置第二权重。
117.在本公开上述实施例中,可选地,所述有权图建立单元504用于:对于所述待识别用户集合中的每两个用户,若所述两个用户的所述用户特征信息中第四用户特征信息的特征值相同,且所述特征值具有异常标识,为所述两个用户建立边,其中,所述第四用户特征信息包括所述用户发布信息和/或所述用户行为分布信息;将所述两个用户的所述第四用户特征信息的特征值的预定异常度确定为所述边的第三权重,其中,所述异常标识和所述预定异常度是基于预定的异常检测算法对所述特征值进行处理得到的。
118.该信息处理装置500使用实施例一至五中任一项所述的方案,因此,具有上述所有技术效果,在此不再赘述。
119.图6示出了根据本公开的一个实施例的电子设备的框图。
120.如图6所示,本公开的一个实施例的电子设备600,包括至少一个存储器602;以及,与所述至少一个存储器602通信连接的处理器604;其中,所述存储器存储有可被所述至少
一个处理器604执行的指令,所述指令被设置为用于执行上述任一实施例中所述的方案。因此,该电子设备600具有和上述任一实施例中相同的技术效果,在此不再赘述。
121.本公开实施例的电子设备以多种形式存在,包括但不限于:
122.(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iphone)、多媒体手机、功能性手机,以及低端手机等。
123.(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:pda、mid和umpc设备等,例如ipad。
124.(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如ipod),掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
125.(4)服务器:提供计算服务的设备,服务器的构成包括处理器、硬盘、内存、系统总线等,服务器和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
126.(5)其他具有数据交互功能的电子装置。
127.另外,本公开实施例提供了一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行上述任一实施例中所述的方法流程。
128.以上结合附图详细说明了本公开的技术方案,通过本公开的技术方案,能够以多个维度的用户特征信息为条件全面、准确地识别异常用户,避免漏识别异常用户。
129.应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
130.应当理解,尽管在本公开实施例中可能采用术语第一、第二等来描述用户特征信息,但这些用户特征信息不应限于这些术语。这些术语仅用来将用户特征信息彼此区分开。例如,在不脱离本公开实施例范围的情况下,第一用户特征信息也可以被称为第二用户特征信息,类似地,第二用户特征信息也可以被称为第一用户特征信息。
131.取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
132.在本公开所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
133.另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
134.上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存
储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(processor)执行本公开各个实施例所述方法的部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(read

only memory,rom)、随机存取存储器(random access memory,ram)、磁碟或者光盘等各种可以存储程序代码的介质。
135.以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1