本技术涉及计算机,尤其涉及一种目标用户识别方法、装置及电子设备。
背景技术:
1、随着互联网技术的快速发展,网络信息安全问题的重要性日益凸显。常有企图不良的组织或个人利用网站漏洞从事破坏互联网秩序以谋取不当利益。对网络数据安全、财产安全造成极大的威胁。
2、如何能够准确地识别目标用户,有效提高网络信息安全成为一种值得商榷的问题。
技术实现思路
1、本技术实施例提供一种目标用户识别方法、装置及电子设备,用于准确地识别目标用户,有效提高网络信息安全。
2、第一方面,本技术实施例提供一种目标用户识别方法,包括:
3、基于预设的第一时间段以及设备信息将多个不同设备在设定第二时间段的多条用户行为数据按照预设规则进行分组得到多个数据组。其中,用户行为数据包括行为对象信息、行为类型信息以及行为时间信息,第一时间段的时长小于第二时间段的时长。基于用户行为数据分别确定多个数据组中的多个相似行为信息对。其中,每个相似行为信息对包括行为对象信息相同、行为类型信息相同、数据时间跨度小于或等于预设时长的两个用户行为数据,数据时间跨度表示两个用户行为数据的行为时间信息之间的时长。基于两个用户之间的相似行为信息对的个数,以及两个用户的用户行为数据数量计算用于表征用户行为关联性的用户行为相似度,并关联用户行为相似度不小于设定的相似度阈值的用户得到相似度关联链路。其中,相似度关联链路包括多个节点,多个节点是依据行为时间信息的先后顺序建立连接的,每个节点表征一个用户。将相似度关联链路中的用户数量与预设的等级阈值作比较,确定相似度关联链路的等级,并确定最高等级的相似度关联链路中的用户为目标用户。
4、上述方法中,基于计算用户行为相似度,可以准确的确定不同用户不同行为之间的关联性,从而提升识别目标用户的准确性以及识别效率,提高网络信息安全。支持基于多条用户行为数据计算用户行为相似度,任何时点均可以基于用户行为相似度及时确定目标用户,快速高效地满足业务的需求,提升用户使用体验。
5、可选的,上述基于预设的第一时间段以及设备信息将多个不同设备在设定第二时间段的多条用户行为数据按照预设规则进行分组得到多个数据组,具体包括:
6、将多条用户行为数据按照时间先后排序,并基于预设的第一时间段进行分组得到多个时间窗口数据段,每个时间窗口数据段包括多条用户行为数据;
7、将时间窗口数据段中设备信息相同的多条用户行为数据划分为一组,得到多个数据组。
8、上述方法中,通过将多条用户行为数据按照时间先后排序,并基于预设的时间段进行分组得到多个时间窗口数据段的方式,可以将多条用户行为数据按照时间先后顺序进行初始关联。再通过将时间窗口数据段中设备信息相同的多条用户行为数据划分为一组,得到多个数据组的方式,可以进一步确定在预设时间段中基于相同设备发起行为的多条用户行为数据,增强了数据组中的多条用户行为数据的关联性,便于后续计算用户行为相似度。
9、可选的,上述用户行为数据还包括用户信息,将多条用户行为数据按照时间先后排序之前,方法还包括:
10、对多条用户行为数据进行数据清洗,得到清洗后的多条用户行为数据,清洗后的多条用户行为数据中任意两条用户行为数据是不同的,且任一用户行为数据包括行为对象信息、行为类型信息、行为时间信息、用户信息以及设备信息。
11、上述方法中,通过对多条用户行为数据进行数据清洗,得到清洗后的多条用户行为数据的方式,可以便于后续基于多条用户行为数据计算用户行为相似度时,节省计算资源,防止计算资源的浪费,提升计算效率。
12、可选的,上述基于预设的第一时间段以及设备信息将多个不同设备在设定第二时间段的多条用户行为数据按照预设规则进行分组得到多个数据组之后,方法还包括:
13、确定每个数据组的用户数量;
14、在用户数量小于预设的有效阈值的情况下,删除用户数量小于有效阈值的数据组。
15、上述方法中,通过删除用户数量小于有效阈值的数据组的方式,可以使得剩余的多个数据组均为有效的数据组。可以便于后续基于数据组中多条用户行为数据计算用户行为相似度时,节省计算资源,防止计算资源的浪费,提升计算效率。
16、可选的,上述基于用户行为数据分别确定多个数据组中的多个相似行为信息对之前,方法还包括:
17、将同一数据组中用户信息、行为类型信息、行为对象信息相同的多条用户行为数据按照预设规则合并为一条用户行为数据。
18、上述方法中,通过将同一数据组中用户信息、行为类型信息、行为对象信息相同的多条用户行为数据按照预设规则合并为一条用户行为数据的方式,可以将同一用户在不同时刻的相同行为去重,提高后续计算用户行为相似度的准确性。便于后续基于数据组中多条用户行为数据计算用户行为相似度时,节省计算资源。
19、可选的,上述将相似度关联链路中的用户数量与预设的等级阈值作比较,确定相似度关联链路的等级,具体包括:
20、确定各相似度关联链路的用户数量;
21、若相似度关联链路的用户数量小于或等于预设的第一子等级阈值,则相似度关联链路的等级为最低等级;
22、若相似度关联链路的用户数量大于第一子等级阈值,且小于或等于预设的第二子等级阈值,则相似度关联链路的等级为次低等级;
23、若相似度关联链路的用户数量大于第二子等级阈值,且小于或等于预设的第三子等级阈值,则相似度关联链路的等级为次高等级;
24、若相似度关联链路的用户数量大于第三子等级阈值,则相似度关联链路的等级为最高等级。
25、上述方法中,通过将相似度关联链路中的用户数量与预设的多个子等级阈值进行比较,可以更加准确的确定相似度关联链路的等级。
26、可选的,上述预设时长是基于行为类型信息确定的。
27、上述方法中,基于行为类型信息确定预设时长的方式,可以对于不同行为类型划分不同的确定相似行为信息对的条件,使得后续基于相似行为信息对计算用户行为相似度更加准确。
28、第二方面,本技术实施例提供一种目标用户识别装置,包括:
29、处理模块,用于基于预设的时间段以及设备信息将多条用户行为数据按照预设规则进行分组得到多个数据组,用户行为数据包括行为对象信息、行为类型信息以及行为时间信息;
30、处理模块,还用于将行为对象信息、行为类型信息相同、数据时间跨度小于或等于预设时长的任意两个用户行为数据作为一个相似行为信息对,数据时间跨度表示任意两个用户行为数据的行为时间信息之间的时长;
31、计算模块,用于基于两个用户之间的相似行为信息对的个数,以及两个用户的用户行为数据数量计算用于表征用户行为关联性的用户行为相似度,并关联用户行为相似度不小于设定的相似度阈值的用户得到相似度关联链路,相似度关联链路中的用户在预设时长内对同一行为对象具有相同类型的行为;
32、确定模块,用于将相似度关联链路中的用户数量与预设的等级阈值作比较,确定相似度关联链路的等级,并确定最高等级的相似度关联链路中的用户为目标用户。
33、第三方面,本技术实施例还提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,当计算机程序被处理器执行时,使得处理器实现上述第一方面中的任一种目标用户识别方法。
34、第四方面,本技术实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时,实现第一方面的中的任一种目标用户识别方法。
35、第五方面,本技术实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行以实现如上述第一方面中任一种目标用户识别方法。
36、第二方面至第五方面中任意一种实现方式所带来的技术效果可参见第一方面中对应的实现方式所带来的技术效果,此处不再赘述。