基于综合特征识别真实用户的方法与流程

文档序号:31062657发布日期:2022-08-09 19:54阅读:119来源:国知局
基于综合特征识别真实用户的方法与流程

1.本发明涉及用户识别技术领域,具体是一种基于综合特征识别真实用户的方法。


背景技术:

2.使用用户数和在线用户数是目前互联网公司和产品最核心的指标,通常一家企业最直接的方式就是通过各种营销活动来增加日活用户数,但是随着羊毛党的兴起和刷单等脚本技术的应用,往往异常营销活动在开始的几秒内就会被非真实用户薅走大部分的利益,因此活动中真实用户的识别是减少公司损失,让公司的运营活动得到最大收益的一种保障。
3.当前为了防范羊毛党通常的做法是:借助微信验证这种类型的人机挑战、借助短信验证码等方式来进行。但是这些方式或多或少都存在一定的缺点,借助微信验证会把用户流量大多数都导入到微信中,并且这种方式也不能防范住所有的脚本攻击;基于人机挑战和短信验证码的方式会消耗比较多的成本,并且会对用户体验造成一些影响,同时也不能防止现在很多增加了智能识别技术类型的攻击;而其他用来识别真实用户的技术,比如refer头监测,ip地址段范围等方式也都能够被脚本进行模拟从而绕过。


技术实现要素:

4.为了提高真实用户的识别准确率,本技术提供了一种基于综合特征识别真实用户的方法。
5.本发明解决上述问题所采用的技术方案是:
6.基于综合特征识别真实用户的方法,包括:
7.步骤1、对现网环境特征进行真实用户识别判断;
8.步骤2、对历史行为进行真实用户识别判断;
9.步骤3、对用户行为流程路径进行真实用户识别判断;
10.步骤4、当步骤1-3均判断为真实用户时将该用户认定为真实用户。
11.进一步地,所述现网环境特征包括:所述现网环境特征包括:客户端ip、客户端refer信息、网站url信息及客户端ua信息。
12.进一步地,所述步骤1的具体步骤为:
13.步骤11、基于用户请求,从http中提取现网环境特征;
14.步骤12、对现网环境特征进行泛化处理;
15.步骤13、采用相似度计算及聚类处理将现网请求环境分成若干类;
16.步骤14、采用实际真实用户的特征值在分类上进行映射,以此作为现网环境真实用户的特征模板;
17.步骤15、采用特征模板对用户进行真实用户的识别判断。
18.进一步地,所述步骤12中泛化规则为:客户端ip泛化后两位,客户端refer信息进行域名提取,网站url信息用特殊字符替换,客户端ua信息保留浏览器信息。
19.进一步地,所述步骤2包括:
20.步骤21、获取活动当前时间往前一个周期内的所有用户行为数据;
21.步骤22、对用户行为数据进行统计分析并给用户针对活动的行为打上对应的标签;
22.步骤23、使用已有真实用户和恶意用户的行为数据作为训练集,得到标签与真实用户的映射关系,并将其作为真实用户模板;
23.步骤24、根据真实用户模板进行真实用户识别判断。
24.进一步地,所述步骤3包括:
25.步骤31、针对活动流程,预先设置用户行为必须先经过的访问点、访问时间间隔及访问方式;
26.步骤32、实时记录用户经过的访问点、访问时间间隔及访问方式;
27.步骤33、判断步骤32中的访问点、访问时间间隔及访问方式与步骤31中预先设置的是否均相同,若相同,则将该用户认定为真实用户,否则为恶意用户。
28.进一步地,所述步骤33中,当步骤32中某个访问点的访问时间间隔及访问方式与步骤31相同时,突出显示该访问点,所有访问点均为突出显示时,将该用户认定为真实用户。
29.本发明相比于现有技术具有的有益效果是:本技术分别从网络环境、历史行为及实时路径三个方面对真实用户进行识别判断,大大提高了识别的准确率,并且针对脚本模拟攻击等方式也能够做到有效的防御;且无需用户进行额外操作,如人机挑战,提高了用户使用体验感。
附图说明
30.图1为基于综合特征识别真实用户的方法的流程图。
具体实施方式
31.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
32.如图1所示,基于综合特征识别真实用户的方法,包括:
33.步骤1、对现网环境特征进行真实用户识别判断;现网环境特征包括客户端ip、客户端refer信息、网站url信息及客户端ua信息等;
34.步骤2、对历史行为进行真实用户识别判断;
35.步骤3、对用户行为流程路径进行真实用户识别判断;
36.步骤4、当步骤1-3均判断为真实用户时将该用户认定为真实用户。
37.具体的,所述步骤1的具体步骤为:
38.步骤11、基于用户请求,从http中提取现网环境特征;
39.步骤12、对现网环境特征进行泛化处理;将http流量中的数字部分、字母部分、字母数字混合部分、十六进制部分、base64部分分别用特殊字符替换,取消它们的差异性部分,通过泛化,保留这些信息的结构特征,以便识别判断。在本实施例中,泛化规则如下:ip
泛化后两位,泛化格式为:aaa.bbb.@.@;客户端refer信息进行域名提取,把refer通常格式如https://m.thecover.cn/xxx泛化为###.###.###的类型格式;url用特殊字符替换,泛化为:@@/####/****;ua保留浏览器等信息,泛化格式为@@@@@@@chrome@@@@@@。也可采用其他泛化格式,在此不做限制。
40.步骤13、采用相似度计算及聚类处理将现网请求环境分成若干类:信息泛化之后会得到一些具体的特征项,比如ip、url等,针对每个请求,这些特征项的特征值是不一样的;针对这些特征值采用相似度计算及聚类处理将现网请求环境分成若干类,如ip符合规则1且ua符合规则2且url符合规则3的就设置为分类1,然后根据各种取值的不同,通过排列组合得到若干分类;相似度计算及聚类处理为现有技术,在此不再赘述;
41.步骤14、采用实际真实用户及实际恶意用户的特征值,在分类上进行映射,以此作为现网环境真实用户及恶意用户的特征模板:使用已有的实际真实用户和实际恶意用户来作为标注集,结合步骤13中得到的现网分类,来映射得到某一种现网分类是真实用户还是恶意用户,从而得到一个从指标特征值组合就能够推断出是否是真实用户的特征模板;
42.步骤15、采用特征模板对用户进行真实用户与恶意用户的识别判断。
43.所述步骤2包括:
44.步骤21、获取活动当前时间往前一个周期内的所有用户行为详情数据;前一个周期的取值通常为5分钟;
45.步骤22、对数据进行统计分析并且给用户针对活动的行为打一些准实时的标签;比如该用户的注册时间、操作频率、进入活动时间等等;
46.步骤23、使用已有真实用户和恶意用户的行为作为训练集、得到用户准实时标签组合与是否为真实用户的映射关系,从而得到一组通过准实时标签值来判断是否真实用户的模板。比如通过对历史数据的分析挖掘发现用户画像中注册时间在活动当前时间附近、操作频率较快、操作路径直接进入活动的大概率为羊毛党用户,该画像特征值组合类型会成为一个模板用作后面针对用户请求的识别判断;
47.步骤24、针对每个用户请求,通过模板进行判断,该用户是否为真实用户。
48.所述步骤3包括:
49.步骤31、针对活动流程,预先设置用户行为必须先经过的访问点、访问时间间隔及访问方式;
50.步骤32、实时记录用户经过的访问点、访问时间间隔及访问方式;
51.步骤33、判断步骤32中的访问点、访问时间间隔及访问方式与步骤31中预先设置的是否均相同,若相同,则将该用户认定为真实用户,否则为恶意用户。
52.优选的,当步骤32中某个访问点的访问时间间隔及访问方式与步骤31相同时,突出显示该访问点,所有访问点均为突出显示时,将该用户认定为真实用户。
53.实施例
54.准备开展一个活动,该活动会有真实用户,羊毛党用户及脚本刷单用户。其中,羊毛党用户主要指集中在活动开始前批量注册的大量用户账号;脚本刷单账号是指针对该客户端或者活动网页进行调查,能够模拟一定的用户请求的账号。
55.首先对现网环境特征进行真实用户识别判断流程:收集现网各种信息,本实施例主要是ip地址、refer信息、ua信息等;为了便于后期识别判断,本实施例将获取的现网信息
按顺序进行拼接,并对拼接后的特征进行泛化处理,采用相似度计算及聚类处理将现网请求环境分成若干类,例如分类1:ip地址段为a.a.110.0-a.a.110.225且refer中含有yangmao字样;分类2:ip地址段为a.b.110.0-a.b.110.225且refer中含有thecover字样,等等。
56.通过对已有数据的分析,得知刷单脚本的现象是a.a.110.0-a.a.110.225这个地址段的请求量巨大,且refer信息中含有yangmao字符。对比分类得到分类1为恶意用户,分类2为真实用户,分类3为脚本刷单用户等模板情况。
57.针对每一次用户请求通过模板即可判断其是否为真实用户。
58.接下来使用历史行为分析技术进行用户判断:先确定一个时间窗口,一般为5分钟,针对该时间窗口内的所有用户请求,计算每一个用户的所有标签,主要包括:注册时间、操作频率、操作路径等。针对历史数据进行数据挖掘,得到不同标签值组合与用户类别的对应关系,比如,注册时间与活动开始时间相差较近、且操作频率较快、操作路径为直接进入了活动页面,则该类型用户一般为羊毛党用户,于是记录这种标签值组合的用户为模板1,符合该模板的都为恶意用户;依次计算出其他标签值组合模板所对应的用户类型。
59.用户请求过来后通过对其时间窗口内,行为对应标签的统计分析与模板进行对比,即可得到该用户是否为真实用户。
60.对用户行为流程路径进行真实用户识别判断:比如本次活动,正常进入路径为打开客户端、点击活动频道、下拉频道列表、进入活动详情、点击参与按钮等操作。我们在把该路径点都设置为要点亮的点,同时设置应该的时间间隔等。
61.用户请求进入后,如果通过了上面设置的路径点则执行点亮操作,在该用户进行具体活动的时候判断其是否点亮了所有路径,如果没有则该用户大概率为刷单脚本,则识别为恶意用户。
62.需要说明的是,具体识别判断模板的创建可以根据实际需要进行调整,本技术对其不做限制。
63.上述三种方式分别从网络环境、历史行为及实时路径三个方面对真实用户进行识别判断,对网络环境及实时路径的分析可以识别出刷单脚本,对历史行为的分析可以识别出羊毛党,针对不同的恶意用户,采用不同的识别判断方式,大大提高了识别的准确率,并且针对脚本模拟攻击等方式也能够做到有效的防御;且无需用户进行人机挑战之类的额外认证操作,提高了用户使用体验感。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1