一种基于后置式数据分析的防盗链系统及方法与流程

文档序号:24403788发布日期:2021-03-26 16:09阅读:108来源:国知局
一种基于后置式数据分析的防盗链系统及方法与流程

1.本发明涉及互联网技术领域,更具体地说,涉及一种基于后置式数据分析的防盗链系统及方法。


背景技术:

2.盗链通过破解正常用户的加密算法、时序、通讯协议进而伪造成正常客户端达到盗取视频目的。盗链能够使黑产和非法用户免费播放视频,不需要搭建媒资服务,不需要采购自己的cdn带宽,不需要购买昂贵的版权内容。但却能够发展自己的用户做大自己平台,播放自己广告。
3.因此,如何识别盗链用户,是本领域亟需解决的问题。


技术实现要素:

4.有鉴于此,为解决上述问题,本发明提供一种基于后置式数据分析的防盗链系统及方法,技术方案如下:
5.一种基于后置式数据分析的防盗链系统,所述系统包括:后台服务系统、数据采集系统和规则引擎;
6.所述后台服务系统,用于配置防盗链策略和所述防盗链策略对应的数据源,所述数据源的配置信息中包含所述防盗链策略执行所需的字段;
7.所述数据采集系统,用于接入所述数据源,以获取用户的访问数据;对所述用户的访问数据进行数据清洗和数据统计,以获取所述用户在所述字段下的字段信息;将所述用户对应的字段信息发送至所述规则引擎;
8.所述规则引擎,用于调用所述防盗链策略对所述用户对应的字段信息进行处理,以识别所述用户是否为盗链用户。
9.优选的,所述字段包括状态字段和指标字段;
10.所述后台服务系统,还用于:
11.配置所述指标字段的计算策略,所述计算策略表征所述指标字段与所述状态字段的计算关系;
12.用于获取所述用户在所述字段下的字段信息的所述数据采集系统,具体用于:
13.获取所述用户在所述状态字段下的第一字段信息;
14.调用所述计算策略对所述第一字段信息进行处理得到所述指标字段下的第二字段信息;
15.用于将所述用户对应的字段信息发送至所述规则引擎的所述数据采集系统,具体用于:
16.将所述第二字段信息发送至所述规则引擎。
17.优选的,所述数据源包括实时数据源和离线数据源;
18.用于将所述用户对应的字段信息发送至所述规则引擎的所述数据采集系统,具体
用于:
19.在所述数据源为实时数据源的情况下,以消息队列的方式将所述用户的字段信息发送至所述规则引擎;
20.在所述数据源为离线数据源的情况下,以数据表的方式将所述用户的字段信息发送至所述规则引擎。
21.优选的,所述防盗链策略为多个;
22.用于调用所述防盗链策略对所述用户对应的字段信息进行处理的所述规则引擎,具体用于:
23.针对每个防盗链策略,为该防盗链策略分配所属的线程;在所属的线程下,调用该防盗链策略对所述用户对应的字段信息进行处理。
24.优选的,所述后台服务系统,还用于:
25.响应针对多个防盗链策略中目标防盗链策略的管理操作。
26.优选的,所述规则引擎,还用于:
27.输出报表数据,所述报表数据包括不同时间下盗链用户的信息;
28.所述后台服务系统,还用于:
29.基于不同时间下盗链用户的信息绘制报表,并展示,
30.一种基于后置式数据分析的防盗链系统,应用于基于后置式数据分析的防盗链系统中的数据采集系统,所述方法包括:
31.接入后台服务系统所配置的数据源,以获取用户的访问数据,所述后台服务系统还配置有防盗链策略,所述数据的配置信息中包含所述防盗链策略执行所需的字段;
32.对所述用户的访问数据进行数据清洗和数据统计,以获取所述用户在所述字段下的字段信息;
33.将所述用户对应的字段信息发送至规则引擎,使得所述规则引擎调用所述防盗链策略对所述用户对应的字段信息进行处理、以识别所述用户是否为盗链用户。
34.优选的,所述获取所述用户在所述字段下的字段信息,包括:
35.如果所述字段包括状态字段和指标字段、所述后台服务系统还配置有所述指标字段的表征其与所述指标字段的计算关系的计算策略,获取所述用户在所述状态字段下的第一字段信息;
36.调用所述计算策略对所述第一字段信息进行处理得到所述指标字段下的第二字段信息;
37.所述将所述用户对应的字段信息发送至规则引擎,包括:将所述第二字段信息发送至规则引擎。
38.优选的,所述将所述用户对应的字段信息发送至规则引擎,包括:
39.在所述数据源为实时数据源的情况下,以消息队列的方式将所述用户的字段信息发送至所述规则引擎;
40.在所述数据源为离线数据源的情况下,以数据表的方式将所述用户的字段信息发送至所述规则引擎。
41.一种基于后置式数据分析的防盗链方法,应用于基于后置式数据分析的防盗链系统中的规则引擎,所述方法包括:
42.接收数据采集系统发送的用户在防盗链策略执行所需的字段下的字段信息,所述防盗链策略是后台服务系统配置的,所述后台服务系统还配置有所述防盗链策略对应的数据源,所述数据源的配置信息中包含所述防盗链策略执行所需的字段,所述用户对应的字段信息是所述数据采集系统对所述用户的访问数据进行数据清洗和数据统计得到的,所述用户的访问数据是所述数据采集系统接入所述数据源所获取的;
43.调用所述防盗链策略对所述用户对应的字段信息进行处理,以识别所述用户是否为盗链用户。
44.相较于现有技术,本发明实现的有益效果为:
45.本发明提供一种基于后置式数据分析的防盗链系统及方法,支持配置不同防盗链策略和数据源,通过防盗链策略对相应数据源的访问数据进行分析,发现可能存在盗链的用户,为防盗链的封堵提供数据支持,减少黑产盗链,降低流量成本。
附图说明
46.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
47.图1为本发明实施例提供的基于后置式数据分析的防盗链系统的结构示意图;
48.图2为本发明实施例提供的后台服务系统的登陆界面;
49.图3为本发明实施例提供的策略管理界面;
50.图4为本发明实施例提供的防盗链策略的配置界面;
51.图5为本发明实施例提供的实时数据源的配置界面;
52.图6为本发明实施例提供的防盗链策略的配置界面;
53.图7为本发明实施例提供的离线数据源的配置界面;
54.图8为本发明实施例提供的另一防盗链策略管理界面;
55.图9为本发明实施例提供的数据源管理界面;
56.图10为本发明实施例提供的规则引擎策略执行示意图;
57.图11为本发明实施例提供的数据报表示意图;
58.图12为本发明实施例提供的基于后置式数据分析的防盗链方法的方法流程图;
59.图13为本发明实施例提供的基于后置式数据分析的防盗链方法的另一方法流程图。
具体实施方式
60.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
61.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
62.本发明实施例提供一种基于后置式数据分析的防盗链系统,该系统的结构示意图如图1所示,包括:后台服务系统10、数据采集系统20和规则引擎30。
63.后台服务系统10,用于配置防盗链策略和防盗链策略对应的数据源,数据源的配置信息中包含防盗链策略执行所需的字段。
64.本发明实施例中,后台服务系统10能够与用户交互,响应用户的输入操作,管理各类防盗链策略,而策略管理主要是为规则引擎30添加执行策略,策略是基于视频应用正常使用的情况下,所总结出的不符合常理的经验值,归纳为异常策略。
65.参见图2所示的后台服务系统的登陆界面。用户输入账号和密码,即可进入后台服务系统10管理防盗链策略和数据源。
66.参见图3所示的策略管理界面。本发明实施例中将防盗链策略分为ip策略、设备策略和用户策略。用户在配置策略时,可以基于所配置的策略的类型选择相应的管理界面,以ip策略管理为例,配置相关策略时,策略编码由系统统一生成,策略名称由用户指定,策略指定时指定每个计算项的指标及其阈值、以及与其他计算项的逻辑关系,逻辑关系包括但不局限于and和or。此外,图3中“ip vv数据模型_ol”即为防盗链策略“用户数>100”的数据源。
67.另外,本发明实施例可以提供实时数据源和离线数据源的配置。以下分别对实时数据源和离线数据源进行说明:
68.1)实时数据源
69.参见图4所示的防盗链策略的配置界面。该防盗链策略为设备策略。其策略编码为“device

2”,策略名称为“设备地区策略”,该策略执行所需的(实体)字段包括“时间”、“终端”、“设备”和“城市数”。这些字段中“时间”、“终端”和“设备”属于状态字段,“城市数”属于指标字段,状态字段为数据分析的维度。
70.对于字段中包含指标字段的防盗链策略来说,后台服务系统10需要进一步配置指标字段的计算策略,即指标字段与相关状态字段的计算关系,具体来说就是如何根据“时间”、“终端”和“设备”计算“城市数”,对于该计算策略图2中并未示出对其的配置。
71.相应的,后续数据采集系统20获取用户在字段下的字段信息时,需要先获取状态字段“时间”、“终端”和“设备”下的第一字段信息,进而调用计算策略对第一字段信息进行处理得到指标字段“城市数”下的第二字段信息,再将第二字段信息发送至规则引擎30,由规则引擎30调用防盗链策略对第二字段信息进行处理,以识别用户是否为盗链用户。
72.继续参见图4,该设备策略的计算项为“城市数>=3”,即单个设备在一定时间内(目前时固定5分钟),如果上报的城市数等于3个即以上,即为异常数据。这是由于在现实生活中,一个用户在5分钟的时间内跨过3个不同的城市基本不可能,因此其极有可能为盗链用户。
73.参见图5所示的实时数据源的配置界面。实时数据源接入用户指定订阅的topic,并且由用户指定实时数据源的名称、在规则引擎30中的实体类型、以及其中各字段的含义,举例来说,“timecourse_s”表示“时间”,其属于状态字段。
74.另外,对于实时数据源来说,其以消息队列为主,比如kafka消息队列,后续数据采集系统20在接入实时数据源后,以消息队列的方式将用户的字段信息发送至规则引擎30。规则引擎30在识别盗链用户后将多维度的异常信息输出到消息队列。
75.2)离线数据源
76.参见图6所示的防盗链策略的配置界面。该防盗链策略为ip策略。其策略编码为“ip

19”,策略名称为“用户同致规则

ol”,该策略执行所需的(实体)字段包括“新增用户数”、“用户数”和“会话数”,这些字段均属于指标字段。
77.而对于ip策略来说,可以根据设备的ip地址的变化确定一定时间内的“新增用户数”、“用户数”和“会话数”。
78.继续参见图6,该ip策略的计算项包括“新增用户数>=50”、“新增用户数>=0.95*{用户数}”、“用户数>=0.95*{会话数}”,且三个计算项间的逻辑关系为“and”,只有同时满足这三个计算项时,才可认定为盗链用户。
79.参见图7所示的离线数据源的配置界面。离线数据源可以为离线hive数据库,接入用户指定数据库、以及该数据库下的数据源表,并且由用户指定离线数据源的名称、在规则引擎30中的实体类型、以及其中各字段的含义。
80.另外,对于离线数据源来说,其以数据表为主,后续数据采集系统20在接入离线数据源后,以数据表的方式将用户的字段信息发送至规则引擎30。规则引擎30在识别盗链用户后将多维度的异常信息输出到分布式存储,比如另一数据表中。
81.此外,本发明实施例还提供对于防盗链策略的管理服务。参见图8所示的防盗链策略管理界面。以ip策略管理为例,对于所配置的多个ip策略,可以通过策略编码和/或策略名称匹配的方式查询指定的策略,并且对于其中各个策略来说,可以查看其创建者、创建时间、当前状态,并进行“上线”、“下线”状态的管理、以及“修改”、“删除”的操作。这就方便用户对于防盗链策略的管理,提供查询、添加、修改、删除、上下线的方案。
82.同理,本发明实施例还可以提供对于数据源的管理服务。参见图9所示的数据源管理界面。以实时数据源为例,对于所配置的多个实时数据源,可以通过名称匹配的方式查询指定的数据源,并且,对于其中各数据源来说,可以查看其创建者、创建时间、当前状态,并进行“上线”、“下线”状态的管理、以及“修改”、“删除”的操作。这就方便用户对于数据源的管理,提供查询、添加、修改、删除、上下线的方案。
83.数据采集系统20,用于接入数据源,以获取用户的访问数据;对用户的访问数据进行数据清洗和数据统计,以获取用户在字段下的字段信息;将用户对应的字段信息发送至规则引擎30。
84.本发明实施例中,数据采集系统20可以定时获取用户的访问数据,该访问数据可以为原始日志数据,进一步对访问数据进行诸如数据一致性检查、无效值处理和缺失值处理等清洗工作,进一步对清洗后的访问数据做数据统计,以提取各字段下的字段信息。
85.当然,如果字段中包含指标字段,在做数据统计时可以进一步结合相关计算策略计算指标字段的字段信息,从而将指标字段的字段信息发送至规则引擎30。
86.规则引擎30,用于调用防盗链策略对用户对应的字段信息进行处理,以识别用户是否为盗链用户。
87.本发明实施例中,对于实时数据源和离线数据源可以分别采用相应的实时规则引擎和离线规则引擎。
88.实时规则引擎目前以flink为主,首先会读取后台服务系统10配置的实时数据源、以及相关的防盗链策略,将两者转化为flink可以执行的flinksql,进行系统初始化。系统
初始化完毕后,会将防盗链策略中的计算项、以及相关逻辑关系应用到从数据源获得的数据上进行数据分析,将超过阈值的异常数据过滤处理,放入消息队列中。
89.当然,多个防盗链策略可以并行执行,每个策略分析的计算项不同,分析的侧重点也就不一样。规则引擎30会为每个防盗链策略分配各自所属的线程,在所属的线程下,调用相应的防盗链策略进行数据分析。参见图10所示的规则引擎策略执行示意图。从该图中可以看出,规则引擎30同时执行了4个防盗链策略。
90.而离线规则引擎目前以hive为主。其数据源读取、策略读取和策略执行思想与实时规则引擎同理,在此不再赘述。另外,其将超过阈值的异常数据过滤处理后,放入数据表中。
91.在其他一些实施例中,为向用户展示不同策略下盗链用户异常趋势,本发明实施例中,规则引擎30还用于:
92.输出报表数据,报表数据包括不同时间下盗链用户的信息;
93.相应的,后台服务系统10,还用于:
94.基于不同时间下盗链用户的信息绘制报表,并展示,
95.参见图11所示的数据报表示意图。用户可以获得一定时段内盗链用户在不同时间内的数量,由于可以对异常趋势进行预判,从而采用防盗链的封堵措施。
96.需要说明的是,后台服务系统10可以是一个服务器,还可以是一个由多个服务器组成的服务器集群,本发明实施例对此不做限定。数据采集系统20则可以是诸如路由器、网关等设备。
97.本发明实施例提供的基于后置式数据分析的防盗链系统,支持配置不同防盗链策略和数据源,通过防盗链策略对相应数据源的访问数据进行分析,发现可能存在盗链的用户,为防盗链的封堵提供数据支持,减少黑产盗链,降低流量成本。
98.基于上述实施例提供的基于后置式数据分析的防盗链系统,本发明实施例还提供一种基于后置式数据分析的防盗链方法,该方法应用于基于后置式数据分析的防盗链系统中的数据采集系统,方法流程图如图12所示,包括如下步骤:
99.s101,接入后台服务系统所配置的数据源,以获取用户的访问数据,后台服务系统还配置有防盗链策略,数据的配置信息中包含防盗链策略执行所需的字段。
100.s102,对用户的访问数据进行数据清洗和数据统计,以获取用户在字段下的字段信息。
101.s103,将用户对应的字段信息发送至规则引擎,使得规则引擎调用防盗链策略对用户对应的字段信息进行处理、以识别用户是否为盗链用户。
102.可选的,s102中“获取用户在字段下的字段信息”,包括:
103.如果字段包括状态字段和指标字段、后台服务系统还配置有指标字段的表征其与指标字段的计算关系的计算策略,获取用户在状态字段下的第一字段信息;
104.调用计算策略对第一字段信息进行处理得到指标字段下的第二字段信息;
105.将用户对应的字段信息发送至规则引擎,包括:将第二字段信息发送至规则引擎。
106.可选的,s103中“将用户对应的字段信息发送至规则引擎”,包括:
107.在数据源为实时数据源的情况下,以消息队列的方式将用户的字段信息发送至规则引擎;
108.在数据源为离线数据源的情况下,以数据表的方式将用户的字段信息发送至规则引擎。
109.基于上述实施例提供的基于后置式数据分析的防盗链系统,本发明实施例还提供一种基于后置式数据分析的防盗链方法,该方法应用于基于后置式数据分析的防盗链系统中的规则引擎,方法流程图如图13所示,包括如下步骤:
110.s201,接收数据采集系统发送的用户在防盗链策略执行所需的字段下的字段信息,防盗链策略是后台服务系统配置的,后台服务系统还配置有防盗链策略对应的数据源,数据源的配置信息中包含防盗链策略执行所需的字段,用户对应的字段信息是数据采集系统对用户的访问数据进行数据清洗和数据统计得到的,用户的访问数据是数据采集系统接入数据源所获取的。
111.s202,调用防盗链策略对用户对应的字段信息进行处理,以识别用户是否为盗链用户。
112.需要说明的是,对于数据采集系统和规则引擎,两者执行基于后置式数据分析的防盗链方法的过程,可以参见上述基于后置式数据分析的防盗链系统的实施例公开部分。
113.本发明实施例提供的基于后置式数据分析的防盗链方法,支持配置不同防盗链策略和数据源,通过防盗链策略对相应数据源的访问数据进行分析,发现可能存在盗链的用户,为防盗链的封堵提供数据支持,减少黑产盗链,降低流量成本。
114.以上对本发明所提供的一种基于后置式数据分析的防盗链系统及方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
115.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
116.还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素,或者是还包括为这些过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
117.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1