防网页追踪方法、装置、设备及存储介质与流程

文档序号:32156429发布日期:2022-11-11 23:42阅读:54来源:国知局
防网页追踪方法、装置、设备及存储介质与流程

1.本发明涉及互联网技术领域,尤其涉及一种防网页追踪方法、装置、设备及存储介质。


背景技术:

2.随着互联网技术的发展,浏览器成为网站的主要入口,网络追踪器是通过内嵌在网站的相关网页中的隐藏代码对用户行为进行追踪,这些隐藏代码会记录用户访问的网站信息、网页交互信息、在线购物搜索记录、视频浏览记录,甚至可能获取到用户的健康状况、政治背景、教育背景等个人隐私信息。当网络跟踪器出现在多个网站时,就可以将各个网站的信息进行汇总,构建完整的用户画像,通过用户画像对用户进行精准的广告投放,或者共享、出售给第三方公司,对互联网安全造成了颇大威胁。因此,如何有效防止网页追踪现象的发生,提高互联网安全性,成为一个亟待解决的问题。
3.上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。


技术实现要素:

4.本发明的主要目的在于提供了一种防网页追踪方法、装置、设备及存储介质,旨在解决如何有效防止网页追踪现象的发生,提高互联网安全性的技术问题。
5.为实现上述目的,本发明提供了一种防网页追踪方法,所述方法包括以下步骤:
6.在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求;
7.在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息;
8.在所述网页请求含有所述网页追踪信息时,对所述网页请求采取对应的拦截措施。
9.可选地,所述在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息的步骤,具体包括:
10.在所述网页请求为所述第三方请求时,获取所述网页请求对应的源代码;
11.判断所述源代码中是否含有隐藏代码;
12.在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息。
13.可选地,所述判断所述源代码中是否含有隐藏代码的步骤,具体包括:
14.在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;
15.根据所述进程信息中是否含有隐藏行为路径判断所述源代码中是否含有隐藏代码。
16.可选地,所述在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息的步骤,具体包括:
17.在所述进程信息中含有隐藏行为路径时,判定所述源代码中含有隐藏代码;
18.获取所述隐藏行为路径对应的行为信息,并将所述行为信息输入至预设分类器中,获得行为分类结果;
19.根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。
20.可选地,所述将所述隐藏行为路径输入至预设分类器中,获得行为分类结果的步骤之前,还包括:
21.获取不同的样本行为信息,并对所述样本行为信息进行特征提取,获得样本行为特征;
22.获取所述样本行为特征与预设追踪行为特征之间的行为特征匹配度;
23.将所述行为特征匹配度大于等于预设行为特征匹配度的样本行为特征作为追踪特征正样本,将所述行为特征匹配度小于所述预设行为特征匹配度的样本行为特征作为追踪特征负样本;
24.基于所述追踪特征正样本和所述追踪特征负样本对支持向量机进行训练,以获得预设分类器。
25.可选地,所述在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息的步骤,具体包括:
26.在所述源代码中含有所述隐藏代码时,对所述隐藏代码进行特征提取,以获得代码特征;
27.根据所述代码特征判断所述网页请求是否含有网页追踪信息。
28.可选地,所述根据所述代码特征判断所述网页请求是否含有网页追踪信息的步骤,具体包括:
29.获取所述代码特征与预设追踪代码特征之间的代码特征相似度;
30.根据所述代码特征相似度判断所述网页请求是否含有网页追踪信息。
31.可选地,所述判断所述源代码中是否含有隐藏代码的步骤之后,还包括:
32.在所述源代码中不含有所述隐藏代码时,在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;
33.获取所述进程信息对应的行为路径,并根据所述行为路径判断所述网页请求是否含有网页追踪信息。
34.可选地,所述获取所述进程信息对应的行为路径,并根据所述行为路径判断所述网页请求是否含有网页追踪信息的步骤,具体包括:
35.获取所述进程信息对应的行为路径,并获取所述行为路径对应的行为信息;
36.将所述行为路径对应的行为信息输入至预设分类器中,获得行为分类结果;
37.根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。
38.可选地,所述判断所述源代码中是否含有隐藏代码的步骤,具体包括:
39.扫描所述源代码,获得代码扫描结果;
40.根据所述代码扫描结果中是否含有预设字符段判断所述源代码中是否含有隐藏代码。
41.可选地,所述在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求的步骤,具体包括:
42.在检测到网页组件发送的网页请求时,获取所述网页请求对应的地址信息;
43.根据所述地址信息判断所述网页请求是否为第三方请求。
44.此外,为实现上述目的,本发明还提出一种防网页追踪装置,所述防网页追踪装置包括:
45.请求判断模块,用于在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求;
46.追踪判断模块,用于在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息;
47.追踪拦截模块,用于在所述网页请求含有所述网页追踪信息时,对所述网页请求采取对应的拦截措施。
48.可选地,所述追踪判断模块,还用于在所述网页请求为所述第三方请求时,获取所述网页请求对应的源代码;
49.所述追踪判断模块,还用于判断所述源代码中是否含有隐藏代码;
50.所述追踪判断模块,还用于在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息。
51.可选地,所述追踪判断模块,还用于在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;
52.所述追踪判断模块,还用于根据所述进程信息中是否含有隐藏行为路径判断所述源代码中是否含有隐藏代码。
53.可选地,所述追踪判断模块,还用于在所述进程信息中含有隐藏行为路径时,判定所述源代码中含有隐藏代码;
54.所述追踪判断模块,还用于获取所述隐藏行为路径对应的行为信息,并将所述行为信息输入至预设分类器中,获得行为分类结果;
55.所述追踪判断模块,还用于根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。
56.可选地,所述追踪判断模块,还用于获取不同的样本行为信息,并对所述样本行为信息进行特征提取,获得样本行为特征;
57.所述追踪判断模块,还用于获取所述样本行为特征与预设追踪行为特征之间的行为特征匹配度;
58.所述追踪判断模块,还用于将所述行为特征匹配度大于等于预设行为特征匹配度的样本行为特征作为追踪特征正样本,将所述行为特征匹配度小于所述预设行为特征匹配度的样本行为特征作为追踪特征负样本;
59.所述追踪判断模块,还用于基于所述追踪特征正样本和所述追踪特征负样本对支持向量机进行训练,以获得预设分类器。
60.可选地,所述追踪判断模块,还用于在所述源代码中含有所述隐藏代码时,对所述隐藏代码进行特征提取,以获得代码特征;
61.所述追踪判断模块,还用于根据所述代码特征判断所述网页请求是否含有网页追踪信息。
62.可选地,所述追踪判断模块,还用于获取所述代码特征与预设追踪代码特征之间
的代码特征相似度;
63.所述追踪判断模块,还用于根据所述代码特征相似度判断所述网页请求是否含有网页追踪信息。
64.此外,为实现上述目的,本发明还提出一种防网页追踪设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的防网页追踪程序,所述防网页追踪程序配置为实现如上文所述的防网页追踪方法的步骤。
65.此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有防网页追踪程序,所述防网页追踪程序被处理器执行时实现如上文所述的防网页追踪方法的步骤。
66.本发明中,在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求;在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息;在所述网页请求含有所述网页追踪信息时,对所述网页请求采取对应的拦截措施。通过先判断网页请求是否属于第三方请求,在所述网页请求属于第三方请求时,再根据所述网页请求对应的源代码或源代码的隐藏代码中来判断所述网页请求是否含有网页追踪信息,以提高对网页请求是否含有网页追踪信息的判断精准度,并在所述网页请求含有网页追踪信息时,对含有网页追踪信息的网页请求采取对应的拦截措施,以有效防止网页追踪现象的发生,提高互联网安全性。
附图说明
67.图1是本发明实施例方案涉及的硬件运行环境的防网页追踪设备的结构示意图;
68.图2为本发明防网页追踪方法第一实施例的流程示意图;
69.图3为本发明防网页追踪方法第二实施例的流程示意图;
70.图4为本发明防网页追踪方法第三实施例的流程示意图;
71.图5为本发明防网页追踪装置第一实施例的结构框图。
72.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
73.应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
74.参照图1,图1为本发明实施例方案涉及的硬件运行环境的防网页追踪设备结构示意图。
75.如图1所示,该防网页追踪设备可以包括:处理器1001,例如中央处理器(central processing unit,cpu),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(wireless-fidelity,wi-fi)接口)。存储器1005可以是高速的随机存取存储器(random access memory,ram)存储器,也可以是稳定的非易失性存储器(non-volatile memory,nvm),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
76.本领域技术人员可以理解,图1中示出的结构并不构成对防网页追踪设备的限定,
可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
77.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及防网页追踪程序。
78.在图1所示的防网页追踪设备中,网络接口1004主要用于与网络服务器进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明防网页追踪设备中的处理器1001、存储器1005可以设置在防网页追踪设备中,所述防网页追踪设备通过处理器1001调用存储器1005中存储的防网页追踪程序,并执行本发明实施例提供的防网页追踪方法。
79.本发明实施例提供了一种防网页追踪方法,参照图2,图2为本发明防网页追踪方法第一实施例的流程示意图。
80.本实施例中,所述防网页追踪方法包括以下步骤:
81.步骤s10:在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求;
82.易于理解的是,所述网页组件,又叫web组件,包含各种界面组件,如:表格、树、联动下拉框等,可理解为web表现层组件,在用户浏览网页时,网页组件会发起对应的网页请求,基于此,在获取所述网页组件发送的网页请求之前,还可先判断所述网页请求是否为网页组件发起的网页请求,在具体实现中,可先获取所述网页请求的签名参数,对所述签名参数进行验证,根据所述签名参数是否验证通过判断所述网页请求是否为网页组件发起的网页请求,在所述签名参数验证通过时,判定所述网页请求为网页组件发起的网页请求。
83.需要说明的是,在检测到网页组件发送的网页请求时,可获取所述网页请求对应的地址信息,所述地址信息可为基于统一资源定位系统(uniform resource locator,url)设置的地址,如超文本传输协议(hypertext transfer protocol,http)url地址,然后根据所述地址信息判断所述网页请求是否为第三方请求,在具体实现中,可将所述地址信息与预设白名单地址库进行匹配,若所述地址信息不处于所述预设白名单地址库中,则认定所述网页请求为第三方请求,和/或,将所述地址信息与预设黑名单地址库进行匹配,若所述地址信息处于所述预设黑名单地址库中,则认定所述网页请求为第三方请求,基于此,提高对所述网页请求的来源判断的准确度,即,提高对所述网页请求是否为第三方请求的判断准确度。
84.步骤s20:在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息;
85.易于理解的是,在所述网页请求为所述第三方请求时,还可判断所述网页请求是否含有网页追踪信息,所述网页追踪信息可理解为所述第三方请求对应的源代码中所含有的追踪代码,通过所述追踪代码可对用户行为进行追踪,所述追踪代码可能直接处于源代码中,也可能处于源代码的隐藏代码中。
86.在具体实现中,在追踪代码处于源代码中时,可获取所述源代码的代码特征,然后将所述源代码的代码特征与预设追踪代码特征进行匹配,并根据匹配结果判断所述源代码中是否含有追踪代码,即判断所述网页请求是否含有网页追踪信息,以提高在追踪代码处于源代码中时,对网页请求中是否含有网页追踪信息的判断准确度。其中,所述预设追踪代码特征可理解为追踪代码所对应的特征,可从预设追踪代码库中提取样本追踪代码,然后对样本追踪代码进行特征提取,以获得预设追踪代码特征,所述预设追踪代码库可理解为
实时更新的追踪代码收集库;或,在虚拟环境中运行所述源代码,并监控所述源代码执行的进程信息,所述进程信息可理解为根据源代码正在执行的过程的进度和流程数据,或,根据源代码正在执行的任务的进度和流程数据,接着,获取所述进程信息对应的行为路径,并根据所述行为路径中是否存在对用户行为进行追踪的行为路径判断所述网页请求是否含有网页追踪信息,以提高在追踪代码处于源代码中时,对网页请求中是否含有网页追踪信息的判断准确度。
87.在具体实现中,在追踪代码处于源代码的隐藏代码中时,可先对源代码进行代码挖掘,以获得隐藏代码,然后获取所述隐藏代码的代码特征,再将所述隐藏代码的代码特征与预设追踪代码特征进行匹配,并根据匹配结果判断所述隐藏代码中是否含有追踪代码,即判断所述网页请求是否含有网页追踪信息,以提高在追踪代码处于隐藏代码中时,对网页请求中是否含有网页追踪信息的判断准确度;或,在虚拟环境中运行所述源代码,并监控所述源代码执行的进程信息中隐藏代码的进程信息,接着,获取所述隐藏代码的进程信息对应的隐藏行为路径,并根据所述隐藏行为路径中是否存在对用户行为进行追踪的行为路径判断所述网页请求是否含有网页追踪信息,以提高在追踪代码处于隐藏代码中时,对网页请求中是否含有网页追踪信息的判断准确度;也可先检测所述隐藏代码是否完整,在所述隐藏代码完整时,将所述隐藏代码输入至虚拟环境中进行试运行,在试运行失败时,则采取上述将所述源代码输入至虚拟环境中的判断方法,在试运行成功时,可直接监控所述隐藏代码的进程信息,并获取所述隐藏代码的进程信息对应的隐藏行为路径,然后根据所述隐藏行为路径中是否存在对用户行为进行追踪的行为路径判断所述网页请求是否含有网页追踪信息,以提高在追踪代码处于隐藏代码中时,对网页请求中是否含有网页追踪信息的判断准确度。
88.步骤s30:在所述网页请求含有所述网页追踪信息时,对所述网页请求采取对应的拦截措施。
89.需要说明的是,在所述网页请求含有所述网页追踪信息时,即可判定所述网页请求的源代码或源代码的隐藏代码中含有追踪代码,为避免泄漏用户个人隐私信息,可对所述网页请求采取对应的拦截措施,如,通过过滤器或自定义拦截器拦截所述网页请求,通过切面拦截所述网页请求等,在具体实现中,可根据实际需求进行设置,如,利用浏览器的event(事件,如鼠标事件、键盘事件、突变事件等)对网页请求进行拦截、通过面向切面编程(aspect oriented programming,aop)技术对网页请求进行拦截、通过覆盖函数对网页请求进行拦截(通过编写同名方法覆盖系统定义、用户自定义的函数,即构造函数,达到拦截目的)、通过动态代理进行拦截、通过自代理和超文本标记语言(hyper text markup language,html)解析进行拦截等,本实施例对此不加以限制。
90.本实施例中,在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求;在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息;在所述网页请求含有所述网页追踪信息时,对所述网页请求采取对应的拦截措施。通过先判断网页请求是否属于第三方请求,在所述网页请求属于第三方请求时,再根据所述网页请求对应的源代码或源代码的隐藏代码中来判断所述网页请求是否含有网页追踪信息,以提高对网页请求是否含有网页追踪信息的判断精准度,并在所述网页请求含有网页追踪信息时,对含有网页追踪信息的网页请求采取对应的拦截措施,以有效防止网页追踪现象
的发生,提高互联网安全性。
91.参考图3,图3为本发明防网页追踪方法第二实施例的流程示意图。
92.基于上述第一实施例,在本实施例中,所述步骤s20包括:
93.步骤s201:在所述网页请求为所述第三方请求时,获取所述网页请求对应的源代码;
94.步骤s2021:在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;
95.易于理解的是,在所述网页请求为所述第三方请求时,可获取所述网页请求对应的源代码,然后在虚拟环境(可理解为基于虚拟机搭建的云环境)中运行所述源代码,并逐条监控所述源代码执行的进程信息,所述进程信息可理解为根据源代码正在执行的过程的进度和流程数据,或,根据源代码正在执行的任务的进度和流程数据。
96.步骤s2022:根据所述进程信息中是否含有隐藏行为路径判断所述源代码中是否含有隐藏代码;
97.步骤s2031:在所述进程信息中含有隐藏行为路径时,判定所述源代码中含有隐藏代码;
98.易于理解的是,在获取所述源代码执行的进程信息后,可根据所述进程信息定位源代码执行过程中对应的行为路径,然后检查所述行为路径中是否含有隐藏行为路径,以判断所述源代码中是否含有隐藏代码,具体隐藏行为路径判断方式可为:监视虚拟环境内过程或任务对应的进程创建事件和进程退出事件,以维护记录所述虚拟环境内实际运行进程的可信进程列表,再通过遍历虚拟环境内所述源代码执行的进程信息的对应数据结构,获得记录目标虚拟机内的进程的若干个不可信进程列表,比较所述可信进程列表和所述不可信进程列表,以识别出隐藏行为路径,进一步地,在所述进程信息中含有隐藏行为路径时,即可判定所述源代码中含有隐藏代码。
99.在另一种实现方式中,为了判断所述源代码中是否含有隐藏代码,还可扫描所述源代码,获得代码扫描结果,然后根据所述代码扫描结果中是否含有预设字符段来判断所述源代码中是否含有隐藏代码,所述预设字符段可根据实际需求进行设置,如《body》
……
《/body》、《head》
……
《/head》等可用于隐藏代码的字符段,即,在所述代码扫描结果中含有预设字符段时,可判定所述源代码中含有隐藏代码,在所述代码扫描结果中不含有预设字符段时,可判定所述源代码中不含有隐藏代码。
100.步骤s2032:获取所述隐藏行为路径对应的行为信息,并将所述行为信息输入至预设分类器中,获得行为分类结果;
101.需要说明的是,在识别出隐藏行为路径时,还可获取所述隐藏行为路径对应的行为信息,所述行为信息可理解为行为路径对应的用户行为数据,如,获取用户访问的网站信息、获取用户的网页交互信息、获取用户的在线购物搜索记录、获取用户的视频浏览记录等具有追踪意向的行为信息(仅为举例,在具体实现中,行为信息的种类并不予以限制)。而将获得的隐藏行为路径对应的行为信息输入至预设分类模型之前,还须构建预设分类模型,即可获取不同的样本行为信息,并对所述样本行为信息进行特征提取,获得样本行为特征,然后获取所述样本行为特征与预设追踪行为特征之间的行为特征匹配度,将所述行为特征匹配度大于等于预设行为特征匹配度的样本行为特征作为追踪特征正样本,将所述行为特
征匹配度小于所述预设行为特征匹配度的样本行为特征作为追踪特征负样本,在具体实现中,为了获取所述样本行为特征与预设追踪行为特征之间的行为特征匹配度,可先分别获取样本行为特征和预设追踪行为特征对应的特征描述子,然后计算样本行为特征对应的特征描述子和预设追踪行为特征对应的特征描述子之间的平均距离,基于所述平均距离即可获得所述样本行为特征与预设追踪行为特征之间的相似度,即行为特征匹配度。其中,所述预设追踪行为特征可理解为具有追踪意向的行为信息所对应的特征,可从预设追踪行为库中提取具有追踪意向的行为信息,即追踪行为,然后对追踪行为进行特征提取,以获得预设追踪行为特征,所述预设追踪行为库可理解为实时更新的追踪行为收集库。然后,基于所述追踪特征正样本和所述追踪特征负样本对支持向量机进行训练,以获得预设分类器。其中,所述预设行为特征匹配度可根据实际需求进行设置,本实施例对此不加以限制。
102.步骤s2033:根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。
103.易于理解的是,基于上述获得的预设分类器,可将获得的行为信息输入至所预设分类器中进行分类,获得行为分类结果,再根据所述行为分类结果判断所述网页请求是否含有网页追踪信息,即可理解为是判断上述行为信息是对应预设分类器中的追踪特征正样本还是追踪特征负样本,在对应于追踪特征正样本时,即所述网页请求含有网页追踪信息;在对应于追踪特征负样本时,即所述网页请求不含有网页追踪信息。
104.在另一种实现方式中,在所述源代码中含有所述隐藏代码时,还可对所述隐藏代码进行特征提取,以获得代码特征,具体地,可先对隐藏代码通过反编译工具进行反汇编分析,获取到函数调用图和控制流程图,并基于所述函数调用图和所述控制流程图生成可执行路径集合,然后为每条可执行路径分配动态分析节点,再通过动态分析工具进行动态分析,使程序按照所述可执行路径的控制流顺序执行,以获取所述隐藏代码所调用的函数参数信息(如类型、数量等),再基于所述函数参数信息获得代码特征,然后根据所述代码特征判断所述网页请求是否含有网页追踪信息,具体地,可获取所述代码特征与预设追踪代码特征之间的代码特征相似度,然后根据所述代码特征相似度是否大于预设代码特征相似度来判断所述网页请求是否含有网页追踪信息,也就是说,在所述代码特征相似度大于预设代码特征相似度时,可判定所述网页请求中含有网页追踪信息,在所述代码特征相似度小于等于预设代码特征相似度时,可判定所述网页请求中不含有网页追踪信息。其中,所述预设代码特征相似度可根据实际需求进行设置,本实施例对此不加以限制。所述预设追踪代码特征可理解为追踪代码所对应的特征,可从预设追踪代码库中提取样本追踪代码,然后对样本追踪代码进行特征提取,以获得预设追踪代码特征,所述预设追踪代码库可理解为实时更新的追踪代码收集库。
105.本实施例中,在所述网页请求为所述第三方请求时,获取所述网页请求对应的源代码,在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息,根据所述进程信息中是否含有隐藏行为路径判断所述源代码中是否含有隐藏代码,在所述进程信息中含有隐藏行为路径时,判定所述源代码中含有隐藏代码,获取所述隐藏行为路径对应的行为信息,并将所述行为信息输入至预设分类器中,获得行为分类结果,根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。通过在虚拟环境中运行网页请求所对应的源代码,以识别所述源代码执行的进程信息中是否含有隐藏行为路径,提高对隐藏行为路径的判断精准度,再将所述隐藏行为路径对应的行为信息输入至预设分类器中进行分类,并
根据分类结果判断所述网页请求是否含有网页追踪信息以提高对网页请求是否含有网页追踪信息的判断精准度,进一步地,也提高了在对含有网页追踪信息的网页请求采取对应的拦截措施时的拦截精准度,以有效防止网页追踪现象的发生,提高互联网安全性。
106.参考图4,图4为本发明防网页追踪方法第二实施例的流程示意图。
107.基于上述第一实施例,在本实施例中,所述步骤s20包括:
108.步骤s201:在所述网页请求为所述第三方请求时,获取所述网页请求对应的源代码;
109.步骤s202:判断所述源代码中是否含有隐藏代码;
110.易于理解的是,在所述网页请求为所述第三方请求时,可获取所述网页请求对应的源代码,然后判断所述源代码中是否含有隐藏代码,具体判断方式可为:在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息,然后根据所述进程信息对应的行为路径中是否含有隐藏行为路径判断所述源代码中是否含有隐藏代码,其中,所述进程信息可理解为根据源代码正在执行的过程的进度和流程数据,或,根据源代码正在执行的任务的进度和流程数据。
111.在另一种实现方式中,为了判断所述源代码中是否含有隐藏代码,还可扫描所述源代码,获得代码扫描结果,然后根据所述代码扫描结果中是否含有预设字符段来判断所述源代码中是否含有隐藏代码,所述预设字符段可根据实际需求进行设置,如《body》
……
《/body》、《head》
……
《/head》等可用于隐藏代码的字符段。
112.步骤s203:在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息;
113.易于理解的是,在所述进程信息对应的行为路径中含有隐藏行为路径时,即判定所述源代码中含有隐藏代码,可获取所述隐藏行为路径对应的行为信息,并将所述行为信息输入至预设分类器中进行分类,获得行为分类结果,其中,所述行为信息可理解为行为路径对应的用户行为数据,如,获取用户访问的网站信息、获取用户的网页交互信息、获取用户的在线购物搜索记录、获取用户的视频浏览记录等具有追踪意向的行为信息(仅为举例,在具体实现中,行为信息的种类并不予以限制)。
114.需要说明的是,在将获得的行为信息输入至预设分类器中进行分类之前,还可获取不同的样本行为信息,并对所述样本行为信息进行特征提取,获得样本行为特征,然后获取所述样本行为特征与预设追踪行为特征之间的行为特征匹配度,将所述行为特征匹配度大于等于预设行为特征匹配度的样本行为特征作为追踪特征正样本,将所述行为特征匹配度小于所述预设行为特征匹配度的样本行为特征作为追踪特征负样本,在具体实现中,为了获取所述样本行为特征与预设追踪行为特征之间的行为特征匹配度,可先分别获取样本行为特征和预设追踪行为特征对应的特征描述子,然后计算样本行为特征对应的特征描述子和预设追踪行为特征对应的特征描述子之间的平均距离,基于所述平均距离即可获得所述样本行为特征与预设追踪行为特征之间的相似度,即行为特征匹配度。其中,所述预设追踪行为特征可理解为具有追踪意向的行为信息所对应的特征,可从预设追踪行为库中提取具有追踪意向的行为信息,即追踪行为,然后对追踪行为进行特征提取,以获得预设追踪行为特征,所述预设追踪行为库可理解为实时更新的追踪行为收集库。然后,基于所述追踪特征正样本和所述追踪特征负样本对支持向量机进行训练,以获得预设分类器。其中,所述预
设行为特征匹配度可根据实际需求进行设置,如72%、85%、90%等,本实施例对此不加以限制。
115.易于理解的是,基于上述获得的预设分类器,可将获得的行为信息输入至所预设分类器中进行分类,获得行为分类结果,再根据所述行为分类结果判断所述网页请求是否含有网页追踪信息,即可理解为是判断上述行为信息是对应预设分类器中的追踪特征正样本还是追踪特征负样本,在对应于追踪特征正样本时,即所述网页请求含有网页追踪信息;在对应于追踪特征负样本时,即所述网页请求不含有网页追踪信息。
116.在另一种实现方式中,在所述源代码中含有所述隐藏代码时,还可对所述隐藏代码进行特征提取,以获得代码特征,然后根据所述代码特征判断所述网页请求是否含有网页追踪信息,进一步地,可获取所述代码特征与预设追踪代码特征之间的代码特征相似度,然后根据所述代码特征相似度是否大于预设代码特征相似度来判断所述网页请求是否含有网页追踪信息。其中,所述预设代码特征相似度可根据实际需求进行设置,如70%、83%、91%等,本实施例对此不加以限制。所述预设追踪代码特征可理解为追踪代码所对应的特征,可从预设追踪代码库中提取样本追踪代码,然后对样本追踪代码进行特征提取,以获得预设追踪代码特征,所述预设追踪代码库可理解为实时更新的追踪代码收集库。
117.步骤s204:在所述源代码中不含有所述隐藏代码时,在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;
118.步骤s205:获取所述进程信息对应的行为路径,并根据所述行为路径判断所述网页请求是否含有网页追踪信息。
119.易于理解的是,在所述源代码中不含有所述隐藏代码时,可在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息,其中,所述进程信息可理解为根据源代码正在执行的过程的进度和流程数据,或,根据源代码正在执行的任务的进度和流程数据,然后获取所述进程信息对应的行为路径,并获取所述行为路径对应的行为信息,其中,所述行为信息可理解为行为路径对应的用户行为数据,如,获取用户访问的网站信息、获取用户的网页交互信息、获取用户的在线购物搜索记录、获取用户的视频浏览记录等具有追踪意向的行为信息(仅为举例,在具体实现中,行为信息的种类并不予以限制),再将所述行为路径对应的行为信息输入至上述预设分类器中,获得行为分类结果,并根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。也就是说,基于上述获得的预设分类器,可将获得的行为路径对应的行为信息输入至所预设分类器中进行分类,获得行为分类结果,再根据所述行为分类结果判断所述网页请求是否含有网页追踪信息,即可理解为是判断上述行为信息是对应预设分类器中的追踪特征正样本还是追踪特征负样本,在对应于追踪特征正样本时,即所述网页请求含有网页追踪信息;在对应于追踪特征负样本时,即所述网页请求不含有网页追踪信息。
120.在另一种实现方式中,还可直接对所述源代码进行特征提取,以获得源代码的代码特征,然后根据所述源代码的代码特征判断所述网页请求是否含有网页追踪信息,进一步地,可获取所述源代码的代码特征与预设追踪代码特征之间的代码特征相似度,然后根据所述代码特征相似度是否大于预设代码特征相似度来判断所述网页请求是否含有网页追踪信息。其中,所述预设代码特征相似度可根据实际需求进行设置,如70%、83%、91%等,本实施例对此不加以限制。所述预设追踪代码特征可理解为追踪代码所对应的特征,可
从预设追踪代码库中提取样本追踪代码,然后对样本追踪代码进行特征提取,以获得预设追踪代码特征,所述预设追踪代码库可理解为实时更新的追踪代码收集库。
121.本实施例中,在所述网页请求为所述第三方请求时,获取所述网页请求对应的源代码;判断所述源代码中是否含有隐藏代码;在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息;在所述源代码中不含有所述隐藏代码时,在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;获取所述进程信息对应的行为路径,并根据所述行为路径判断所述网页请求是否含有网页追踪信息。通过基于网页请求对应的源代码或所述源代码的隐藏代码设置多种判断方式来对所述网页请求是否含有网页追踪信息进行判断,以提高对网页请求是否含有网页追踪信息的判断精准度,进一步地,也提高了在对含有网页追踪信息的网页请求采取对应的拦截措施时的拦截精准度,以有效防止网页追踪现象的发生,提高互联网安全性。
122.此外,本发明实施例还提出一种存储介质,所述存储介质上存储有防网页追踪程序,所述防网页追踪程序被处理器执行时实现如上文所述的防网页追踪方法的步骤。
123.参照图5,图5为本发明防网页追踪装置第一实施例的结构框图。
124.如图5所示,本发明实施例提出的防网页追踪装置包括:
125.请求判断模块10,用于在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求;
126.追踪判断模块20,用于在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息;
127.追踪拦截模块30,用于在所述网页请求含有所述网页追踪信息时,对所述网页请求采取对应的拦截措施。
128.在本实施例中,在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求;在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息;在所述网页请求含有所述网页追踪信息时,对所述网页请求采取对应的拦截措施。通过先判断网页请求是否属于第三方请求,在所述网页请求属于第三方请求时,再根据所述网页请求对应的源代码或源代码的隐藏代码中来判断所述网页请求是否含有网页追踪信息,以提高对网页请求是否含有网页追踪信息的判断精准度,并在所述网页请求含有网页追踪信息时,对含有网页追踪信息的网页请求采取对应的拦截措施,以有效防止网页追踪现象的发生,提高互联网安全性。
129.所述追踪判断模块20,还用于在所述网页请求为所述第三方请求时,获取所述网页请求对应的源代码;
130.所述追踪判断模块20,还用于判断所述源代码中是否含有隐藏代码;
131.所述追踪判断模块20,还用于在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息。
132.所述追踪判断模块20,还用于在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;
133.所述追踪判断模块20,还用于根据所述进程信息中是否含有隐藏行为路径判断所述源代码中是否含有隐藏代码。
134.所述追踪判断模块20,还用于在所述进程信息中含有隐藏行为路径时,判定所述
源代码中含有隐藏代码;
135.所述追踪判断模块20,还用于获取所述隐藏行为路径对应的行为信息,并将所述行为信息输入至预设分类器中,获得行为分类结果;
136.所述追踪判断模块20,还用于根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。
137.所述追踪判断模块20,还用于获取不同的样本行为信息,并对所述样本行为信息进行特征提取,获得样本行为特征;
138.所述追踪判断模块20,还用于获取所述样本行为特征与预设追踪行为特征之间的行为特征匹配度;
139.所述追踪判断模块20,还用于将所述行为特征匹配度大于等于预设行为特征匹配度的样本行为特征作为追踪特征正样本,将所述行为特征匹配度小于所述预设行为特征匹配度的样本行为特征作为追踪特征负样本;
140.所述追踪判断模块20,还用于基于所述追踪特征正样本和所述追踪特征负样本对支持向量机进行训练,以获得预设分类器。
141.所述追踪判断模块20,还用于在所述源代码中含有所述隐藏代码时,对所述隐藏代码进行特征提取,以获得代码特征;
142.所述追踪判断模块20,还用于根据所述代码特征判断所述网页请求是否含有网页追踪信息。
143.所述追踪判断模块20,还用于获取所述代码特征与预设追踪代码特征之间的代码特征相似度;
144.所述追踪判断模块20,还用于根据所述代码特征相似度判断所述网页请求是否含有网页追踪信息。
145.所述追踪判断模块20,还用于在所述源代码中不含有所述隐藏代码时,在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;
146.所述追踪判断模块20,还用于获取所述进程信息对应的行为路径,并根据所述行为路径判断所述网页请求是否含有网页追踪信息。
147.所述追踪判断模块20,还用于获取所述进程信息对应的行为路径,并获取所述行为路径对应的行为信息;
148.所述追踪判断模块20,还用于将所述行为路径对应的行为信息输入至预设分类器中,获得行为分类结果;
149.所述追踪判断模块20,还用于根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。
150.所述追踪判断模块20,还用于扫描所述源代码,获得代码扫描结果;
151.所述追踪判断模块20,还用于根据所述代码扫描结果中是否含有预设字符段判断所述源代码中是否含有隐藏代码。
152.所述请求判断模块10,还用于在检测到网页组件发送的网页请求时,获取所述网页请求对应的地址信息;
153.所述请求判断模块10,还用于根据所述地址信息判断所述网页请求是否为第三方请求。
154.本发明防网页追踪装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
155.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
156.上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
157.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如只读存储器/随机存取存储器、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
158.以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
159.本发明公开了a1、一种防网页追踪方法,所述防网页追踪方法包括以下步骤:
160.在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求;
161.在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息;
162.在所述网页请求含有所述网页追踪信息时,对所述网页请求采取对应的拦截措施。
163.a2、如a1所述的防网页追踪方法,所述在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息的步骤,具体包括:
164.在所述网页请求为所述第三方请求时,获取所述网页请求对应的源代码;
165.判断所述源代码中是否含有隐藏代码;
166.在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息。
167.a3、如a2所述的防网页追踪方法,所述判断所述源代码中是否含有隐藏代码的步骤,具体包括:
168.在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;
169.根据所述进程信息中是否含有隐藏行为路径判断所述源代码中是否含有隐藏代码。
170.a4、如a3所述的防网页追踪方法,所述在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息的步骤,具体包括:
171.在所述进程信息中含有隐藏行为路径时,判定所述源代码中含有隐藏代码;
172.获取所述隐藏行为路径对应的行为信息,并将所述行为信息输入至预设分类器中,获得行为分类结果;
173.根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。
174.a5、如a4所述的防网页追踪方法,所述将所述隐藏行为路径输入至预设分类器中,获得行为分类结果的步骤之前,还包括:
175.获取不同的样本行为信息,并对所述样本行为信息进行特征提取,获得样本行为特征;
176.获取所述样本行为特征与预设追踪行为特征之间的行为特征匹配度;
177.将所述行为特征匹配度大于等于预设行为特征匹配度的样本行为特征作为追踪特征正样本,将所述行为特征匹配度小于所述预设行为特征匹配度的样本行为特征作为追踪特征负样本;
178.基于所述追踪特征正样本和所述追踪特征负样本对支持向量机进行训练,以获得预设分类器。
179.a6、如a2所述的防网页追踪方法,所述在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息的步骤,具体包括:
180.在所述源代码中含有所述隐藏代码时,对所述隐藏代码进行特征提取,以获得代码特征;
181.根据所述代码特征判断所述网页请求是否含有网页追踪信息。
182.a7、如a6所述的防网页追踪方法,所述根据所述代码特征判断所述网页请求是否含有网页追踪信息的步骤,具体包括:
183.获取所述代码特征与预设追踪代码特征之间的代码特征相似度;
184.根据所述代码特征相似度判断所述网页请求是否含有网页追踪信息。
185.a8、如a2所述的防网页追踪方法,所述判断所述源代码中是否含有隐藏代码的步骤之后,还包括:
186.在所述源代码中不含有所述隐藏代码时,在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;
187.获取所述进程信息对应的行为路径,并根据所述行为路径判断所述网页请求是否含有网页追踪信息。
188.a9、如a8所述的防网页追踪方法,所述获取所述进程信息对应的行为路径,并根据所述行为路径判断所述网页请求是否含有网页追踪信息的步骤,具体包括:
189.获取所述进程信息对应的行为路径,并获取所述行为路径对应的行为信息;
190.将所述行为路径对应的行为信息输入至预设分类器中,获得行为分类结果;
191.根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。
192.a10、如a2所述的防网页追踪方法,所述判断所述源代码中是否含有隐藏代码的步骤,具体包括:
193.扫描所述源代码,获得代码扫描结果;
194.根据所述代码扫描结果中是否含有预设字符段判断所述源代码中是否含有隐藏代码。
195.a11、如a1~a10中任一项所述的防网页追踪方法,所述在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求的步骤,具体包括:
196.在检测到网页组件发送的网页请求时,获取所述网页请求对应的地址信息;
197.根据所述地址信息判断所述网页请求是否为第三方请求。
198.本发明还公开了b12、一种防网页追踪装置,所述防网页追踪装置包括:
199.请求判断模块,用于在检测到网页组件发送的网页请求时,判断所述网页请求是否为第三方请求;
200.追踪判断模块,用于在所述网页请求为所述第三方请求时,判断所述网页请求是否含有网页追踪信息;
201.追踪拦截模块,用于在所述网页请求含有所述网页追踪信息时,对所述网页请求采取对应的拦截措施。
202.b13、如b12所述的防网页追踪装置,所述追踪判断模块,还用于在所述网页请求为所述第三方请求时,获取所述网页请求对应的源代码;
203.所述追踪判断模块,还用于判断所述源代码中是否含有隐藏代码;
204.所述追踪判断模块,还用于在所述源代码中含有所述隐藏代码时,根据所述隐藏代码判断所述网页请求是否含有网页追踪信息。
205.b14、如b13所述的防网页追踪装置,所述追踪判断模块,还用于在虚拟环境中运行所述源代码,并逐条监控所述源代码执行的进程信息;
206.所述追踪判断模块,还用于根据所述进程信息中是否含有隐藏行为路径判断所述源代码中是否含有隐藏代码。
207.b15、如b14所述的防网页追踪装置,所述追踪判断模块,还用于在所述进程信息中含有隐藏行为路径时,判定所述源代码中含有隐藏代码;
208.所述追踪判断模块,还用于获取所述隐藏行为路径对应的行为信息,并将所述行为信息输入至预设分类器中,获得行为分类结果;
209.所述追踪判断模块,还用于根据所述行为分类结果判断所述网页请求是否含有网页追踪信息。
210.b16、如b15所述的防网页追踪装置,所述追踪判断模块,还用于获取不同的样本行为信息,并对所述样本行为信息进行特征提取,获得样本行为特征;
211.所述追踪判断模块,还用于获取所述样本行为特征与预设追踪行为特征之间的行为特征匹配度;
212.所述追踪判断模块,还用于将所述行为特征匹配度大于等于预设行为特征匹配度的样本行为特征作为追踪特征正样本,将所述行为特征匹配度小于所述预设行为特征匹配度的样本行为特征作为追踪特征负样本;
213.所述追踪判断模块,还用于基于所述追踪特征正样本和所述追踪特征负样本对支持向量机进行训练,以获得预设分类器。
214.b17、如b13所述的防网页追踪装置,所述追踪判断模块,还用于在所述源代码中含有所述隐藏代码时,对所述隐藏代码进行特征提取,以获得代码特征;
215.所述追踪判断模块,还用于根据所述代码特征判断所述网页请求是否含有网页追踪信息。
216.b18、如b17所述的防网页追踪装置,所述追踪判断模块,还用于获取所述代码特征与预设追踪代码特征之间的代码特征相似度;
217.所述追踪判断模块,还用于根据所述代码特征相似度判断所述网页请求是否含有
网页追踪信息。
218.本发明还公开了c19、一种防网页追踪设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的防网页追踪程序,所述防网页追踪程序配置为实现如a1至a11中任一项所述的防网页追踪方法的步骤。
219.本发明还公开了d20、一种存储介质,所述存储介质上存储有防网页追踪程序,所述防网页追踪程序被处理器执行时实现如a1至a11中任一项所述的防网页追踪方法的步骤。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1