访问数据监测方法及相关设备与流程

文档序号:17600785发布日期:2019-05-07 20:16阅读:155来源:国知局
访问数据监测方法及相关设备与流程

本申请涉及流量监测技术领域,更具体地,是访问数据监测方法及相关设备。



背景技术:

在电子商务领域,卖家的产品在电商平台销售。为了吸引更多的买家浏览产品信息,卖家的一种推广手段是,由推广主体对商品进行推广。如图1所示,推广主体可以在微博(一种社交软件)、微信(一种社交软件)、百度应用(一种搜索引擎)各种网络平台上发布商品的访问入口,吸引这些网络平台的用户通过访问入口浏览商品信息甚至购买商品。对等地,卖家会按照成交的费用向推广主体支付一定的报酬。这种推广技术可以称为按成交付费(payforsale)。

在以上推广技术中,不同的推广主体具有不同的标识,从网络平台进入到卖家产品页面的访问地址中会携带推广主体的标识,卖家可以根据访问地址中携带的标识来确定报酬对象。

目前,出现了一种流量劫持情况,即将访问地址中的推广主体标识a篡改为推广主体标识b,以使卖家将本应支付给推广主体a的报酬错误地支付给推广主体b。为了避免这种情况,电商平台需要一种技术,来监测到访问流量中的劫持行为。



技术实现要素:

有鉴于此,本申请提供了一种访问数据监测方法,用于确定访问数据是否出现被劫持的情况。另外,本申请还提供了访问数据监测设备,用以保证所述方法在实际中的应用及实现。

为实现所述目的,本申请提供的技术方案如下:

第一方面,本申请提供了一种访问数据的监测方法,包括:

依据第一推广信息,获得与所述第一推广信息对应的访问数据;

确定所述访问数据的第二推广信息的分布特征;

根据所述分布特征是否满足预设条件,确定所述访问数据是否存在对所述第一推广信息的修改。

第二方面,本申请提供了一种访问数据的监测装置,包括:

访问数据获得模块,用于依据第一推广信息,获得与所述第一推广信息对应的访问数据;

分布特征确定模块,用于确定所述访问数据的第二推广信息的分布特征;

分布特征检测模块,用于根据所述分布特征是否满足预设条件,确定所述访问数据是否存在对所述第一推广信息的修改。

第三方面,本申请提供了一种访问数据的监测设备,包括:处理器和存储器,所述处理器通过运行存储在所述存储器内的软件程序、调用存储在所述存储器内的数据,至少执行如下步骤:

依据第一推广信息,获得与所述第一推广信息对应的访问数据;

确定所述访问数据的第二推广信息的分布特征;

根据所述分布特征是否满足预设条件,确定所述访问数据是否存在对所述第一推广信息的修改。

由以上技术方案可知,本申请提供了一种访问数据的监测方法,该方法可以根据第一推广信息,获得与第一推广信息对应的访问数据,并统计这些访问数据在第二推广信息上的分布特征,由于第一推广信息是在劫持行为中较大可能被修改的信息,而第二推广信息在更大程度上并不会被修改,因此,根据第一推广信息得到对应的访问数据后,再根据这些访问数据在第二推广信息上的分布特征是否满足预设条件,便可以确定访问数据中是否存在流量劫持行为,即是否第一推广信息是否被修改。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为现有技术中对象推广的一种场景示意图;

图2为本申请提供的访问数据监测方法的一种流程图;

图3为本申请提供的访问数据监测方法的另一种流程图;

图4为本申请提供的访问数据监测方法的又一种流程图;

图5为本申请提供的访问数据监测装置的一种结构示意图;

图6为本申请提供的访问数据监测设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

卖家在电商平台销售的商品,可以通过电商平台之外的网络平台进行推广。网络平台可以称为媒体或渠道,例如导航网站、社交软件群,网络平台可以在自身平台上提供入口,用户可以通过该入口访问卖家的商品网页,从而达到了推广卖家商品的目的。其中,用户对商品网页的访问可以称为访问流量、访问数据或访问请求等;网络平台上提供的入口可以称为网络入口或访问入口。

网络平台是商品推广主体的一种具体形式,在这种实现方式里,不同的网络平台具有不同的标识,网络平台在自身平台上对商品做推广,卖家会对网络平台给予奖励。当然,商品推广主体可以并非网络平台,而是推广用户。推广用户可以在电商平台上注册账户,账户名是推广用户的唯一性标识。推广用户可以在各种网络平台上对商品进行推广,卖家会对推广用户进行奖励。

商品推广主体可以是各种形式,为了便于描述,可以将商品推广主体简称为推广主体、目标主体或目标用户。推广主体具有唯一性标识,推广主体标识可以称为主体标识或用户标识。如上所述,主体标识可以是网络平台的标识、推广用户的账户名等。

不同的推广主体具有不同的标识,用户访问目标商品的流量中会携带推广主体的标识,电商平台可以根据推广主体的标识来区分用户是从哪一推广主体推广的访问入口进入商品网页的。目前的推广主体的标识为发布号(publishidentification,pid),该标识包含在统一资源定位符(uniformresourcelocation,url)中。为了方便理解,可以将统一资源定位符称为访问地址。也就是说,用户的访问地址中包含有推广主体标识,电商平台根据该标识确定用户来源于哪一推广主体。

目前,存在一种流量劫持现象,这种劫持技术属于链路层劫持。链路层劫持指的是第三方如网络服务运营商或黑客等在用户与服务器之间植入恶意程序或控制用户与服务器之间的网络设备,以侦听或篡改用户与服务器之间的网络数据。具体地,在本申请中,恶意程序会将访问地址中的推广主体标识a修改为推广主体标识b,以使卖家错误地将推广主体b作为访问流量的来源。

一般地,卖家会对进行商品推广的主体支付一定的报酬,流量劫持会导致卖家的经济损失。对于电商平台来说,其会收集访问流量的相关数据,劫持后的访问流量不准确,导致电商平台的数据收集不准确。因此,需要一种技术,来监测是否存在流量劫持情况。

现有的一种监测方案技术是,基于地域和网络服务运营商集中度对劫持监测进行监测。

具体来讲,用户对电商平台的访问,需要使用网络服务运营商提供的网络服务。网络服务运营商可以在多个区域范围内搭建网络,以使各个不同区域内的用户可以被网络覆盖,并可以使用网络对电商平台进行访问。在一般情况下,访问电商平台的用户的地域范围是分散的,并且用户使用的网络服务类型也是分散的。如果某恶意程序使用某网络运营商资源对访问流量进行劫持,则其不仅会改变推广主体标识,而且修改访问源地址和/或访问使用的网络服务类型,将访问源地址和/或网络服务类型修改为该网络运营商资源相关的数据。

例如,某恶意程序使用山东联通提供的网络资源进行流量劫持,则其会将访问数据中的访问源地址修改为山东(一个区域范围),将访问使用的网络服务修改为联通网络(一种网络服务提供商提供的网络类型)。这样,访问流量中的访问源地址便会集中在山东,网络服务的类型便会集中在联通网络。

因此,一种现有技术是,统计对目标商品的所有访问流量中的访问源地址和/或使用的网络服务类型,若最多的访问源地址和/或最多的网络服务类型达到一定的阈值条件,则说明对目标商品的访问流量集中在某个地域范围和/或集中在某种网络服务类型,进而确定这些访问流量中存在劫持行为。

然而,以上监测方法的监测结果并不准确。原因是,推广主体对商品进行推广的方式有多种,如自推自买、社交软件推广。自推自买指的是推广主体可以购买自身推广的商品;社交软件推广如发布在微信群里的商品链接推广。自推自买场景下的访问流量主要集中于同一用户;社交软件推广场景下,同一微信群里的用户可能在相同的地域范围和/或使用相同类型的网络服务。因此,对于这些正常的推广方式而言,访问流量中的访问源地址和/或网络服务类型本身就比较集中,上述监测方案可能会错误地确定访问流量中存在劫持。

另一种现有的监测方式是,监测访问地址中推广主体标识的变化情况,通过变化情况判断访问流量中是否存在劫持。具体来讲,电商平台会记录用户在一段时间内对目标商品的访问数据,也就是说,记录的访问数据在时间上是连续的。若短时间间隔内,访问数据的推广主体标识发生了变化,则确定该访问数据中存在劫持。

可见,第二种现有的监测方式是通过监测访问数据中异常的推广主体变化情况,来确定访问流量的劫持行为。但这种监测方式的主要问题有二,一是在某些场景下,访问流量中推广主体标识的变化是用户触发的,这种推广主体标识的变化属于正常情况,却会被错误地确定为存在访问流量的劫持行为;二是恶意程序在劫持流量时,可以将访问流量中本身存在的推广主体标识删除,后续的推广主体标识使用的是改变后的推广主体标识,这样监测程序便不能发现前后推广主体标识的变化,从而无法监测到网络访问中的流量劫持。

又一种现有的监测方式是,在用户设备上监测访问流量中的生存时间值(time-to-live,ttl)。具体来讲,用户通过用户设备向服务器发送访问数据,服务器也会向用户设备返回响应数据。生存时间值包含在响应数据的网络层协议头中,响应数据每经过一个路由器,生存时间值便会减一。若恶意程序在链路层劫持访问数据,其不能仿造响应数据的网络层协议头中的ttl值。因此,可以在用户设备上安装网络数据包捕获程序,该程序可以捕获到服务器返回的响应数据。捕获程序每收到一个响应数据,便判断该响应数据的ttl值与前一响应数据的ttl值的差值是否达到一定阈值。若达到,便确定此响应数据对应的访问数据被恶意劫持。

然而,以上监测方式应用在用户设备一侧,由于被劫持访问流量的用户并不固定,任何用户的访问数据都有可能被恶意程序劫持。因此,由于用户的分散性,无法在全部的用户设备上安装监测程序,该种监测方式的应用范围有限,可应用性不强。

以上三种现有技术均存在一定的问题,因此,本申请提供了一种访问数据监测方法。该监测方法可以应用在服务器上,该服务器可以是电商平台的服务器。

如图2所示,访问数据的监测方法的一个流程包括以下步骤s201~步骤s203。

s201:依据第一推广信息,获得与第一推广信息对应的访问数据。

其中,第一推广信息为流量劫持行为中容易被修改的信息,通过对流量劫持现象的分析经验可知,流量劫持中有一部分数据是容易被修改的,恶意程序通过修改这些数据来达到流量劫持的目的。

本步骤根据第一推广信息获得对应的访问数据,例如,在待监测的访问数据中,提取包含第一推广信息的访问数据。需要说明的是,由于访问数据中的第一推广信息可能是经过修改的,因此获得的访问数据中可能包含第一推广信息经过修改的访问数据,即访问数据中可能存在流量劫持行为。

第一推广信息可以用来表示推广主体的身份,包括但不局限于推广主体的标识。以下以第一推广信息为推广主体标识为例进行详细说明。

推广主体是某对象进行推广的主体,推广主体可以称为目标主体。对象可以是电商平台上的商品,也可以是其他形式的对象。只要能够使用网页展示其相关信息的对象均可以认为是本申请中的对象。对象也可以称为推广对象或目标对象。

推广主体会提供指向对象的访问入口如网址链接、二维码等,以使用户通过访问入口对推广对象进行访问。因此,本步骤可以认为是获得基于推广主体提供的访问入口生成的访问数据。一个访问请求从访问入口进入,并访问该访问入口所指向的推广对象,从访问入口进入并访问推广对象的过程中可以生成数据,这些数据可以称为访问数据。

在获得访问数据时,可以是根据推广主体的标识获取。具体来讲,访问数据中包含推广主体标识这个字段,实施流量劫持的恶意程序会修改这个字段。也就是说,推广主体的标识可能是恶意程序替换后的标识,这个标识是另一推广主体的标识。而该另一推广主体往往也是利用恶意程序实施流量劫持行为的推广主体。

可以知道的是,恶意程序会修改推广主体标识这个字段,当然,恶意程序也可能修改其他能够表示推广主体身份的字段,因此,只要是能够表示推广主体且会被修改的信息均是本步骤获取访问数据的依据。为了便于与下文能够表示推广主体且不会被修改的信息区分,可以将此处的信息称为用于表示推广主体的第一推广信息。

需要说明的是,下文不会被修改的信息并非绝对不会,是一种相对的情况,只要是相对于第一推广信息被修改的情况较少即可。

包含推广对象相关信息的网页保存在服务器上,服务器可以记录对目标商品网页的访问数据。需要说明的是,记录访问数据的服务器可以是执行监测方法的服务器,也可以是其他服务器,本申请并不做具体限定。若执行监测方法的服务器并非记录访问数据的服务器,则本步骤在执行时,需要从其他服务器上获得访问数据。当然,记录访问数据的设备可以并非服务器,还可以是其他设备。记录访问数据的设备可以是分布式设备或非分布式设备。若访问数据记录在分布式设备上,访问数据的安全性更好;另外,按照分布式的方式读取访问数据,数据读取效率更高。

以访问数据记录在服务器上为例,对于服务器来说,其所记录的访问包括各种形式,如包括直接登录服务器进行的访问,也包括通过推广主体提供的访问入口进行的访问。本申请关注的是基于推广主体提供的访问入口进行的访问,因此需要从服务器记录的访问数据中,提取基于推广的访问入口生成的访问数据。

例如,电子商务网站上的一个推广商品为手提包,用户可以直接登录该电子商务网站浏览该手提包的信息,从而生成访问手提包网页的数据。而且,推广主体在微信群发布了该手提包的网址链接,微信群里的用户可以通过该网址链接浏览该手提包的信息,从而生成另一种访问手提包网页的数据。在本申请中,需要提取的访问数据是后一种访问数据。

访问数据包含多个字段,若访问数据为基于推广的访问入口所生成的访问数据,则该访问数据中包含一个字段为推广主体标识。因此,根据访问数据中是否包含推广主体标识,便可以确定访问数据是否基于推广的访问入口生成,进而提取包含推广主体标识的访问数据作为所需的访问数据。

需要说明的是,推广主体可能推广多个对象,在一种实现方式中,本申请并不关心其推广的对象具体有哪些。因此,只要是通过推广主体所提供的网络入口生成的访问数据,不管该网络入口指向哪一对象,该访问数据均会被获取到。理由是,恶意程序实施流量劫持的主要目的是将访问数据中的推广主体标识修改为特定的推广主体标识,因此,在一般的应用场景中,恶意程序实施的流量劫持是随意的,其并不区分劫持的流量访问的是哪个对象,截获一个访问流量,便修改该访问流量中的推广主体标识。

当然,在其他应用场景中,可能出现推广主体只是针对某一种或多种特定的对象的访问数据进行劫持的情况。这些对象可以称为目标对象。因此,在获得访问数据时,除了根据有无推广主体标识的标准外,还可以包括有无目标对象的标识。目标对象的标识在此应用场景中是一种选择条件,更进一步地,在其他应用场景中,还可以使用其他的选择条件提取访问数据。另外,需要说明的是,无论在哪种应用场景中,所获得访问数据可以是一段时间内的访问数据。该段时间可以是指定的特定时间段,也可以是任意一个时间段。时间段的长度本申请并不做具体限定,如一天或者一个月等均可。

选择条件可以体现为访问数据中的字段,不同的字段表示访问数据在不同方面的属性,字段也可以称为属性字段。也就是说,可以在记录的访问数据中,提取满足目标属性的访问数据。需要说明的是,不论根据何种条件或属性筛选,提取到的访问数据均可以称为目标访问数据。

需要说明的是,不同推广主体对应的访问数据是不同的,本步骤可以根据推广主体标识对访问数据进行分组,即将不同推广主体标识对应的访问数据划分为不同组。具体地,前已述及,推广主体标识属于访问数据的一个字段,根据该字段的值便可以将访问数据进行分组,并可以按照如下方式中的任意一种获得访问数据:分别获得每个分组内的访问数据(是要对每个分组内的访问数据分别执行以下步骤),或者获得任意一个分组内的访问数据,或者获得某一个指定分组内的访问数据,或者获得某几个指定分组内的访问数据。总结来看,本步骤是提取属于同一推广主体的访问数据。

s202:确定访问数据的第二推广信息的分布特征。

在实际应用中,实施流量劫持行为的恶意程序会修改访问数据中某个或某些能够表示推广主体身份的信息,但还有一些能够表示推广主体身份的信息在相对情况下不会被恶意程序修改。这些信息可以称为第二推广信息,第二推广信息可以表示访问数据实际对应的推广主体。

一般情况下,步骤s201所获取到的访问数据包括多条,且每条访问数据均具有能够反映推广主体的字段(字段也可以称为参数或属性)。虽然,在流量劫持中恶意程序能够修改推广主体标识,推广主体标识是一种能够直接反映推广主体是谁的字段,但其他也可以反映推广主体标识的字段并一定能被恶意程序修改。因此,本申请是要根据这些字段来确定是否存在流量劫持情况。

具体地,可以在访问数据中确定用于表示访问数据实际对应的推广主体的字段,这些字段可以是第二推广信息的一种具体形式。为了便于描述,可以将这些字段称为目标字段、目标参数或目标属性;统计目标字段的字段值的分布特征。分布特征的计算方式可以包括多种,详见下文描述。

在一个示例中,本申请所使用的这些字段可以是,直接反映或表示推广主体是谁的字段。

例如,访问数据中包含一个字段为渠道(channel),这个字段与推广主体标识一样,不同的推广主体所对应的渠道是不同的。例如,推广主体1的渠道为1-23155155,推广主体2的渠道为1-23177841,推广主体3的渠道为1-23260440,推广主体4的渠道为1-23262200。因此可见,通过渠道值便可以确定渠道是否相同,渠道不同可以表示推广主体不同。

在另一个示例中,本申请所使用的这些字段并不一定能直接反映或表示推广主体是谁,也可以反映或表示推广主体在某方面的独特特征。

例如,访问数据中包含一个字段为用户代理(user-agent)。用户代理可以表示访问用户所使用的网络平台。可以理解的是,只有推广主体将访问入口提供在某个网络平台上,访问用户才可以通过该访问入口对目标对象进行访问。然而,一个推广主体一般并不会在多种多样的网络平台上进行推广,主要集中在数量较少的几个网络平台上。可见,用户代理能够在一定程度上反映推广主体的特征,该特征具体指的是用于推广主体推广访问入口的网络平台比较单一,并不会多样化。

在推广主体为网络平台的应用场景中,该网络平台就为该推广主体本身,显然这种场景下,用于提供访问入口的网络平台最为单一。例如,微博(一种社交软件)作为一个推广主体,其用于推广访问入口的网络平台一般只有微博一种。阿里手机淘宝(一种手机购物应用)作为一个推广主体,其用于推广访问入口的网络平台一般只有阿里手机淘宝一种。阿里百川推广(一种推广应用)作为一个推广主体,其用于推广访问入口的网络平台一般只有阿里百川一种。需要说明的是,不同的网络平台即使属于同一网络平台提供商,如阿里手机淘宝及阿里百川推广都属于阿里巴巴,但仍需要将其认为是不同的网络平台。

在推广主体为推广用户的应用场景中,推广用户用于推广的网络平台也一般较为单一。这种限制可以体现在推广用户在进行注册时,限制注册的推广用户使用的网络平台的种类数量。例如,某个用户在注册为推广用户时,限制其所使用的网络平台为两种。进一步地,用户可以填入其所使用的网络平台为哪两种。

由上述可知,访问数据中的第二推广信息可以表示推广主体的特征,比如表示推广主体是谁或者推广主体所使用的网络平台。可以知道的是,同一推广信息对应的访问数据中,第二推广信息是较为统一的,并不存在多样性。因此,可以统计第二推广信息的分布特征。分布特征可以表示第二推广信息的分布多样性情况。确定出的可以反映多样性情况的结果可以是数值,或者是数值之外的其他数据。更具体地,数值可以是熵或其他。不论是何种结果,均可以将结果称为分布特征。

需要说明的是,多样性情况的确定方式有多种,参见下文具体描述。

s203:根据分布特征是否满足预设条件,确定访问数据中是否存在对第一推广信息的修改。

需要说明的是,步骤s202中确定的分布特征可以为用于表示分布多样性的特征,所表示的多样性情况可以包括两种,即第一推广信息具有多样性或者第一推广信息不具有多样性。相应地,预设条件可以具体为多样性条件,多样性条件可以是具有多样性所要求的条件,则本步骤是判断分布特征是否达到多样性要求的条件,如果达到,则认为访问数据中存在被劫持的访问数据,也就是说,访问数据中存在流量劫持行为。

在实际应用中,多样性条件的一种具体形式可以是预设阈值,若根据访问数据确定的分布特征达到该预设阈值,则认为这些访问数据存在对第一推广信息的修改,即存在流量劫持。当然,多样性条件是根据其他形式,本申请并不限定。

由以上技术方案可知,该方法可以根据第一推广信息,提取对应同一推广信息的访问数据。这些访问数据中还携带第二推广信息,第二推广信息能够反映实际的第一推广信息的情况。可以知道的是,恶意程序在流量劫持时会修改第一推广信息,但很大程度上并不会被恶意程序修改第二推广信息,因此正常情况下,同一第一推广信息对应的访问数据中,第二推广信息是较为统一的,如果第二推广信息的分布特征达到预设条件则可以表示这些访问数据中存在被劫持的情况。因此可见,通过第二推广信息的分布特征可以判断这些访问数据中是否存在被劫持的情况。

对比现有技术与本申请提供的访问数据监测方案,两者所使用的判断方式完全不同。本申请是根据推广信息是否具有多样性来确定是否存在流量劫持现象,并没有依据地域与网络服务运营商的分布情况,也没有根据推广主体标识的变化情况,因此可以规避上述判断方式导致的判断结果不准确甚至无法判断的问题。另外,本申请提供的访问数据监测方案无需应用在各个被劫持的客户端,而是可以直接应用在服务器一侧,因此应用范围较广。

在实际应用中,确定访问数据分布特征的一种具体方式可以是,根据用户代理这个字段确定的。以下结合图3所示的流程,来说明基于用户代理这个字段实现访问数据的监测方法的过程。

如图3所示,本申请提供的访问数据的监测方法的一种流程包括步骤s301~步骤s303。

s301:依据第一推广信息,确定与第一推广信息对应的访问数据。

其中,本步骤与上述图2所示的步骤s201相同,可以参见上述说明,此处并不赘述。

s302:根据访问数据中的用户代理字段,确定访问数据对应的网络平台的分布特征。

其中,访问数据中包含用户代理这个字段,可以对这个字段的字段值进行识别,识别出该字段值属于哪一网络平台。

例如,某条访问数据中,用户代理字段值中包括qq,则可以判断该条访问数据对应的网络平台为qq(一种社交软件);某条访问数据中,用户代理字段值中包括weibo,则可以判断该条访问数据对应的网络平台为微博(一种社交软件);某条访问数据中,用户代理字段值中包括baiduboxapp,则可以判断该条访问数据对应的网络平台为百度(一种搜索引擎);某条访问数据中,用户代理字段值中包括aliapptb,则可以判断该条访问数据对应的网络平台为阿里淘宝(一种电子商务软件);某条访问数据中,用户代理字段值中包括aliappbc,则可以判断该条访问数据对应的网络平台为阿里百川(一种推广软件);某条访问数据中,用户代理字段值中包括aliapp,但不包括bc或tb,则可以判断该条访问数据对应的网络平台为阿里其他推广应用等等。

由于访问数据是多条,则根据用户代理字段确定出的网络平台为多个。可以统计网络平台的总量、统计这些网络平台属于多少种类、分别统计每个种类对应的网络平台的数量、计算每个种类的网络平台包含的网络平台的数量占网络平台总量的比例。

根据上述统计结果及熵的计算公式,计算网络平台的分布熵。分布熵可以称为分布情况,也可以称为网络平台的分布特征。

具体地,分布熵的计算公式为

其中,h(x)表示网络平台的分布特征;n用于表示访问数据对应的网络平台的种类数量;i=1,2,…,n,i用于表示不同种类的网络平台,pi为某一种类的网络平台包含的网络平台的数量占网络平台总量的比例。

需要说明的是,如果分布熵的取值较低,则说明网络平台分布较为集中;如果分布熵的取值较高,则说明网络平台分布较为分散。换句话说,分布熵取值越高,则表示网络平台的多样性程度越高。

s303:根据网络平台的分布特征是否满足多样性条件,确定访问数据是否存在对第一推广信息的修改。

其中,步骤s302可以得到分布熵,分布熵取值高到一定程度,才会定性地确定网络平台具有多样性,因此可以预先设置多样性条件,用于对分布特征进行判断。

多样性条件可以是一个阈值,将上述计算的分布熵与该阈值进行比对。若分布熵达到该阈值,则认为网络平台的分布特征满足多样性条件,进而确定访问数据中存在流量劫持情况。相反,若分布熵未达到该阈值,则认为网络平台的分布特征不满足多样性条件,进而确定访问数据中不存在流量劫持情况。需要说明的是,为了与下文阈值区分,可以将此处阈值称为特征阈值。

在上述技术方案中,访问数据中包含用户代理这个字段,在正常情况下,实施流量劫持的恶意程序并不会修改该字段,因此,该字段可以表示访问数据真实来源于哪一网络平台。用户代理这个字段的字段值如果具有多样性,则表示访问数据实际来源的网络平台具有多样性。而正常情况下,访问数据来源的网络平台不应具有多样性,如果网络平台具有多样性,那么说明该访问数据存在流量劫持情况。

可以理解的是,访问数据包括有渠道这个字段,正常情况下,这个字段的字段值不会被实施流量劫持的恶意程序修改。渠道可以真实表示访问数据对应的实际推广主体。渠道不同,则表示访问数据对应的实际推广主体不同。因此,可以通过访问数据中渠道的取值,判断访问数据对应的实际推广主体的分布特征,进而根据分布特征来确定推广主体是否具有多样性。

如图4所示,本申请提供的访问数据的监测方法的一种流程包括步骤s401~步骤s403。

s401:依据第一推广信息,确定与第一推广信息对应的访问数据。

其中,本步骤与上述图2所示的步骤s201相同,可以参见上述说明,此处并不赘述。

s402:根据访问数据中的渠道字段,确定访问数据对应的推广主体的分布特征。

前已述及,在正常情况下,访问数据中渠道字段的字段值较为统一,若渠道字段值出现多样性,则可以表示访问数据对应的推广主体具有多样性,这些访问数据中极有可能存在被劫持的访问数据。

因此,在获得访问数据后,可以提取渠道字段的字段值。例如,提取到渠道字段的字段值包括:1-23155155、1-23177841、1-23260440、1-23262200。

访问数据是多条,则提取到的字段值为多个。一个字段值表示一个推广主体。可以统计推广主体的总量、统计这些推广主体属于多少种类、分别统计每个种类对应的推广主体的数量、计算每个种类的推广主体包含的推广主体的数量占推广主体总量的比例。按照步骤s302中的公式计算推广主体的分布熵(或分布特征)。

具体地,分布熵的计算公式为

其中,h(x)表示推广主体的分布特征;n用于表示访问数据对应的推广主体的种类数量;i=1,2,…,n,i用于表示不同种类的推广主体,pi为某一种类的推广主体包含的推广主体的数量占推广主体总量的比例。

s403:根据推广主体的分布特征是否满足多样性条件,确定访问数据是否存在对第一推广信息的修改。

其中,本步骤与上述图3所示的步骤s303相同,可以参见上述说明,此处并不赘述。

在以上技术方案中,使用访问数据中的渠道字段,来确定推广主体的分布特征。由于在正常情况下,恶意程序并不会修改渠道字段的字段值,因此该字段值可以反映访问数据对应的实际推广主体。如果渠道字段的字段值具有多样性,则表明访问数据对应的实际推广主体具有多样性。而正常情况下,访问数据对应的实际推广主体较为统一,因此,如果渠道字段的字段值具有多样性,可以确定访问数据中存在流量劫持现象。

需要说明的是,以上在确定网络平台的分布特征时,除了使用分布熵的计算方式,还可以使用其他方式。例如,在得到网络平台的种类数量(记为m1)及每种网络平台包含的网络平台个数(记为n1)后,可以将m1及n1作为分布特征。在根据分布特征确定是否具有多样性时,如果m1达到一定阈值且n1也达到一定阈值,那么就确定网络平台具有多样性,也进一步确定访问数据存在流量劫持现象。当然这两个阈值的取值并不一定相同。

同理,以上在确定推广主体的分布特征时,除了使用分布熵的计算方式,还可以使用其他方式。例如,在得到推广主体的种类数量(记为m2)及每种推广主体包含的推广主体个数(记为n2)后,可以将m2及n2作为分布特征。在根据分布特征确定是否具有多样性时,如果m2达到一定阈值且n2也达到一定阈值,那么就确定推广主体具有多样性,也进一步确定访问数据存在流量劫持现象。当然这两个阈值的取值并不一定相同,为了便于区分,可以将第一个阈值称为种类阈值,将第二个阈值称为个数阈值。

以下对本申请提供的访问数据的监测装置的结构进行说明。如图5所示,访问数据的监测装置可以包括:访问数据获得模块501、分布特征确定模块502及分布特征检测模块503。

访问数据获得模块501,用于依据第一推广信息,获得与所述第一推广信息对应的访问数据;

分布特征确定模块502,用于确定所述访问数据的第二推广信息的分布特征;

分布特征检测模块503,用于根据所述分布特征是否满足预设条件,确定所述访问数据是否存在对所述第一推广信息的修改。

在一个示例中,所述分布特征为用于表示分布多样性的特征,所述预设条件为多样性条件。

在一个示例中,所述访问数据获得模块501包括:访问数据获得子模块。访问数据获得子模块,用于依据推广主体的标识,获得与所述推广主体的标识对应的访问数据。

在一个示例中,所述分布特征确定模块502包括:目标字段确定子模块及分布特征统计子模块。目标字段确定子模块,用于确定所述访问数据中的目标字段,所述目标字段用于表示未被修改的第一推广信息;以及分布特征统计子模块,用于统计所述目标字段的字段值的分布特征。

在一个示例中,所述目标字段确定子模块包括:目标字段确定单元。目标字段确定单元,用于将所述访问数据中的用户代理字段或渠道字段确定为目标字段。

在一个示例中,所述分布特征统计子模块包括:种类及个数统计单元、以及分布特征统计单元。种类及个数统计单元,用于统计目标字段的字段值的种类数量及每种字段值包括的字段值个数;分布特征统计单元,用于根据所述种类数量及所述字段值个数,确定目标字段的字段值的分布特征。

在一个示例中,所述分布特征统计单元包括:比例确定子单元、以及分布特征确定子单元。比例确定子单元,用于根据所述每种字段值包括的字段值个数,确定每种字段的字段值占字段值总数的比例;分布特征确定子单元,用于根据所述目标字段的字段值的种类数量及每种字段的字段值占字段值总数的比例,确定目标字段的字段值的分布特征。

在一个示例中,所述分布特征检测模块包括:第一检测子模块及第二检测子模块。第一检测子模块,用于若所述分布特征达到预设的特征阈值,则确定所述访问数据中是存在对所述第一推广信息的修改;第二检测子模块,用于若所述分布特征未达到所述特征阈值,则确定所述访问数据中不存在对所述第一推广信息的修改。

在一个示例中,所述分布特征统计单元包括:分布特征统计子单元。分布特征统计子单元,用于将所述种类数量及所述字段值个数确定为目标字段的字段值的分布特征。

在一个示例中,所述分布特征检测模块包括:第三检测子模块及第四检测子模块。第三检测子模块,用于若所述种类数量达到预设的种类阈值且所述字段值个数达到预设的个数阈值,则确定所述访问数据中存在对所述第一推广信息的修改;第四检测子模块,用于若所述种类数量未达到预设的种类阈值或所述字段值个数未达到预设的个数阈值,则确定所述访问数据中不存在对所述第一推广信息的修改。

见图6,其示出了本申请提供的一种访问数据的监测设备的结构。如图6所示,该访问数据的监测设备可以具体包括:存储器601、处理器602及总线603。

存储器601,用于存储程序指令和/或数据。

处理器602,通过读取所述存储器601中存储的指令和/或数据,用于执行以下操作:依据第一推广信息,获得与所述第一推广信息对应的访问数据;确定所述访问数据的第二推广信息的分布特征;以及根据所述分布特征是否满足预设条件,确定所述访问数据是否存在对所述第一推广信息的修改。

总线603,用于将访问数据的监测设备的各个硬件组件耦合在一起。

需要说明的是,处理器602在执行功能时,可以按照上述各个访问数据监测方法中的具体实现方式执行,此处并不赘述。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括上述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理上和新颖特点相一致的最宽的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1