一种在线网页信息的实时监测方法和装置制造方法

文档序号:6489379阅读:138来源:国知局
一种在线网页信息的实时监测方法和装置制造方法
【专利摘要】本发明公开了一种在线网页信息的实时监测方法和装置,该方法包括:实时获取网页信息日志;通过滑动时间窗口对所述网页信息日志中的展示日志数据或者点击日志数据进行实时统计分析,报告所述展示日志数据或者点击日志数据的特征异常情况。本发明能够实时获取并分析在线网页信息日志,实现实时的在线网页信息监测。
【专利说明】一种在线网页信息的实时监测方法和装置
【技术领域】
[0001]本发明涉及互联网信息监测【技术领域】,尤其涉及一种在线网页信息的实时监测方法和装置。
【背景技术】
[0002]在线网页的监测主要分为两种方法:一种是该网页投放一定阶段后,根据日志中该网页的展示与点击情况以及访问用户的IP等信息,进行离线分析,分析作弊情况;另一种是根据该网页的实时信息,实时对该网页信息日志中的数据进行统计分析分析,发现信息异常时保存分析数据作为证据并报告。
[0003]现有网页信息监测方法一般采用上述的离线方法,离线方法准确率高,但实时性差,不能及时报告该网页的信息异常情况,同时对分析人员的依赖性较大;而实时监测方案还不成熟,采用的信息维度较小,粒度较粗,准确率较低。

【发明内容】

[0004]本发明所要解决的技术问题在于提出一种在线网页信息的实时监测方法和装置,能够实时获取并分析网页信息日志,实现实时的在线网页信息监测。
[0005]为解决上述技术问题,本发明采用以下技术方案:
[0006]一种在线网页信息的实时监测方法,该方法包括:
[0007]实时获取网页信息日志;
[0008]通过滑动时间窗口对所述网页信息日志中的展示日志数据或者点击日志数据进行实时统计分析,报告所述展示日志数据或者点击日志数据的特征异常情况。
[0009]一种在线网页信息的实时监测装置,包括:
[0010]获取模块,用于实时获取网页信息日志;
[0011]分析模块,用于通过滑动时间窗口对所述网页信息日志中的展示日志数据或者点击日志数据进行实时统计分析,报告所述展示日志数据或者点击日志数据的特征异常情况。
[0012]采用本发明的技术方案,能够实时获取并分析网页信息日志,实现实时的在线网页信息监测。
【专利附图】

【附图说明】
[0013]图1是本发明实施例提供的在线网页信息实时监测方法的流程图。
[0014]图2是本发明实施例中的监测方法应用于网页流量统计监测时的结果示意图。
[0015]图3是本发明实施例提供的在线网页信息实时监测的结构示意图。
【具体实施方式】
[0016]下面结合附图并通过【具体实施方式】来进一步说明本发明的技术方案。[0017]图1是本发明实施例提供的在线广告作弊实时监测方法的流程图,该方法包括:
[0018]S101,实时获取网页信息日志。
[0019]本发明实施例中的网页信息日志包括网页展示日志数据和点击日志数据。展示日志数据中可以使用的分析数据包括在线投放的网页以及该网页的来源(Refer)页面,用户代理(User Agent)信息,展示时间,用户来源IP,用户Cooki e,用户地理位置等特征。点击日志数据中包括点击率、点击时间和点击位置(用户鼠标点击点在该页面中对应的位置)等信息。实时获取上述日志数据进行实时分析,以判断在线网页数据是否出现异常。
[0020]S102,通过滑动时间窗口对所述网页信息日志中的展示日志数据或者点击日志数据进行实时统计分析,报告所述展示日志数据或者点击日志数据的特征异常情况。
[0021]目前数据流的聚集统计大部分是针对界标窗口模型,这种模型假定当前已经到达的数据都是同等重要,基于界标窗口建立的聚集统计反映整个流数据状态。在分析网络整体态势时,久远数据的详细信息并不是必要的,特别是对于本发明实施例中对在线网页信息进行实时监测的应用中,就更需要关注最近到达的数据流,即最近一小时或者数分钟之内的统计数据,而不是历史数据。因此,本发明实施例采用了一种滑动时间窗口模型。
[0022]所述滑动时间窗口以基本时间窗口为单位,由至少两个等宽连续的所述基本时间窗口组成并且时间宽度固定。
[0023]在所述滑动时间窗口中,由最近的至少两个基本时间窗口组成。滑动时间窗口就是在某个时刻,当前最新的至少两个基本时间窗口的集合。所述滑动时间窗口划分为若干连续的、等宽的基本时间窗口。
[0024]当有新的基本时间窗口到达时,移出过期的基本时间窗口。如果一个基本时间窗口的时间范围与当前时间之差超过了所述滑动时间窗口的宽度,则该基本时间窗口是过期的。
[0025]当SlOl中获取了一个所述基本时间窗口对应的时间宽度的网页信息日志后,所述滑动时间窗口移入所述新的基本时间窗口,丢弃过期的基本时间窗口,并对当前滑动时间窗口对应的所述网页信息日志进行统计分析。
[0026]例如,滑动时间窗口的宽度为10分钟,每个基本时间窗口的宽度为I分钟,则所述滑动时间窗口由10个按照到达的先后顺序连续排列的基本时间窗口组成。当获取了一个新的宽度为I分钟的基本时间窗口对应的网页日志数据后,则所述滑动时间窗口将所述最新的基本时间窗口移入,将最早到达的基本时间窗口移出,并获取当前滑动时间窗口所对应的时间范围内的网页信息日志。
[0027]利用上述获取的网页信息日志中的展示日志数据或者点击日志数据,从不同维度对在线网页进行实时的信息监测。
[0028]分别以用户Cookie (用以唯一标记用户)、IP、IP3 (IP地址的前三个字段)、地域、时间为单位统计该在线网页的分布情况,如果在某个维度过于集中或者过于平均,则可判断为数据异常的情况。
[0029]对于软件自动请求和代理作弊,可以根据此方法来检测。判断是否属于过于集中或者过于平均的情形时,可以通过计算在线网页在上述各维度中的集中度来进行。所述分布的集中度可以使用信息熵、方差或设定阈值来度量。例如,当所述集中度大于第一预设阈值时,则认为分布过于集中,当所述集中度小于第二预设阈值时,则认为分布过于平均。[0030]本发明实施例中,根据所述展示日志数据中的在线投放页面统计用户访问的网页分布,如果网页访问的分布过于集中或者过于平均,则报告数据异常。该方法可有效监测在线网页的分布式作弊行为。所述网页访问分布是否过于集中或者过于平均同样可以通过集中度来判定,判定方法与前述相同。
[0031]本发明实施例中,根据所述展示日志数据统计用户访问页面的来源页信息,如果来源页为空的页面数量大于预设数量,则报告数据异常。
[0032]本发明实施例中,根据所述网页信息日志中的点击日志数据统计点击率和点击位置信息,根据所述点击位置信息去除无效点击,根据不同的时间粒度对点击率进行统计以发现在线网页的点击行为异常情况。
[0033]例如,上述本发明实施例提供的在线网页信息实时监测的方法可应用于在线广告的反作弊分析。
[0034]( I)根据地域信息进行反作弊分析:
[0035]分析对象为浙江省的某省级区域性网站,
[0036]
【权利要求】
1.一种在线网页信息的实时监测方法,其特征在于,该方法包括: 实时获取网页信息日志; 通过滑动时间窗口对所述网页信息日志中的展示日志数据或者点击日志数据进行实时统计分析,报告所述展示日志数据或者点击日志数据的特征异常情况。
2.如权利要求1所述的方法,其特征在于,所述滑动时间窗口以基本时间窗口为单位,由至少两个等宽连续的所述基本时间窗口组成并且时间宽度固定; 当获取了一个所述基本时间窗口对应的时间宽度的网页信息日志后,所述滑动时间窗口移入新的基本时间窗口,并对当前滑动时间窗口对应的所述网页信息日志进行统计分析。
3.如权利要求1所述的方法,其特征在于,所述对网页信息日志中的展示日志数据进行实时统计分析,进一步包括: 分别根据所述展示日志数据中的用户Cookie、IP、IP3、地域、时间统计在线网页的分布情况,计算在线网页在上述各维度中的集中度,如果在至少一个维度所述集中度大于第一预设阈值或者小于第二预设阈值,则报告数据异常。
4.如权利要求1所述的方法,其特征在于,所述对网页信息日志中的展示日志数据进行实时统计分析,进一步包括: 根据所述展示日志数据中的在线投放页面统计用户访问的网页分布,计算所述用户访问网页的集中度,如果所述集中度大于第一预设阈值或者小于第二预设阈值,则报告数据异常。
5.如权利要求1所述的方法,其特征在于,所述对网页信息日志中的展示日志数据进行实时统计分析,进一步包括: 统计用户访问页面的来源页信息,如果来源页为空的页面数量大于预设数量,则报告数据异常。
6.如权利要求1所述的方法,其特征在于,所述对网页信息日志中的点击日志数据进行实时统计分析,进一步包括: 统计在线网页的点击率和点击位置信息,根据所述点击位置信息去除无效点击,根据不同的时间粒度对点击率进行统计以发现点击作弊。
7.如权利要求1-6任一所述的方法,其特征在于,实时获取网页信息日志后,该方法还包括: 根据所述网页信息日志中的用户代理(User Agent)信息,去除来自网页爬虫的访问量。
8.—种在线网页信息的实时监测装置,其特征在于,包括: 获取模块,用于实时获取网页信息日志; 分析模块,用于通过滑动时间窗口对所述网页信息日志中的展示日志数据或者点击日志数据进行实时统计分析,报告所述展示日志数据或者点击日志数据的特征异常情况。
9.如权利要求8所述的装置,其特征在于,所述分析模块进一步包括: 投放分布统计子模块,用于分别根据所述展示日志数据中的用户Cookie、IP、IP3、地域、时间统计在线网页的分布情况,计算在线网页在上述各维度中的集中度,如果在至少一个维度所述集中度大于第一预设阈值或者小于第二预设阈值,则报告数据异常。
10.如权利要求9所述的装置,其特征在于,所述分析模块进一步包括: 访问分布统计子模块,用于根据所述展示日志数据中的在线投放页面统计用户访问的网页分布,计算所述用户访问网页的集中度,如果所述集中度大于第一预设阈值或者小于第二预设阈值,则报告数据异常。
11.如权利要求10所述的装置,其特征在于,所述分析模块进一步包括: 来源页面统计子模块,用于统计用户访问页面的来源页信息,如果来源页为空的页面数量大于预设数量,则报告数据异常。
12.如权利要求11所述的装置,其特征在于,所述分析模块进一步包括: 点击信息统计子模块,用于统计在线网页的点击率和点击位置信息,根据所述点击位置信息去除无效点击,根据不同的时间粒度对点击率进行统计以发现点击作弊。
13.如权利要求9-12任一所述的装置,其特征在于,所述装置进一步包括: 去除模块,用于根据所述网页信息日志中的用户代理(User Agent)信息,去除来自网页爬虫的访问量。
【文档编号】G06F17/30GK103714057SQ201210369660
【公开日】2014年4月9日 申请日期:2012年9月28日 优先权日:2012年9月28日
【发明者】罗峰, 黄苏支, 李娜 申请人:北京亿赞普网络技术有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1