一种广告页面屏蔽的处理方法与流程

文档序号:19925321发布日期:2020-02-14 16:51阅读:202来源:国知局
一种广告页面屏蔽的处理方法与流程

本发明涉及大数据应用技术领域,尤其是一种广告页面屏蔽的处理方法。



背景技术:

随着互联网的发展,越来越多的主要互联网公司,在其建立的网站上进行相关广告的投放,有些只是在局部的位置进行投放,但有些网站会在打开网页的前几秒种进行大范围的广告投放,强迫用户在浏览网站时直接进行广告的观看;越来越多的网站为了获取收益,采用这种方法越来越多,但对于用户来说,查看主要的内容才是打开相关网站的目的,不想太多关注被动推送的广告,而且广告的推送会占用网络带宽,特别是使用移动网站时,会花销很多移动的流量,在使用户浏览网站时不舒适,更会造成带宽、流量的损失。

对于互联网企业来说,只有进行相关广告的投放才能有相关的收益,但对于浏览网站的用户来说,能过滤掉网页上的广告,可以提高网页浏览的效率,



技术实现要素:

本发明解决的技术问题在于提供一种基于大数据进行广告页面屏蔽的处理方法;通过对互联网上主要的网站进行页面的扫描分析,获取大部分主要页面的请求链接,通过分析统计各页面的请求链接、结合不同的站点的请求链接,针对广告链接可能多次重复及不同站点存在相同请求的特点,计算分析出各页面的链接可能为广告的阀值,按设定的阀值判断链接是否为广告,从而对是广告的链接不进行请求数据,从而减少网络的请求带宽,节约数据流量,提高网页的浏览效率。

本发明解决上述技术问题的技术方案是:

所述的方法包括以下几个步骤:

步骤1:设计一个支持大数据量的存取,并且可进行链接快速寻找定位的方法,具体实现可按网址进行md5及哈希值计算,并进行一致性哈希存储的过程进行实现;

步骤2:获取多个主要的浏览网站,并从主页进入并嵌套获取各个页面的所有请求链接;

步骤3:对各链接进行站内与站外的重复性统计,用于后续的是否广告的阀值判断;

步骤4:分析各链接的重复数量比较靠前的链接,并分析出其是广告链接的判断,并按分析出的大部分数据,进行数量的逻辑回归分析,得出站内统计数量与站外统计数量的广告判断阀值;

步骤5:通过统计并计算出来的广告判断阀值,在每次浏览网站时对所有的请求链接进行阀值统计判断,超过站内阀值或超过站外阀值的链接,相当于是广告进行屏蔽。

所述的支持大数据量的存取,并且可进行链接快速寻找定位的方法是:

(1):依照链接的唯一性,按整个链接地址作为特征值;

(2):对链接地址进行md5值的计算,得出md5值,再通过哈希算法,算出从1至n的哈希值;

(3):在数据的存储结构设计上,设计存储数据的空间,md5值的空间及哈希值的空间,通过哈希值设计一个一致性哈希的存储空间,用于大量数据的快速存储与读取。

所述的步骤2是:

选取多个主要的浏览网站的主站入口,从主站进入不断分析各个网站上的所有链接,并保存主站的信息;

各网站上的各个页面有大量的链接信息,在进行统计时需按递归嵌套的方式不断进行获取,并把获取的信息,按属于站内的信息与站外的信息进行累计,把最新的累计信息保存到存储空间上;

不断循环各个主要网站的入口及站内链接,直到所有主要的链接都处理完毕。

对所有的网站的链接请求进行累计完成后,对所有的链接统计进行从多到少的排序,大概浏览所有链接请求信息,判断出其中一部分的广告信息;

从站内统计与站外统计及是否广告信息中,通过线性逻辑分析,计算出站内统计与站外统计的是否为广告的阀值,判断链接是否为广告链接,可通过阀值进行计算判断;

对于是否为广告的链接,可通过一个标识位进行判断,用于对阀值判断失误的修正。

在浏览网页时,通过分析获取网页的所有链接请求,并通过计算出的阀值进行计算判断,对于是广告的链接,直接进行屏蔽不进行请求;对于非广告的链接按正常的请求进行处理。

本发明的有益效果是:

通过对事先对相关的网站的所有请求链接进行大数据的分析,并在进行浏览网页时判断出广告的链接进行屏蔽,从而提高用户在浏览网站时的舒适性,并提高浏览的效率。

通过这种方法,可极大地过滤掉大部分的广告链接,减少用户每次打开网站时弹出的广告信息,减少进行广告链接的请求,节约数据流量,特别是对于使用移动网络的用户,从这里可极大节约数据流量。

利用大数据对大量网址的特征分析,得出正常的网页与广告区分方法,并利用此方法进行广告信息屏蔽的方法。

附图说明

下面结合附图对本发明进一步说明:

图1是本发明网站链接大数据统计分析流程;

图2是本发明判断是否为广告链接请求流程图。

具体实施方式

如图1-2所示,本发明的方法实现流程如下:

网站链接大数据分析流程步骤为:

步骤1:获取多个主要的浏览网站,并从主页进入并嵌套获取各个页面的所有请求链接;

步骤2:对各链接进行md5计算及哈希值计算,并从存储空间上获取是否已经存储的数据;

步骤3:通过从存储空间上获取数据进行站内与站外的重复性统计,用于后续的是否广告的阀值判断;

步骤4:分析各链接的重复数量比较靠前的链接,并分析出其是广告链接的判断,并按分析出的大部分数据,进行数量的逻辑回归分析,得出站内统计数量与站外统计数量的广告判断阀值;

步骤5:计算出来的广告判断阀值保存在指定的空间上,用于后续的请求是否进行屏蔽的判断。

广告链接屏蔽流程图为:

步骤1:从请求的页面上获取页面包括的二次请求的所有链接;

步骤2:对所有的二次请求的链接进行md5计算、哈希值计算,并从存储空间上获取其站内统计及站外统计、是否为广告标示;

步骤3:通过是否为广告标示可以直接判断二次请求是否为广告,如果是为广告直接屏蔽不再请求;

步骤4:如果是否为广告标示没有明确的标识,则通过计算出的阀值,判断站内统计与站外统计,是否为广告,如果通过阀值判断是广告的,直接屏蔽不再请求;

步骤5:把所有的二次请求判断完毕,并对是广告的数据进行最终的屏蔽,以节约数据请求的带宽及流量。

在一个网页页面的请求过程中,广告经常是以链接的形式存在,当页面在加载时,再通过链接进行广告页面的附加加载,而且对于广告的链接,经常是在同个网站的不同页面,或是在不同网站上的不同页面上出现,所以此方法通过在页面进行进一步加载前,对整个页面的链接进行分析,并后续计算出广告在各主要网站上的出现阀值,通过对阀值的计算判断各个链接是否为广告。

由于对链接的请求分析,是在网页的显示前进行,所以此方法的关键在于进行链接的是否为广告的判断,并对判断有较高的响应需求,此时需使用到快速的链接寻找技术,在极短的时间内获取链接的站内及站外的累计信息,并进行判断,在短时间内过滤掉为广告的信息。

通过计算分析出来的链接在站内及站外的阀值判断,有可能出现不是广告但被归类为广告的情况,此时判断系统提供一个标示位,进行人工的判断纠错,对于明确是广告的直接标识为广告链接,对于不是广告链接的直接标识为非广告链接,这样可减少并纠正判断引起的错误。

整个系统从主要网站的链接递归分析并进行站内站外的累计计算,到进行是否为广告的逻辑回归判断分析计算判断阀值,到最终的在页面浏览时的请求判断,整个过程都是一个不断循环回归、优化的过程,整个判断系统不断地增加相关的链接及广告链接的判断,再不断地进行逻辑的回归、优化,从而不同的优化整个系统的大数据判断能力,从而不断提高广告链接的判断准确性。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1