一种广告监测的预警方法及系统的制作方法

文档序号:9579756阅读:423来源:国知局
一种广告监测的预警方法及系统的制作方法
【技术领域】
[0001]本发明涉及一种广告监测的预警方法,特别是一种利用爬虫技术的广告监测预警方法。本发明还涉及一种广告监测的预警系统。
【背景技术】
[0002]随着互联网技术的发展,广告主选择投放网络广告的比例逐渐增大。网络广告的计费方式主要的方式有按点击付费(CPC)和按千次曝光付费(CPM)。不论是哪一种,均有可能造假或滥用,给广告主带来损失。常用的广告监测方法是在广告页中加入监测代码,最终完成计数功能。没有一项技术能够在计数功能以外,帮助广告主了解自己的广告是否被滥用,或是被骗点击。

【发明内容】

[0003]有鉴于此,本发明提供一种广告监测的预警方法,可以在网页中识别不正常的广告行为,向广告监测服务器发送预警。
[0004]根据本发明的第一方面,本发明涉及一种广告监测预警方法,其包括:
[0005]利用网络爬虫爬取网页并进行识别;
[0006]当检测到特定监测代码时,对该网页进行截屏,识别该截屏中图文信息,与特征库中数据进行比对,当相似度小于第一临界阈值SJ#,则向广告监测服务器发出预警信号。
[0007]所述Si范围为60%?95%,优选70%?90%,更优选75%?85%。
[0008]根据本发明的一个实施方式,在特征比对时,将与特征库相符的特征标注为老特征,不相符的标注为新特征。
[0009]所述“相符”是指单个特征比对和/或多特征融合的相似度在第一临界阈值SiW上。
[0010]根据本发明的一个优选的实施方式,当相似度在第二临界阈值&以上时,向服务器发送专家干预请求,请求确认是否将该新特征加入特征库。
[0011]所述S2范围优选为50%?95%,再优选为55%?90%,更优选为60%?85% ;且,其中s2< S1<3
[0012]根据本发明的一个实施方式,所述特定监测代码是网络嗅探器检测到的。优选的,所述网络嗅探器带有Javascript和Flash模拟器。
[0013]在本发明中,所述相似度包括单个特征的相似度和/或多特征融合的相似度。
[0014]根据本发明的第二方面,本发明涉及一种广告监测预警方法,其包括利用网络爬虫爬取网页并进行识别;
[0015]将爬取的数据与特征库中的数据进行比对,当相似度在第三临界阈值&以上时,如果没有检测到特定监测代码,则向广告监测服务器发出预警信号。
[0016]所述S3范围为60%?95%,优选70%?90%,更优选75%?85%。
[0017]在本发明的一个实施方式中,特征库为自增库,当发现新特征时,向服务器发送专家干预请求,请求确认是否将该新特征加入特征库。
[0018]根据本发明的第三方面,本发明涉及一种广告监测预警系统,包括爬虫模块、预警模块、数据仓库和特征库,其中
[0019]爬虫模块,用于爬取网络数据,并进行处理;
[0020]预警模块,根据预设的预警规则,当条件符合时,发出预警信息;
[0021]数据仓库,存储嗅探模块和爬虫模块获取并处理的数据;和
[0022]特征库,存储特征数据用于与数据仓库中的数据比对。
[0023]优选的,所述处理包括图文识别、扩充检验和清洗中的一种或多种。
[0024]在本发明的一个实施方式中,所述预警规则是当检测到特定监测代码时,对该网页进行截屏,识别该截屏中图文信息,与特征库中数据进行比对,当相似度小于第一临界阈值SJ#,则向广告监测服务器发出预警信号。
[0025]所述Si范围为60%?95%,优选70%?90%,更优选75%?85%。
[0026]在本发明的另一个实施方式中,所述预警规则是将爬取的数据与特征库中的数据进行比对,当相似度在第三临界阈值S3以上时,如果没有检测到特定监测代码,则向广告监测服务器发出预警信号。
[0027]所述S3范围为60%?95%,优选70%?90%,更优选75%?85%。
[0028]在本发明的一个实施方式中,所述系统还包括嗅探模块,利用网络嗅探器接收数据包,并解析。
[0029]在本发明的一个实施方式中,所述爬虫模块基于所述嗅探模块分析出的广告监测代码启动爬虫任务。
[0030]在本发明的一个实施方式中,所述系统还包括专家干预模块,当需要增加特征库的特征时,通过专家干预模块引入人工判断。
[0031 ] 优选的,所述特征库为自增库。
[0032]优选的,所述特征库可以通过人工或是自动增加特征。
[0033]优选的,所述特征库可以自动添加相似度在第四临界阈值S4&上的新特征。
[0034]所述S4范围为60%?95%,优选70%?90%,更优选75%?85%。
[0035]在本发明中涉及的各个阈值范围均可以相同或不同,可以根据需要而设定。除非特别指明不同阈值范围的逻辑关系,否则各阈值范围相互独立,本领域技术人员按照说明书阐释的内容,以及用户的要求,很容易选择合适的阈值范围。本发明并不排除各阈值范围存在的实质上的逻辑关系,例如在某阈值范围发送预警,而在其他的阈值范围不发送预警等。
【附图说明】
[0036]本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述,用来解释本发明的原理。在附图中,
[0037]图1是根据本发明第一方面的方法的一个实施方式的示意图。
[0038]图2是根据本发明第二方面的方法的一个实施方式的示意图。
[0039]图3是根据本发明第一方面的方法的另一个实施方式的示意图。
[0040]图4是根据本发明第三方面的系统的一个实施方式的示意图。
【具体实施方式】
[0041]在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员来说显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
[0042]本文中所用术语“网络嗅探器”是指Sniffer,可以是软件,也可以是硬件,用于监听网络上流经的数据包。软件形式的网络嗅探器可以是单独的软件,也可以是浏览器插件,一般被加载在浏览器和网卡驱动程序上。在真实的网络环境中,数据在网络上是以很小的称为帧(Frame)的单位传输。一般数据的收发是由网卡来完成的,因此网络嗅探器可以捕获网卡驱动程序接收的数据包,并对数据包进行分析。
[0043]由于广告经常是以图像、视频、动画等方式呈现,因此本发明中的网络嗅探器优选带有Javascript和Flash模拟器。
[0044]本文中“广告监测代码”、“特定监测代码”、“监测代码”是指根据广告主的需要,添加到网页中的代码,包括但不限于曝光量监测代码和/或点击量监测代码。例如,应广告主要求将JavaScript代码添加到网站上,访客访问网站,浏览器加载并响应JavaScript代码,此段代码经收集、处理、储存访客的信息,最后将访客信息发送到服务器分析并处理数据。或者是,例如广告素材是Flash图片,可以将点击量代码替换Object标签中的Codebase属性值,将曝光量代码插入到Flash素材中。对于确定的广告主,作为广告监测业务提供商,自然知晓需要监测的广告所使用的监测代码的种类和【具体实施方式】。本发明中所涉及的“广告监测代码”、“特定监测代码”、“监测代码”并不限于上面提到的具体的监测代码的类型和实施方式,而是包括任何能够实现对广告投放效果进行监测的代码类型和实施方式。
[0045]本文中的“网络爬虫”,又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
[0046]爬虫任务可以根据预设条件启动,例如当嗅探器分析数据包中包含特定监测代码,或其他特定信息时,启动爬虫并进行网页截屏。爬虫任务可以根据预设的调度规则进行爬取。在本发明中,爬虫任务例如可以爬取包含特定监测代码或其他涉及预设条件的网页内容,所述网页内容包括但不限于文字、图像、视频、动画等。
[0047]在本发明中,爬虫任务也可以因为其他条件而启动。在爬取的过程中发现特定监测代码,并进行网页截屏。
[0048]本文中的“网页截屏”可以通过例如网页快照(WebCache)或抓图插件(例如Google提供的API)等方式实现,目的是呈现出广告受众看到的该网页的真实情况。例如以图像形式呈现的广告,如果像素缩小到1X1,则广告受众无法看到该广告。在此情况下,虽然该网页有监测代码,可以计数,但并不能实现投放广告的效果。
[0049]在爬取网页内容的过程中,爬虫程序对获得的网页内容进行图文识别、扩充检验和清洗中的一种或多种,数据存入数据仓库中,并与特征库中的特征数据进行比对,与特征库相符的特征标注为老特征,不相符的标注为新特征。
[0050]对于标注的方式并没有限制,只要能将特征区分出来即可。
[0051]本文中所述的“相符”是指特征的相似度在一定阈值范
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1