一种广告监测的预警方法及系统的制作方法_2

文档序号:9579756阅读:来源:国知局
围内。所述阈值范围根据需要而设定,例如根据用户要求的预警敏感度等。本文中的相似度,既可以是单个特征比对的相似度,也可以是多特征融合的相似度。在很多的情况下,是指在某临界阈值以上。根据场合,所述临界阈值可以是第一临界阈值Si,第三临界阈值&,或第四临界阈值S4。也可以在两个临界阈值之间的范围。
[0052]在本发明中,相似度利用例如Hash算法进行计算,也可以根据需要使用本领域技术人员知晓的其他算法,只要可以计算相似度即可,例如SIFT算法、SURF算法,OpenCV等。
[0053]在对比图像时,通常使用的向量空间模型,也就是把视觉特征看作是向量空间中的点,通过计算两个点之间的接近程度(包括距离、长度或方向等)来衡量图像特征间的相似度。常用的度量方法包括但不限于街区距离、欧式距离、无穷范数、直方图相交、二次式距离、马氏距离、EMD距离、相似度度量、余弦相似度等等。
[0054]本发明中,本领域技术人员可以使用任何算法和模型来计算与特征库特征对比时的相似度。
[0055]根据预设的预警规则,当相似度阈值在预设的范围内时,对服务器发送预警信号。预警的具体方式和频率可以根据需要而设定,只要使服务器监管人员得知即可。
[0056]发送预警的场景可以根据客户需要而定,例如有监测代码却无可视广告(即,有监测代码而相似度很低),可以视为投放错误;或者是有可视广告但无监测代码(即,相似度很高却无监测代码),也可以视为投放错误;或是其他需要提请广告主注意的情形。
[0057]为了使预警越来越准确,从机器学习和完善特征库的角度出发,本发明中的特征库优选为自增库。对于相似度在特定阈值范围内的特征,或是经比对与老特征“相符”的特征,可以自动添加至特征库,也可以通过设定其他条件,选择性地进入特征库。对于新特征,可以通过发送专家干预请求,人工判断是否添加至特征库。
[0058]所述专家干预可以在发送预警之前、同时或之后进行。优选在发送预警之前进行,如果确认加入特征库,则返回特征比对,重新计算相似度阈值;如果确认不加入特征库,则向广告监测服务器发出预警信号。
[0059]实施例1
[0060]图1是根据本发明第一方面的方法的一个实施方式的示意图。
[0061]步骤101,利用网络嗅探器接收数据包,并解析。
[0062]所述网络嗅探器带有Javascript和Flash模拟器,布置在分布式网络中,获取网络数据包,通过解析得到URL,系统信息,设备信息,cookie, IP信息,等。
[0063]步骤102,当解析发现特定监测代码时,启动爬虫任务,下载该监测代码所在的网页内容。
[0064]当解析发现特定的监测代码时,启动爬虫任务,以该监测代码所在URL为起点,爬取该监测代码所在的网页内容。
[0065]步骤103,对所述网页进行截屏,并将该截屏图像与特征库中的特征进行对比。
[0066]所述特征可以是图像、视频、或文字等。为了进行对比,先将截屏图像进行图文识另IJ,再以识别出的特征与特征库中的特征进行对比,利用Hash算法计算出相似度。
[0067]在比对时,在特征比对时,将与特征库相符的特征标注为老特征,不相符的标注为新特征。
[0068]步骤104,当相似度小于第一临界阈值Si时,向监测服务器发出预警。
[0069]用户可根据需要设定Si,例如90%。也可以设定不同阈值范围内发送预警的方式。例如SiS 90%时立即发送预警,连发10次;Si’为70%时,连发5次等。
[0070]实施例2
[0071]图2是根据本发明第二方面的方法的一个实施方式的示意图。
[0072]步骤201,启动爬虫任务,对爬取的内容进行图文识别、扩充校验;
[0073]步骤202,与特征库中的特征数据进行比对;
[0074]所述特征库中的特征数据源自图像、文字、视频等。
[0075]步骤203,当比对的相似度在第三临界阈值S3以上时,查询该内容所在网页是否存在监测代码;S3为85%。
[0076]步骤204,如果没有发现监测代码,则向服务器发出预警。
[0077]实施例3
[0078]图3是根据本发明第一方面的方法的另一个实施方式的示意图。
[0079]其中步骤301?303分别对应图1中的101?103,不同在于步骤304和305。当相似度小于第一临界阈值Si时,向服务器发送预警,同时发送专家干预请求,请求确认新特征是否加入特征库。如果人工判断加入特征库,则重新计算相似度。
[0080]在又一个实施方式中,也可以在向服务器发送预警之前发送专家干预请求,请求确认新特征是否加入特征库。
[0081]如果确认加入特征库,则返回特征比对,重新计算相似度阈值;
[0082]如果确认不加入特征库,则向广告监测服务器发出预警信号。
[0083]根据本发明的一个优选的实施方式,当相似度在第二临界阈值&以上时,向服务器发送专家干预请求,请求确认是否将该新特征加入特征库,其中S2< S 10
[0084]在实际应用中,由于分布式爬虫任务持续不断地进行,因此上述各种实施方式有可能混合实施。例如在进行实施例1的过程中,爬虫程序在爬取特定监测代码所在的网页内容后,增加深度或广度爬取了其他网页,从而触发了实施例2的实施方式。
[0085]图4是根据本发明第三方面的系统的一个实施方式的示意图。
[0086]嗅探模块接收到的数据启动爬虫模块,爬虫模块爬取的数据经过图文识别,存入数据仓库,并与特征库中的数据进行比对。当达到发送预警条件时,通过预警模块发送预目ο
[0087]本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
[0088]本发明已经通过上述实施例进行了说明,但应当理解的是,上述实施例只是用于举例和说明的目的,而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是,本发明并不局限于上述实施例,根据本发明的教导还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。
【主权项】
1.一种广告监测预警方法,其包括 启动爬虫,利用网络爬虫爬取网页并进行识别; 网页截屏,当检测到特定监测代码时,对该网页进行截屏; 特征比对,识别该截屏中的图文信息,与特征库中数据进行比对; 发送预警,当相似度小于第一临界阈值S1时,向广告监测服务器发出预警信号。2.根据权利要求1所述的方法,其中 在特征比对时,将与特征库相符的特征标注为老特征,不相符的标注为新特征。3.根据权利要求2所述的方法,其中 当相似度在在第二临界阈值&以上时,向服务器发送专家干预请求,请求确认是否将该新特征加入特征库,其中S2< S 1; 如果确认加入特征库,则返回特征比对,重新计算相似度阈值; 如果确认不加入特征库,则向广告监测服务器发出预警信号。4.根据权利要求1所述的方法,其中所述特定监测代码是通过网络嗅探器检测到的。5.一种广告监测预警方法,其包括 启动爬虫,利用网络爬虫爬取网页并进行识别; 特征比对,将爬取的数据与特征库中的数据进行比对; 发送预警,当相似度在第三临界阈值&以上时,如果没有检测到特定监测代码,则向广告监测服务器发出预警信号。6.一种广告监测预警系统,包括 爬虫模块,用于爬取网络数据,并进行处理; 预警模块,根据预设的预警规则,当条件符合时,发出预警信息; 数据仓库,存储嗅探模块和爬虫模块获取并处理的数据;和 特征库,存储特征数据用于与数据仓库中的数据比对。7.根据权利要求6所述的系统,其中还包括嗅探模块,利用网络嗅探器接收数据包,并解析。8.根据权利要求6或7所述的系统,其中还包括专家干预模块,当需要增加特征库的特征时,通过专家干预模块引入人工判断。9.根据权利要求6所述的系统,其中所述处理包括图文识别、扩充检验和清洗中的一种或多种。10.根据权利要求7所述的系统,其中所述网络嗅探器带有Javascript和Flash模拟器。
【专利摘要】本发明涉及一种广告监测预警方法,其包括启动爬虫、网页截屏、特征比对和发送预警。本发明还涉及一种广告监测预警方法,其包括启动爬虫,特征比对和发送预警。本发明还涉及一种广告监测预警系统,包括爬虫模块、预警模块、数据仓库、和特征库。
【IPC分类】G06Q30/02
【公开号】CN105335869
【申请号】CN201510618829
【发明人】洪倍
【申请人】精硕世纪科技(北京)有限公司
【公开日】2016年2月17日
【申请日】2015年9月24日
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1