自动化过滤用户点击行为的方法和系统的制作方法

文档序号:6536204阅读:119来源:国知局
自动化过滤用户点击行为的方法和系统的制作方法
【专利摘要】本发明涉及模式识别和机器学习领域,公开了一种自动化过滤用户点击行为的方法和系统,为了解决人工识别URL是否为真正网页费时费力的问题,本发明采用了自主设计开发的爬虫工具爬取URL对应的内容,将不是网页来源的URL对应的host加入黑名单库。有点击发生时,根据该黑名单库过滤出来源于网页的点击。本发明提出的自动化过滤用户点击行为的方法和装置,提高了判断的准确性和时效性,对爬取的内容进行分析、自动识别,根据识别的内容判断是否为网页,使整个判断、匹配过程能够实时处理,提出了根据URL对应的host进行判别、匹配,能够有效缩短匹配时间。
【专利说明】自动化过滤用户点击行为的方法和系统
【技术领域】
[0001]本发明涉及模式识别和机器学习领域,特别涉及一种自动化过滤用户点击行为的方法和系统。
【背景技术】
[0002]在网络统计分析中,分析网络点击的来源是进行精准推荐内容/广告投放的重要前提。通过网络页面上的链接可以打开另一个网页,但有时不是真正通过页面上的链接打开的该页面,而是通过API或图片等,因而识别点击是否来自网页是网络分类统计工作中一项必要而迫切的工作。
[0003]目前识别网络点击来源的方法是通过人工识别统一资源定位符URL是否是网页,然后将不是网页的建立URL黑名单,下次有点击的时候,提取来源URL,与现有URL黑名单中的URL进行字符串匹配,如果在黑名单中,则认为该点击不是来自网页,如果不在黑名单中,则认为该次点击来自网页。
[0004]但是通过人工识别URL是否为网页需要耗费大量的人力和时间,并且识别的URL数量会有限,很难规模化,这样会造成很多误判,即,使许多不是来自网页的点击误判为来自网页。另外很多URL很长,字符数比较多,逐个匹配会花费很多时间,基本达不到实时的效果,会影响到及时地进行点击的真实性判断,更会影响到后续的数据分析。

【发明内容】

[0005](一)本发明解决的技术问题:
[0006]目前在网络点击来源识别方面,在规模化、准确性、实时性方面达不到很好的效果,针对现有技术的缺陷,本发明提出了一种新的自动化过滤用户点击行为的方法和装置,解决了自动化识别点击是否来自网页的问题,能够针对大量的数据进行自动识别,降低了人工识别造成的人工和时间上的消耗以及识别的误判率,并且能大大降低URL黑名单库的存储规模,也相应地减少了匹配、识别时间,能够根据点击数据实时识别是否是真正来源于网页的有效点击。
[0007](二)技术方案
[0008]为实现上述目的,本发明提出了一种新的自动化过滤用户点击行为的方法和装置。为了解决人工识别URL是否为真正网页费时费力的问题,本发明采用了自主设计开发的爬虫工具爬取URL对应的内容,对爬取的内容进行识别,如果是网页则不做处理,如果不是网页,则提取URL对应的host,将host加入黑名单库。有点击发生时,会自动取出来源URL,截取host,与黑名单库中的host进行匹配,如果匹配到,则认为点击来源不是网页,如果没有匹配到,则认为该点击来源于网页。
[0009]具体地,一方面,本发明提供一种自动化过滤用户点击行为的方法,其特征在于,所述方法包括步骤:黑名单库建立阶段和点击过滤阶段。
[0010](I)黑名单库建立阶段,采用了自主设计开发的爬虫工具爬取URL对应的内容,对爬取的内容进行识别,如果是网页则不做处理,如果不是网页,则提取URL对应的host,将host加入黑名单库;
[0011](2)点击过滤阶段,有点击发生时,自动获取来源URL,截取host,与黑名单库中的host进行匹配,如果匹配到,则认为点击来源不是网页,如果没有匹配到,则认为该点击来源于网页;
[0012]步骤(I)和步骤(2)可重复进行。
[0013]优选地,每天定时启动黑名单库建立阶段对黑名单库进行补充。
[0014]优选地,步骤(I)中识别爬取的内容不是网页具体为识别爬取的URL对应的内容是图片或API。
[0015]优选地,步骤(2)的点击过滤阶段由捕获到点击事件自动启动的,全过程自动进行,无需人工干涉
[0016]优选地,步骤(2)中对host进行了编码处理。
[0017]另一方面,本发明提供一种自动化过滤用户点击行为的系统,其特征在于,所述系统包括模块:黑名单库建立模块和点击过滤模块。
[0018](I)黑名单库建立模块,采用了自主设计开发的爬虫工具爬取URL对应的内容,对爬取的内容进行识别,如果是网页则不做处理,如果不是网页,则提取URL对应的host,将host加入黑名单库;
[0019](2)点击过滤模块,有点击发生时,自动获取来源URL,截取host,与黑名单库中的host进行匹配,如果匹配到,则认为点击来源不是网页,如果没有匹配到,则认为该点击来源于网页;
[0020]黑名单库建立模块和点击过滤模块可重复执行。
[0021]优选地,每天定时启动黑名单库建立阶段对黑名单库进行补充。
[0022]优选地,黑名单库建立模块中识别爬取的内容不是网页具体为识别爬取的URL对应的内容是图片或API。
[0023]优选地,点击过滤模块由捕获到点击事件自动启动的,全过程自动进行,无需人工干涉
[0024]优选地,点击过滤模块对host进行了编码处理。
[0025](三)技术效果
[0026]本发明提出的自动化过滤用户点击行为的方法和装置,提高了判断的准确性和时效性。本发明根据URL对应的host进行判别、匹配,而不是采用传统的直接使用URL进行匹配,能有效缩短匹配时间;此外,通过对爬取的内容进行分析、自动识别,根据识别的内容判断是否为网页,使整个判断、匹配过程能够实时处理。
【专利附图】

【附图说明】
[0027]图1是本发明中自动化过滤用户点击行为的方法流程示意图;
[0028]图2是本发明中自动化过滤用户点击行为的URL黑名单库建立阶段的流程示意图;
[0029]图3是本发明中自动化过滤用户点击行为的点击过滤阶段的流程示意图;
[0030]图4是本发明中自动化过滤用户点击行为的装置示意图。【具体实施方式】
[0031]下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0032]为了解决人工识别URL是否为真正网页费时费力的问题,本发明采用了自主设计开发的爬虫工具爬取URL对应的内容,对爬取的内容进行识别,如果是网页则不做处理,如果是图片或API,则提取URL对应的host,将host加入黑名单库。有点击发生时,会自动取出来源URL,截取host,与黑名单库中的host进行匹配,如果匹配到,则认为点击来源不是网页,如果没有匹配到,则认为该点击来源于网页。
[0033]图1是本发明中自动化过滤用户点击行为的方法流程示意图。在本发明公开的方法分为两个阶段:黑名单库建立阶段和点击过滤阶段。黑名单库建立阶段是点击过滤阶段的基础,但两者并不具有绝对的先后顺序,可以同步进行,可以先后进行,也可以交叉顺序进行,在点击过滤阶段之后,还可以进一步完善黑名单库,随着黑名单库的不断完善,对网络点击是否来源于网页进行识别的点击过滤阶段的准确率也能够得到不断地提高。为了丰富黑名单库,每天定时对黑名单库进行补充。
[0034]图2是本发明中自动化过滤用户点击行为的黑名单库建立阶段的流程示意图。黑名单库建立阶段具体包含如下步骤:
[0035]S1:获取点击来源的历史数据。
[0036]S2:提取来源 URL。
[0037]S3:爬取URL的内容。该步骤中采用自主设计开发的爬虫工具爬取URL对应的内容。
[0038]S4:识别URL的内容。该步骤中,对爬取的内容进行识别,如果是网页则转步骤S6 ;如果不是网页,例如,URL的内容是图片或API,则转步骤S5。
[0039]S5:提取URL对应的host,将host加入黑名单库。
[0040]S6:流程结束。
[0041]本发明会对近期的点击来源URL都做上述S1-S6步骤的处理,形成的host黑名单库基本覆盖了不是来源于网页的点击的来源host。
[0042]为了丰富黑名单库,每天定时将当天的来源URL进行自动识别,将不是网页的host补充到黑名单库中。
[0043]通过提取host的处理方式,相较于传统的在黑名单库中存储URL的模式,由于URL长度可能很长,存储URL会导致占用很大的存储空间,而本发明中存储host,有效地减少了host黑名单的规模,节省了非常大的存储空间。
[0044]图3是本发明中自动化过滤用户点击行为的点击过滤阶段的流程示意图。点击过滤具体包含以下步骤:
[0045]S1:获取当前点击数据。每当有点击发生时,自动启动该过程。
[0046]S2:提取来源URL,截取host。
[0047]S3:查询host。该步骤中在图2所示的黑名单库建立阶段建立的黑名单库中使用截取到的host进行匹配查找,如果在黑名单库中有对应的host,则转步骤S4 ;如果在黑名单库中没有对应的host,则转步骤S5。
[0048]S4:则判定点击不是来源于网页。
[0049]S5:则判定点击来源于网页。
[0050]该点击过滤阶段的步骤是由捕获到点击事件自动启动的,全过程自动进行,无需人工干涉。
[0051]为了进一步缩短匹配时间,对host进行了编码处理。可以使用现有的编码方式,这样可以提高查询匹配的过程。
[0052]本发明通过提取host进行对比,并且对host进行编码,为判别工作节省了较多的匹配时间。
[0053]图4是本发明中自动化过滤用户点击行为的装置示意图。在本发明公开的装置分为两个模块:黑名单库建立模块和点击过滤模块。黑名单库建立模块是点击过滤模块的基础,但两者并不具有绝对的先后顺序,可以同步进行,可以先后进行,也可以交叉顺序进行,在点击过滤模块运行过程中,还可以进一步完善黑名单库,随着黑名单库的不断完善,对网络点击是否来源于网页进行识别的点击过滤阶段的准确率也能够得到不断地提高。为了丰富黑名单库,每天定时对黑名单库进行补充。
[0054]黑名单库建立模块具体包含如下子模块:
[0055]获取点击来源的历史数据的子模块I。
[0056]提取来源URL的子模块2。
[0057]爬取URL的内容的子模块3。该子模块中采用自主设计开发的爬虫工具爬取URL对应的内容。
[0058]识别URL的内容的子模块4。该子模块中,对爬取的内容进行识别,如果是网页则转的子模块6 ;如果不是网页,例如,URL的内容是图片或API,则转的子模块5。
[0059]提取URL对应的host,将host加入黑名单库的子模块5。
[0060]结束流程的子模块6。
[0061 ] 点击过滤模块具体包含以下的子模块:
[0062]获取当前点击数据的子模块I。每当有点击发生时,自动启动该过程。
[0063]提取来源URL,截取host的子模块2。
[0064]查询host的子模块3。该子模块中在黑名单库建立子模块中建立的黑名单库中使用截取到的host进行匹配查找,如果在黑名单库中有对应的host,则转子模块4 ;如果在黑名单库中没有对应的host,则转子模块5。
[0065]判定点击不是来源于网页的子模块4。
[0066]判定点击来源于网页的子模块5。
[0067]该点击过滤模块是由捕获到点击事件自动启动的,全过程自动进行,无需人工干涉。
[0068]利用本发明提出的自动化过滤用户点击行为的方法和装置,进行了精准内容推荐/广告投放时点击来源的判断,取得了很好的效果。
[0069]本发明提出的自动化过滤用户点击行为的方法和装置,提高了判断的准确性和时效性。本发明根据URL对应的host进行判别、匹配,而不是采用传统的直接使用URL进行匹配,能有效缩短匹配时间;此外,通过对爬取的内容进行分析、自动识别,根据识别的内容判断是否为网页,使整个判断、匹配过程能够实时处理。
[0070] 虽然本发明以最佳实施例的方式揭示如上,然而并非用其限定本发明,本领域技术人员在不脱离本发明的精神和范围内,可做任意的更改和变动。本发明的保护范围仅由所附权利要求书限定的范围为准。
【权利要求】
1.一种自动化过滤用户点击行为的方法,其特征在于,所述方法包括步骤:黑名单库建立阶段和点击过滤阶段, (1)黑名单库建立阶段,采用了自主设计开发的爬虫工具爬取URL对应的内容,对爬取的内容进行识别,如果是网页则不做处理,如果不是网页,则提取URL对应的host,将host加入黑名单库; (2)点击过滤阶段,有点击发生时,自动获取来源URL,截取host,与黑名单库中的host进行匹配,如果匹配到,则认为点击来源不是网页,如果没有匹配到,则认为该点击来源于网页; 步骤(I)和步骤(2 )可重复进行。
2.如权利要求1所述的方法,其特征在于:每天定时启动黑名单库建立阶段对黑名单库进行补充。
3.如权利要求1所述的方法,其特征在于:步骤(I)中识别爬取的内容不是网页具体为识别爬取的URL对应的内容是图片或API。
4.如权利要求1所述的方法,其特征在于:步骤(2)的点击过滤阶段由捕获到点击事件自动启动的,全过程自动进行,无需人工干涉。
5.如权利要求1所述的方法,其特征在于:步骤(2)中对host进行了编码处理。
6.一种自动化过滤用户点击行为的系统,其特征在于,所述系统包括模块:黑名单库建立模块和点击过滤模块, (1)黑名单库建立模块,采用了自主设计开发的爬虫工具爬取URL对应的内容,对爬取的内容进行识别,如果是网页则不做处理,如果不是网页,则提取URL对应的host,将host加入黑名单库; (2)点击过滤模块,有点击发生时,自动获取来源URL,截取host,与黑名单库中的host进行匹配,如果匹配到,则认为点击来源不是网页,如果没有匹配到,则认为该点击来源于网页; 黑名单库建立模块和点击过滤模块可重复执行。
7.如权利要求6所述的系统,其特征在于:每天定时启动黑名单库建立阶段对黑名单库进行补充。
8.如权利要求6所述的系统,其特征在于:黑名单库建立模块中识别爬取的内容不是网页具体为识别爬取的URL对应的内容是图片或API。
9.如权利要求6所述的系统,其特征在于:点击过滤模块由捕获到点击事件自动启动的,全过程自动进行,无需人工干涉。
10.如权利要求6所述的系统,其特征在于:点击过滤模块对host进行了编码处理。
【文档编号】G06F17/30GK103778216SQ201410024160
【公开日】2014年5月7日 申请日期:2014年1月20日 优先权日:2014年1月20日
【发明者】崔晶晶, 林佳婕, 吴鹏, 马占国, 李春华, 刘立娜 申请人:北京集奥聚合科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1