广告识别规则归纳方法、装置及设备与流程

文档序号:11920786阅读:180来源:国知局
广告识别规则归纳方法、装置及设备与流程
本发明涉及互联网
技术领域
,具体地说,涉及一种广告识别规则归纳方法、装置及设备。
背景技术
:随着互联网的普及与发展,越来越多的用户已经习惯在诸如手机、平板电脑之类的终端设备上浏览网页,获取资讯。然而,用户在享受上述一系列便利时,随之而来的网页广告也越来越多,例如横幅Banner广告、按钮广告、弹出窗口广告、页面悬浮广告和插页广告等。对于使用手机等移动终端浏览网页的用户而言,在显示屏幕空间有限的情况下,这些网页广告不仅会影响资讯的获取,而且还会消耗网络流量。因此,如何有效过滤网页中的广告是业界正在研究解决的问题。目前广泛使用的广告过滤方法主要是使用广告过滤软件进行过滤,如AdBlock、净网大师等。使用广告过滤软件可以对网页中的横幅、弹窗、视频等形式的广告进行过滤,在一定程度上可以满足用户的过滤需求。但是,广告过滤软件的过滤规则需要经常更新才能满足用户的需求,因此,需要使用大量的人力经常维护软件的更新,才能使得其可以准确地过滤广告,满足用户的需求。技术实现要素:本发明要解决的一个技术问题是提供一种广告识别规则归纳方法、装置及设备,其能够自动归纳广告识别规则。根据本发明的一个方面,公开了一种广告识别规则归纳方法,包括:基于第一网址列表生成训练集,训练集包括第一网址列表中各网址所对应网页中的至少部分元素及其广告识别特征;根据人工和/或通过广告识别软件进行识别的结果,将训练集中的每一个元素标注为广告元素或非广告元素;通过机器学习算法,基于训练集中各元素的广告识别特征及其是否为 广告元素的标注结果,得到广告识别模型;基于第二网址列表生成测试集,测试集包括第二网址列表中各网址所对应网页中的至少部分元素及其广告识别特征;基于测试集中各元素的广告识别特征,使用广告识别模型识别测试集中的广告元素;对测试集中的广告元素的统一资源定位符进行归纳,得到广告识别规则。由此,可以先通过人工标注或广告识别软件或两者结合的方式,将训练集中的各个元素标记为广告元素或非广告元素,然后根据这些广告元素和非广告元素及其对应的广告识别特征,可以通过机器学习模型建立广告识别模型,然后使用建立好的广告识别模型对测试集进行识别,识别出测试集中的广告元素,将识别出的广告元素的统一资源定位符进行归纳,就可以得到新的广告识别规则。此时,可以使用新的广告识别规则来识别页面中的广告元素,也可以将新的广告识别规则和人工标注的规则/广告识别软件的广告识别规则进行结合,来识别页面中的广告元素,以实现精确地识别出网页中的广告元素的目的。优选地,该方法还可以包括:呈现测试集中符合广告识别规则的元素;根据对所呈现的元素的人工判断来筛选广告识别规则。由此,在使用广告识别模型识别出测试集中的广告元素后,还可以增一个加人工筛选步骤,以筛选出标记错误的广告元素,以使得归纳得出的广告识别规则可以更加准确。优选地,该方法还可以包括迭代执行以下步骤:根据广告识别规则对训练集中的元素重新进行识别,以将训练集中的元素重新标注为广告元素或非广告元素;通过机器学习算法,基于训练集中各元素的广告识别特征及其是否为广告元素的重新标注结果,得到广告识别模型;基于第二网址列表生成测试集,测试集包括第二网址列表中各网址所对应网页中的至少部分元素及其广告识别特征;基于测试集中各元素的广告识别特征,使用广告识别模型识别测试集中的广告元素;对测试集中的广告元素的统一资源定位符进行归纳,得到广告识别规则;呈现测试集中符合所述广告识别规则的元素;根据对所呈现的元素的人工判断来筛选广告识别规则。由此,在得到广告识别规则后,可以根据获取的广告识别规则对训练集中的元素重新标注,根据标注结果重新建立广告识别模型,基于重新建立的广告识别模型,再对测试集中的元素重新标注,根据标注结果再重新 获取一个广告识别规则,通过人工对重新获取的广告识别规则进行筛选,将明显不合适的剔除,然后可以重复执行上述步骤。多次迭代后得到的广告识别规则可以取并集,作为一个最终的广告识别规则,这样得到的广告识别规则可以过滤掉页面中大部分的广告元素,而较少地发生误判,过滤效果显著。优选地,在上述方法中,训练集中的元素可以包括通过广告识别软件从第一网址列表中各网址所对应网页中识别出的所有广告元素和至少部分非广告元素;测试集中的元素可以包括通过广告识别软件从第二网址列表中各网址所对应网页中识别出的所有广告元素和至少部分非广告元素。由此,训练集和测试集中的元素包括通过广告识别软件从第一网址列表、第二网址列表中各网址所对应网页中识别出的所有广告元素,这样,通过训练集中的标注结果建立广告识别模型时,可以提高广告识别模型的准确度。并且,在利用所建立的广告识别模型对测试集中广告元素进行识别,并对识别为广告元素的统一资源定位符进行归纳时,由于测试集中包含较多的广告元素,这样,可以使得归纳出的广告识别规则更加全面、准确。另外,可以通过使用正负样本进行训练的方式得到广告识别模型,也就是说,训练集和测试集中可以同时包含广告元素和非广告元素。这样,可以得到正确率较高的广告识别模型,从而可以提升广告识别模型的实用性。优选地,在上述广告识别规则归纳方法中,广告识别特征可以包括源代码中是否包含特定字符串组合、在异域网站出现的次数、元素是否为条形、层叠样式表中的定位属性、图片格式、动态图片帧数。根据本发明的另一个方面,还公开了一种广告识别规则归纳装置,包括:训练集生成模块,用于基于第一网址列表生成训练集,训练集包括第一网址列表中各网址所对应网页中的至少部分元素及其广告识别特征;元素标注模块,用于根据人工和/或通过广告识别软件进行识别的结果,将训练集中的每一个元素标注为广告元素或非广告元素;广告识别模型生成模块,用于通过机器学习算法,基于训练集中各元素的广告识别特征及其是否为广告元素的标注结果,得到广告识别模型;测试集生成模块,用于基于第二网址列表生成测试集,测试集包括第二网址列表中各网址所对应网页中的至少部分元素及其广告识别特征;元素识别模块,用于基于测试集 中各元素的广告识别特征,使用广告识别模型识别测试集中的广告元素;归纳模块,用于对测试集中的广告元素的统一资源定位符进行归纳,得到广告识别规则。优选地,该装置还可以包括:元素呈现模块,用于呈现测试集中符合广告识别规则的元素;广告识别规则筛选模块,用于根据对所呈现的元素的人工判断来筛选广告识别规则。优选地,在上述广告识别规则归纳装置中,训练集生成模块生成的训练集中的元素包括通过广告识别软件从第一网址列表中各网址所对应网页中识别出的所有广告元素和至少部分非广告元素;测试集生成模块生成的测试集中的元素包括通过广告识别软件从第二网址列表中各网址所对应网页中识别出的所有广告元素和至少部分非广告元素。根据本发明的另一个方面,还公开了一种广告识别规则归纳设备,包括输入装置、网络模块、存储器、显示器以及处理器,其中,输入装置接收用户输入的第一网址列表和第二网址列表;网络模块用于访问第一网址列表和第二网址列表中各网站所对应的网页;处理器基于网络模块从第一网址列表中各网址获得的网页数据生成训练集,并将训练集存储在存储器上,训练集包括第一网址列表中各网址所对应网页中的至少部分元素及其广告识别特征,处理器根据人工和/或通过广告识别软件进行识别的结果,将训练集中的每一个元素标注为广告元素或非广告元素,并将标注结果对应地存储在存储器上;处理器通过机器学习算法,基于训练集中各元素的广告识别特征及其是否为广告元素的标注结果,得到广告识别模型;处理器基于网络模块从第二网址列表中各网址获得的网页数据生成测试集,并将测试集存储在存储器上,测试集包括第二网址列表中各网址所对应网页中的至少部分元素及其广告识别特征;处理器基于测试集中各元素的广告识别特征,使用广告识别模型识别测试集中的广告元素;处理器对测试集中的广告元素的统一资源定位符进行归纳,得到广告识别规则,并将广告识别规则存储在存储器上。优选地,在上述广告识别规则归纳设备中,在显示器上呈现测试集中符合广告识别规则的元素,处理器根据用户通过输入装置输入的判断结果来筛选广告识别规则。综上,本发明公开的广告识别规则归纳方法、装置及设备,可以根据 广告识别软件和/或人工的广告识别规则,将训练集中的元素标注为广告元素或非广告元素,根据训练集中各个元素标注结果生成关于广告识别特征的广告识别模型,再使用得到的广告识别模型将测试集中的各个元素标注为广告元素或非广告元素,最后对测试集中的广告元素的统一资源定位符进行归纳,就可以得到新的广告识别规则,新的广告识别规则可以作为现有人工过滤规则或软件过滤规则的补充,以更好地识别网页中的广告元素。由此,最终得到的广告识别规则综合了广告识别特征和现有的广告识别规则,因而使用新的广告识别规则可以更好地过滤页面中的广告,降低加载页面时所消耗的流量,提升用户的浏览体验。附图说明通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。图1示出了本发明的广告识别规则归纳方法的示意性流程图。图2示出了根据本发明的另一个实施例的广告识别规则归纳方法的示意性流程图。图3示出了根据本发明的另一个实施例的广告识别规则归纳方法的示意性流程图。图4示出了本发明广告识别规则归纳方法的一个具体实施例的流程示意图。图5是根据本发明页面中广告识别规则归纳装置一个实施方式的结构示意图。图6示出了根据本发明另一个实施例的广告识别规则归纳装置的结构的示意性方框图。图7示出了本发明的广告识别规则归纳设备的示意性方框图。具体实施方式下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使 本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。图1示出了本发明的广告识别规则归纳方法的示意性流程图。其中,图1所示的执行顺序仅是为了更清楚地描述本发明,应该明白,对本发明而言,步骤S140与S110、S120、S130的顺序可以调换,即可以先执行步骤S140,然后执行步骤S110、S120、S130,也可以同时执行,其执行顺序对本发明并无影响。在步骤S110,基于第一网址列表生成训练集。其中,训练集包括第一网址列表中各网址所对应网页中的至少部分元素及其广告识别特征。第一网址列表可以是随机选取的多个网址,也可以是一些比较典型的网址,如可以是页面浏览量(pageview,PV)排名靠前的多个页面的网址。第一网址列表中每个网址所对应的网页包含多个元素,对于第一网址列表中的每个网页,可以选取每个网页中一部分元素及元素对应的广告识别特征作为训练集。广告识别特征可以是广告元素常常具有的一些特征。例如,对于页面中的一个元素来说,当其所对应的源代码中包含某些特定的字符串或字符串组合时,可以认为其是广告元素,如当元素所对应的源代码中包含"ad"或"ads"时,可以认为其是广告元素,此时,"ad"或"ads"就是一个广告识别特征。再例如,对于页面中的一个元素来说,当其在异域网站出现的次数较多时,可以认为其是广告元素,此时,元素在异域网站出现的次数也可以是广告识别特征。再例如,网页中的广告常常固定在页面中的某个位置,或者随着用户移动页面而移动,因此,元素在层叠样式表中的定位属性也可以作为广告识别特征,具体地说,对于定位属性是absolute/fixed定位的元素,可以将其认为是广告元素。另外,元素是否为条形、图片格式、动态图片帧数等都可以作为广告识别特征,此处不再赘述。在步骤S120,根据人工和/或通过广告识别软件进行识别的结果,将训练集中的每一个元素标注为广告元素或非广告元素。也就是说,可以采用人工和/或广告识别软件等现有的广告识别规则对训练集中的元素进行标注,将训练集中每个元素标注为广告元素或非广告元素。其中,在广告识别软件的广告识别规则准确度较高的情况下,可以不再使用人工标注对训练集中的元素进行标注。在步骤S130、通过机器学习算法,基于训练集中各元素的广告识别特征及其是否为广告元素的标注结果,得到广告识别模型。训练集中包括了若干个元素的URL、对应的广告识别特征、是否广告的标注,因此,基于训练集,通过机器学习算法可以得到广告识别模型。广告识别模型标示了广告识别特征和广告元素的对应关系,基于广告识别模型可以判断元素是否为广告元素。在步骤S140,基于第二网址列表生成测试集,测试集包括第二网址列表中各网址所对应网页中的至少部分元素及其广告识别特征。其中,第二网址列表也可以是是随机选取的多个网址,也可以是一些比较典型的网址,如可以是页面浏览量(pageview,PV)排名靠前的多个页面的网址。第一网址列表中每个网址所对应的网页包含多个元素,对于第一网址列表中的每个网页,可以选取每个网页中一部分元素及元素对应的广告识别特征作为测试集。在步骤S150,基于测试集中各元素的广告识别特征,使用广告识别模型识别测试集中的广告元素。使用步骤S130获取的广告识别模型,对测试集中的各个元素进行标注,将其标注为广告元素或非广告元素。在步骤S160,对测试集中的广告元素的统一资源定位符(URL)进行归纳,得到广告识别规则。在使用广告识别模型对测试集中的元素进行标注后,就可以归纳测试集中被标注为广告元素的各个元素的统一资源定位符(URL),得到广告识别规则。其中,针对测试集中被标注为广告元素的各个元素的统一资源定位符,可以有多种归纳方式。例如,当多个元素的统一资源定位符(URL)分别为http://abc.com/ad/1.gif、http://abc.com/ad/2.gif、...时,可以归纳成一个广告识别规则http://abc.com/ad/*.gif。再例如,对于被标记为广告元素的元素,当其中一个的同一资源定位符为http://example.com/ads/banner123.gif时,也可以归纳成广告识别规则http://example.com/ads/banner*.gif。当然,根据被标记为广告元素的统一资源定位符的具体形式,还可以有其它归纳方式,此处不再赘述。在对测试集中被标记为广告元素的统一资源定位符(URL)进行归纳后,可以将归纳得到的广告识别规则与一开始根据人工和/或通过广告识别 软件进行识别时候采取的广告识别规则进行并集处理,也就是将归纳得到的广告识别规则和一开始根据人工和/或通过广告识别软件进行识别时候采取的广告识别规则作为新的广告识别规则。综上,本发明的广告识别规则归纳方法,可以根据广告识别软件和/或人工的广告识别规则,将训练集中的元素标注为广告元素或非广告元素,根据训练集中各个元素标注结果生成关于广告识别特征的广告识别模型,再使用得到的广告识别模型将测试集中的各个元素标注为广告元素或非广告元素,最后对测试集中的广告元素的统一资源定位符进行归纳,就可以得到新的广告识别规则,新的广告识别规则可以作为现有人工过滤规则或软件过滤规则的补充,以更好地识别网页中的广告元素。由此,最终得到的广告识别规则综合了广告识别特征和现有的广告识别规则,因而使用新的广告识别规则可以更好地过滤页面中的广告,降低加载页面时所消耗的流量,提升用户的浏览体验。图2示出了根据本发明的另一个实施例的广告识别规则归纳方法的示意性流程图。如图2所示,本发明实施例的广告识别规则归纳方法除了包括图1所示步骤外,还包括步骤S170、S180。在步骤S170,呈现测试集中符合广告识别规则的元素。在步骤S180,根据对所呈现的元素的人工判断来筛选广告识别规则。由此,在使用广告识别模型识别出测试集中的广告元素后,还可以增一个加人工筛选步骤,以筛选出标记错误的广告元素,以使得归纳得出的广告识别规则可以更加准确。另外,也可以对归纳得到的广告识别规则进行人工筛选,以排除那些明显归纳不合理的过滤规则。图3示出了根据本发明的另一个实施例的广告识别规则归纳方法的示意性流程图。如图3所示,本发明实施例的广告识别规则归纳方法包含图2所示全部步骤S110至S180,不同之处在于,在依次执行完步骤S110至S180后,还包括迭代执行步骤S190、S130至S180。在步骤S190,根据广告识别规则对训练集中的元素重新进行识别,以将训练集中的元素重新标注为广告元素或非广告元素。其中,训练集可以采用步骤S110得到的训练集,也可以重新获取训练集,重新获取训练集的过程可参见图1中关于步骤S110的叙述。根据广告识别规则对训练集中的元素重新进行识别,其中,广告识别规则可以是执行步骤S160得到的广告识别规则,也可以是执行步骤160得到的广告识别规则和步骤S120采取的人工和/或广告识别软件的过滤规则的叠加。在执行完步骤S190后,依次执行步骤S130至步骤S180,步骤S130至步骤S180的详细描述可参见图1、图2的相关描述,此处不再赘述。其中,应该知道,可以先执行步骤S140,再执行步骤S130,也可以同时执行步骤S130和S140。然后迭代执行步骤S190、S130至S180。其中,重复执行的次数可以根据具体情况设定。综上,在得到广告识别规则后,可以根据获取的广告识别规则对训练集中的元素重新标注,根据标注结果重新建立广告识别模型,基于重新建立的广告识别模型,再对测试集中的元素重新标注,根据标注结果再重新获取一个广告识别规则,通过人工对重新获取的广告识别规则进行筛选,将明显不合适的剔除,然后可以重复执行上述步骤。多次迭代后得到的广告识别规则可以取并集,作为一个最终的广告识别规则,这样,可以使得最终得到的广告识别规则可以过滤掉页面中大部分的广告元素,过滤效果显著。在多次迭代后,可以根据使用广告识别模型进行识别的结果、以及通过广告识别软件进行识别的结果,计算广告识别模型的准确率和查全率,根据计算得到的广告识别模型的准确率和查全率来确定是否需要继续迭代。另外,作为优选,训练集中的元素可以包括通过广告识别软件从第一网址列表中各网址所对应网页中识别出的所有广告元素和至少部分非广告元素,相应地,测试集中的元素可以包括通过广告识别软件从第二网址列表中各网址所对应网页中识别出的所有广告元素和至少部分非广告元素。这样,由于训练集和测试集中的元素包括通过广告识别软件从第一网址列表、第二网址列表中各网址所对应网页中识别出的所有广告元素,这样,通过训练集中的标注结果建立广告识别模型时,可以提高广告识别模型的准确度。并且,在利用所建立的广告识别模型对测试集中广告元素进行识别,并对识别为广告元素的统一资源定位符进行归纳时,由于测试集中包含较多的广告元素,这样,可以使得归纳出的广告识别规则更加全面、 准确。进一步地,训练集和测试集中可以同时包含广告元素和非广告元素,由此,可以通过使用训练集中的正负样本进行训练,得到正确率较高的广告识别模型,从而可以提升广告识别模型的实用性。图4示出了本发明广告识别规则归纳方法的一个具体实施例的流程示意图。本实施例中的一些细节和图1、图2中的实施例基本相同,相同之处请参见图1、图2以及相应的文字说明,此处不再详述。如图4所示,首先,用户可以在客户端输入包含多个网址的网址列表,其中,网址列表中的多个网址可以是用户经常浏览的网页的网址,也可以是页面浏览量(pageview,PV)排名靠前的网页所对应的网址。在用户输入完网址列表后,可以由服务器爬取用户输入的网址列表(即URL列表),对于网址列表中的每一个网页,可以随机抽取一部分元素连同其广告识别特征作为样本集。其中,广告识别特征可以预先设定,具体地说,可以对存在于网页中的广告进行人工分析,归纳其特征作为广告识别特征。例如,广告识别特征可以归纳成如下形式:特征JavaScriptIframe图片Flash容器id/class包含"ad"√√√在异域网站出现次数多√√条形√√absolute/fixed定位√√√图片格式√GIF动画帧数√对于形成的样本集,可以分两部分,一部分作为训练集,一部分作为测试集。对于训练集,可以采取现有的广告识别软件(如ADBlockPlus)将训练集 中的每个元素进行标注,将其标注为广告元素或非广告元素。此时,可以采取人工标注的方式对被标注过的训练集中的部分元素重新标注,以使得训练集中的标注信息可以更加准确。被标注过的训练集中包含有若干个元素的url、对应的广告特征值、是否广告的标注。因而可以用来训练广告识别模型。由于基于python的scikit-learn在分类算法上有不错的表现,因此,本实施例中可以选用scikit-learn的逻辑回归、决策树算法模型作为广告识别模型的基础,以使用训练集训练模型,得到广告识别模型。使用广告识别模型对测试集进行标注,将测试集中的各个元素标注为广告元素或非广告元素。获取测试集中被标注为广告元素的多个元素的URL列表,归纳URL列表,得到新的广告识别规则,对于新的广告识别规则,可以经过人工验证,删去一些包含了非广告的规则,然后把验证过的新增过滤规则加入广告识别规则集,并根据广告识别规则集中的过滤规则对训练集和测试集样本重新标注,迭代重复上述流程,以得到完善、准确的广告识别规则。另外,在得到新增的过滤规则后看,还可以在加入新增过滤规则后重新加载网址列表,通过识别模型检查广告过滤有效性和错判率,或者人工抽查站点,检查广告过滤有效性和错判率。以上参考图1至图4描述了本发明页面中广告识别规则归纳方法。下面参考图5至图7描述发明页面中广告识别规则归纳装置及设备。下面描述的装置和设备的很多单元的功能分别与上面参考图1至图4所描述的相应步骤的功能相同。为了避免重复,这里重点描述装置、设备可以具有的单元结构,而对于一些细节则不再赘述,可以参考上文中的相应描述。图5是根据本发明页面中广告识别规则归纳装置一个实施方式的结构示意图。如图5所示,装置包括训练集生成模块110、元素标注模块120、广告识别模型生成模块130、测试集生成模块140、元素识别模块150以及归纳模块160。训练集生成模块110用于基于第一网址列表生成训练集,训练集包括第一网址列表中各网址所对应网页中的至少部分元素及其广告识别特征。其中,第一网址列表的获取和广告识别特征的概念可以参见图1中步骤S110的相关描述。元素标注模块120用于根据人工和/或通过广告识别软件进行识别的结果,将训练集中的每一个元素标注为广告元素或非广告元素。也就是说,元素标注模块120可以采用人工和/或广告识别软件等现有的广告识别规则对训练集中的元素进行标注,将训练集中每个元素标注为广告元素或非广告元素。其中,在广告识别软件的广告识别规则准确度较高的情况下,可以不再使用人工标注对训练集中的元素进行标注。广告识别模型生成模块130用于通过机器学习算法,基于训练集中各元素的广告识别特征及其是否为广告元素的标注结果,得到广告识别模型。其中,基于广告识别模型生成模块130生成的广告识别模型标示了广告识别特征、广告元素的对应关系,基于广告识别模型可以判断元素是否为广告元素。测试集生成模块140用于基于第二网址列表生成测试集,其中,测试集包括第二网址列表中各网址所对应网页中的至少部分元素及其广告识别特征。其中,第二网址列表的获取和广告识别特征的概念可以参见图1中步骤S140的相关描述。元素识别模块150用于基于测试集中各元素的广告识别特征,使用广告识别模型识别测试集中的广告元素。使用通过广告识别模型生成模块130生成的广告识别模型,对测试集中的各个元素进行标注,将其标注为广告元素或非广告元素。归纳模块160用于对测试集中的广告元素的统一资源定位符进行归纳,得到广告识别规则。其中,归纳模块160的具体归纳方式可参见图1中步骤S160的相关描述。综上,本发明的广告识别装置,可以根据广告识别软件和/或人工的广告识别规则,将训练集中的元素标注为广告元素或非广告元素,根据训练集中各个元素标注结果生成关于广告识别特征的广告识别模型,再使用得到的广告识别模型将测试集中的各个元素标注为广告元素或非广告元素,最后对测试集中的广告元素的统一资源定位符进行归纳,就可以得到新的广告识别规则,新的广告识别规则可以作为现有人工过滤规则或软件过滤规则的补充,以更好地识别网页中的广告元素。另外,作为优选,训练集生成模块110生成的训练集中的元素可以包括通过广告识别软件从第一网址列表中各网址所对应网页中识别出的所有广告元素和至少部分非广告元素;测试集生成模块140生成的测试集中的元素可以包括通过广告识别软件从所述第二网址列表中各网址所对应网页中识别出的所有广告元素和至少部分非广告元素。这样,由于训练集和测试集中的元素包括通过广告识别软件从第一网址列表、第二网址列表中各网址所对应网页中识别出的所有广告元素,这样,通过训练集中的标注结果建立广告识别模型时,可以提高广告识别模型的准确度。并且,在利用所建立的广告识别模型对测试集中广告元素进行识别,并对识别为广告元素的统一资源定位符进行归纳时,由于测试集中包含较多的广告元素,这样,可以使得归纳出的广告识别规则更加全面、准确。进一步地,由于训练集和测试集中还可以含有部分被标注为非广告元素的元素,这样就可以通过使用训练集中的正负样本进行训练,得到广告识别模型。使得训练得到的广告识别模型的正确率较高、实用性较强。图6示出了根据本发明另一个实施例的广告识别规则归纳装置的结构的示意性方框图。如图6所示,在一个优选的实施例中,该装置除了包含了图5所示的所有结构外,还可选地包括元素呈现模块170和广告识别规则筛选模块180,其中,此处重点介绍图5中没有的结构,与图5相同的结构的相关介绍可参见上文关于图5的说明,此处不再赘述。元素呈现模块170用于呈现所述测试集中符合所述广告识别规则的元素。广告识别规则筛选模块180用于根据对所呈现的元素的人工判断来筛选广告识别规则。由此,在使用广告识别模型识别出测试集中的广告元素后,还可以通过广告识别规则筛选模块180筛选出标记错误的广告元素,以使得归纳得出的广告识别规则可以更加准确。另外,广告识别规则筛选模块180也可以对归纳得到的广告识别规则进行筛选,以排除那些明显归纳不合理的过滤规则。另外,在广告识别规则筛选模块180对得到的广告识别规则进行筛选后,元素标注模块120、广告识别模型生成模块130、元素识别模块150、 归纳模块160可以根据筛选得到的广告识别规则重复执行相关步骤。具体地说,在广告识别规则筛选模块180对得到的广告识别规则进行筛选后,元素标注模块120可以根据得到的广告识别规则对基于训练集生成模块110生成的训练集进行重新标注,广告识别模块130可以根据元素标注模块120对训练集的标注结果,重新生成广告识别模型,元素识别模块150可以根据重新生成的广告识别模型对测试集中的元素进行重新识别、标注,归纳模块160根据测试集中的元素的重新标注信息再次归纳广告识别规则,然后由元素呈现模块170将符合新的广告识别规则的元素呈现给广告识别规则筛选模块180,以人工筛选新的广告识别规则。然后可以重复执行上述过程。其中,重复执行的次数可以根据具体情况设定。多次迭代后得到的广告识别规则可以取并集,作为一个最终的广告识别规则,这样,可以使得最终得到的广告识别规则可以过滤掉页面中大部分的广告元素,过滤效果显著。图7示出了本发明的广告识别规则归纳设备的示意性方框图。如图7所示,设备包括输入装置3、网络模块4、存储器2、显示器5以及处理器1。输入装置3接收用户输入的第一网址列表和第二网址列表,处理器1可以通过输入装置3获取用户输入的第一网址列表和第二网址列表,网络模块4用于访问第一网址列表和第二网址列表中各网站所对应的网页,处理器1基于网络模块4从第一网址列表中各网址获得的网页数据生成训练集,并将训练集存储在存储器2上,训练集包括第一网址列表中各网址所对应网页中的至少部分元素及其广告识别特征。处理器1根据人工和/或通过广告识别软件进行识别的结果,将训练集中的每一个元素标注为广告元素或非广告元素,并将标注结果对应地存储在存储器1上,处理器1通过机器学习算法,基于训练集中各元素的广告识别特征及其是否为广告元素的标注结果,得到广告识别模型,处理器1基于网络模块4从第二网址列表中各网址获得的网页数据生成测试集,并将测试集存储在存储器2上,测试集包括第二网址列表中各网址所对应网页中的至少部分元素及其广告识别特征,处理器1基于测试集中各元素的广告识别特征,使用广告识别模型识别测试集中的广告元素,处理器1对测试集中的广告元素的统一资源定位符进行归纳,得到广告识别规则,并将 广告识别规则存储在存储器2上。在显示器5上呈现测试集中符合所述广告识别规则的元素,处理器1根据用户通过输入装置3输入的判断结果来筛选广告识别规则。综上,基于本发明的广告识别规则归纳设备,用户在客户端输入网址列表后,就可以由服务器对用户输入的网址列表进行处理,得到广告识别规则,该广告识别规则可以作为现有的其它广告过滤软件的广告识别规则的补充,导入广告过滤软件,也可以以可执行程序的形式存储在客户端,执行识别网页中的广告元素的操作。在得到由服务器发来的广告识别规则后,用户还可以手工进行筛选,以排除明显错误的广告识别规则,以进一步提高过滤规则的准确性。上文中已经参考附图详细描述了根据本发明的广告识别规则归纳方法、装置及设备。此外,根据本发明的方法还可以实现为一种计算机程序,该计算机程序包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。或者,根据本发明的方法还可以实现为一种计算机程序产品,该计算机程序产品包括计算机可读介质,在该计算机可读介质上存储有用于执行本发明的上述方法中限定的上述功能的计算机程序。本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。附图中的流程图和框图显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范 围和精神的情况下,对于本
技术领域
的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本
技术领域
的其它普通技术人员能理解本文披露的各实施例。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1