无效模板生成方法及装置、无效网页识别方法及装置的制作方法

文档序号:6619126阅读:229来源:国知局
专利名称:无效模板生成方法及装置、无效网页识别方法及装置的制作方法
技术领域
本发明涉及信息处理技术,具体涉及一种无效模板生成方法及装置、无效网页识 别方法及装置。
背景技术
互联网上存在这样一些页面,即这些页面是对用户的错误操作或者由于网站数据 未能准备好而对用户进行的提示信息,比如http://artgle. cn/sceneshow/118468/110,此 类页面对搜素引擎的用户来说不具有检索价值。通常这些页面会保存在本地数据库中,不 仅占用了大量存储空间,而且在用户进行某些操作时,由于这些页面的存在会耗费大量的 系统资源,比如在数据积累阶段(Spider抓取网页)。由此可见,如果可以快速准确地发现 此类网页,对提升数据积累的效率,增强用户搜索效果是很有帮助的。为此,现有技术中通常采用以下两类方法发现无效页面第一类是不做内容分析的方法,例如1.通过页面大小来识别无效页面,比如,将页面长度小于Ik的页面作为无效页2.通过url (Uniform Resource Locator,统一资源定位符)的模式来识别无效页 面,比如,如果url后的参数带有Error等字符串,则判断为无效页面。这类不做内容分析的方法,处理速度快,但准确率和召回率都很难提升。第二类是通过内容分析,选取其中某些特征进行统计分析,确定无效页面,通常包 括以下过程1.随机选取一定数量的网页样本(比如10000篇)进行人工标注,即对有效页面 和无效页面进行分类;2.利用此分类后结果选取网页特征(比如页面长度,主要内容文字等)训练分类 器;3.利用训练好的分类器对新网页样本进行判决。这种方法可以详细地分析网页内容,在一定程度上保证了准确率,缺点在于需要 人工标注语料库,耗时较长,而实际情况的无效页面分布不均勻,特征很难量化,实施困难。

发明内容
本发明实施例一方面提供一种无效模板生成方法及装置,为基于内容的无效网页 分析提供依据。本发明实施例另一方面提供一种无效网页识别方法及装置,以快速、准确地自动 识别无效网页。为此,本发明实施例提供如下技术方案一种无效模板生成方法,包括获取种子无效模板集合,所述种子无效模板集合中包含一个或多个种子无效网页模板;根据所述种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集 合;从所述候选无效模板集合筛选得到最终无效模板集合。一种无效网页识别的方法,包括获取当前网页;如果所述当前网页中包含所述最终无效模板集合中的任意一个无效网页模板,并 且所述当前网页的大小小于所述无效网页模板对应的阈值,则确定所述当前网页为无效网页。一种无效模板生成装置,包括获取单元,用于获取种子无效模板集合,所述种子无效模板集合中包含一个或多 个种子无效网页模板;候选无效模板生成单元,用于根据所述种子无效网页模板及本地网页数据库中的 网页,生成候选无效模板集合;筛选单元,用于从所述候选无效模板集合筛选得到最终无效模板集合。一种无效网页识别装置,包括网页获取单元,用于获取当前网页;第一检测单元,用于检测所述当前网页中是否包含最终无效模板集合中的任意一 个无效网页模板;第二检测单元,用于检测所述当前网页的大小是否小于所述无效网页模板的对应 的阈值;确定单元,用于在所述第一检测单元检测到所述当前网页中包含所述最终无效模 板集合中的任意一个无效网页模板,并且所述第二检测单元检测到所述当前网页的大小小 于所述无效网页模板对应的阈值时,确定所述当前网页为无效网页。本发明实施例无效模板生成方法及装置,通过获取种子无效模板集合,根据所述 种子无效模板集合中的各种子无效网页模板及本地网页数据库中的网页,生成候选无效模 板集合,从所述候选无效模板集合中筛选得到最终无效模板集合,从而为基于内容的无效 网页分析提供了依据。本发明实施例无效网页识别方法及装置,利用所述最终无效模板集合识别当前网 页是否为无效网页,具体地,如果所述当前网页中包含所述最终无效模板集合中的任意一 个无效网页模板,并且所述当前网页的大小小于所述无效网页模板对应的阈值,则确定所 述当前网页为无效网页。可见,本发明实施例利用网页的内容信息,可以在保证网页处理速 度的情况下,有效提高识别无效网页的准确率。


图1是本发明实施例无效模板生成方法的流程图;图2是本发明实施例无效网页识别方法的流程图;图3是本发明实施例无效模板生成装置的一种结构示意图;图4是本发明实施例无效模板生成装置的另一种结构示意5
图5是本发明实施例无效网页识别装置的一种结构示意图;图6是本发明实施例无效网页识别装置的另一种结构示意图。
具体实施例方式为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施 方式对本发明实施例作进一步的详细说明。在介绍本发明具体实施例之前,首先对本发明实施例中使用的几个名称进行简单 说明无效网页,指在搜索引擎中没有搜索价值的网页,比如用户错误操作提示、网关关 闭通知等;无效网页模板,指在无效网页的集合中,多个无效网页拥有的共同特征,即同样的 句子;本地网页数据库,指已收录的互联网上的网页的集合(不带html标签的网页)。本发明实施例无效模板生成方法及无效网页识别方法,充分考虑了所有可能的无 效网页的内容信息,由选取的一个或多个种子无效网页模板组成种子无效模板集合,根据 所述种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集合,并从所述候 选无效模板集合筛选得到最终无效模板集合,利用所述最终无效模板集合识别当前网页是 否为无效网页。具体地,如果所述当前网页中包含所述最终无效模板集合中的任意一个无 效网页模板,并且所述当前网页的大小小于所述无效网页模板对应的阈值,则确定所述当 前网页为无效网页。为了进一步提高无效模板的准确率,还可以将所述最终无效模板集合中的无效网 页模板添加到所述种子无效模板集合中,进行迭代处理过程;当迭代处理后得到的最终无 效模板集合中的无效网页模板的数量小于第二阈值时,停止所述迭代处理过程。如图1所示,是本发明实施例无效模板生成方法的流程图,包括以下步骤步骤101,获取种子无效模板集合,所述种子无效模板集合中包含一个或多个种子 无效网页模板。可以选取一定数量的无效网页模板种子,由这些种子组成种子无效模板集合。为 了描述方便,将所述种子无效模板集合记为ISeed = {Ii},其中,Ii为具体的某一条无效网 页模板。具体地,在选取无效网页模板种子时,可以有多种方式,比如将包含以下内容信息 的网页作为无效网页模板种子1.您访问的网页不存在或已被删除;或者2.找不到该信息,该信息已能已被删除;或者3.您要访问的网页存在问题,因此无法显示等。步骤102,根据所述种子无效模板及本地网页数据库中选择网页,生成候选无效模 板集合。所述本地网页数据库是指已收录的互联网上的网页的全集,各网页不带btml标签。由于不同的网页在描述同一个错误的时候使用的句式或者词语结构往往是类似的,但是并不完全相同。为此,可以通过计算句子相似度来寻找出所有可能的无效网页模 板,由这些无效网页模板组成候选无效模板集合。在计算句子相似度时,可以按以下过程进行1.读取本地网页数据库,并读取Iseed集合;2.遍历本地网页数据库中每个网页,对每个网页进行如下操作(1)对每个网页进行分句,比如按特殊符号(换行符和/或标点符号)进行分句, 得到分句后的网页,记为Si。(2)对于每个种子无效模板Ii,计算其与Si的相似度,即计算无效模板Ii中的句 子与分句后的网页Si中的句子的相似度,具体计算过程将在后面详细说明。(3)如果计算得到的相似度大于设定的第一阈值,则将该Si作为候选的无效网页 模板,记为Ti。3.遍历本地网页数据库中的每个网页结束后,即可将得到的所有候选的无效网页 模板组成候选无效模板集合。假设两个句子分别为Sl和S2,下面将详细说明计算这两个句子相似度Sim(Sl, S2)的过程。a.首先计算两个句子Sl与S2的距离Dist (Si,S2),该距离表示将Si,S2分词为 最小单位(去掉标点符号和助词)后,Sl或S2经过最少几次增加、或删除、或修改操作,使 得 Sl = S2。例如Sl =您访问的网页不存在;S2 =您正在访问的页面不存在;分词后结果为Sl =您/访问/的/网页/不存在;其中,“的”为助词,其影响不计入计算句子距
离当中;S2 =您/正在/访问/的/页面/不存在;其中,“的”为助词,其影响不计入计算
句子距离当中。如下表1所示的词表,为了描述方便,将该词表命名为D。第一行为Sl分词后的结 果,第一列为S2分词后的结果。表1
不存在5sucessDist (Si,S2)的初始值为 0。D[l,l] = success,表示Sl的第一个分词单位与S2第一个分词单位一致,即是相 匹配的;D[2,2] =Add(正在),表示Sl的第二个分词单位与S2第二个分词单位不同,需 要添加一个“正在”,才能与S2第二个分词单位相匹配。此时记录Dist(Sl,S2) = 1,表示 使用了一次增加操作,距离加1 ;D[2,3] = success,表示Sl中的第二个结点“访问”与S2中的第三个结点“访问” 相匹配;D [3,4] = Change (页面),表示Sl第三个结点需要修改成“页面”,才能与S2的第 4个结点相匹配。此时记录Dist (Si,S2) = 2,表示使用一次修改操作,距离加1。D[4,5] = success,表示Sl中第四个结点“不存在”与S2中第五个结点“不存在” 相匹配。此时计算结束,在该过程中,Sl需要使用两次增加、删除或者修改操作,使得Sl = S2,因此得到 Dist(Sl,S2) =2。b.得到Sl与S2的距离后,可以按照预定的公式计算得到其相似度。可以根据Sl与S2的距离,大致得到Sl与S2的相似度,即Sl与S2的距离值越小, 说明Sl与S2的相似度越高;反之,Sl与S2的距离值越大,说明Sl与S2的相似度越低。如果为了得到更精确的相似度,可以按照一定的算法来计算Sim(Sl,S2)的值,比 如按以下公式计算Sim(Si,S2) = 1-Dist (Si,S2)/S1 和 S2 中长度最大值当然,本发明实施例并不仅限于上述公式来计算Sl与S2的相似度,还可以采用其 他算法,在此不再一一列举。需要说明的是,在所述候选无效模板集合中,还可以加入在步骤101中获得的种 子无效模板集合中包含的种子无效网页模板。步骤103,从所述候选无效模板集合中筛选得到最终无效模板集合。具体地,可以根据所述候选无效模板集合中各无效网页模板统计本地网页数据库 中无效网页的长度和/或频率,根据统计结果筛选得到最终无效模板集合。为了进一步提高无效模板的准确率,还可对所述候选无效模板集合中各无效网页 模板做进一步地筛选。具体地,可以根据该集合中各无效网页模板统计本地网页数据库中 无效网页的长度和/或频率,根据统计结果筛选得到最终无效模板集合。通常,一个或多个 网站的同一个无效网页会批量出现。比如,http://artgle. cn/sceneshow/118468/110 是一个无效网页;而 http://artgle.cn/sceneshow/118468/lll ;http//artgle.cn/sceneshow/ 118468/112等可能都是和此网页一样的无效网页,但是本地网页数据库中却保存了很多类 似这样的网页,所以可以将统计所述候选无效模板集合中各无效网页模板出现在网页的频 率作为判断是否为无效网页的一个重要依据。具体地,可以将所述无效网页模板的频率定义为本地网页数据库中包含所述无效
8网页模板的数量,为了描述方便,将所述频率记为DF。如果DF大于设定的某一阈值,则可以 将相应的候选无效网页模板作为最终的候选网页模板,将其记录到最终无效模板集合中。另外,为了防止误判情况的发生,还可进一步参考网页的长度来确定。通常,包含 一条无效网页模板的网页会有很多,这其中包括有效网页和无效网页。由于无效页面的长 度分布都很集中,比如包含一条无效网页模板“如果您的浏览器不支持javascript... ”的 无效网页长度大都集中在1 3k或9 13k,而包含这条无效网页模板的有效网页的分布 则很稀疏,比如15k以上的就很少,因此,可以根据这种特性,筛选出网页长度分布较多的 那个范围的无效网页,作为最终无效网页。比如,一个讨论网页上出现“您访问的页面不存在”这个问题的解决办法的页面, 会命中所述候选无效模板集合中的某个无效网页模板,此时,通过限定无效网页模板的长 度即可避免这种误判的情况发生。具体地,可以统计包含此条无效网页模板的网页的长度 分布,分布越密集的区域越有可能是真正的无效网页的长度,分布稀疏的区域可能是有价 值的网页。具体地,可以计算包含某个候选无效网页模板的网页的长度分布最密集的部分的 网页长度,为了描述方便,将其记为lengthBoimd。如果某个候选无效网页模板的网页的长 度小于lengthBoimd,则可以将相应的候选无效网页模板作为最终的候选网页模板,将其记 录到最终无效模板集合中。当然,考虑到不同的应用环境及实现复杂度,也可以只根据所述长度和频率中的 任一个特征来进行筛选,得到最终无效模板集合。为了描述方便,下面将所述最终无效模板集合记为Ifinal。需要说明的是,在 Ifinal中,对其中的每个无效网页模板还可以设定一个对应的阈值。具体地,该阈值可以是 无效网页模板的大小,也可以是大于无效网页模板的大小的一个值。在本发明实施例中,为了进一步提高得到的最终无效模板集合的准确率,还可以 将所述最终无效模板集合中的无效网页模板添加到所述种子无效模板集合中,进行迭代处 理,当迭代处理后得到的最终无效模板集合中的无效网页模板的数量小于一定值(第二阈 值)时,停止所述迭代处理过程。可见,本发明实施例无效模板生成方法,充分考虑网页的内容信息,由选取的一个 或多个种子无效网页模板组成种子无效模板集合,根据所述种子无效网页模板及本地网页 数据库中的网页,生成候选无效模板集合,从所述候选无效模板集合中筛选得到最终无效 模板集合,从而为基于内容的无效网页分析提供了准确的依据。基于上面实施例中得到的最终无效模板集合,本发明实施例还提供了一种无效网 页识别方法,如图2所示,是该无效网页识别方法的流程图,包括以下步骤步骤201,获取当前网页;步骤202,如果所述当前网页中包含所述最终无效模板集合中的任意一个无效网 页模板,并且所述当前网页的大小小于所述无效网页模板对应的阈值,则确定所述当前网 页为无效网页。例如,在利用Spider抓取网页时,遍历正在被抓取的当前网页,如果命中最终无 效模板集合Ifinal中的某条无效网页模板,即当前抓取的网页中包含Ifinal中的某条无 效网页模板,则认为这是一个无效网页。否则,认为这是一个有效网页。
进一步地,在命中Ifinal中的某条无效网页模板后,还要判断Spider抓取的网页 的大小是否小于该无效网页模板对应的阈值,如果是,则认为这是一个无效网页。否则,认 为这是一个有效网页。为了进一步提高本地网页数据库中存储的网页的有效性,在本发明实施例中,还 可以利用Ifinal对本地网页数据库进行清理,即按照上述过程遍历本地网页数据库中的 网页,如果所述本地网页数据库中包含无效网页,则删除其中的无效网页。利用所述最终无效模板集合识别当前网页是否为无效网页,从而可以快速、准确 地自动识别无效网页,进而可以提高检索的召回率。所谓召回率是指检索出的相关文档数 和文档库中所有的相关文档数的比率,衡量的是检索的查全率。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以 通过程序来指令相关的硬件来完成,所述的程序可以存储于一计算机可读取存储介质中, 所述的存储介质,如ROM/RAM、磁碟、光盘等。本发明实施例还提供了一种无效模板生成装置,如图3所示,是该装置的结构示 意图。在该实施例中,所述无效模板生成装置包括获取单元301、候选无效模板生成单 元302、筛选单元303。其中获取单元301,用于获取种子无效模板集合,所述种子无效模板集合中包含一个或 多个种子无效网页模板;候选无效模板生成单元302,用于根据所述种子无效网页模板及本地网页数据库 中的网页,生成候选无效模板集合;筛选单元303,用于从所述候选无效模板集合中筛选得到最终无效模板集合。在本发明实施例中,所述候选无效模板生成单元302的一种优选结构包括分句 子单元321、计算子单元322、判断子单元323和存储子单元324。其中分句子单元321,用于读取本地网页数据库中的网页,并对所述网页进行分句;计算子单元322,用于分别计算所述种子无效模板集合中的各种子无效模板与分 句后的网页的句子相似度;判断子单元323,用于在所述计算子单元得到的句子相似度大于第一阈值时,将对 应的分句后的网页作为候选无效网页模板;存储子单元324,用于存储由所述候选无效网页模板组成的候选无效模板集合。当然,本发明实施例中,所述候选无效模板生成单元302并不仅限于上述这种结 构,根据应用需要,还可以有基于本发明思想实现的其他结构变形。在本发明实施例中,所述筛选单元303的一种优选结构包括统计子单元331和筛 选子单元332。其中统计子单元331,用于根据所述候选无效模板集合中各无效网页模板统计本地网 页数据库中无效网页的长度和/或频率;所述无效网页模板的频率为本地网页数据库中包 含所述无效网页模板的数量。筛选子单元332,用于根据统计结果筛选得到最终无效模板集合。当然,本发明实施例中,所述筛选单元303并不仅限于上述这种结构,根据应用需 要,还可以有基于本发明思想实现的其他结构变形。
可见,本发明实施例无效模板生成装置,充分考虑了网页的内容信息,由选取的一 个或多个种子无效模板组成种子无效模板集合,根据所述种子无效模板从本地网页数据库 中选择网页,生成候选无效模板集合,从所述候选无效模板集合中筛选得到最终无效模板 集合,从而为基于内容的无效网页分析提供了准确的依据。在本发明实施例中,为了进一步提高得到的最终无效模板集合的准确率,还可以 将所述最终无效模板集合中的无效网页模板添加到所述种子无效模板集合中,进行迭代处 理,当迭代处理后得到的最终无效模板集合中的无效网页模板的数量小于一定值(第二阈 值)时,停止所述迭代处理过程。参照图4,是本发明实施例无效模板生成装置的另一种结构示意图。在该实施例中,不仅包括与图3所示实施例对应的获取单元401、候选无效模板生 成单元402、筛选单元403,还包括迭代处理单元404和迭代判断单元405。其中迭代处理单元404,用于将所述最终无效模板集合中的无效网页模板添加到所述 种子无效模板集合中,进行迭代处理过程;迭代判断单元405,用于判断迭代处理后得到的最终无效模板集合中的无效网页 模板的数量是否小于第二阈值,如果是,则通知所述迭代处理单元404停止所述迭代处理 过程。当然,在本发明实施例中,所述迭代判断单元405可以在所述筛选单元403第一次 得到最终无效模板集合,即进行是否需要迭代处理的判断,也可以在经过一次迭代处理后 再进行判断,具体可根据应用需要来确定。需要说明的是,本发明实施例无效模板生成装置并不仅限于这种结构,根据应用 需要,还可以有基于本发明思想实现的其他结构变形。基于上述实施例中无效模板生成装置生成的最终无效模板集合,本发明实施例还 提供了 一种无效网页识别装置。如图5所述,是该无效网页识别装置的一种结构示意图。在该实施例中,所述无效 网页识别装置包括依次相连的网页获取单元500、第一检测单元501、第二检测单元502和 确定单元503。其中网页获取单元500,用于获取当前网页;第一检测子单元501,用于检测所述当前网页中是否包含最终无效模板集合中的 任意一个无效网页模板;第二检测单元502,用于在第一检测单元501检测到所述当前网页中包含所述最 终无效模板集合中的任意一个无效网页模板后,检测所述当前网页的大小是否小于所述无 效网页模板的对应的阈值;确定单元503,用于在第二检测单元502检测到所述当前网页的大小小于所述无 效网页模板对应的阈值后,确定所述当前网页为无效网页。如图6所示,是本发明实施例无效网页识别装置的另一种结构示意图。在该实施例中,所述无效网页识别装置包括网页获取单元600、分别与网页获取 单元600相连的第一检测单元601和第二检测单元602、分别与所述第一检测单元601和第 二检测单元602相连的确定单元603。其中网页获取单元600,用于获取当前网页;
第一检测单元601,用于检测所述当前网页中是否包含最终无效模板集合中的任 意一个无效网页模板;第二检测单元602,用于检测所述当前网页的大小是否小于所述无效网页模板的 对应的阈值;确定单元603,用于根据第一检测单元601和第二检测单元602的检测结果确定所 述当前网页为无效网页。具体地,在所述第一检测单元601检测到所述当前网页中包含所 述最终无效模板集合中的任意一个无效网页模板,并且所述第二检测单元602检测到所述 当前网页的大小小于所述无效网页模板对应的阈值时,确定所述当前网页为无效网页。当然,本发明实施例无效网页识别装置并不仅限于上述这两种结构,根据应用需 要,还可以有基于本发明思想实现的其他结构变形。比如,所述确定单元可以只根据所述第 一检测单元或所述第二检测单元的检测结果来确定所述当前网页是否为无效网页。本发明实施例无效网页识别装置,利用所述最终无效模板集合识别当前网页是否 为无效网页,从而可以快速、准确地自动识别无效网页,进而可以提高检索的召回率。所谓 召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索的查 全率。为了进一步提高本地网页数据库中存储的网页的有效性,在本发明实施例的无效 网页识别装置中,还可以进一步包括清理单元(未图示),用于删除所述本地网页数据库中 的无效网页,即利用最终无效模板集合Ifinal对本地网页数据库进行清理,删除其中的无 效网页。以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式
对本发明进行 了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同时,对于本领域的 一般技术人员,依据本发明的思想,在具体实施方式
及应用范围上均会有改变之处,综上所 述,本说明书内容不应理解为对本发明的限制。
权利要求
一种无效模板生成方法,其特征在于,包括获取种子无效模板集合,所述种子无效模板集合中包含一个或多个种子无效网页模板;根据所述种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集合;从所述候选无效模板集合筛选得到最终无效模板集合。
2.根据权利要求1所述的方法,其特征在于,所述根据所述种子无效网页模板及本地 网页数据库中的网页,生成候选无效模板集合包括读取本地网页数据库中的网页,并对所述网页进行分句;分别计算所述种子无效模板集合中的各种子无效网页模板与分句后的网页的句子相 似度;如果得到的句子相似度大于第一阈值,则将对应的分句后的网页作为候选无效网页模板;由所述候选无效网页模板组成候选无效模板集合。
3.根据权利要求1所述的方法,其特征在于,所述从候选无效模板集合筛选得到最终 无效模板集合包括根据所述候选无效模板集合中各无效网页模板统计本地网页数据库中无效网页的长 度和/或频率;所述无效网页模板的频率为本地网页数据库中包含所述无效网页模板的数量。根据统计结果筛选得到最终无效模板集合。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括将所述最终无效模板集合中的无效网页模板添加到所述种子无效模板集合中,进行迭 代处理过程;当迭代处理后得到的最终无效模板集合中的无效网页模板的数量小于第二阈值时,停 止所述迭代处理过程。
5.一种基于权利要求1所述的最终无效模板集合进行无效网页识别的方法,其特征在 于,包括获取当前网页;如果所述当前网页中包含最终无效模板集合中的任意一个无效网页模板,并且所述当 前网页的大小小于所述无效网页模板对应的阈值,则确定所述当前网页为无效网页。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括如果所述本地网页数据库中包含无效网页,则删除所述本地网页数据库中的无效网页。
7.一种无效模板生成装置,其特征在于,包括获取单元,用于获取种子无效模板集合,所述种子无效模板集合中包含一个或多个种 子无效网页模板;候选无效模板生成单元,用于根据所述种子无效网页模板及本地网页数据库中的网 页,生成候选无效模板集合;筛选单元,用于从所述候选无效模板集合筛选得到最终无效模板集合。
8.根据权利要求7所述的装置,其特征在于,所述候选无效模板生成单元包括分句子单元,用于读取本地网页数据库中的网页,并对所述网页进行分句; 计算子单元,用于分别计算所述种子无效模板集合中的各种子无效网页模板与分句后 的网页的句子相似度;判断子单元,用于在所述计算子单元得到的句子相似度大于第一阈值时,将对应的分 句后的网页作为候选无效网页模板;存储子单元,用于存储由所述候选无效网页模板组成的候选无效模板集合。
9.根据权利要求7所述的装置,其特征在于,所述筛选单元包括统计子单元,用于根据所述候选无效模板集合中各无效网页模板统计本地网页数据库 中无效网页的长度和/或频率;所述无效网页模板的频率为本地网页数据库中包含所述无 效网页模板的数量;筛选子单元,用于根据统计结果筛选得到最终无效模板集合。
10.根据权利要求7至9任一项所述的装置,其特征在于,还包括迭代处理单元,用于将所述最终无效模板集合中的无效网页模板添加到所述种子无效 模板集合中,进行迭代处理过程;迭代判断单元,用于判断迭代处理后得到的最终无效模板集合中的无效网页模板的数 量是否小于第二阈值,如果是,则通知所述迭代处理单元停止所述迭代处理过程。
11.一种基于权利要求7所述的无效模板生成装置生成的最终无效模板集合进行无效 网页识别的装置,其特征在于,包括网页获取单元,用于获取当前网页;第一检测单元,用于检测所述当前网页中是否包含最终无效模板集合中的任意一个无 效网页模板;第二检测单元,用于检测所述当前网页的大小是否小于所述无效网页模板的对应的阈值;确定单元,用于在所述第一检测单元检测到所述当前网页中包含所述最终无效模板集 合中的任意一个无效网页模板,和/或所述第二检测单元检测到所述当前网页的大小小于 所述无效网页模板对应的阈值时,确定所述当前网页为无效网页。
12.根据权利要求11所述的装置,其特征在于,还包括 清理单元,用于删除所述本地网页数据库中的无效网页。
全文摘要
本发明涉及信息处理技术,公开了一种无效模板生成方法及装置,所述方法包括获取种子无效模板集合,所述种子无效模板集合中包含一个或多个种子无效网页模板;根据所述种子无效网页模板及本地网页数据库中的网页,生成候选无效模板集合;从所述候选无效模板集合筛选得到最终无效模板集合。本发明还公开了一种无效网页识别方法及装置。利用本发明,可以快速、准确地自动识别无效网页。
文档编号G06F17/30GK101908047SQ20091008685
公开日2010年12月8日 申请日期2009年6月8日 优先权日2009年6月8日
发明者佟子健, 张超旭 申请人:北京搜狗科技发展有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1