不良网页检测方法及装置的制作方法

文档序号:8003246阅读:209来源:国知局
专利名称:不良网页检测方法及装置的制作方法
技术领域
本发明涉及网络安全技术,尤其涉及一种不良网页检测方法及装置。
技术背景
互联网技术的突飞猛进推动了信息社会的不断发展,互联网已经成为社会活动必不可少的一部分。但是,互联网也成为了色情等不良信息传播的媒介,严重影响网民、特别是青少年对互联网的正常应用,阻碍互联网健康有序的发展。
对色情网站等不良网站的检测,关键词过滤是一种简单、易于实现,且容易进行分布式处理的互联网色情信息检测技术,被广泛应用。但纯粹依赖关键词进行不良网站的检测会造成对众多网站的误检,检测效果不佳。发明内容
本发明提供一种不良网页检测方法及装置,以提高对不良网页的检测效果。
本发明第一个方面提供一种不良网页检测方法,包括
根据不良关键词获取所述不良关键词对应的疑似不良网页,获取所述疑似不良网页对应的原始地址,生成包含有所述原始地址的不良网址列表;
对所述疑似不良网页进行解析,生成解析结果;
当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
本发明另一个方面提供一种不良网页检测装置,其特征在于,包括
不良网址列表生成模块,用于根据不良关键词获取所述不良关键词对应的疑似不良网页,获取所述疑似不良网页对应的原始地址,生成包含有所述原始地址的不良网址列表;
解析模块,用于对所述疑似不良网页进行解析,生成解析结果;
第一删除模块,用于当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
由上述技术方案可知,本发明第一个方面提供的不良网页检测方法,根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表,对疑似不良网页进行解析,若疑似不良网页中存在恶意跳转, 则将疑似不良网页对应的原始地址从不良网址列表中删除。由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。
本发明另一个方面提供的不良网页检测装置,不良网址列表生成模块根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表,解析模块对疑似不良网页进行解析,若疑似不良网页中存在恶意跳转,则第一删除模块将疑似不良网页对应的原始地址从不良网址列表中删除。由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。


图1为本发明实施例一提供的不良网页检测方法流程图2为本发明实施例二提供的不良网页检测方法流程图3为本发明实施例三提供的不良网页检测装置结构示意图4为本发明实施例四提供的不良网页检测装置结构示意图。
具体实施方式
实施例一
图1为本发明实施例一提供的不良网页检测方法流程图。如图1所示,本实施例提供的不良网页检测方法具体可以应用于对不良网站的检测,不良网站具体可以包括色情、 赌博、暴力以及反动等网站。可以通过不良网页检测装置来执行,该不良网页检测装置具体可以通过软和/或硬件的方式来实现。
本实施例提供的不良网页检测方法具体包括
步骤10、根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表;
具体地,不良关键词可以包括涉黄词汇等不良信息,可以通过搜索引擎对不良关键词进行搜索,以获取不良关键词对应的疑似不良网页,即疑似不良网页中包含有该不良关键词。不良关键词可以根据具体的检测需要来设置。疑似不良网页对应的原始地址即为通过搜索引擎被不良关键词进行搜索时,搜索到的网页所显示的地址,但是该疑似不良网页在加载过程中可能会发生跳转。该跳转可以是Jav必cript跳转,Meta跳转和统一资源定位符(Uniform/Universal Resource Locator,简称URL)跳转,则跳转到的地址即为目标地址。将搜索到的疑似不良网页对应的原始地址记录形成不良网址列表。
步骤20、对疑似不良网页进行解析,生成解析结果;
具体地,可以对疑似不良网页的源代码和动态脚本等进行解析,动态脚本通常为 JavaScript脚本。Javakript脚本既包含网页内的Javakript脚本,也包含嵌入的外部 JavaScript Ρ*。
步骤30、当根据解析结果识别出疑似不良网页中存在恶意跳转时,将疑似不良网页对应的原始地址从不良网址列表中删除。
具体地,若疑似不良网页中存在JavMcript跳转,即该跳转行为是通过 Jav必cript行为实现的,则该跳转为网页跳转作弊,即恶意跳转。通常网页跳转作弊行为的网站不是色情、赌博等网站,可以将存在恶意跳转的疑似不良网页对应的原始地址从不良网址列表中删除。
本实施例提供的不良网页检测方法,根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表,对疑似不良网页进行解析,若疑似不良网页中存在恶意跳转,则将疑似不良网页对应的原始地址从不良网址列表中删除。由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。
实施例二
图2为本发明实施例二提供的不良网页检测方法流程图。如图2所示,本实施例提供的不良网页检测方法在实施例一的基础上,进一步地,步骤20,对疑似不良网页进行解析,生成解析结果之后,还可以包括如下步骤
步骤40、当根据解析结果识别出疑似不良网页中存在隐藏作弊时,将疑似不良网页对应的原始地址从不良网址列表中删除。
具体地,疑似不良网页中存在被隐藏的、人的眼睛无法直接看到的文字,即为隐藏作弊。通常存在隐藏作弊行为的网站都不是色情、赌博等网站。对疑似不良网页进行解析, 若该疑似不良网页中存在隐藏作弊,则将该疑似不良网页的原始地址从不良网址列表中删除。通过对存在隐藏作弊的网页的检测,可以进一步提高对不良网页检测的准确性。
进一步地,步骤20,对疑似不良网页进行解析,生成解析结果之后,还可以包括如下步骤
步骤50、当根据解析结果识别出疑似不良网页中存在的预设共现词的数量超过预设阈值时,将疑似不良网页对应的原始地址从不良网址列表中删除。
疑似不良网页是基于一系列不良关键词过滤所得,这样导致了相当数量的正规成人网站、美容类网站和医疗类网站等进入该疑似数据集,本实施例进行共现词分析,共现词可以包括“价格”、“热线”、“电话”、“促销”、“医院”、“公司”、“整形”、“销售”、“专家”等,若疑似不良网页中包含的上述共现词的数量超过预设阈值,则可以认为该网页不是不良网页, 则将该网页对应的原始地址从不良网址列表中删除。通过共现词对疑似不良网页进行进一步地的过滤,可以进一步提高对不良网页检测的准确性。
在本实施例中,步骤30,当根据解析结果识别出疑似不良网页中存在恶意跳转时, 将疑似不良网页对应的原始地址从不良网址列表中删除,具体可以包括如下步骤
当根据解析结果识别出在允许动态脚本执行状态下疑似不良网页的目标地址对应的域名与在禁止动态脚本执行状态下疑似不良网页的目标地址对应的域名不同时,将疑似不良网页对应的原始地址从不良网址列表中删除。
具体地,对Jav必cript脚本进行解析,可以通过匹配以下字符串“window, location, href ">"window. navigate,,、"self, location,,禾口"top. location,,,角军析出重新定位的URL,即目标地址。进一步将URL映射到域名,例如URL为http //sports, sina. com. cn/basket2010/,该URL对应的域名为sina. com. cn。在实际网页解析过程中,可以通过如下代码对恶意跳转进行检测
if (destDomain(EnableJS) = domainName) {不存在恶意跳转; }else if (destDomain(EnableJS) !=destDomain(DisableJS)){存在恶意跳转; }else{不存在恶意跳转;}
其中,domainName、destDomain(EnableJS)禾口 destDomain(DisableJS)分另Ij表示原始地址对应的原始域名、允许动态脚本执行状态下的目标地址对应的域名和禁止动态执行状态下的目标地址对应的域名。当destDomain(EnableJS)与destDomain(DisableJS) 不同时,说明存在恶意跳转。
在本实施例中,步骤40中的识别出疑似不良网页中存在隐藏作弊具体可以包括下述至少一种
当识别到疑似不良网页的可视范围外存在不良关键词时,确定识别出疑似不良网页中存在隐藏作弊;
当识别到疑似不良网页的快速滚动内容中存在不良关键词时,确定识别出疑似不良网页中存在隐藏作弊;
当识别到疑似不良网页对应的级联样式表隐藏内容中存在不良关键词时,确定识别出疑似不良网页中存在隐藏作弊;
当识别到疑似不良网页中的不良关键词的颜色与疑似不良网页的背景颜色相同时,确定识别出疑似不良网页中存在隐藏作弊。
其中,对疑似不良网页的可视范围外存在不良关键词的检测,可以对不良关键词对应的超文本标记语言(Hypertext Markup Language,简称HTML)标签进行分析,若top或 left等属性的值为负数,则说明该疑似不良网页的可视范围外存在不良关键词。
对疑似不良网页的快速滚动内容中存在不良关键词的检测,首先解析网页中有无存在用于指示文字滚动的关键字Marquee,若存在该关键字且该关键字对应的文字内容中存在不良关键词,则对根据延时时间进行判断,若延时时间很短,以致肉眼无法看清文字, 则可以判定该疑似不良网页存在包含有不良关键词的快速滚动内容。
对疑似不良网页对应的级联样式表(Cascading Style Sieet,简称CSS)隐藏内容中存在不良关键词的检测,具体可以根据<div style = " display:none" >或<(1& style ="visibility:hidden〃 >等来进行检测。
对疑似不良网页中的不良关键词的颜色与疑似不良网页的背景颜色相同的检测, 由于网页颜色的决定因素众多,包括HTML、CSS和JavMcript等,可以分别对上述因素进行检测。也可以只对HTML Tag进行判断,对color元素(包括bgcolor、font color等)进行匹配,以不良关键词的颜色与网页背景是否相同,而对隐藏作弊进行检测,实现简单。
实施例三
图3为本发明实施例三提供的不良网页检测装置结构示意图。如图3所示,本实施例提供的不良网页检测装置具体可以实现本发明任意实施例提供的不良网页检测方法的各个步骤,此不再赘述。
本实施例提供的不良网页检测装置具体包括不良网址列表生成模块11、解析模块 12和第一删除模块13。不良网址列表生成模块11用于根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表。解析模块12用于对疑似不良网页进行解析,生成解析结果。第一删除模块13用于当根据解析结果识别出疑似不良网页中存在恶意跳转时,将疑似不良网页对应的原始地址从不良网址列表中删除。
本实施例提供的不良网页检测装置,不良网址列表生成模块11根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表,解析模块12对疑似不良网页进行解析,若疑似不良网页中存在恶意跳转,则第一删除模块13将疑似不良网页对应的原始地址从不良网址列表中删除。由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。
实施例四
图4为本发明实施例四提供的不良网页检测装置结构示意图。如图4所示,在本实施例中,不良网页检测装置具体还可以包括第二删除模块14,第二删除模块14用于当根据解析结果识别出疑似不良网页中存在隐藏作弊时,将疑似不良网页对应的原始地址从不良网址列表中删除。通过第二删除模块14的设置,对存在隐藏作弊的网页的检测,可以进一步提高对不良网页检测的准确性。
进一步地,在本实施例中,该不良网页检测装置还可以包括第三删除模块15。第三删除模块15用于当根据解析结果识别出疑似不良网页中存在的预设共现词的数量超过预设阈值时,将疑似不良网页对应的原始地址从不良网址列表中删除。通过第三删除模块的设置15,可以通过共现词对疑似不良网页进行进一步地的过滤,可以进一步提高对不良网页检测的准确性。
在本实施例中,第一删除模块13还可以用于当根据解析结果识别出在允许动态脚本执行状态下疑似不良网页的目标地址对应的域名与在禁止动态脚本执行状态下疑似不良网页的目标地址对应的域名不同时,将疑似不良网页对应的原始地址从不良网址列表中删除。通过将允许动态脚本执行状态下疑似不良网页的目标地址对应的域名与在禁止动态脚本执行状态下疑似不良网页的目标地址对应的域名进行比较,可以便捷地检测出恶意跳转,提高检测效率。
本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括R0M、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
权利要求
1.一种不良网页检测方法,其特征在于,包括根据不良关键词获取所述不良关键词对应的疑似不良网页,获取所述疑似不良网页对应的原始地址,生成包含有所述原始地址的不良网址列表;对所述疑似不良网页进行解析,生成解析结果;当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
2.根据权利要求1所述的不良网页检测方法,其特征在于,对所述疑似不良网页进行解析,生成解析结果之后,还包括当根据所述解析结果识别出所述疑似不良网页中存在隐藏作弊时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
3.根据权利要求1或2所述的不良网页检测方法,其特征在于,对所述疑似不良网页进行解析,生成解析结果之后,还包括当根据所述解析结果识别出所述疑似不良网页中存在的预设共现词的数量超过预设阈值时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
4.根据权利要求3所述的不良网页检测方法,其特征在于,当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除,包括当根据所述解析结果识别出在允许动态脚本执行状态下所述疑似不良网页的目标地址对应的域名与在禁止动态脚本执行状态下所述疑似不良网页的目标地址对应的域名不同时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
5.根据权利要求2所述的不良网页检测方法,其特征在于,识别出所述疑似不良网页中存在隐藏作弊包括下述至少一种当识别到所述疑似不良网页的可视范围外存在所述不良关键词时,确定识别出所述疑似不良网页中存在隐藏作弊;当识别到所述疑似不良网页的快速滚动内容中存在所述不良关键词时,确定识别出所述疑似不良网页中存在隐藏作弊;当识别到所述疑似不良网页对应的级联样式表隐藏内容中存在所述不良关键词时,确定识别出所述疑似不良网页中存在隐藏作弊;当识别到所述疑似不良网页中的所述不良关键词的颜色与所述疑似不良网页的背景颜色相同时,确定识别出所述疑似不良网页中存在隐藏作弊。
6.一种不良网页检测装置,其特征在于,包括不良网址列表生成模块,用于根据不良关键词获取所述不良关键词对应的疑似不良网页,获取所述疑似不良网页对应的原始地址,生成包含有所述原始地址的不良网址列表;解析模块,用于对所述疑似不良网页进行解析,生成解析结果;第一删除模块,用于当根据所述解析结果识别出所述疑似不良网页中存在恶意跳转时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
7.根据权利要求6所述的不良网页检测装置,其特征在于,还包括第二删除模块,用于当根据所述解析结果识别出所述疑似不良网页中存在隐藏作弊时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
8.根据权利要求6或7所述的不良网页检测装置,其特征在于,还包括第三删除模块,用于当根据所述解析结果识别出所述疑似不良网页中存在的预设共现词的数量超过预设阈值时,将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
9.根据权利要求8所述的不良网页检测装置,其特征在于所述第一删除模块还用于当根据所述解析结果识别出在允许动态脚本执行状态下所述疑似不良网页的目标地址对应的域名与在禁止动态脚本执行状态下所述疑似不良网页的目标地址对应的域名不同时, 将所述疑似不良网页对应的原始地址从所述不良网址列表中删除。
全文摘要
本发明提供一种不良网页检测方法及装置,该不良网页检测方法包括根据不良关键词获取不良关键词对应的疑似不良网页,获取疑似不良网页对应的原始地址,生成包含有原始地址的不良网址列表;对疑似不良网页进行解析,生成解析结果;当根据解析结果识别出疑似不良网页中存在恶意跳转,则将疑似不良网页对应的原始地址从不良网址列表中删除。本发明提供的不良网页检测方法及装置,由于对通过不良关键词获取的疑似不良网页进行了进一步地分析,排除了存在恶意跳转的网页,提高了对不良网页的检测效果。
文档编号H04L29/06GK102523130SQ201110401720
公开日2012年6月27日 申请日期2011年12月6日 优先权日2011年12月6日
发明者洪博, 王利明, 耿光刚 申请人:中国科学院计算机网络信息中心
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1